Back to list All Articles Archives Search RSS Terug naar lijst Alle artikelen Archieven Zoek RSS

Gevecht tegen onzinstatistiek

Gevecht tegen onzinstatistiek

Photographer:Fotograaf: Joey Roberts

Droomland

Stel, je krijgt als wetenschapper een zak met geld, onbeperkte tijd en personeel. Welk onderzoek zou je dan doen? Stephan Smeekes, datawetenschapper bij de School of Business and Economics, zou willen onderzoeken waarom computerprogramma’s vaak ‘onzinverbanden’ vinden in big data. Grote investeringen zijn daarvoor niet nodig; het kost vooral heel veel tijd.

Wist je dat mensen die veel kaas eten een grotere kans hebben om te sterven door verstrikking in hun beddengoed? En dat hoe ouder miss America is, hoe meer moorden er in Amerika worden gepleegd met stoom of hete voorwerpen? Of dat de kans op verdrinking na een val in een zwembad groter is in jaren waarin veel films van Nicholas Cage uitkomen?

Onzin natuurlijk. “Onderzoekers hebben voor de grap deze variabelen in een programma gestopt”, zegt Smeekes. “Toevallig zijn er meer mensen verdronken na een val in het zwembad in jaren met veel Nicholas Cage-films. Als dit een paar jaar achter elkaar ongeveer hetzelfde verloop heeft, duiken er sterke verbanden op als je de variabelen analyseert met statistische programma’s.” Dat het om een ‘onzinverband’ gaat, is niet altijd duidelijk. Zeker als het om enorme hoeveelheden data gaat.

Niet alleen voor de wetenschap, ook voor bedrijven zijn correcte verbanden erg interessant, omdat ze daarmee precies de eigenschappen en wensen van hun (potentiële) klanten in kaart kunnen brengen. Hiermee kunnen ze heel gericht adverteren, legt Smeekes uit. Maar denk ook aan verzekeringsmaatschappijen. “Zij willen nu al graag je leeftijd en postcode weten; jonge mensen en inwoners van een drukke stad betalen een hogere premie omdat de kans op schade groter is.” Big data kunnen tot in het kleinste detail onthullen welke eigenschappen en kenmerken ook riskant zijn: filmvoorkeuren, beroepen, of misschien wel iets totaal onverwachts zoals de kleur van je haar?

Maar dan moeten de gelegde verbanden wel kloppen. En daar kom je natuurlijk alleen achter als de big data op de juiste manier geanalyseerd worden. “De klassieke (SPSS-) methoden van statistici zijn niet meer geschikt voor de grote hoeveelheden gegevens die nu beschikbaar zijn, dus tegenwoordig komen er steeds vaker ingewikkelde computertechnieken aan te pas. Deze zogeheten ‘machine learning’-technieken – een vorm van kunstmatige intelligentie – zijn in eerste instantie ontwikkeld om plaatjes en handschriften te herkennen uit enorme hoeveelheden: bijvoorbeeld om foto’s van katten uit duizenden plaatjes te halen.”

Ze kunnen ook patronen vinden in economische data, maar daar gaat het vaak mis. “De algoritmen maken connecties die ze niet zouden moeten maken. Zo is er voor de jaren 1971 tot en met 1990 een duidelijke relatie gevonden tussen het kindersterftecijfer in Egypte, het bruto-inkomen van Amerikaanse boeren en de hoeveelheid geld in Honduras. Ik zou graag willen kijken hoe ik de methoden en algoritmen kan aanpassen, zodat het programma zelf kan leren en ontdekken of iets onzin is. Daarvoor moet ik de wiskunde achter het algoritme helemaal uitschrijven en analyseren. Daar heb ik vooral ontzettend veel tijd voor nodig.”

De onbetrouwbaarheid van de resultaten die nu opduiken is gevaarlijk, zegt Smeekes. “Als uit computeranalyses blijkt dat geslacht invloed heeft op het aantal schadeclaims bij verzekeringsmaatschappijen, dan moeten ze het - los van alle ethische aspecten - wel héél zeker weten als ze de premies gaan aanpassen. Hetzelfde geldt als de politie daderprofielen opstelt op basis van grote hoeveelheden data.

De betrouwbaarheid van deze resultaten vaststellen is daarom het tweede deel van zijn droomonderzoek. “Ik wil kunnen zeggen: ‘Met een zekerheid van X procent kunnen we stellen dat de resultaten uit de analyse overeenkomen met de werkelijkheid’. Als dat percentage heel hoog is, kun je de kleinste en gekste details meenemen in bijvoorbeeld economische voorspellingen.”

Categories:Categorieën:
Tags:

CommentsReacties

There are currently no comments.Er zijn geen reacties.

Post a Comment

Laat een reactie achter

Door een reactie te plaatsen gaat u akkoord met de verwerking van de ingevulde gegevens door Observant.
Voor meer informatie: Privacyverklaring
By responding, you agree to send the entered data to Observant.
For more info: Privacy statement

Naam (verplicht)

E-mail (verplicht)