Bayesiaanse statistiek niet zo robuust als gedacht

De veelgebruikte Bayesiaanse statistiek is niet zo robuust als vaak wordt gedacht. Onderzoeker Thijs van Ommen van het Centrum Wiskunde & Informatica (CWI) heeft ontdekt dat voor een bepaald type problemen de Bayesiaanse statistiek niet-bestaande patronen in data vindt. Van Ommen verdedigt zijn proefschrift op dit onderwerp op woensdag 10 juni aan de Universiteit Leiden.

Publicatiedatum
9 juni 2015

De veelgebruikte Bayesiaanse statistiek is niet zo robuust als vaak wordt gedacht. Onderzoeker Thijs van Ommen van het Centrum Wiskunde & Informatica (CWI) heeft ontdekt dat voor een bepaald type problemen de Bayesiaanse statistiek niet-bestaande patronen in data vindt. Van Ommen verdedigt zijn proefschrift op dit onderwerp op woensdag 10 juni aan de Universiteit Leiden.

Bayesiaanse statistiek wordt vaak gebruikt om vast te stellen of een hypothese juist of onjuist is op basis van de bewijslast, en geeft een maat voor de zekerheid van deze conclusie. Deze vorm van statistiek wordt onder andere in de machine learning gebruikt. Van Ommen heeft ontdekt dat Bayesiaanse statistiek niet robuust is als bepaalde aannames in het model een klein beetje verkeerd zijn. Hij ontwierp verschillende datasets waarin de Bayesiaanse statistiek niet-bestaande patronen vond, gebaseerd op willekeurige ruis in de data. De datasets hadden allemaal realistische eigenschappen en zouden prima als echte experimentele data kunnen voorkomen.

De fouten treden op bij zogenaamde regressieanalyse. In deze vorm van data-analyse zoekt een onderzoeker naar de relatie tussen twee of meer variabelen, de ene bekend en de andere onbekend. Als hierbij modellen worden gebruikt die niet helemaal correct zijn, zoals bij een aanname dat de ruis een specifieke kansverdeling volgt, is er een risico dat onzinnige conclusies worden getrokken. Van Ommen stelt het probleem niet alleen vast, maar levert ook direct de oplossing in de vorm van een toevoeging aan de Bayesiaanse statistiek. Deze toevoeging, SafeBayes, voorkomt de genoemde problemen in regressieanalyse. Naar verwachting wordt dit binnenkort toegevoegd aan statistische software als R en SPSS.

In zijn proefschrift besteedt Van Ommen ook aandacht aan het vaststellen van de kans op een onzekere uitkomst in het licht van nieuw bewijs als de exacte relatie tussen uitkomst en bewijs niet bekend is. Een beroemd voorbeeld is de Monty Hall-puzzel, of het driedeurenprobleem, waarbij een deelnemer op basis van informatie die de quizmaster geeft moet raden achter welke deur een prijs verstopt ligt. Van Ommen ontdekte dat niet alle dergelijke raadsels één juiste uitkomst hebben. Daarnaast geeft hij enkele technieken om de optimale strategie voor deze raadsels te vinden.

Dit onderzoek is gefinancierd door de Vici-beurs van Peter Grünwald, toegekend door de Nederlandse Organisatie voor Wetenschappelijk Onderzoek (NWO) in 2010.

 

Meer informatie:
Promotie Thijs van Ommen