Verbetering statistische methodes met datacompressietechnieken

Publicatiedatum
3 december 2010

Computerprogramma's zoals WinZip zijn in staat om computerbestanden kleiner te maken door gebruik te maken van datacompressietechnieken uit de informatica. In zijn proefschrift "When Data Compression and Statistics Disagree: Two Frequentist Challenges for the Minimum Description Length Principle" onderzocht Tim van Erven van het Centrum Wiskunde & Informatica in Amsterdam hoe dezelfde technieken gebruikt kunnen worden in de statistiek.  Zijn onderzoek laat zien dat veelgebruikte statistische methodes verbeterd kunnen worden door naar hun datacompressiekwaliteiten te kijken. Van Erven promoveerde 23 november aan de Universiteit Leiden. Resultaten uit zijn onderzoek zijn interessant voor onder meer de medische wetenschap, in de sterrenkunde en in de natuurkunde.

Datacompressie is gebaseerd op het zoeken naar patronen. Als een programma als WinZip bijvoorbeeld een bestand met daarin 1000 keer de letter 'A' ziet: "AAAAAAAAAAAAAA... AAA", dan maakt het daar een kleiner bestand van waar alleen "1000 keer A" in staat. Het patroon in het originele bestand wordt dus gebruikt om de inhoud korter te beschrijven. Ook moeilijkere patronen, zoals dat de letter 'E' vaker voorkomt dan de letter 'X', kunnen gebruikt worden om bestanden kleiner te maken. State-of-the-art compressieprogramma's maken zelfs gebruik van geavanceerde statistische kansmodellen om patronen te beschrijven.

De patronen die met datacompressie gevonden worden blijken ook in de statistiek zeer waardevol. In zijn proefschrift beschrijft Tim van Erven een  praktisch toepasbare manier om Bayesiaanse methodes (standaard statistische methodes) te verbeteren. Er wordt met wiskundige bewijzen aangetoond dat daardoor op basis van minder data betere voorspellingen gedaan kunnen worden. Hierdoor kunnen we betrouwbaardere conclusies trekken. Bayesiaanse methodes worden veel gebruikt in de life sciences, bijvoorbeeld in onderzoek in genetica, maar ook bij hersenonderzoek in neurowetenschap, bij sterrenkundig onderzoek en in de natuurkunde. Naar verwachting zullen de resultaten uit het onderzoek van Van Erven de komende jaren hun weg vinden naar verder toegepast onderzoek.

Het onderzoek van Van Erven raakt ook aan filosofische vragen over de fundamenten van de statistiek en van de wetenschap. Via het verband met datacompressie is wiskundig aangetoond dat de eenvoudigste verklaring vaak het beste is. Dit uitgangspunt, dat 'Occam's razor' wordt genoemd, wordt in de hele wetenschap veelvuldig toegepast. Van Erven laat hierbij bijvoorbeeld zien dat met behulp van Occam's razor de bekende Grue paradox uit de filosofie een eenvoudige oplossing krijgt.