Nieuwe e-waarde blijkt nóg flexibeler: significantieniveau achteraf aan te passen

Paper van onderzoeker Peter Grünwald gepubliceerd in Proceedings of the National Academy of Sciences.

Publicatiedatum
23 september 2024

Peter Grunwald

Onlangs is een paper van Peter Grünwald (Centrum Wiskunde & Informatica/Universiteit Leiden) getiteld Beyond Neyman–Pearson: E-values enable hypothesis testing with a data-driven alpha” gepubliceerd in het prestigieuze wetenschappelijk tijdschrift Proceedings of the National Academy of Sciences van 20 september 2024.

Het was al bekend dat e-waardes flexibeler zijn dan p-waardes: met e-waardes kun je een experiment eerder dan oorspronkelijk gepland stoppen of bijvoorbeeld juist proefpersonen achteraf toevoegen. In deze paper toont Grünwald aan dat e-waardes ook op een andere manier flexibeler zijn: met e-waardes is het nu mogelijk om het significantieniveau op een later moment dan gebruikelijk te bepalen.

Traditionele statistische methoden onder vuur

Of experimentele resultaten significant zijn en niet door toeval zijn ontstaan, wordt traditioneel bepaald aan de hand van p-waarden en de betrouwbaarheidsdrempel, beter bekend onder de Engelse term significance level.

Deze methodologie is grotendeels in de jaren ‘30 van de 20e eeuw ontwikkeld door Neyman en Pearson, twee grondleggers van de moderne statistiek. Maar de laatste jaren zijn de p-waardes en de gerelateerde betrouwbaarheidsintervallen - foutbalken rond grafieken die bijvoorbeeld veel gebruikt werden door het RIVM tijdens de COVID pandemie - steeds meer onder vuur komen te liggen. P-waardes zijn buitengewoon moeilijk te interpreteren, en lenen zich uitstekend voor -al dan niet bewust- misbruik. Dit is een van de redenen van de "replicatie crisis": er zijn veel meer fout positieve resultaten in de toegepaste wetenschap dan men zou hopen.

Het idee van Neyman-Pearson statistiek met p-waardes is dat je vooraf een signficantie niveau bepaalt, meestal zet je dat op 0,05. Vervolgens observeer je data, en aan de hand daarvan bereken je een p-waarde, Als die dan kleiner is dan je significantieniveau, dan concludeer je dat je vermoedelijk iets 'significants' hebt gevonden ("het medicijn werkt", "het fenomeen is niet toevallig ontstaan"). Als je op deze manier te werk gaat, is de kans op een fout-positief (je zegt "er is een verband/het medicijn werkt/het is geen toeval" terwijl het niet zo is) kleiner dan het significantieniveau 5%.

Hoe kleiner de p-waarde, hoe sterker het bewijs dat er 'echt iets aan de hand is'. Maar gek genoeg mag je het significantieniveau niet achteraf aanpassen. Als je een p-waarde ziet van 0,01 in plaats van 0,05 dan ben je geneigd te denken: nu is de kans op een fout maar 1%! In de praktijk werkt het niet zo. Het significantieniveau mag niet achteraf aangepast worden, dus: eens 5%, altijd 5%.

Grote letter P waarin kleine letter e verschijnt.
Image: Papernerd.

Significantieniveau aanpassen tast betrouwbaarheid onderzoek niet aan

Wat een observatie als 'het bleek dat p < 0.01 maar het significantieniveau was 0.05' dan precies betekent, is in de praktijk vrijwel niet uit te leggen. Toegepaste onderzoekers ( zoals medici, biologen, en psychologen) hebben de neiging een kleine p gewoon als een kleine kans op een fout-positief uit te leggen, en zelfs professionele statistici gaan daar helaas soms mee de fout in.

In zijn recente artikel geeft Grünwald een wiskundig bewijs dat laat zien dat als je met e-waardes in plaats van p-waardes werkt, het aanpassen van de p-waarde wel degelijk kan: je mag het significantieniveau achteraf veranderen, en het onderzoeksresultaat blijft betrouwbaar.

Door eerder gepubliceerd onderzoek van Grünwald en collega’s was al duidelijk dat je met de e-waarde -in tegenstelling tot de p-waarde- het aantal deelnemers aan je onderzoek achteraf aan mag passen - je mag stoppen wanneer je wil en data toevoegen zolang je wil. Nu wordt dus ook duidelijk dat e-waardes op nog een andere manier flexibeler zijn dan p-waardes en betrouwbaarheidsintervallen: ook het significantieniveau kan achteraf worden bepaald.

De verwarring tussen de p-waarde en het significantieniveau is misschien wel de hoofdreden waarom p-waardes zo moeilijk te begrijpen zijn, dat maakt de ontdekking van Grunwald revolutionair. Hij laat zien dat dit probleem met de e-waarde grotendeels wegvalt.

Eerder dit jaar kreeg Peter Grünwald, senior onderzoeker in CWI’s Machine Learning onderzoeksgroep een ERC Advanced Grant toegekend om verder onderzoek te doen naar flexibele statistische methoden gebaseerd op de e-waarde, een robuust en flexibel alternatief voor de p-waarde.