Traditionele statistische methoden onder vuur
Of experimentele resultaten significant zijn en niet door toeval zijn ontstaan, wordt traditioneel bepaald aan de hand van p-waarden en de betrouwbaarheidsdrempel, beter bekend onder de Engelse term significance level.
Deze methodologie is grotendeels in de jaren ‘30 van de 20e eeuw ontwikkeld door Neyman en Pearson, twee grondleggers van de moderne statistiek. Maar de laatste jaren zijn de p-waardes en de gerelateerde betrouwbaarheidsintervallen - foutbalken rond grafieken die bijvoorbeeld veel gebruikt werden door het RIVM tijdens de COVID pandemie - steeds meer onder vuur komen te liggen. P-waardes zijn buitengewoon moeilijk te interpreteren, en lenen zich uitstekend voor -al dan niet bewust- misbruik. Dit is een van de redenen van de "replicatie crisis": er zijn veel meer fout positieve resultaten in de toegepaste wetenschap dan men zou hopen.
Het idee van Neyman-Pearson statistiek met p-waardes is dat je vooraf een signficantie niveau bepaalt, meestal zet je dat op 0,05. Vervolgens observeer je data, en aan de hand daarvan bereken je een p-waarde, Als die dan kleiner is dan je significantieniveau, dan concludeer je dat je vermoedelijk iets 'significants' hebt gevonden ("het medicijn werkt", "het fenomeen is niet toevallig ontstaan"). Als je op deze manier te werk gaat, is de kans op een fout-positief (je zegt "er is een verband/het medicijn werkt/het is geen toeval" terwijl het niet zo is) kleiner dan het significantieniveau 5%.
Hoe kleiner de p-waarde, hoe sterker het bewijs dat er 'echt iets aan de hand is'. Maar gek genoeg mag je het significantieniveau niet achteraf aanpassen. Als je een p-waarde ziet van 0,01 in plaats van 0,05 dan ben je geneigd te denken: nu is de kans op een fout maar 1%! In de praktijk werkt het niet zo. Het significantieniveau mag niet achteraf aangepast worden, dus: eens 5%, altijd 5%.