Nepnieuws te herkennen aan combinatie taalkundige kenmerken

Hulpmiddelen voor tekstanalyse kunnen potentieel nepnieuws detecteren. Ze 'markeren' verdachte teksten die nader onderzocht moeten worden. CWI-onderzoeker Davide Ceolin en Sandro Barres-Hamers van de Vrije Universiteit Amsterdam schreven een paper over een veelbelovende bibliotheek met zulke tools: faKy. Het onderzoek wordt gepresenteerd op MISDOOM, een symposium over desinformatie in online media.

Publicatiedatum
22 november 2023

Nepnieuws is van alle tijden. Maar het wereldwijde web en sociale mediaplatforms versterken desinformatie zodanig dat het de samenleving kan ontwrichten. Met de opkomst van kunstmatige intelligentie (AI) is het voor mensen moeilijker om informatie van desinformatie te onderscheiden. Ook kan nepnieuws zich razendsnel verspreiden op sociale media en in zeer korte tijd een grote groep mensen bereiken.

Er zijn talloze neurale netwerken en grote taalmodellen die nepnieuws met zeer hoge nauwkeurigheid kunnen classificeren - in sommige gevallen met een accuraatheid tot 99% - maar de redenering van deze modellen is vaak nauwelijks interpreteerbaar door mensen. Interpreteerbaarheid is van fundamenteel belang om het vertrouwen van gebruikers te winnen.

Hints over desinformatie

Ceolin en Barres-Hamers wilden weten of linguïstische kenmerken, verkregen met behulp van Natural Language Processing (NLP), een basis kunnen bieden voor het beoordelen van nepnieuws. Hiervoor gebruikten ze een bibliotheek die een aantal tools biedt om desinformatie in teksten te vinden: faKy. Kenmerken die zij bekeken, waren leesbaarheid (het gemak waarmee de tekst wordt gelezen), informatiecomplexiteit (kwantificering van de hoeveelheid informatie in de tekst) en sentimentanalyse (emotionele toon van de tekst).

"Deze tools vertellen je niet of een tekst waar of onwaar is. Ze beantwoorden specifieke vragen die je ze stelt. En dit geeft je hints: je moet passages X en Y controleren, want het zou nepnieuws kunnen zijn", legt Ceolin uit. "Kan het waarheidsgehalte van tekstuele informatie nauwkeurig worden voorspeld met behulp van specifieke taalkundige kenmerken?"

Betekenis

Om de betrouwbaarheid van faKy te testen, gebruikten de onderzoekers teksten met politieke beweringen die al op feiten waren gecontroleerd. Ze concludeerden dat linguïstische kenmerken het waarheidsgehalte van een tekst nauwkeurig kunnen voorspellen. Teksten met verkeerde informatie zijn bijvoorbeeld ingewikkelder wat leesbaarheid betreft, brengen meer informatie over en verschillen significant in stijl en zinsbouw. Ceolin en Barres Hamers schreven: "Onze studie benadrukt het belang van de tekstuele kenmerken. Ook laat het onderzoek zien dat het waarheidsgehalte van teksten voorspeld kan worden door ze te combineren met machine learning classificatiealgoritmen."

Over faKy

FaKy is een uitgebreide bibliotheek die een omvattende lijst van Natural Language Processing kenmerken verzamelt waarvan bekend is dat ze gecorreleerd zijn met de beoordeling van nepnieuws. De bibliotheek biedt een gevalideerde toolkit om kenmerken uit een tekst te filteren die mogelijk samenhangen met nepnieuws. Zo draagt faKy bij aan de verklaarbaarheid van het beoordelingsproces.

Hoewel faKy nog in het beginstadium van ontwikkeling is, kunnen mensen het al downloaden en gebruiken.

Over MISDOOM

Op 21 en 22 november organiseert het CWI het Multidisciplinary International Symposium on Disinformation in Open Online Media (MISDOOM). De conferentie heeft een uitgebreid programma met 6 sessies.

Meer informatie

Headerfoto: Unsplash.