Crowdsourcing kan helpen om de resultaten van de zoekmachine van de Koninklijke Bibliotheek (KB) evenwichtiger te maken. Die vondst presenteerden onderzoekers van het CWI op 4 juni tijdens de Joint Conference on Digital Libraries in Texas, waar het werk de Vannevar Bush Best Paper Award won. De zoekmachine heeft een voorkeur voor bepaalde artikelen, terwijl andere documenten juist zelden aan het oppervlak verschijnen. Wanneer gebruikers fouten die optreden bij het digitaliseren van teksten handmatig verbeteren, levert de zoekmachine een meer gevarieerd beeld van de collectie. Dat is zelfs het geval wanneer slechts een beperkt aantal documenten gecorrigeerd wordt.
De KB, de nationale bibliotheek van Nederland, heeft veel oude publicaties, waaronder miljoenen krantenpagina’s, gedigitaliseerd met behulp van ‘optical character recognition’ (OCR). OCR-software gaat in een afbeelding op zoek naar de patronen van letters. Zodra het systeem de vorm van een letter herkent, slaat het deze letter digitaal op. Zo wordt een plaatje van een tekst letter voor letter omgezet in digitale, bewerkbare en doorzoekbare tekst.
In documenten die op deze manier gedigitaliseerd zijn, zitten regelmatig fouten. Een OCR-systeem kan bijvoorbeeld een o herkennen als een a, omdat deze letters veel op elkaar lijken. Dit maakt het digitale document niet alleen lastig leesbaar, maar het betekent ook dat zoekmachines woorden in het document niet juist herkennen.
Crowdsourcing helpt
De onderzoekers van de Information Access-onderzoeksgroep van CWI werkten samen met de KB om te achterhalen in welke mate zulke OCR-fouten de voorkeuren van de zoekmachine beïnvloedt. Daartoe bekeek het team een archief met daarin zowel documenten met OCR-fouten, als documenten waarin OCR-fouten met de hand verbeterd waren. Het ging om ruim 800 documenten uit de 17e eeuw en uit de Tweede Wereldoorlog. Deze documenten waren in een eerder stadium door geïnteresseerden gecorrigeerd. De onderzoekers keken naar het werkelijke zoekgedrag van gebruikers, en analyseerden welke documenten vaak en welke documenten zelden of nooit verschijnen in zoekresultaten. Zij zagen dat de ‘vindbaarheid-scores’ van de gecorrigeerde categorie significant hoger waren, dan die van de ongecorrigeerde documenten.
Kleine selectie, grote impact
“Die resultaten waren in lijn met onze verwachtingen”, zegt CWI-groepsleider Jacco van Ossenbruggen. “Maar uit ons onderzoek bleek ook een tweede, veel verrassender resultaat. In grote collecties zoals die van de KB, is slechts een heel klein deel van het bestand handmatig gecorrigeerd. We zagen dat een handmatige correctie van zelfs een klein deel van de collectie, de zoekresultaten evenwichtiger maakt: er worden bij meer verschillende zoekvragen, meer verschillende documenten gevonden. Dat betekent dat het gemeten verschil tussen vaak gevonden en minder vaak gevonden documenten kleiner wordt. Ofwel: dat OCR-correcties, bijvoorbeeld door crowdsourcing, de verbeterde documenten direct meer vindbaard maken, zonder dat het ten koste gaat van de vindbaarheid van rest van de KB-collectie.”
Onderzoeksartikel
Myriam Traub, Jacco van Ossenbruggen, Thaer Samar, and Lynda Hardman. Impact of Crowdsourcing OCR Improvements on Retrievable Bias. In JCDL ’18: The 18th ACM/IEEE Joint Conference on Digital Libraries, 2018. doi:10.1145/3197026.3197046.
Meer informatie
Introductie-video van de Information Access-groep