Tot aan 2023 is er wereldwijd ongeveer 120 zettabytes aan data verzameld, een uitzonderlijk grote hoeveelheid. Om dit getal in perspectief te zetten: als je HD-films zou streamen, kun je met 1 zettabyte naar schatting vele miljoenen jaren onafgebroken films streamen. Maar minder dan 1% van deze 120 zettabytes wordt daadwerkelijk gebruikt. Een groot deel van deze data heeft een gestructureerde vorm – zoals tabellen, spreadsheets of relationele databases – en ligt aan de grondslag van veel belangrijke beslissingen in bijvoorbeeld de gezondheidszorg, bij overheden en in de financiële wereld. Kleinere bedrijven, non-profitorganisaties en openbare instellingen lopen achter bij het ontwikkelen van hun data analytics capaciteiten, waardoor er een ongelijkheid ontstaat in datageletterdheid ten opzichte van grote bedrijven.
Het project
Kunstmatige intelligentie (AI) zou hen kunnen helpen, omdat AI bewezen effectief is in toepassingen met ongestructureerde gegevens (zoals tekst) en afbeeldingen. Op het gebied van gestructureerde gegevens is er momenteel echter geen evenredige vooruitgang. Met het DataLibra project willen Hulsebos en haar collega's deze lacunes opvullen door het democratiseren van het ophalen van inzichten uit (semi-)gestructureerde data door middel van Table Representation Learning.
Het doel is om betrouwbare, veilige en verantwoorde data-analyse te bieden, zodat iedereen eenvoudig, effectief en efficiënt data-gedreven beslissingen kan nemen. Het DataLibra project is gericht op het aanpakken van uitdagingen in de gehele data-analysepijplijn. Deze pijplijn omvat efficiënte gegevensopslag en query-uitvoering, geautomatiseerde verantwoorde verbetering van data kwaliteit, multimodale data integratie, en zoeksystemen. Vanwege het multidisciplinaire karakter van het vijf jaar durende project zal er worden samengewerkt met verschillende kennisinstituten en innovatielabs.
Over de beurs
Hulsebos is een van de vijf onderzoekers die een AiNed Fellowship Grant van het Nationaal Groeifonds hebben ontvangen. Met dit beurzenprogramma wil NWO AI-talent aantrekken naar Nederlandse academische onderzoeksorganisaties. Het programma bevordert de ontwikkeling en toepassing van AI bij Nederlandse bedrijven en overheden en is ontwikkeld door de Nederlandse AI Coalitie. NGF AiNed startte in 2022 en heeft in totaal 14 subsidies toegekend. Het DataLibra project ontvangt ruim 900.000 euro van NWO.