'Data zijn nutteloos zonder datawetenschap', schrijft Pries in zijn proefschrift. 'Dit zich snel ontwikkelende vakgebied is erop gericht om kennis en begrip te halen uit elke vorm van data. Datawetenschap geeft betekenis aan de bits en bytes in deze wereld. In een tijdperk waarin we een overvloed aan gegevens hebben, hebben technieken uit de datawetenschap veel succesverhalen gekend. Begrijpen wat de gegevens ons vertellen, is uiterst nuttig om inzichten te verkrijgen en voorspellingen te doen.'
De focus van veel datawetenschappers ligt op voorspellende methoden voor praktische toepassingen. Classificatie- en regressietechnieken zijn in staat om automatisch te leren van gegevens om voorspellingen te doen over ongeziene gegevens. In zijn proefschrift stelde Pries veelgebruikte technieken ter discussie en ontwikkelde hij betere alternatieven. Zijn onderzoek 'geeft praktijkmensen de middelen om nauwkeurige inzichten te verkrijgen en zinvolle conclusies te trekken'.
Gezichtsgeneratoren
Pries' proefschrift bestaat uit onderwerpen op het gebied van kunstmatige intelligentie, machinaal leren, statistiek en gegevensanalyse. Het eerste deel gaat over gezichtsgeneratoren en actief leren. Een voorbeeld van een gezichtsgenerator is de website thispersondoesnotexist.com (deze persoon bestaat niet), waar elke keer dat de site wordt vernieuwd een nieuw menselijk gezicht wordt gegenereerd. Dit gezicht komt niet uit iemands persoonlijke fotoalbum. In plaats daarvan wordt een model getraind om nieuwe gezichten te creƫren door te leren van echte afbeeldingen. Pries evalueerde een gezichtsgenerator met een menselijke benadering en voerde een baanbrekend onderzoek uit om het labelen van datasets met paarsgewijze afstanden te verbeteren die gebruikt kunnen worden om gezichtsherkenning en gelijkenismethoden te verbeteren.
Analyse en statistiek
Het andere deel van het proefschrift gaat over het benchmarken van binaire classificatiemethoden, waarbij Pries een nieuwe basisbenadering introduceert. Ook keek hij naar twee belangrijke onderwerpen in data-analyse en statistiek: nauwkeurig kwantificeren hoe afhankelijk een variabele is van een andere variabele, en bepalen hoe belangrijk een kenmerk is voor het voorspellen van een doelvariabele.
Header photo: Shutterstock