"Geïntegreerde analysemethoden leveren grote besparingen op, omdat je minder gegevens hoeft mee te slepen en ze gemakkelijk in te bouwen zijn in een grotere datapijplijn", zegt Hannes Mühleisen, senior onderzoeker bij de Database Architectures-groep. In 2019 lanceerde Mühleisen samen met zijn collega Mark Raasveldt het open-source databasesysteem DuckDB. DuckDB is klein, wendbaar en efficiënt. Het heeft tien tot honderd keer minder hardwarecapaciteit nodig dan concurrent Spark. In tegenstelling tot Pandas, een andere populaire data science tool, kan het gegevens verwerken die groter zijn dan het geheugen en kan het profiteren van parallelle verwerking met behulp van meerdere kernen, aanwezig in alle computers. DuckDB werd al snel een groot succes, met meer dan twee miljoen downloads per maand aan het begin van 2023.
"De ontwikkeling van DuckDB werd mogelijk gemaakt door de grote vrijheid die ik bij CWI had om zelf iets uit te vinden," zegt Mühleisen. "Ik had de overtuiging dat je voor de meeste dataproblemen geen opschaling van de data naar meerdere computers nodig hebt. Ik geloofde dat je veel meer kunt doen op één computer dan de meeste mensen dachten. In de komende jaren wil ik die visie graag uitbreiden, enerzijds om de ecologische voetafdruk van IT-systemen aanzienlijk te verkleinen en anderzijds om gebruikers meer controle te geven over hun eigen gegevens en zo de macht van cloudbedrijven te beperken."
Spin-offs
Wat de Database Architectures-groep doet, is heel moeilijk te realiseren aan een universiteit omdat de projecten de omvang van een PhD-traject aanzienlijk overschrijden. Hetzelfde geldt voor het bedrijfsleven, waar de focus ligt op resultaten op relatief korte termijn. Boncz: "Minstens vijf mensen moeten tien jaar lang aan een databasesysteem werken. Je kunt dat niet door vijftig mensen in een jaar laten doen. Het is de bereidheid van CWI om te investeren in softwareontwikkeling op de lange termijn die ertoe heeft geleid dat onze groep MonetDB, VectorWise en nu DuckDB heeft geproduceerd."
In 2021 richtten Mühleisen en Raasveldt het spin-off bedrijf DuckDB Labs op, dat diensten en ontwikkeling voor DuckDB levert. In het najaar van 2022 hielp DuckDB Labs bij de oprichting van de startup MotherDuck, die DuckDB met de cloud verbindt. MotherDuck wist 47,5 miljoen dollar aan financiering op te halen.
Ecosysteem van datasystemen
Wetenschappelijke doorbraken die leiden tot nieuwe bedrijven passen in Boncz's langetermijnvisie voor Nederland om een ecosysteem van datasystemen te creëren voor onderzoek, onderwijs en bedrijven. De eerste resultaten van die visie ziet hij geleidelijk ontstaan. Het CWI heeft bijvoorbeeld een belangrijke rol gespeeld bij de vestiging van het R&D-centrum van het Amerikaanse bedrijf Databricks in Amsterdam, waarvoor Databricks de afgelopen vier jaar honderd miljoen euro heeft geïnvesteerd. "Je zou kunnen zeggen dat er honderd miljoen euro in de Nederlandse economie is gepompt dankzij ons werk", zegt Boncz.
Boncz en Mühleisen zijn er trots op dat de langdurige softwareontwikkeling, die deel uitmaakt van CWI's missie, zo'n impact heeft op databasetoepassingen die wereldwijd worden gebruikt. Boncz: "Als je kijkt naar de evolutie van alle databasesystemen, kun je zeggen dat van de analytische systemen 85% een sterke CWI signatuur heeft." Tot de andere systemen behoort Snowflake, dat in 2021 de grootste beursgang ooit maakte en mede werd opgericht door Marcin Zukowski, een promovendus uit de Database Architectures groep van CWI. Zukowski had eerder het VectorWise systeem ontworpen.