Lezingen en uitreiking Dijkstra Fellowship aan Marcin Żukowski

Marcin Żukowski krijgt de Dijkstra Fellowship 2024. Met deze eretitel erkent het CWI zijn pioniersrol in de ontwikkeling van databasemanagementsystemen met grote maatschappelijke impact, en zijn succesvolle ondernemerscarrière. De Fellowship wordt uitgereikt op donderdag 21 november.

Wanneer
21 november 2024 van 10:15 tot 21 november 2024 17:30 CET (GMT+0100)
Waar
CWI, Amsterdam Science Park Congress Centre, Science Park 125
Toevoegen
Dijkstra Fellowship

Żukowski begon zijn carrière bij het CWI. Hij deed zijn MSc en PhD onderzoek naar database management systeem architecturen in onze Database Architectures (DA) groep. Als promovendus onder supervisie van Peter Boncz ontwikkelde hij het innovatieve concept van vectorized execution om de prestaties te verbeteren van database zoekopdrachten. Dit onderzoek ontving de DaMoN 2007 Best Paper Award en ook de CIDR 2024 Test of Time Award, ingesteld door de Conference on Innovative Data Systems Research (CIDR).

Na zijn promotie was Żukowski een van de oprichters van CWI spin-off VectorWise (nu Actian), waar hij zijn onderzoek vertaalde naar een analytisch databasesysteem met hoge prestaties en hoge schaalbaarheid. De spin-off maakte een snelle technologische en commerciële groei door: VectorWise werd de blauwdruk voor analytische databases en het is nog steeds een veel gebruikt databasesysteem.

In 2012 verliet Żukowski het bedrijf om Snowflake mede op te richten in Silicon Valley. Snowflake bood de eerste cloudgebaseerde datawarehousing-dienst die echt is ontworpen voor de cloud. Opvallende kenmerken zijn dat het een 'elastisch' systeem is dat afhankelijk van de drukte groeit en krimpt, dat berekeningen en opslag van elkaar gescheiden zijn en dat veel beheer- en configuratietaken geautomatiseerd zijn. Snowflake maakt gebruik van gevectoriseerde query-uitvoering en lichtgewicht compressiemethoden in kolomvormige gegevensopslag, twee technieken die mede zijn ontworpen door Żukowski tijdens zijn promotiejaren bij het CWI.

Rolmodel

Na zijn vertrek bij Snowflake eerder dit jaar, blijft Marcin Żukowski verbonden met de academische wereld door studenten te begeleiden, papers te publiceren en deel te nemen aan evenementen op het gebied van computerwetenschappen. Hij is ook investeerder en adviseur en ondersteunt de ontwikkeling van technologie en innovatie in zijn thuisland Polen.

"Marcin is een uitstekend voorbeeld van hoe de missie van het CWI in de praktijk kan worden toegepast. Hij gebruikte zijn promotieonderzoek bij het CWI om veelzijdige fundamentele softwareproducten te creëren die nu op grote schaal worden gebruikt, en deelt zijn kennis en ervaring met het publiek en in het bijzonder met jonge technologie-ondernemers", zegt CWI-directeur Ton de Kok.

Over de Dijkstra Fellowship

De Dijkstra Fellowship is vernoemd naar voormalig CWI-onderzoeker Edsger W. Dijkstra, een van de meest invloedrijke wetenschappers in de geschiedenis van het CWI. Dijkstra ontwikkelde onder andere het kortste-pad-algoritme.

Sprekers en titels lezingen:

Titel: Architectuur van de Snowflake Data Cloud

Allison Lee

Samenvatting
In 2014 kwam Snowflake uit de schaduw en kondigde een "datawarehouse, gebouwd voor de cloud" aan. Het systeem werd vanaf de basis opgebouwd met behulp van een nieuwe architectuur, genaamd de "multi-cluster shared data"-architectuur. Deze scheidt de rekenkracht van de opslag, zodat gebruikers kunnen profiteren van de elasticiteit van de cloud. In het daaropvolgende decennium is ons systeem geëvolueerd tot een wereldwijd multi-cloudplatform dat datacollaboratie en vele gegevensverwerkingswerkzaamheden ondersteunt, naast enkel datawarehousing.

In deze presentatie leg ik uit waarom de multi-cluster shared data-architectuur ideaal is voor de cloud en hoe deze architectuur mogelijkheden zoals enorme schaalbaarheid, automatische optimalisaties en wereldwijde veilige datacollaboratie mogelijk heeft gemaakt. Tot slot schets ik hoe de architectuur in de loop van de tijd is geëvolueerd naarmate onze mogelijkheden zijn gegroeid, en welke lessen we onderweg hebben geleerd.

Biografie
Allison Lee heeft de afgelopen twee decennia commerciële databasesystemen gebouwd. Ze leidt momenteel het database-engineeringteam bij Snowflake, dat verantwoordelijk is voor de kern van de queryverwerkingsstack, Snowflake's interne key-value metadata-opslag, en de datawarehousing- en hybride transactionele-analytische workloads. Allison trad in 2013 toe tot Snowflake als een van de oprichters en heeft bijgedragen aan veel van de fundamentele componenten van Snowflake, waaronder de query-optimizer, metadata-management, taaleigenschappen en gegevensbescherming.

Voor haar tijd bij Snowflake werkte Allison aan de Oracle-database, met een focus op query-optimalisaties voor analytische workloads en het overbruggen van de kloof tussen query-optimalisatie en uitvoering met adaptieve optimalisatietechnieken.

Allison bezit tientallen patenten op het gebied van query-optimalisatie, gegevensbescherming en veilige datacollaboratie.

Allison behaalde een Bachelor of Science en een Master of Engineering in elektrotechniek en informatica aan het Massachusetts Institute of Technology.

Titel: Wie zaait, zal oogsten... En blijft oogsten

Andy Pavlo

Samenvatting
Heb je ook het gevoel dat er altijd weer een nieuwe generatie databasebeheersystemen (DBMS'en) opkomt met het idee dat het relationele model (RM) verouderd is en SQL aan het uitsterven is? Voorstanders van vectordatabases hebben onlangs deze fakkel overgenomen, gevoed door de interesse in AI/ML-technologieën. Daarvóór beweerden NoSQL- en MapReduce-gebruikers dat RM/SQL niet voldeed voor "webscale"-toepassingen. En in de jaren 90 wilden de leveranciers van objectgeoriënteerde databases dat elke ontwikkelaar overstapte op hun niet-RM, niet-SQL systemen. De geschiedenis van databases herhaalt zich misschien niet, maar rijmt wel degelijk.

In deze presentatie geef ik een overzicht van 60 jaar onderzoek naar datamodellering en laat ik zien waarom RM/SQL de eerste keuze is voor databaseapplicaties, ongeacht de schaal. Alle pogingen om het datamodel of de querytaal volledig te vervangen, zijn mislukt. In plaats daarvan heeft SQL de beste ideeën van deze alternatieve benaderingen overgenomen en blijft het relevant voor moderne toepassingen.

Biografie
Andy Pavlo is universitair hoofddocent met onbepaalde aanstelling in Databaseologie aan de afdeling Informatica van Carnegie Mellon University. Hij weet behoorlijk wat over databases.

Titel: Afscheid van de Tweelaags-Architectuur

Hannes Mühleisen

Samenvatting
Analytische gegevensbeheersystemen zijn lange tijd monolithische monsters geweest, ver verwijderd van de actie door oude protocollen. De gebruikelijke twee- of drielagenarchitectuur plaatste gegevensverwerkings-engines steevast op specifieke, dure hardware. Gebruikers moesten beleefd hun vragen stellen en geduldig wachten op een antwoord.

Efficiënte gegevensverwerkingsmethoden zoals gevectoriseerde verwerking en morsel-driven parallelisme vergroten de capaciteiten van gegevensmotoren aanzienlijk. Dit valt samen met zowel een enorme groei in hardwaremogelijkheden als een afvlakking van de nuttige groei van datasets. Samen maken deze ontwikkelingen het mogelijk om analytische motoren overal in te zetten, mits ze goed zijn ontworpen.

De nieuwe klasse van in-process analytische motoren maakt het mogelijk om deze binnen elk toepassingsproces te verplaatsen, wat gegevensoverdracht, inzet en beheer aanzienlijk vereenvoudigt. Deze nieuwe systemen maken ook een hele reeks nieuwe toepassingen mogelijk, zoals OLAP in de browser, het uitvoeren van SQL-query's in lambdafuncties en Big Data-analyse op laptops.

Biografie
Prof. Dr. Hannes Mühleisen is medeontwikkelaar van het DuckDB-databasebeheersysteem en medeoprichter en CEO van DuckDB Labs, een consultancybedrijf dat diensten aanbiedt rondom DuckDB. Hannes is ook hoogleraar Data Engineering aan de Radboud Universiteit Nijmegen en senior onderzoeker bij de CWI Database Architectures Group. Zijn voornaamste interesse is – hoe verrassend – analytische gegevensbeheersystemen.

Titel: Wat Table Representation Learning Bijdraagt aan Gegevenssystemen

Madelon Hulsebos

Samenvatting
We zien dagelijks de indrukwekkende mogelijkheden van representation learning en generatieve modellen voor tekst, video's en afbeeldingen. Gestructureerde data, zoals tabellen in relationele databases, zijn echter lange tijd over het hoofd gezien, ondanks hun wijdverspreide aanwezigheid in het gegevenslandschap van organisaties en hun cruciale rol in hoogwaardige toepassingen. Aangeleerde representaties, of embeddings, die de semantiek van gestructureerde data vastleggen, kunnen een sleutelrol spelen in het efficiënter, robuuster en nauwkeuriger maken van geschaalde datasystemen. Modellen die generaliseren naar echte databases zijn van cruciaal belang om dit mogelijk te maken.

In dit kader zal ik bespreken hoe relatief compacte en gespecialiseerde kolom-embeddings effectiever kunnen zijn dan het gebruik van GPT-achtige modellen voor het begrijpen van tabellen, en reflecteer ik op het belang van het vastleggen van de belangrijkste kenmerken van relationele databases in de embedding-ruimte. Tot slot zal ik de waarde illustreren van embeddings voor tabelherkenning om LLM-aangedreven query-interfaces naar gestructureerde data echt nuttig te maken.

Biografie
Dr. ir. Madelon Hulsebos is tenure track-onderzoeker aan het CWI in Amsterdam. Daarvoor was ze postdoctoraal onderzoeker aan UC Berkeley en behaalde ze haar PhD aan de Universiteit van Amsterdam, waarbij ze onderzoek deed bij MIT en Sigma Computing. Haar algemene onderzoeksinteresse ligt op het snijvlak van machine learning en data management. Momenteel ligt de focus op Table Representation Learning om inzichten uit gestructureerde data te democratiseren.

Madelon richtte de Table Representation Learning-workshop op bij NeurIPS en leidt verschillende andere initiatieven op dit gebied. Ze ontving een BIDS-Accenture fellowship voor haar postdoctoraal onderzoek naar retrievalsystemen voor gestructureerde data aan UC Berkeley en een 5-jarige AiNed fellowship-beurs.

Titel: De Toekomst van Cloud Databasesystemen

Viktor Leis photo

Samenvatting
Cloud computing transformeert het technologische landschap, waarbij databasesystemen voorop lopen in deze verandering. Een opvallend voorbeeld is een online boekwinkel die is uitgegroeid tot een dominante speler in de databasemarkt. De aantrekkingskracht van cloud computing voor IT-gebruikers ligt in verschillende belangrijke factoren: lagere totale eigendomskosten door schaalvoordelen en geavanceerde diensten die de last van herhalende zware taken minimaliseren. In bredere zin weerspiegelt cloud computing een maatschappelijke trend van toenemende technologische en economische specialisatie.

Toch schiet de huidige staat van cloud computing vaak tekort in het waarmaken van deze beloften. Hyperscalers evolueren tot verticaal geïntegreerde oligopolies die alles beheersen, van het verhuren van servers tot hoogwaardige diensten. Deze trend versnelt alleen maar, wat kan leiden tot een toekomst waarin hyperscalers softwarestandaarden vaststellen en hun eigen hardware ontwerpen, waardoor concurrentie onmogelijk wordt. Bovendien zijn de grootste cloudproviders, ondanks verschillen in branding, in wezen vergelijkbaar: ze missen interoperabiliteit en bevorderen vendor lock-in. Hierdoor lopen we het risico terug te keren naar de monopolistische omstandigheden van de IBM- en Wintel-tijdperken, wat uiteindelijk zou kunnen leiden tot technologische stagnatie door beperkte concurrentie.

Toch is er reden voor optimisme. Goede technologie kan nog steeds slagen, zoals de opkomst van het multi-cloud data warehouse Snowflake heeft laten zien. De groei van datalakes en open standaarden, zoals Parquet en Iceberg, benadrukt het potentieel voor interoperabiliteit en innovatie. Daarnaast bestaan er enorme verschillen tussen de prijzen van bestaande clouddiensten en wat theoretisch haalbaar is, wat kansen voor disruptie creëert. Deze prijsverschillen blijven bestaan omdat clouddiensten inherent complex zijn om te bouwen, wat leidt tot dubbele inspanningen en hoge toetredingsdrempels. Een DBMS heeft bijvoorbeeld een hoogbeschikbare control plane, een write-ahead log-service en gedistribueerde opslagservers nodig. Geen van deze abstracties is beschikbaar als kant-en-klare dienst, wat het moeilijk maakt om de cloud-databasemarkt te betreden. Het huidige cloudlandschap is meer het resultaat van historische omstandigheden dan van een optimaal ontwerp, wat voldoende ruimte laat voor disruptie.

In deze lezing zal ik een blauwdruk schetsen voor het heruitvinden van de cloud door me te richten op drie belangrijke gebieden: Ten eerste hebben we een uniforme multi-cloud abstractie nodig over gevirtualiseerde hardware. Ten tweede moeten we nieuwe open standaarden vaststellen voor bestaande laagdrempelige clouddiensten. Ten derde moeten we abstracties creëren die het bouwen van nieuwe clouddiensten vereenvoudigen, zoals herbruikbare control planes en basiscomponenten zoals log-services en pageservers. Dit zal het veel makkelijker maken om nieuwe clouddiensten te bouwen, in te zetten en te gelde te maken. Meer concurrentie zou basisdiensten tot gemeengoed maken en technologische innovatie stimuleren.

Biografie
Viktor Leis is hoogleraar aan de Faculteit Informatica van de Technische Universiteit München (TUM). Zijn onderzoek richt zich op het ontwerpen van kostenefficiënte gegevenssystemen voor de cloud, met aandacht voor kernonderwerpen zoals queryverwerking, queryoptimalisatie, transactieverwerking, indexstructuren en opslag. Hij behaalde zijn doctoraat in 2016 aan de TUM en bekleedde hoogleraarschappen aan de universiteiten van Jena en Erlangen, voordat hij in 2022 terugkeerde naar TUM.

Registratie

Het is niet meer mogelijk om te registreren. De registratie is gesloten. Voor meer informatie neem contact op via: events@cwi.nl.

Programma:

Programma
Tijd Onderwerp

09:30-10:15

Walk-in and registratie

10:15-10:30

Welkom

10:30-11:15

Andy Pavlo: "Wie zaait, zal oogsten... En blijft oogsten"

11:15-12:00

Hannes Mühleisen: "Afscheid van de Tweelaags-Architectuur"

12:00-13:00

Lunch

13:00-13:45

Allison Lee: "Architectuur van de Snowflake Data Cloud"

13:45-14:30

Viktor Leis: "De Toekomst van Cloud Databasesystemen"

14:30-15:00

Koffie pauze

15:00-15:45

Madelon Hulsebos: "Wat Table Representation Learning Bijdraagt aan Gegevenssystemen"

15:45-16:30

Laudatio door Peter Boncz en Dijkstra Fellow Marcin Żukowski: "Het Belang van Product"

16:30-17:30

Drankjes

Let op: de lezingen zijn in het Engels

Marcin Żukowski:

Portrait of Marcin Żukowski