Een databasemachine die meer dan 60 gigabyte ruwe data per seconde kan analyseren en dat op een zo energiezuinig mogelijke manier. De Nederlandse Organisatie voor Wetenschappelijk Onderzoek (NWO) heeft het Centrum Wiskunde & Informatica (CWI) in Amsterdam een subsidie toegekend om deze te ontwikkelen. Het onderzoeksproject met de naam SciLens heeft als missie verborgen kennis aan het licht te helpen brengen die opgeslagen ligt in omvangrijke wetenschappelijke databases. De hiervoor benodigde hardware en software is niet vrij voorhanden. Een belangrijk onderdeel in het project is de bouw van de SciLens-machine, die aan het eind van dit jaar operationeel zal zijn.
Het leading-edge systeem wordt speciaal geconfigureerd voor database management taken, zoals het snel doorploegen van grote hoeveelheden meetgegevens en wordt grotendeels uit energiezuinige componenten opgebouwd. De machine onderscheidt zich van supercomputers door een zwaar accent te leggen op een goede balans tussen I/O bandbreedte en de benodigde CPU-kracht voor databasetaken, zogenaamde Amdahl-blades.
Toepassingen zijn er in verschillende onderzoeksgebieden zoals seismologie, astronomie, remote sensing, datamining en fraudedetectie bij sociale netwerken. Bij de aardbeving in Chili begin 2010 verzamelden seismologen twee terabyte aan data. Met een normale computer is het welhaast ondoenlijk dit snel te doorzoeken en te analyseren. De SciLens-machine heeft voor een complete scan slechts 30 seconden nodig.
“Een verschil met een internetzoekmachine is dat SciLens letterlijk een speld in een hooiberg kan vinden zonder deze vooraf te hebben geïndexeerd”, zegt Martin Kersten van het CWI en initiatiefnemer van het project. “Bij Google is de hooiberg vooraf al opgedeeld in hooibalen en op elke baal staat een bordje met wat er zich binnenin bevindt. De SciLens-machine kan razendsnel door data heen gaan zonder van tevoren informatie te hebben waar naar gezocht moet worden.”
De SciLens-machine is opgebouwd als een piramide van vier ringen. Elke ring heeft een ander type computer, van 256 energiezuinige Intel Atoms tot zestien high-end servers. Per ring is er totaal één terabyte aan geheugen en 128 terabyte aan diskopslag beschikbaar. Een supersnel Infinibandnetwerk stelt het databasesysteem in staat om dit gespreide geheugen als een ringbuffer te gebruiken, waarmee in totaal meer dan 256 gigabyte per seconde kan worden verplaatst. De top zal bestaan uit een enkelvoudig systeem met één terabyte aan geheugen. Het zal nog wel twee jaar duren voordat die op de markt beschikbaar komt.
De grootste uitdaging bij de bouw is volgens Kersten om de juiste balans te vinden in de componenten in context van de beoogde databasesoftware MonetDB. Zijn ideaalbeeld is dat elementen uit de onderste laag een voorbeeld zullen zijn voor een MonetDB-databasemachine ter grootte van een schoenendoos en met een capaciteit van tien terabyte die elke wetenschapper zich kan veroorloven voor zijn zoektocht in de overdaad aan observaties. Als de SciLens machine operationeel is, is ze beschikbaar voor onderzoek van het CWI en zijn partners.