Een schaalbare architectuur met tijd- en locatiefilter
Stap één was het ontwerpen van een architectuur die grote hoeveelheden data in snel tempo kan verwerken en opslaan. Schaalbaarheid was hierbij van groot belang gezien de onvermijdelijke toename van gegevens voor verwerking en opslag. De voor de hand liggende keuze voor schaalbaarheid waren digital clouds. Voor dit project bood het Amazon Web Services (AWS) cloudplatform de beste opties voor dataopslag. We creëerden een AWS-database en een datapijplijn om Caeli’s gegevens te verzamelen en pasten deze data toe op het NO2-gas dat nitraatdeeltjes kan vormen.

Wanneer Caeli informatie uit haar eigen database ophaalt, wil het bedrijf deze kunnen filteren op tijd en plaats: bijvoorbeeld gegevens uit Amsterdam gedurende de maand januari 2021. Filteren op tijd is geen probleem, omdat de gegevens chronologisch (oplopend) worden opgeslagen; het databasesysteem ‘weet’ in grote lijnen in welke rijen de gegevens van januari 2021 te vinden zijn.
Het wordt echter ingewikkelder wanneer de gegevens ook op locatie gefilterd moeten zijn. De visuele gegevens zijn niet gegeorefereerd – verbonden met coördinaten op de wereldbol – in X- en Y-coördinaten, en slechts één op een miljoen gegevens in de database komt daadwerkelijk overeen met coördinaten in Amsterdam. Eén voor één alle data controleren zou een waanzinnig tijdrovend proces zijn, dus de uitdaging was om een architectuur te ontwerpen die op efficiënte wijze meerdere dimensies kan filteren.
Rob: over het toepassen van mijn kennis en skills bij Caeli
Tijdens mijn opdracht voor Caeli heb ik intensief gebruik gemaakt van de vele tools en technieken die ik tijdens het Young Mavericks-traineeship heb leren kennen. Zowel Amazon Web Services als het Hadoop ecosysteem – die samen de kern van mijn opdracht vormden – kwamen tijdens het traineeship uitgebreid aan bod.
Young Mavericks’ training hielp mij de beste oplossing te bieden voor het datamanagement van Caeli. Hierdoor heb ik Caeli een werkend eindproduct kunnen bieden dat past bij de noodzakelijke precisie en toegankelijkheid van informatie. Gegevens over stikstofdioxide (NO2) worden nu automatisch verzameld en opgeslagen in een schaalbare database waarin de data efficiënt kan worden gefilterd op zowel tijd als locatie. Bovendien is Caeli dankzij duidelijke documentatie van processen en uitgebreide overdrachtsprotocollen nu zelf in staat het product te beheren en toe te passen op andere fijnstoffen.
“Het project heeft ons toen geholpen om van een on premise omgeving naar de cloud omgeving te gaan migrereren. YM heeft ons met Rob op het juiste spoor gezet, zodat we in staat waren om onze omgeving naar een AWS omgeving te gaan migreren. Onze NO2 data is daardoor beschikbaar gekomen en hebben we een stap kunnen maken om op te gaan schalen naar andere producten en klaar te zijn voor andere landen.” – Tim en Martin van Caeli