Young Mavericks’ architectuur helpt Caeli satellietdata efficiënt verwerken

Luchtkwaliteit meten met satellietbeelden

De Nederlandse startup Caeli brengt luchtkwaliteit op unieke wijze in kaart – met een blik van bovenaf. De satellieten die in een baan om onze planeet cirkelen voorzien Caeli’s eindgebruikers van chronologische, (bijna) real-time informatie. Om de moleculaire samenstelling van de atmosfeer te meten is satellietdata niet alleen nauwkeuriger, maar ook vaak gemakkelijker en goedkoper dan remote sensing (teledetectie). Het monitoren van de luchtsamenstelling en fijnstoffen zoals stikstofdioxide (NO2), ammoniak (NH3), methaan (CH4) en ozon (O3) helpt niet alleen de overheid en bedrijven, maar ook individuen begrijpen hoe veranderingen in de atmosfeer het klimaat en onze gezondheid beïnvloeden.

Een schaalbare architectuur met tijd- en locatiefilter

Stap één was het ontwerpen van een architectuur die grote hoeveelheden data in snel tempo kan verwerken en opslaan. Schaalbaarheid was hierbij van groot belang gezien de onvermijdelijke toename van gegevens voor verwerking en opslag. De voor de hand liggende keuze voor schaalbaarheid waren digital clouds. Voor dit project bood het Amazon Web Services (AWS) cloudplatform de beste opties voor dataopslag. We creëerden een AWS-database en een datapijplijn om Caeli’s gegevens te verzamelen en pasten deze data toe op het NO2-gas dat nitraatdeeltjes kan vormen.

Vereenvoudigd ziet Caeli’s data er als volgt uit.

Wanneer Caeli informatie uit haar eigen database ophaalt, wil het bedrijf deze kunnen filteren op tijd en plaats: bijvoorbeeld gegevens uit Amsterdam gedurende de maand januari 2021. Filteren op tijd is geen probleem, omdat de gegevens chronologisch (oplopend) worden opgeslagen; het databasesysteem ‘weet’ in grote lijnen in welke rijen de gegevens van januari 2021 te vinden zijn.

Het wordt echter ingewikkelder wanneer de gegevens ook op locatie gefilterd moeten zijn. De visuele gegevens zijn niet gegeorefereerd – verbonden met coördinaten op de wereldbol – in X- en Y-coördinaten, en slechts één op een miljoen gegevens in de database komt daadwerkelijk overeen met coördinaten in Amsterdam. Eén voor één alle data controleren zou een waanzinnig tijdrovend proces zijn, dus de uitdaging was om een architectuur te ontwerpen die op efficiënte wijze meerdere dimensies kan filteren.

Rob: over het toepassen van mijn kennis en skills bij Caeli

Tijdens mijn opdracht voor Caeli heb ik intensief gebruik gemaakt van de vele tools en technieken die ik tijdens het Young Mavericks-traineeship heb leren kennen. Zowel Amazon Web Services als het Hadoop ecosysteem – die samen de kern van mijn opdracht vormden – kwamen tijdens het traineeship uitgebreid aan bod.  

Young Mavericks’ training hielp mij de beste oplossing te bieden voor het datamanagement van Caeli. Hierdoor heb ik Caeli een werkend eindproduct kunnen bieden dat past bij de noodzakelijke precisie en toegankelijkheid van informatie. Gegevens over stikstofdioxide (NO2) worden nu automatisch verzameld en opgeslagen in een schaalbare database waarin de data efficiënt kan worden gefilterd op zowel tijd als locatie. Bovendien is Caeli dankzij duidelijke documentatie van processen en uitgebreide overdrachtsprotocollen nu zelf in staat het product te beheren en toe te passen op andere fijnstoffen.

“Het project heeft ons toen geholpen om van een on premise omgeving naar de cloud omgeving te gaan migrereren. YM heeft ons met Rob op het juiste spoor gezet, zodat we in staat waren om onze omgeving naar een AWS omgeving te gaan migreren. Onze NO2 data is daardoor beschikbaar gekomen en hebben we een stap kunnen maken om op te gaan schalen naar andere producten en klaar te zijn voor andere landen.” – Tim en Martin van Caeli

ELT, ETL en datapijplijnen: do it yourself geautomatiseerd data inladen

Mijn naam is Don en in mijn werk voor Young Mavericks combineer ik mijn kennis als Data Engineer met mijn expertise in Data Science. In de praktijk komt dit erop neer dat ik repetitieve taken automatiseer, inzichten uit data genereer en een coördinerende en adviserende rol heb binnen projecten. Ik geniet het meest van het creatieve proces dat nodig is om problemen op te lossen met behulp van data.

Lees meer

Datapijplijn implementeren: Toepassen van het datapijplijn-concept

Deze handleiding bouwt voort op het ‘ELT, ETL en datapijplijnen’- artikel, waarin veelvoorkomende problemen van bedrijven bij het opslaan en gebruik van data worden besproken. Als antwoord op deze en meer problemen introduceerde Don – Data Scientist en Data Engineer bij Young Mavericks – het concept ‘datapijplijnen’, waarmee bedrijven een datagedreven cultuur kunnen creëren en zo optimaal mogelijk hun data kunnen inladen – en welke tools hiervan handig zijn. In dit artikel past Don de eerder behandelde concepten achter datapijplijnen toe bij het daadwerkelijk implementeren van een werkende datapijplijn. De complete code is te vinden op onze Gitlab.

Lees meer