Machine learning om bord: Analytics på kanten skal spare brændstof for DFDS

DFDS’ spritnye data science-afdeling udruster rederiets flåde med machine learning.
Brødtekst

Brændstof står for en af de aller største udgiftsposter, når DFDS fragter passagerer og gods med en flåde, der tæller omkring 50 skibe.

Hvis brændstofforbruget kan effektiviseres bare lidt, er det enorm gevinst for både selskabets bundlinje og miljøaftryk. Og derfor er brændstof effektivisering et af de første projekter, som rederiets nystartede ‘Smart Data’-afdeling skal takle med avanceret dataanalyse.

Gruppen, der startede i efteråret sidste år, tæller en holdleder, der fungerer som Scrumleder i afdelingens agile sprints, og tre data scientist – herunder Alessandro Pirrotta, der har fået sin ph.d. fra Københavns Universitets Nano-Science Center.

»Vores vision er at hjælpe forretningen med at tage mere datadrevne beslutninger,« indleder han.

Forretningen er i dette projekt besætningen på DFDS’ skibe, som skal have information, der kan lade dem sejle mest muligt brændstoføkonomisk. Til formålet startede Smart Data-afdelingen med at bygge et proof-of-concept.

»Vi ville først se, om vi kunne bygge en algoritme, der kunne hjælpe os med det,« forklarer Alessandro Pirrotta.

»Vi har prøvet flere forskellige ting, og vi fandt, at en random forest-algoritme kombineret med en gradient boost-algoritme gav de bedste resultater. De er i den samme familie af algoritmer, men kombinationen af de to modeller har tendens til at reducere fejlraten,«

Data-pipeline

PoC-modellen overbeviste Smart Data-enheden om, at projektet kunne lade sig gøre. Skibene i DFDS-flåden er allerede udstyret med et væld af sensorer, der kan tappes data fra. Til gengæld er internet kun er en sporadisk luksus, når et DFDS skib sejler på åbent hav.

Det betyder, at hele realtidsanalysen skal fungere ombord på skibet lokalt uden at være afhængig af internettet, fortæller Alessandro Pirrotta.

Til formålet har Smart Data-afdelingen bygget en maskine med AWS’ Greengrass-software, der blandt andet er designet til at køre machine learning inferens lokalt. IoT-enheder kan trigge lambda-funktioner i Greengrass-maskinen – på samme måde som hvis sensoren havde kontakt til internettet og lambda-funktionen lå i skyen.

»Vi har bygget en data pipeline med lambda-funktioner skrevet i Python, som henter data fra de forskellige IoT-strømme med forskellige protokoller,« forklarer Pirrotta.

Derfra bruger holdet andre lambda-funktioner til at udføre feature engineering på data – altså at behandle data på baggrund af domæneviden for at gøre data mere brugbar til machine learning.

»Det giver os inputtet til machine learning inferensen, der finder sted om bord i Greengrass-maskinen, og efter det har vi selvfølgelig de anbefalinger som kan gives videre til besætningen, så de kan tage skridt til at øge brændstof-effektiviteten,« siger Alessandro Pirrotta.

»Lige nu er det en prototype. Næste skridt bliver at rulle det ud på ét skib. Forhåbentlig har vi fået installeret Greengrass-maskinen og er begyndt at indsamle data i slutningen af denne sommer.«

DFDS
Illustration: DFDS

Samler guldet i skyen

Selvom data i første omgang kun skal gemmes ombord på skibet, vil DFDS gerne samle data til brug i fremtiden. Derfor rummer løsningen også en lambda-funktion, der undersøger om der er forbindelse til internettet, fortæller Pirotta.

»Når skibet har pålidelig internetforbindelse, uploades al den lokale data, vi har gemt under sejladsen, så vi kan bygge en guldmine af information i skyen.«

Når der er internetforbindelse kan DFDS’ datahold vælge at rulle en gentrænet version af modellen ud, og opdatere funktionerne i Greengrass-miljøet, hvis behovet skulle opstå.

Data vil dog ikke blive gemt lokalt – og senere i skyen – før en lambda-funktion om bord aggregere data efter behov. De forskellige IoT-sensore sender data med forskellige intervaller, fortæller Alessandro Pirrotta.

»En sensor sender måske en temperatur hvert sekund for eksempel.«

Når data kommer ind bliver den behandlet af, hvad Pirotta kalder for en time aggregator.

»Der kan vi beslutte, at beregne et gennemsnit for hver N minutter, af hensyn til hvad vores model har brug for. Allerede der kan vi reducere volumen af data med en faktor på 60,« siger Alessandro Pirrotta og fortsætter:

»Det er noget, vi er nødt til at tænke over fra begyndelsen, men det er også noget vi kan ændre, hvis vi opdager, at vores model har brug for at blive trænet på data med højere densitet.«

Minimal viable product

Uden aggregeringen som en del af data-pipelinen vil hele systemet kræve en større kapacitet både lokalt og i skyen. Og det har en pris.

Samtidig gør aggregeret data det lettere at iterere hurtigt på modeller, fordi de skal trænes på mindre data.

»Men vi skal også huske, at mindre detaljeret data kan glatte vigtig information ud, og så vil vi tabe information i vores model. Så der er en afvejning i tiden, du vil bruge på at træne, og det, du rent faktisk ønsker at få ud af træningen.«

Hele prototypen blev bygget i et Scrum-sprint på tre uger, og Smart Data-gruppen forsøger hele tiden at arbejde agilt, fortæller Alessandro Pirrotta.

»Ideen er at investerer meget lidt tid, men nok tid til at forstå, værdien som et produkt kan levere. Vi fokusere på at have et minimal viable product – noget der virker hurtigt og som vi senere kan forbedre – frem for at vente tre måneder, før vi har noget, som måske kan implementeres i forretningen.«

Giver modellen logisk mening

DFDS’ Smart Data-afdeling er vokset ud af rederiets BI-afdeling, og er fysisk placeret direkte ved siden af BI-kollegaerne. I afdelingen er der også et tomt bord, som bruges, når Smart Data får besøg af eksperter fra de forskellige dele af forretningen. 

»Vi har en konstant diskussion med folk fra de forskellige dele af forretningen, som har specifik viden, som vi har brug for at indtage for at lave det arbejde, vi laver,« siger Alessandro Pirrotta.  

»Vi går hele tiden from og tilbage mellem at bruge vores data, lave hypoteser, lave vores modeller og spørge forretningen, hvorvidt det egentlig giver mening.«

I projektet, der skal minimere DFDS’ brændstofsforbrug, har Smart Data-holdet f.eks. arbejdet tæt sammen med selskabets skibsingeniører.

»Vores model kan forudsige en bestemt trend, men uden den baggrundsviden, vil vi ikke være i stand til at se, om modellen egentlig leverer meningsfuld information,« siger Alessandro Pirrotta.

Nævnte firmaer

Alessandro Pirrotta
alessandro pirrotta
Illustration: Alessandro Pirrotta

Alessandro Pirrotta er data scientist i DFDS' nystartede Smart Data-afdeling. Pirrotta har studeret i både Ialien og Skotland, og fik sidste år sin ph.d. fra Københavns Universitets Nano-Science Center.