Fairtrade Data

»Jeg tror at vi får brug for masser af opmarkeret data i fremtiden, og når opmarkeringen ikke sker indirekte gennem vores almene, digitale adfærd, risikerer vi at det bliver en opgave for de laveste samfundsklasser og måske endda tredjeverdenslande. så må vi se hvor lang tid der går før der bliver stillet krav til at vores AI løsninger er trænet på bæredygtigt anskaffet ”Fairtrade Data",« skriver Erik David Johnson, AI specialist hos Delegate A/S, i dette synspunkt.
Brødtekst

Som AI specialist er jeg meget optaget af hvordan træningsdatagrundlaget for de løsninger jeg laver er så afgørende, og samspillet med at orkestrere disse og lave de egentlige AI-løsninger. Jeg har sidenhen beskæftiget mig med om indhentning og anvendelse af data er etisk, men der er en dimension jeg har overset – indtil nu.

Jeg sad for noget tid siden med min en af mine AI protegeer og vendte forskellige aspekter af data og etik og det slog mig at opmarkering af data, som komplimenteres med metadata kan være en type opgave til de mindre heldigt stillede borgere i fremtidens digitale samfund.

Tænk på et simpelt eksempel som ansigtsgenkendelse. Her er en AI-model trænet til at genkende ansigter, men hvordan? Jo, når man træner et kunstigt neuralt netværk – AI modellen som ofte bruges til ansigtsgenkendelse, så kræver det træningsdata, som består i en masse billeder.

I den forsimplede version har man nogle billeder som er lagt i én bunke der hedder ”ikke-ansigter”, og nogle billeder som er lagt i en anden bunke der hedder ”ansigter”. Man taler om at kvaliteten ”ansigt” eller ”ikke-ansigt” er opmarkeret som metadata på billederne.

Træningsprocessen er så at man tager et billede fra en af bunkerne som input og giver til AI-modellen. Den utrænede model har vægtede neurale forbindelser i sig som gør at den med en enkelt output-neuron kommer med et procentuelt gæt på om det er et ansigt.

Herefter får den at vide om det var et ansigt eller ej – det vil sige hvor meget den gættede forkert, og så bruger den en algoritme til at justere sine neurale forbindelser efter dette. Den lærer lidt mere ved hvert billede, og der skal rigtig mange billeder til.

Ansigtsgenkendelse AI
Illustration: EDJ

Men hvem har lagt alle billederne i den rigtige bunke? Hvem har siddet og manuelt opmarkeret data med metadata som AI modellen skal bruge som facit til at korrigere sig selv i sin læringsproces? Forestil dig at skulle udføre den opgave på 500.000 billeder.

Det lyder som en opgave vi da lige eksporterer til Kina eller Indien ikke? Og her slog det mig – fremtidens etiske løsninger benytter det jeg vil kalde ”Fairtrade Data”. Det er et nyt begreb og perspektiv på at lave løsninger som er både datadrevne og bæredygtige.

For hvad er forskellen på det og historier som at elbiler kræver råmaterialer som i dag udvindes vha. børnearbejde i kummerlige, sundhedsfarlige koboltminer? Vi har nogle klimamål vi skal nå via ny teknologi, men de tager ikke forbehold for de afledte effekter uden for Danmarks grænser, hvilket virker helt forkert.

Jeg er selv ret pessimistisk omkring AI-modeller der selv finder svarene i rå data, med mindre vi udelukkende opererer i lukkede matematiske systemer såsom spil eller meget smalle/specifikke problemdomæner.