Algoritmisk fairness og dets betydning for Danmarks iværksættermiljø

"Hvis Danmark skal blive ved med at skabe innovation og vækst, skal vi tage bias alvorligt. Problematikken har potentiale til at vokse sig til et endnu større samfundsmæssigt problem, end det allerede er", forudser Morten Kloster Pedersen, som er data scientist hos Vækstfonden, i dette synspunkt.
Brødtekst

»Algorithms Are Opinions Embedded in Code«

Et fantastisk citat af forfatteren bag bogen Weapons of Math Destruction, Cathy O’Neil, som belyser en faldgrube for samfundets data scientists.

Det er en generel misforståelse, at machine learning er absolut objektiv. En supervised machine learning model er kun objektiv i den forstand, at den lærer de mønstre, der er i det data, modellen er trænet på. Det handler med andre ord om at bruge machine learning korrekt. Som George E. P. Box skrev i flere af sine papirer og bøger: »Alle modeller er forkerte, men nogle er nyttige.«

Machine learning modeller tager ligesom os mennesker også fejl. Men hvor en dårligt designet bil uden bremser ville køre galt, vil en uhensigtsmæssigt designet model kunne gøre skade i lang tid uden at nogen er bevidst om det.

”Fairness”-feltet består i at forstå og derigennem afbøde model-baseret diskrimination baseret på sensitive variable såsom køn, race, religion, seksuel orientering m.fl. afhængigt af konteksten; en fair ML model, der screener kandidater til et job, bruger ikke alder som variabel. Omvendt bør en machine learning model, der udregner overlevelsessandsynligheden for en patient med en given sygdom, i den grad tage højde for alder. For mange siger dette sig selv. Men ofte er der bias til stede i det data, man træner ens modeller på, uden at man selv er klar over det; del-segmenter kan være så underrepræsenteret i ens distribution af data, at modellerne ikke vægter disse minoriteter særligt højt. Bias i machine learning modeller skyldes ofte bias i det data, de er trænet på. Problemet er, at det eneste sted, vi kan samle data fra, er fra den verden, vi lever i – en verden fuld af diskrimination. Modeller lærer således at træffe deres beslutninger ud fra denne verdens historiske samfundstendenser og forstærker dermed også eksisterende samfundsmæssige bias, hvis der ikke tages højde for det undervejs i processeringen af ens data og modellering.

Kendte bias-problematikker

I publikationen Fra Startup Til Scaleup (2019), som Vækstfonden udarbejder, kastede Danske Bank Growth & Impact lys over et fortsat aktuelt bias i det nordiske økosystem for startups: det kønsmæssige bias. Den overordnede konklusion lød, at kvinder fortsat har ”… færre ledende stillinger, får lavere løn og mindre equity, og kvindelige founders har mindre succes med fundraising.” 

Danske bank andel af virksomheder med kvindelige CEO's
Illustration: Danske Bank

Af den kapital, der blev rejst i 2018 blandt europæiske startups, gik kun 2% til startups med en kvindelig founder, og sådan har det fortsat været i perioden 2013-2018 (Kilde: Diversity VC & Atomico, Diversity and Inclusion in Tech, 2018).  I 2019 gik 95 % af alle VC-investeringer i Danmark til startups med ene mandlige founders.

Et andet kendt eksempel på bias i økosystemet findes inden for Venture Capital. Ud af alle danske ventureinvesteringer i SaaS-segmentet lavet siden 2016 og frem til dags dato, er næsten 80% af selskaberne i dag lokaliseret i Region Hovedstaden. Kigger man ydermere på de samlede beløbsstørrelser investeret i SaaS-segmentet fordelt på regioner, er over 95% af pengene investeret i region Hovedstaden. 

Hvis modellerne baserer sine regler for meget på fortidens mønstre, vil den ikke være i stand til at generalisere ud over de mønstre, der p.t. gør sig gældende i det danske iværksættermiljø. Modellen ville således ikke være lige ”fair” over for alle. Hvis man fx i en model, lavet til at forudsige venture potentiale, inkluderede kønsfordelingen i founder-teamet som variabel, ville man med al sandsynlighed ende ud med en model, som diskriminerer kvindelige iværksættere, fordi samfundstendensen historisk set har favoriseret det mandlige køn, når det kommer til venture-succeser. En løsning hertil er slet ikke at inkludere kønsfordelingen som variabel på trods af at den korrelerer med historiske venture-succeser. 

Hos Vækstfonden er disse blot nogle af de mange bias, vi dagligt er opmærksomme på, når vi udvikler nye eller tuner eksisterende modeller. Vækstfonden har til opgave at udvælge og udvikle de virksomheder, Danmark ikke må gå glip af – vi vurderer virksomheder ud fra deres innovationskraft, deres samfundsafkast og hvor ansvarlige de er – ikke hvor de geografisk har etableret deres virksomhed. Der findes ingen silverbullet til, hvordan vi kan fjerne disse bias og således opnå total algoritmisk fairness. Derfor bruger vi i Vækstfonden kun machine learning som beslutningsunderstøttelse – det vil altid i sidste ende være et menneske, der træffer den endelige beslutning. Vores folk får samtidig fuld indsigt i, hvad modellerne baserer deres beslutninger på. 

I Vækstfonden kender vi Danmarks styrkepositioner og tendenserne i markedet. Derfor ved vi, hvilke idéer og virksomheder, der kan være med til at skabe fremtidens vækst og udvikling i Danmark. Men hvis Danmark skal blive ved med at skabe innovation og vækst, skal vi tage bias alvorligt. Problematikken har potentiale til at vokse sig til et endnu større samfundsmæssigt problem, end det allerede er. ”Fair” modeller er en nødvendighed, når det er modellerne, der i sidste ende er med til at separere ”vinderne” fra ”taberne”. I den offentlige såvel som den private sektor, har vi, der forsøger at fremme brugen af AI, således et ansvar for at mitigere eventuelle biases i modellerne. Hvis ikke, kan modellerne påføre negative konsekvenser for minoriteterne i vores samfund. Så længe vi lever op til dette ansvar, undgår vi at gå fra algoritmer, der for tiden betragtes som matematiske vidundere, til algoritmer, der anses som ’weapons of math destruction’.

Prøv DataTech gratis

DataTech giver dig ny viden, cases og erfaringer med at lykkes med AI og data science i praksis. Få 3 ugers gratis og uforpligtende prøveabonnement

Klik her

Nævnte firmaer