Hvorfor er det så svært med det der AI? Trust, Transparency & Understanding

Med et xAI-mindset kan virksomheder og organisationer skabe succesfulde AI-implementeringer, der bliver velintegrerede og brugbare, skriver Julie Gerlings.
Brødtekst

Algoritmiske modeller indenfor AI er under rivende udvikling; kompleksiteten i deres udformning og kunnen er ikke længere entydig. Samtidig udvides områderne for, hvor teknologien kan tages i brug, til stadighed. Der er ikke længere tale om AI, der kan forudsige vejret – eller foreslå, hvilken serie du nu skal se på Netflix.

Derimod modeller der kan detektere cancer på røntgenbilleder, estimere din forsikringspræmie baseret på et billede af dig, vurdere din kreditscore i din bank, vurdere, om du er en dårlig betaler til Skat, eller måske identificere dig som værende i relation med kriminelle – som dermed øger sandsynligheden for, at du også selv er kriminel!

Algoritmer er blevet en større del af både vores arbejde og hverdag og får større og større betydning for os som individer. Netop derfor er debatten om ’Explainable AI’ (xAI) blusset op i medierne de senere år. Nyheder om, hvordan folks foto fejlagtigt er udvalgt af en AI-model til at være gerningsmanden bag et væbnet røveri – og dømt derefter – dukker op i medierne. Samtidig søger folk hjælp til at forstå, hvorfor de ikke kan få prøveløsladelse, et lån, eller hvorfor de får foreslået en fejlagtig og forkert behandling af deres cancer

Denne udvikling indenfor brugen af AI/ML skaber behovet for at forstå, hvad algoritmen gør. Organisationer og softwarevirksomheder opsætter programmer for at øge transparensen og forståelsen af disse kraftige værktøjer. Både i forsknings- og erhvervsverdenen er der stor enighed om, at der skal langt mere fokus på forståelsen af hele processen for algoritmiske beslutninger og fortolkningen heraf. Dette er en nødvendighed for, at vi kan komme videre i både udviklingen og implementeringen af ny teknologi – uden at gøre skade på individet.

Hvorfor er AI stadig mere hype end håndgribelige implementeringer? 

I 2017 rapporterede Danmarks Statistik, at vi i Danmark kun anvendte AI/ML i 5 pct. af vores virksomheder. På trods af det var vi landet med den højeste digitaliseringsgrad (på 42 pct.). I 2019 har Microsoft og EY genereret en rapport om, hvordan 277 af de største danske virksomheder bruger AI. Her rapporteres det, at kun 4 pct. af virksomhederne aktivt bruger AI til håndtering af komplekse opgaver, hvorimod 61 pct. stadig er i gang med piloter eller planlægger initiativer. Rapporten viser også, at de tre største risici, som virksomhederne ser i at arbejde med AI/ML, er:

  1. Regulatory Requirements: Behovet for klare retningslinjer for AI, så der ikke investeres i noget, der er lovligt lige nu, men som på sigt ikke vil være lovligt.
  2. Impact on Personnel: Fornyelse hænger uløseligt sammen med forandring, håndtering af ’change management’ og et kulturelt skift imod at turde.
  3. Upkeep of the system: Frygten for, at der skal komme noget nyt og bedre lige rundt om hjørnet, inden en acceptabel ROI er opnået. Derudover synes danske virksomheder, det er svært at demonstrere business casen for AI i små pilotprojekter.

One of the key challenges is meeting the high expectations from the organization – AI is not magic, but takes considerable effort to successfully implement. – H. Lundbeck

Dette er nogle af årsagerne til, at vi i Danmark ikke er på forkant, når det gælder selve implementeringen og anvendelsen af disse stærke algoritmer. På trods af, at vi er et af de højest digitaliserede lande i verden – og at vi har nogle af de bedst uddannede udviklere i verden – har implementeringen af disse mere avancerede modeller ikke taget fart endnu.

De tre nævnte overskrifter hænger også tæt sammen med, at vi i Danmark er et forsigtigt folkefærd, hvad ’nye’ ting angår. Vi har en manglende organisationsstruktur for at kunne håndtere et AI-projekt og tilhørende udfordringer med at tolke compliance og GDPR-lovgivningen, etableringen af ansvarsroller og selve udførelsen af projektet. Tolkning af lovgivningen bliver ofte unødigt kompliceret, hvis ikke man tænker det ind i projektet fra starten. Dette er meget klassisk, da vi endnu ikke har indarbejdet det i et klassisk CRISP-DM-framework!

Derudover har vi i kraft af vores digitale modenhed også været udsat for mange fejlslagne AI-projekter, fordi de testede eller implementerede modeller fortolkes forkert, eller forvrænges, i forhold til hvad intentionen af modellen har været. Derfor er der behov for at genetablere tilliden til de ’brændte virksomheder’, der tidligere har leget med ilden og nu skyer den.

Skærer vi helt ind til benet, handler (succesfulde) AI/ML-integrationer om interaktionen mellem mennesket og maskinen. Interaktionen skal være entydig, troværdig og ligetil! I udviklingen og etableringen af AI/ML-modeller skal vi tilfredsstille hele kredsen af stakeholders, der varierer i forbeholdenhed; fra det toårige barn, der stopper alt i munden uden at tænke over det, til den evige petitesse-rytter, der vender og drejer den mindste detalje. I begge ender af skalaen skal vi kunne etablere en følelse af, at vi er blevet godt behandlet af algoritmen, og at vi forstår, hvad der sker. Dette er en kompliceret proces, men drives fundamentalt af: Trust (tillid/tiltro), Transparency (gennemsigtighed/gennemskuelighed) og Understanding (forståelse). 

Trust

If we cannot explain the algorithms, we cannot argue against them, verify them, improve them or learn from them. (Samek, Wiegand, & Müller, 2019)

Fagekspert og beslutningstager

Tillid til algoritmernes klassificering, forudsigelse eller afgørelse er essentielt ift. at kunne fortsætte vores teknologiske fremgang og udvikling af machine learning og AI. Når vi taler om mennesker, er det tydeligt, at niveauet af tillid til et andet menneske afgør ens egen ageren og handlinger. Dette gør sig også gældende, når vi interagerer med ’maskiner’. Stoler vi ikke på deres output, bruger vi det ikke, undgår eller omgår det, så  kan hele implementeringen af en AI-model slå fejl. Dette er et typisk eksempel på en beslutningstagers problematik. De kan sidde som eksperter indenfor et fagligt område og vurdere f.eks. din kredit i din bank, men samtidig have en skepsis overfor et maskin-genereret output, som ikke er gennemsigtigt. Derfor afviger de og følger deres egen vurdering. 

Studier fra Bakerly J. Dietvorst viser, at selv om en model har 85 pct. præcision i en klassificeringsopgave, og man selv som beslutningstager kun har 75 pct., dømmer vi modellen meget hårdere, end vi burde, da vi selv bliver udkonkurreret. På trods af dette vil vi gerne have, at modellen har tæt på 100 pct. præcision, før vi godtager dens output, specielt når der er tale om beslutninger, der træffes af fageksperter (Dietvorst, Simmons, & Massey, 2015). I disse tilfælde kan man benytte f.eks. en metode kaldet eksterne side-by-side-sammenligninger. Denne sammenholder og anonymiserer både menneskets og ’maskinens’ klassifikation. På den måde testes begge afgørelser objektivt samtidig.

Modtageren af en automatiseret beslutning

Når algoritmer bliver brugt til at understøtte beslutninger i form af forudsigelse, klassificering eller analyse, skal det være klart, hvordan man fortolker det, output-modellen kommer ud med. Når det ikke længere handler om, hvordan musikforslag fra Spotify genereres, men f.eks. hvilke piller du skal tage imod en infektion, er det straks noget andet. Her er det i værste fald dit eget liv, der er på spil. 

Når det gælder afgørelser der vedkommer os selv, er vi (sjovt nok) meget mere kritiske, overfor en beslutning understøttet af machine learning. Vi som mennesker har en tendens til at stole på algoritmerne frem for f.eks. vores doktor, så længe problematikken om udfaldet ikke er voldsomt kompliceret (Logg, 2018; Michelman, 2017). Men bliver problematikken væsentligt mere kompliceret, og lægen skal tage en længere sygehistorik med i perspektivet, er vi meget mere tilbøjelige til at stole på mennesket frem for maskinen. Dette er i bund og grund helt på hovedet, da vi mennesker ikke kan holde styr på nær så mange faktorer, som en maskine kan (bounded rationality), hvorfor en algoritme her er meget mere anvendelig end os. Så når vi står i en kompleks situation, der berører os selv, eller hvis vi har erfaringer med, at en machine learning-model ikke er perfekt, er vores egen dømmekraft påvirket, og vi vil generelt hellere bruge vores egen dømmekraft eller ’intuition’, søge mod det kendte og i vores øjne, ’stabile’ i mennesket.

Dette er et helt naturligt mønster, som vi stille og roligt er nødt til at rykke på, før vi for alvor kan tage machine learning-modeller i brug i mere kritiske beslutningstagningsprocesser. Derfor advokerer vi for at sætte gennemsigtigheden (Transparency) i højsædet, så vi kan forstå, hvordan maskinen arbejder.

Transparency

Man skal ikke lede længe efter ’black-box’-problematikker i pressen, politikere og forskere, der argumenterer for, at machine learning algoritmer skal være mere gennemsigtige. Argumenterne er ofte at minimere uligheder i klassifikationer/forudsigelser og dermed også eliminere diskrimination af mindre repræsenterede klasser eller fejlagtige bestemmelser, som dermed resulterer i en ulige behandling af folk.

Overordnet er hensigten om større gennemsigtighed god, og det er fristende at kunne løse problematikkerne vedrørende uforståelige algoritmer og deres bias ved at udlevere source code og det datasæt, der er brugt til at træne modellen med. Det er dog desværre langtfra en løsning, der skaber gennemsigtighed, og overvældende meget materiale ligger allerede offentligt tilgængeligt på steder som GitHub, Kaggle, Google Dataset Search, Stack Overflow m.fl. For os lægfolk giver adgang til alt dette materiale ikke nogen synderlig stor forståelse af, hvad der sker. Resultatet er, at vi kun kan ’se uden at forstå’ (Ananny & Crawford, 2016). Dermed opstår en uigennemsigtig barriere, der kun kan gennemtrænges af teknisk elitære folk og ikke den almene befolkning. Ananny & Crawford beskriver, ud over teknisk elicitet, to andre årsager til uigennemsigtighed. Som tidligere nævnt kan skalering i kompleksitet og mængder af data samt antallet af faktorer, der spiller ind, gøre det uoverskueligt for os som mennesker at gennemskue, hvad der foregår (Burrell, 2016).

Det er bl.a. derfor dybe neurale netværk anses som ’black box’. I neurale netværk er præcisionen ofte meget høj, men kompleksiteten ligeså, hvilket gør det umuligt for et menneske at begribe. Slutteligt er der en tilsigtet form for uigennemsigtighed baseret på organisatorisk/stats-’hemmeligheder’, som ikke alle skal kunne forstå. Eksempler herpå er f.eks. din risiko-score i din banken, så man ikke kan ’game’ systemet. Et andet eksempel er Googles søgemaskinealgoritme, der er uhyre kompleks, så man ikke bare kan smide alle de vigtige nøgleord i bunden af en side for at rankere højest i en søgning.

Selvom det er to meget forskellige eksempler, har de samme formål: at afholde folk fra at forstå, hvad der foregår, fordi der er en (meget reel) frygt for, at folk ellers vil misbruge systemet. Det var bl.a. dét argument, der blev brugt af OpenAI om deres teknologi, da de (i første omgang) lancerede en mini-version af deres ’historiegenerator’, af frygt for at den ville blive brugt med onde eller dårlige intentioner. Historiegeneratoren består af et neuralt netværk, GPT-2, der kan fortsætte en historie, du selv begynder (test den her). Frygten for autogenerering af ’fake news’ må imidlertid være aftaget (ifølge OpenAI, som bl.a. er støttet af Elon Musk), eftersom den fulde version nu er tilgængelig på GitHub.

“Some designers may not release detailed information about their systems, not due to trade secrets or competitive advantage, but because they lack trust in the ethics and intentions of those who might see them. Leonardo da Vinci refused to publish the exact details of his early submarine designs: “I do not publish nor divulge these, by reason of the evil nature of men, who would use them for assassinations at the bottom of the sea.” – Leonardo da Vinci (Pasquale, 2015)

Så, selvom det er fristende at argumentere for ren og skær gennemsigtighed over hele linjen, skal man altså overveje, hvor det kan lade sig gøre forretningsmæssigt, hvem det giver mening for at kunne ’se’ modellen, og slutteligt hvem det skaber værdi for.

Understanding

“… if you understand something in only one way, then you scarcely understand it at all.” – Marvin Minsky (Minsky, 2006)

Selvom vi har adgang til kildekoden, har vi ikke alle de tekniske færdigheder til at kunne forstå, hvad der rent faktisk foregår i en AI/ML-model. Når vi arbejder med machine learning, skal vi derfor kunne forklare, hvad der sker, på flere forskellige niveauer, for at tilgodese forskellige interessenter.

Den gode forklaring

For at kunne forstå, hvad en machine learning-model kommer med af output, kræver det den ’rigtige’ forklaring i den ’rigtige’ kontekst, der resulterer i en acceptabel forståelse fra modtageren (Miller, 2019; Molnar, 2019). En forklaring er konstrueret af flere forskellige delelementer, som tilsammen skal fremme den gode forklaring. Nogle af de vigtige elementer i en forklaring er: 

  • En del af et socialt konstrueret miljø, hvor vi skal tage højde for, hvem målgruppen for forklaringen er til.
  • At en forklaring skal kunne stå i kontrast til et andet udfald, da vi som mennesker søger forklaring på, ’hvorfor foreslår modellen dette, og ikke et andet udfald?'
  • At en forklaring skal kunne have fokus på de anormale tilfælde, men samtidig også kunne bekræfte vores egne overbevisninger om generelle tendenser, vi selv tror på.

Det er ikke så lidt, og måske også derfor det kan være svært at fremstille den gode forklaring, hvor du står tilbage med ro i maven og en fornemmelse af, at du er blevet ordentligt behandlet af modellen. At kunne skabe denne forklaring kræver et stærkt tværfagligt samarbejde mellem data scientists, adfærdsspecialister og kommunikationsfolk, så en forklaring rammer dig og dit behov. Ydermere har forskning vist, at vi mister tiltroen til beslutninger truffet af machine learning-algoritmer, hvis vi ikke forstår de generelle teorier, der ligger til grund for deres udfald (Miller, 2019; Samek et al., 2019). Så vi skal altså også kunne sætte forklaringen i perspektiv for modtageren. Dette er i dag muligt, med fundament i xAI-løsninger såsom LIME (Local Interpretable Model-agnostic Explanations), der giver mulighed for at få et indblik i, hvordan machine learning-modellen er nået frem til sit output, uden at være ekspert.

Med værktøjer såsom LIMESHAPELI5 og mange andre kan vi nu også generere forklaringer på mange forskellige niveauer for den individuelle prædiktion/klassifikation eller for en hel gruppe. De kan også forklare, hvilke datapunkter der er årsagen til udfaldet og hvilke datapunkter der er misledende. Med disse xAI-værktøjer kan vi nu komme tættere på en forklaring, der skaber en bedre forståelse for både ’almindeligt dødelige mennesker’, der skal kunne forstå, hvorfor de ikke kan omlægge deres huslån, eller hvorfor deres senfølger af brystkræft med større sandsynlighed vil være depression frem for føleforstyrrelser – til den anden ende af forklaringsskalaen med de data scientists, der skal sikre, at machine learning-modellen lever op til opsatte standarder. Disse folk kan med disse nye værktøjer få indblik i, hvilke faktorer (selv i neurale netværk) der har størst indflydelse på udfaldet. xAI giver dermed udviklerne mulighed for at forstå, hvor der er en kausalitet frem for korrelation, og gøre modellen stærkere.

Med de mange forskellige typer af forklaringer i forskellig kontekst til forskellige mennesker med forskelligt formål skal vi ikke at gøre det mere kompliceret, end det er. 

Vi som mennesker er stadig begrænset i vores evne til at tage mange variabler med i overvejelserne om et givent udfald (bounded rationality), og vores særlige sensitivitet i forhold til, hvad vi tidligere er blevet præsenteret for af udfald i lignende situationer, leder os på afveje (Kahneman, Slovic, & Tversky, 1973). Det resulterer i, at vi i almene tilfælde skal konstruere en forklaring, der tager de væsentligste faktorer med i stedet for dem allesammen, og adressere det enkelte udfald i kontekst af helheden.

Hos Carve ser vi et tæt samspil mellem Trust, Transparency og Understanding i implementeringen af machine learning-modeller og har indopereret dette i vores tilgang til udvikling af machine learning-modeller til vores kunder.

Med denne introduktion til, hvorfor machine learning-projekter ikke altid bliver en succeshistorie, og tre hovedemner, der påvirker vores adoption af den til stadighed større brug af machine learning, håber jeg, I har fået mod på: 

  • At se tilbage på tidligere pilotprojekter, som endnu ikke er taget i brug, og stille spørgsmålet 'hvorfor ikke?' med xAI-brillerne på
  • Overveje, om jeres første (ellers næste) machine learning-projekt skal være med ’xAI by design’
  • Kontakte os for en demo af, hvordan vi rent faktisk bygger xAI ind i vores machine learning-modeller

Tak fordi du læste med!

Dette synspunkt er oprindeligt bragt på Carves blog.