XAI-forsker: Vi ved for lidt om, hvad der egentlig kræves af en god forklaring

Foto : Elnur, Bigstock

XAI-forsker: Vi ved for lidt om, hvad der egentlig kræves af en god forklaring

One size fits all dur ikke, når det gælder AI-forklaringer. 
Brødtekst

Explainable AI - eller blot XAI - er en kritisk ingrediens, hvis AI-systemer skal vinde indpas i kritiske domæner som f.eks. sundhedsvæsenet. Men der er brug for langt mere viden om, hvor meget information læger og sygeplejersker egentlig har brug for - og i hvilket format. 

Det fortæller Julie Gerlings, der lige nu skriver sin ph.d. i XAI ved CBS. 

Sammen med kollegerne Arisa Shollo og Ioanna Constantiou efterlyser hun i en forskningsartikel empiriske studier, der viser hvor godt XAI-værktøjer egentlig opfylder brugernes behov for at forstå og stole på modellens output. 

»Det er uhyre vigtigt, at man forstår, hvad der foregår hos de mennesker, der bliver påvirket af AI-systemerne,« understreger Julie Gerlings.

»Kravene til en forklaring vil afhænge af, hvordan deres workflow er, hvor skal det bruges, hvilken skærm de skal se det på, og hvilken type læge der skal kigge på det. Vi er nødt til at spørge dem, der bliver påvirket, så vi kan forstå deres proces, hvordan de arbejder, og hvordan de kommer til at arbejde, efter at en AI-løsninger er implementeret.«

Kompleksiteten forsvinder ikke

SHAP

SHAP summary plot

Illustration: Alexandra Instituttet
SHAP kan bruges til at visualisere, hvilke parametre har haft positiv og negativ indflydelse på en models output.

Det skorter ikke på værktøjer, der skal åbne uigennemsigtige modeller som neurale netværk. Men fælles for dem er, at de typisk er lavet af udviklere til udviklere med henblik på bedre at forstå en model for at kunne forbedre den. Selv populære rammeværk som LIME og SHAP laver forklaringer, der kan være svære for en lægmand at fortolke. 

»Der er en enorm kompleksitet i teknologien, og den kompleksitet holder ikke op med at være der, bare fordi vi har fundet ud af at uddrage en smule information,« siger Julie Gerlings.

»Det er stadig meget svært at forstå den klassifikation eller prædiktion, et neuralt netværk kommer med. Det bliver altid blot en aggregeret forklaring eller et lokalt udsnit, vi kan give.«

Hvilket framework til hvilken bruger

Explainable AI er stadig et spirende forskningsfelt, og den eksisterende forskning har en tendens til at fokusere på to grupper - udvikler og bruger. Men hvis klinisk AI skal være succesfuldt, er der langt flere grupper at tage højde for - grupper, som har andre krav til forklaringer.

Julie Gerlings arbejder blandt andet med en case, hvor en AI-model bliver udviklet til at kunne spotte covid-19 i en røntgen-scanning af lunger.

»Lægen, der skal bruge modellen til at understøtte sin diagnose, har brug for, at den viser f.eks. med en bounding box eller heat map, hvad der i scanningen leder til outputtet,« siger hun og fortsætter: 

»Men lad os sige, at modellen bliver implementeret for at forudse belastningen i sundhedsvæsenet - og ikke til at stille diagnoser. Så er det pludselig et andet behov, der opstår. Du har ikke brug for et heatmap eller en bounding box i en lunge-scanning, hvis du bare skal estimere, hvor mange respiratorer og værnemidler hospitalet har brug for i næste uge, ud fra hvordan dine patienter har det nu.«

Sneen i baggrunden

Andre forklaringer vil du have brug for, hvis du skal kunne forklare modellens output til en patient. Og endnu andre typer forklaringer har du brug for, når domæneeksperter - i dette tilfælde radiologer - skal validere projektet under udvikling. 

»Det er ikke nok at rapportere performance på test- og valideringssæt. Der skal også være konsensus fra eksperterne om, at outputtet ser rigtigt ud, og at der er sammenhæng mellem valget af model, problemformulering og den faktiske anvendelse. Hvilket igen kræver tilstrækkelig forståelse og forklaringer.«

Alternativt løber man risikoen for at tro på modellens ræsonnement alene ud fra dens performance, sådan som forskere ved University of Washington demonstrerede ved at skabe en model, der skulle skelne mellem ulve og huskies. Selvom modellen tilsyneladende havde høj præcision, viste en visuel forklaring, at modellen baserede sit gæt på, om der var sne i baggrunden af billedet.  

ulv huskie
Illustration: “Why Should I Trust You?” Explaining the Predictions of Any Classifier. Ribeiro, Singh, Guestrin (2016)

»Der er brug for forskning for at forstå, hvilket XAI-framework der bedst understøtter de forskellige stakeholdere med en forklaring, og om den overhovedet skal være der,« lyder det fra Julie Gerlings. 

Kæmpe hæmsko

Inden for klinisk AI er det dog lettere sagt end gjort, erkender Julie Gerlings. 

»Det, der er så svært ved at lave machine learning inden for et høj-risiko-domæne, er, at du skal kombinere mange forskellige kompetencer. Det kræver tværfaglige samarbejder, som er dødsvære at få sat op. Det er en kæmpe hæmsko for forskningsområdet.«

En anden hindring er at få adgang til ægte data af den kvalitet, der er nødvendig. Når det gælder røntgenbilleder specifikt, kan der være stor forskel på de forskellige typer scannere, der bliver brugt, hvilken scanningsmetode der bruges, og kvaliteten af billederne bliver ofte komprimeret fra det originale format DICOM til de mindre brugbare .jpg eller .png.

Effekten er, at udviklingsprojekter ofte bygger en model frem for at spørge, hvad der er behov for. 

»Så har de en hammer, hvorefter man leder efter nogle søm. Det er ikke optimalt, men det er vilkårene lige nu, fordi sektoren er så presset.« 

Julie Gerlings vurderer, at efterspørgslen på eksperter er et generelt problem inden for klinisk AI - ikke kun når sundhedsvæsenet har hænderne fulde med en pandemi.

»Jeg laver et lignende projekt i en privat bank, hvor jeg får adgang til specialister i banken og har lavet interviews for at finde ud af, hvordan hver medarbejdergruppe tager beslutninger og bliver påvirket af den eksisterende ML-model, og dermed hvilken slags forklaring de har brug for,« siger Julie Gerlings og fortsætter:

»Det er sværere, når det er offentlige ressourcer og offentlige tid, der skal bruges. Der er også mere hierarki, fordi der skal være nogen, der giver lov til at tiden bliver brugt på den måde.«

Prøv DataTech gratis

DataTech giver dig ny viden, cases og erfaringer med at lykkes med AI og data science i praksis. Få 3 ugers gratis og uforpligtende prøveabonnement

Klik her
Julie Gerlings
Julie Gerlings
Illustration: Carve

Julie Gerlings er konsulent hos Carve Consulting, hvor hun blandt andet bygger og evaluerer forklarlige AI-modeller. Gerlings er samtidig ved at skrive sin ph.d. med fokus på XAI ved CBS.