Når kunstig intelligens og databeskyttelse skal gå hånd i hånd

Brødtekst

Kunstig intelligens rummer et enormt potentiale, og med reformen 'Digital service i verdensklasse' fra efteråret 2018 satte regeringen en klar retning for ambitionerne i det offentlige. Vi oplever netop nu en stor interesse for brug af kunstig intelligens fra offentlige myndigheder, særligt inden for tre områder:

Intelligent risikobaseret kontrol, hvor machine learning f.eks. kan bruges til at skabe en prædiktiv model for en typisk 'snyder', som vil udnytte systemet. Fuldautomatiske afgørelser og beslutningsstøtte, hvor modellen kan hjælpe med at lave udkast til afgørelser og foreslå den rette løsning for borgeren. Og individualiseret vejledning, hvor man gerne vil udnytte muligheden for at målrette kommunikation til borgere og virksomheder baseret på deres tidligere adfærdsdata (profilering).

Privacy by design sætter rammen

Med forordningen sidste år kom der krav om, at du som dataansvarlig ikke blot skal overholde reglerne om databeskyttelse, men også skal kunne dokumentere, hvordan du gør det (princippet om ansvarlighed). Så før alt andet så er der et grundarbejde, der skal gøres. Den retlige ramme er kravet om privacy by design, som betyder, at databeskyttelse skal tænkes ind fra start og gennem hele udviklingsforløbet og i driftsfasen – på en dokumenterbar måde.

Da AI-løsninger udgør ny teknologi og ofte indebærer behandling af store datasæt og profilering af de registrerede, skal du også udarbejde en konsekvensanalyse, hvor du bl.a. skal identificere de væsentligste risici forbundet med behandlingen af personoplysninger og beskrive, hvordan du vil nedbringe eller fjerne risiciene. Det er afgørende at få tænkt en sådan forudgående analyse ind i projektplanen fra start i et udviklingsforløb, da det ofte er en tidskrævende øvelse.

Data er ikke et tag selv-bord

Når vi taler med data scientists, så oplever vi en naturlig iver for at kaste sig over databuffeten i et datawarehouse. Men tilgængelige data er ikke nødvendigvis data, man retligt må bruge. Der er flere aspekter at være opmærksom på her. For det første skal du have hjemmel til at behandle personoplysninger ved både udvikling og anvendelse af en AI-model.

Der skal altså være et retligt grundlag for at behandle de personoplysninger, du gerne vil – og til det formål, du gerne vil. Faktisk ser vi, at offentlige myndigheder i stigende omfang tager lovgivningsmuligheden i brug og dermed nøje regulerer grundlaget for deres AI-løsning. Som et eksempel kan nævnes Erhvervsstyrelsens lov om behandling af data i styrelsens snydbekæmpelsesmodel.

Det er enormt vigtigt at være opmærksom på, at den data, du f.eks. bruger til at træne din AI-model, også er retligt tilgængelig, når modellen skal implementeres og anvendes. Hvis ikke, vil en stor del af arbejdet med at træne AI-modellen i værste fald være spildt, når modellen rammer virkeligheden.

Retfærdighed, dataminimering og transparens

Derudover er det vigtigt at være opmærksom på databeskyttelsesrettens grundlæggende principper for behandling af personoplysninger – dens grundlov, om man vil. Blandt de vigtigste er i denne sammenhæng retfærdighed, dataminimering og transparens.

Modellen må ikke føre til ulovlig forskelsbehandling. Data, som fødes ind i modellen, afgør, hvad der kommer ud i den anden ende: garbage in, garbage out. Derfor skal der være et stærkt fokus på at få luget biases ud, f.eks. gennem løbende tests, ligesom vi ofte anbefaler vores kunder at alliere sig med kompetente data scientists og faglige fyrtårne med domænekendskab. Et ofte fremhævet skræmmeeksempel er den amerikanske COMPAS-algoritme til forudsigelse af recidivitet blandt kriminelle ved prøveløsladelse, der blev kritiseret for at være racistisk, fordi den var mere tilbøjelig til at udpege afroamerikanere som fremtidige lovovertrædere.

Data skal bruges ud fra en 'need to have' - og ikke 'nice to have'-tankegang. Data er grundpræmissen for at skabe intelligente løsninger, så hvornår er nok data nok? Dataminimering kan være en svær størrelse at operere med i praksis. Her kan f.eks. brug af læringskurver, hvor du laver trinvise tests af prædiktionsevnen for en model, være en brugbar metode til at vurdere, hvornår du har data nok i forhold til formålet.

Den intelligente løsning må ikke være en black box. Vi skal kunne forklare, hvad der sker inde i computeren (transparens). Og det er der flere grunde til. For det første så kan vi lære af maskinen. Lægen vil f.eks. gerne vide, hvorfor der blev fundet hudkræft på ét billede, men ikke et andet – vi kan rent faktisk blive klogere af de mønstre og sammenhænge, som algoritmerne åbenbarer. For det andet skal vi have kendskab til systemets funktionalitet for ikke at gøre os sårbare over for leverandører, der sidder med al viden om systemet. For det tredje skal vi sikre systemtransparens over for f.eks. Ombudsmanden og kunne forklare Datatilsynet, hvordan vores model virker, når systemet skal kontrolleres. Og sidst, men ikke mindst så skal vi kunne forklare borgeren logikken i vores system. Dette er særligt vigtigt ved fuldautomatiske afgørelser, hvor borgeren, som sidder i den anden ende af en 'AI-robotbeslutning', med rette vil spørge: 'Hvorfor fik jeg egentlig afslag her?'.

Dataetik er centralt

Data er magt, og med magt følger stort ansvar. Vores fokus hos Kammeradvokaten er at sikre, at vores kunders projekter overholder reglerne.

Regler, som giver os alle et pejlemærke for, hvordan vi intelligent kan udnytte en stadigt stigende mængde tilgængelige data, og ikke mindst: hvor grænsen går. For selvfølgelig skal vi udnytte potentialerne i kunstig intelligens, men det skal ske på en ordentlig måde.