Sådan udnytter I mulighederne med privacy-preserving AI

Brødtekst

Kunstig intelligens giver virksomheder nye muligheder for at bruge de data, de har om deres forretning til at generere nye indsigter og til at automatisere processer. Men i mange situationer er det ikke muligt at udnytte de data, som en virksomhed eller organisation ligger inde med. Enten fordi det drejer sig om personfølsomt data, eller fordi de data, virksomheden har, er mangelfulde.

Det kan være, at man som virksomhed gerne vil arbejde med maskinlæring men mangler træningsdata til at gøre det. Det kan også være virksomheder, der ejer data, som de godt vil bruge sammen med andre virksomheder, men de hverken kan eller må dele disse data. 

I ovenstående situationer findes der teknologier, der alligevel gør det muligt at udnytte data til AI. Det gælder metoder som fx differential privacy, homomorphic encryption, brug af syntetisk data, federated learning og secure multiparty computation.

Begrebet hedder privacy-preserving AI og er med til at sikre, at man bevarer privacy i personfølsomme data.

Hvad vil I beskytte?

Det første, man skal overveje, er, hvad man vil beskytte. Når man ved det, skal man overveje, hvordan man vil gøre det, og derefter kan man se på, hvilke løsninger der findes.

Der findes forskellige slags privacy, herunder training data privacy og input-output data privacy. I training data privacy har man noget træningsdata, hvor der indgår persondata, som man vil beskytte. 

I forhold til input-output data privacy handler det ikke om individer, man vil beskytte, men om, at man vil beskytte hele datasættet. For at løse det skal man have fat i teknikker som multiparty computation, som gør det muligt at regne på krypterede data. 

Det kan også være, at man skal have fat i en teknik, der hedder federated learning, hvor man træner AI-modellen lokalt.

Setuppet afgør, hvilke teknikker du skal bruge

Privacy-preserving AI dækker over mange teknikker, der beskytter på forskellige måder. Desuden afgør valget af teknik, hvilket scenarie du arbejder i.

I forhold til input-output privacy kan det handle om, at man har to datakilder, som har forskellig data om de samme individer. Her kan en virksomhed være interesseret i at træne en AI-model eller lave noget statistik på baggrund af de kombinerede datasæt. Men virksomheden hverken kan eller må kombinere data i det åbne af hensyn til forretning eller privacy.

Det er vi er i gang i med et projekt, der hedder HEDAX, der er støttet af Innovationsfonden. I en af casene er datakilderne Danmarks Statistik og Sundhedsdatastyrelsen, og her prøver man at lave analyser på baggrund af sundhedsdata og socioøkonomisk data, uden at datakilderne nogensinde ser hinandens data. Det er en måde, du kan gribe det an på.

AI-modellerne bliver trænet lokalt

En anden teknik er federated learning, som kort handler om træning af en model på flere datasæt. Her trænes flere “små” modeller på lokale datasæt. De “små” modeller samles så efterfølgende til den endelige model i stedet for at samle data hos én part.

Det er en metode, som vi har prøvet af i EU-forskningsprojektet SODA. Her har vi forsket i, hvordan man kan anvende følsomme data fra flere dataarkiver, uden at man går på kompromis med sikkerheden.

Federated learning bliver også brugt – og er gjort populært – af Google i en løsning, der hedder J-board. Teknikken bliver brugt, når du skriver noget på en Android-telefon. Her er det AI, der, på baggrund af hvad du har skrevet, prøver at forudsige, hvad du vil skrive som det næste. 

Det kræver en masse data. En måde at gøre det på er at samle alle sms’er, som Android-brugere har skrevet gennem mange år. Det er selv for Google en stor mundfuld, og det går ud over brugernes privacy. Derfor har Google trænet en AI-model lokalt på brugernes telefoner og derefter kombineret data centralt, så data om hvad man skriver ikke forlader telefonerne. Det er AI, der korrigerer i forhold til brugernes data, og dermed får man en bedre model.

I vores projekt kombinerede vi nogle af teknologierne, herunder federated learning og multiparty computation, og det er nok sådan, man ofte vil gøre. Med vores eksempel  fandt vi ud af, at over tid kommer man til noget, der er meget tæt på det, man ellers ville opnå, hvis man havde træningsdata samlet, men det tager en smule længere tid.

Se hele oplægget her https://tv.di.dk/live/63923503/f1c9d7ccbd01e146ff78/room