Dataminimering og privacy-bevarende teknikker i AI-systemer

I dette synspunkt giver Valeria Gallo, Technology Policy Adviser, og Reuben Binns, Research Fellow in Artificial Intelligence (AI), ved Information Commissioner’s Office, UK deres bud på, hvordan man overholder 'minimeringsprincippet, når man arbejder med AI.
Brødtekst

Generelt kræver AI-systemer store mængder data. Men organisationer skal også overholde ‘minimeringsprincippet’ under databeskyttelseslovgivningen, hvis de bruger personlige data. Det betyder, at de skal sikre, at alle personlige data er tilstrækkelige, relevante og begrænset til det, der er nødvendigt til det formål, de processeres til.

Hvad der er tilstrækkeligt, relevant og nødvendigt i relation til AI-systemer vil afhænge af use-casen. Der er dog flere teknikker, som organisationer kan benytte sig af i udviklingen af AI-systemer, der processerer så få personlige data som muligt, men stadig er funktionelle.

I dette blogindlæg ser vi på nogle af de mest relevante teknikker til superviserede machine learning (ML)-systemer, som i øjeblikket er den mest brugte type AI.

Internt i en organisation bliver de personer, der er ansvarlige for risikohåndtering og compliance, når det gælder AI-systemer, nødt til at være opmærksomme på, at sådanne teknikker eksisterer, og de skal kunne diskutere forskellige tilgange med deres tekniske medarbejdere. Default-tilgangen, som data scientists har, når de designer og bygger AI-systemer, betyder, at de ikke nødvendigvis vil tage dataminimeringsbegrænsninger i betragtning.

Organisationer skal derfor have praksisser relateret til risikohåndtering på plads for at sikre, at dataminimeringskrav og alle relevante minimeringsteknikker er indtænkt fra designfasen eller - hvis AI-systemerne købes eller opereres af tredjeparter - som en del af den rettidige omhu i indkøbsprocessen.

Men dataminimeringsteknikker vil ikke helt udrydde risici. Og mens nogle teknikker ikke vil kræve kompromiser for at levere dataminimeringsfordele, så vil andre kræve, at organisationer balancerer dataminimering med anden compliance eller brugsmål, f.eks. at lave mere nøjagtige og ikke-diskriminerende ML-modeller.

Det første skridt, organisationer bør tage mod overholdelse af dataminimering, er at forstå og kortlægge alle de ML-processer, i hvilke personlige data kan blive brugt.

Sådan bruges personlige data i ML-modeller

Superviserede ML-algoritmer kan trænes til at identificere mønstre og skabe modeller ud fra datasæt (‘træningsdata’), hvilket inkluderer tidligere eksempler på den type tilfælde, modellen vil blive bedt om at klassificere eller forudsige. Specifikt indeholder træningsdataene både ‘mål-variablen’, altså det, som modellen stiler mod at forudsige eller klassificere, og forskellige ‘forudsigelses’-variabler, f.eks. det input, der bruges til at lave forudsigelsen.

For eksempel kan forudsigelsesvariablen i træningsdataene for en banks ML-model om kreditrisiko inkludere alderen, indkomsten, stillingen og lokationen for forskellige kunder, mens målvariablen er, om kunderne tilbagebetalte deres lån eller ej.

Når ML-systemerne først er trænet, kan de klassificere og lave forudsigelser baseret på nye data, der indeholder eksempler, som systemet aldrig har set før. En forespørgsel (query) bliver sendt til ML-modellen, og den indeholder forudsigelsevariablerne for et nyt tilfælde (f.eks. en ny kundes alders, indkomst, stilling mv.) Modellen svarer med sit bedste gæt mht. målvariablen for dette nye tilfælde (f.eks. om kunden vil tilbagebetale sit lån).

Superviserede ML-tilgange bruger derfor data i to hovedfaser:

Træningsfasen, hvor data bruges til at udvikle modeller baseret på tidligere eksempler; og
Følgeslutningsfasen, hvor modellen bruges til at lave en forudsigelse eller klassificering af nye tilfælde

Hvis modellen bruges til at lave forudsigelser eller klassificeringer af individer, så er det meget sandsynligt, at personlige data vil blive brugt i både trænings- og følgeslutningsfasen.

Teknikker til at minimere personlige data

Når data scientists designer og bygger ML-applikationer, vil de generelt formode, at al data, der bruges i træningen, testen og operationen af systemet, vil være indsamlet centralt og beholdt i sin fulde og originale form af en enkelt enhed gennem hele AI’ens livscyklus.

Men der er faktisk forskellige tilgange og flere teknikker, som kan bruges i stedet, og som minimerer den mængde data, en organisation har brug for for at indsamle og processere, eller minimerer, i hvor høj grad dataene er identificerbare i forhold til bestemte individer.

Dataminimering i træningsfasen

Udvalg af oplysninger

Som vi har forklaret, involverer træningsfasen en læringsalgoritme til et datasæt, der indeholder et sæt oplysninger (‘features’) for hvert individ, som bruges til at generere forudsigelsen eller klassificeringen.

Men ikke alle oplysninger inkluderet i et datasæt vil nødvendigvis være relevante for opgaven. For eksempel vil ikke alle finansielle og økonomiske oplysninger være brugbare i forhold til at forudsige en kreditrisiko.

Der er flere forskellige standardmetoder til at udvælge oplysninger, som data scientists bruger til at vælge oplysninger, som vil være brugbare at inkludere i en model. Disse metoder er ‘good practice’ i data science, men er også i nogen grad et skridt på vejen til at overholde dataminimeringsprincippet.

Som man kan læse i en tidligere rapport (PDF) fra ICO (Information Commissioner’s Office, den britiske databeskyttelsesvagthund, red.) om AI og big data, er det faktum, at nogle data senere i processen kan vise sig brugbare til at lave forudsigelser, ikke nok til at fastslå nødvendigheden af det aktuelle formål, og det retfærdiggør heller ikke med bagudvirkende kraft indsamling, brug eller lagring af data.

Privacy-bevarende metoder

Der er også flere teknikker, som bevarer privacy, og som kan bruges til at minimere dataprocessering i træningsfasen.

Nogle af disse teknikker involverer modificering af træningsdataene for at reducere, i hvor høj grad de kan spores tilbage til specifikke individer, mens de stadig er brugbare i forhold til at træne velpræsterende modeller.

Dette kunne f.eks. involvere tilfældig ændring af datapunkters værdi - det kendes også som ‘forstyrrelse’ af data eller at føje ‘støj’ til data - på en måde, der bevarer nogle af disse oplysningers statistiske egenskaber (se f.eks. Rappor-algoritmen).

Disse typer privacy-bevarende teknikker kan anvendes på træningsdataene, efter de allerede er blevet indsamlet. Men når det er muligt, bør de anvendes før indsamlingen af personlige data for at undgå, at der overhovedet skabes store personlige datasæt.

For eksempel er automatiske tekstforudsigelser i smartphones baseret på de ord, brugeren tidligere har skrevet. Frem for altid at indsamle en brugers faktiske tastaturtryk kunne systemet designes til at skabe ‘støjende’, altså falske ord, tilfældigt.

Dette ville betyde, at en organisation ikke ville kunne være sikker på, hvilke ord der var ‘støj’, og hvilke der faktisk blev skrevet af en specifik bruger. Selv om data ville være mindre nøjagtige på individniveau, kunne mønstre stadig opfanges og brugt til at træne ML’er på indsamlingsniveau.

Hvor effektive disse privacy-bevarende teknikker er, når det gælder balancen mellem individers privatliv og brugbarheden af et ML-system, kan måles matematisk ved at bruge en metode som ‘differential privacy’. Det er en måde, hvorpå man kan måle, om en model skabt af en ML-algoritme er afhængig af dataene for ethvert individ, der bruges til at træne det.

En relateret privacy-bevarende teknik er ‘federated learning’ (forbundet læring). Dette gør det muligt, at flere forskellige parter træner deres modeller på deres egne data (‘lokale’ modeller) og så kombinerer nogle af de mønstre, som disse modeller har identificeret (kendt som ‘gradienter’), til en enkelt, mere nøjagtig ‘global’ model uden at skulle dele træningsdata med hinanden.

Federated learning er ret nyt og har flere storskala-egenskaber. Disse inkluderer automatisk rettelse og tekstforudsigelser i smartphones, men også i forhold til medicinsk forskning, der involverer analyser på tværs af flere patientdatabaser.

Mens det at dele gradienten, der er opnået med en lokalt trænet model, betyder en lavere privacy-risiko end at dele selve træningsdataene, kan en gradient stadig afsløre personlig information relateret til dataobjekterne, den kom fra, især hvis modellen er kompleks med en masse finkornede variabler.

Data controllere vil derfor stadig skulle vurdere risikoen for re-identificering. Ved federated learning vil deltagende organisationer højst sandsynligt bliver anset som værende fælles data controllers, selv om de ikke har adgang til hinandens data.

Minimering af personlige data på følgeslutningsstadiet

For at lave en forudsigelse om eller klassificering af et individ behøver ML- modeller sædvanligvis et fuldt sæt forudsigelsesvariabler for personen, der skal være med i forespørgslen. Ligesom i træningsfasen er der flere forskellige teknikker, som kan bruges til at minimere data på følgeslutningsstadiet. Her dækker vi et par af de mest lovende tilgange.

Konvertering af data til mindre let forståelige (‘human readable’) formater

I mange tilfælde kan processen med at konvertere data til et format, hvor de kan klassificeres af en model, bringe dem flere skridt på vejen mod at minimere dem. Rå personlige data vil som oftest først skulle konverteres til et mere abstrakt format, hvis der skal forudsiges på dem.

For eksempel ville letforståelige ord normalt blive oversat til en serie tal (kaldet en ‘feature vector’). Dette betyder, at organisationen, der benytter sig af en AI-model, måske ikke behøver at processere den for mennesker forståelige version af de personlige data indeholdt i forespørgslen, for eksempel hvis konverteringen sker på brugerens enhed.

Men det faktum, at det ikke længere er let forståeligt af mennesker, betyder ikke, at de konverterede data ikke længere er personlige. Tænk bare på ansigtsgenkendelsesteknologi, Facial Recognition Technology (FRT). For at en ansigtsgenkendelsesteknologimodel skal fungere, skal digitale billeder af ansigterne, der klassificeres, konverteres til ‘ansigtsaftryk’. Dette er de matematiske repræsentationer af de geometriske egenskaber, som de underliggende ansigter har - f.eks. afstanden mellem en persons næse og overlæbe.

Frem for at sende selve ansigtsbillederne til en organisations server kunne fotos blive konverteret til ansigtsaftryk direkte på enheden, som tager billederne, før de sendes til modellen med henblik på en forespørgsel. Disse ansigtsaftryk kunne være mindre henførbare til en bestemt person end ansigtsfotos. Men ansigtsaftrykkene er stadig personlige (faktisk biometriske) data og derfor i høj grad identificerbare inden for konteksten af de ansigtsgenkendelsesmodeller, der bruger dem.

Lokalt skabte følgeslutninger

En anden metode til at undgå risiciene involveret i deling af forudsigelsesvariabler er at hoste modellen på den enhed, forespørgslen er genereret på, og som allerede indsamler og lagrer dataobjektets personlige data. For eksempel kunne en ML-model installeres på brugerens egen enhed og lave følgeslutninger ‘lokalt’ frem for at blive hosted på en cloud-server.

Eksempelvis kunne modellerne, der skal forudsige, hvilke annoncer en bruger kunne være interesseret i, køres lokalt på brugerens smartphone (se PrivAd og MobiAd for proof of concept-eksempler). Når en annonceringsmulighed opstod, kunne flere forskellige annoncer blive afsendt fra et annoncenetværk, og den lokale model kunne udvælge den mest relevante at vise brugeren uden at afsløre brugerens faktiske personlige vaner eller profilinformation for annoncørerne.

Begrænsningen er, at ML-modeller bliver nødt til at være tilstrækkeligt små og computermæssigt effektive nok til at køre på brugerens egen hardware. Den nylige udvikling inden for specialbygget hardware til smartphones og indlejrede enheder betyder, at dette er en mere og mere gennemførlig mulighed.

Det er vigtigt at gøre opmærksom på, at lokal processering ikke nødvendigvis er uden for databeskyttelseslovgivningens område. Selv hvis den personlige data involveret i træningen processeres på brugerens egen enhed, så vil organisationen, som skaber og distribuerer modellen, stadig være data controller, idet de bestemmer, hvordan processeringen skal foregå og med hvilket formål.

Privacy-bevarende forespørgselstilgange

Hvis det ikke er muligt at anvende modellen lokalt, eksisterer der andre privacy-bevarende teknikker [1], der kan minimere de data, der afsløres i en forespørgsel sendt til en ML-model (se f.eks. TAPAS). Disse tillader, at en af parterne henter en forudsigelse eller klassificering uden at afsløre al denne information til parten, der kører modellen. Kort og godt: De tillader, at du får et svar uden helt at behøve at afsløre dit spørgsmål.

Anonymisering

Der er konceptuelle og tekniske ligheder mellem dataminimering og anonymisering. I visse tilfælde betyder brugen af privacy-bevarende teknikker, at nogle data brugt i ML-systemer bliver pseudonyme eller anonyme. ICO’s Anonymisation Code of Practice kan give organisationer information om disse koncepter. ICO er også i øjeblikket i gang med at udvikle nye opdaterede guides om anonymisering, der skal medtage nylige udviklinger og teknikker på dette område.

[1] Du kan finde et overblik over disse i kapitel 11 af 'The Algorithmic Foundations of Differential Privacy' (PDF).

 

Blogindlægget blev oprindeligt publiceret på ico.org.uk.