Syntetiske sundhedsdata kan accelerere sikker dataadgang ved at kombinere bedre databeskyttelse med højere anvendelighed

Syntetiske data kan bruges som en privatlivsbeskyttende teknik uden de samme risici for reidentifikation som ved anonymiserede data. Kombineret med differential privacy giver metoden en meget høj beskyttelse, samtidig med at en høj anvendelighed bibeholdes, skriver aktører på området i dette synspunkt.
Brødtekst

Dette er andet synspunkt i en serie om syntetiske sundhedsdata fra en række aktører på området. Første synspunkt handler om potentialerne ved brug af syntetiske data. Dette synspunkt fokuserer på den tilknyttede jura. Næste synspunkt handler om syntetiske data som forudsætning for robuste og skalerbare AI-modeller.

Potentialet ved de nye privatlivsbeskyttende teknikker

Sundhedsvæsenet står overfor store og efterhånden velkendte udfordringer. Vi har en fælles opgave med at sikre et fortsat bæredygtigt sundhedsvæsen med høj kvalitet, arbejdsglæde, tidssvarende behandlingstilbud, lighed i sundhed – og ikke mindst forløb, der i højere grad reelt er på borgernes præmisser. Vi er overbeviste om, at en central løftestang herfor er udvikling af nye metoder og videreudvikling af eksisterende løsninger på dansk grund med danske forskere, klinikere, patienter, virksomheder og studerende i centrale roller. Det er i danske patienters interesse, at en del af udviklingen foregår i de danske miljøer – og Danmark har stadig noget særligt at komme med i kraft af vores sundhedsdata.

Men det kræver, at man kan tilgå og kombinere data på en sikker og forsvarlig måde. Privatlivsbeskyttende teknikker viser nye veje ud af det nuværende dødvande. Der er imidlertid behov for, at den juridiske fortolkning følger med. Artiklen forklarer, hvorfor syntetiske data til en række formål er et seriøst bud på en metode til generering af sikre datasæt med en høj grad af anonymisering og med højere datakvalitet, end det ses med konventionel anonymisering.

Syntetiske data kan både fungere som en accelerator (ved at få adgang til de syntetiske data med det samme og arbejde med dem, indtil man får de rigtige) og et egentligt alternativ (i situationer, hvor der slet ikke er brug for de rigtige data – fx i de første faser af et udviklingsforløb eller ved end-to-end-test). I vores næste artikel vil vi endvidere vise, at syntetiske data ikke kun er et alternativ, men i stigende grad bliver en forudsætning for at bygge robuste og skalerbare AI-modeller. Men der er behov for klarere juridiske rammer, både for syntetiske data og for de øvrige privatlivsbeskyttende teknikker. Og der er nok så væsentligt behov for at indsamle flere konkrete erfaringer på dansk grund med anvendeligheden af syntetiske sundhedsdata.

Konventionel anonymisering har fejlet

En af de store udfordringer for databaseret udvikling og forskning i sundhed er at sikre, at patienternes privatliv beskyttes. Det er vigtigt for patienternes fortsatte lyst til at dele data, at de forbliver anonyme. Tæt forbundet hermed er vigtigheden af, at borgernes tillid til håndteringen af deres oplysninger opretholdes. GDPR sætter ligesom den tidligere persondatalovgivning her et skarpt skel mellem 1) på den ene side rå eller pseudonymiserede data, der begge fortsat er omfattet af alle reglerne i GDPR, og 2) på den anden side anomymiserede data, der helt er undtaget fra reglerne.

Det paradoksale er her, at anonymiserede data ganske vist er undtaget regulering, men i praksis aldrig garanterer absolut anonymitet, da de ofte kan kombineres med andre datakilder og på den måde alligevel kobles tilbage til individet (Ohm 2010: Broken Promises of Privacy: Responding to the Surprising Failure of Anonymization | UCLA Law Review).

Selv »guldstandarden« k-anonymitet beskytter ikke altid mod reidentifikation (se faktaboks øverst). Men den juridiske fortolkning har ikke omstillet sig i kølvandet på erkendelsen af den konventionelle anonymiserings utilstrækkelighed. Dog har den europæiske databeskyttelsesrådgiver for nylig udtalt sig positivt om syntetiske data (Synthetic Data | European Data Protection Supervisor (europa.eu)).

Syntetiske data har højere anvendelighed, men savner en klar juridisk ramme

For at sikre borgernes privatliv er det i dag nødvendigt at bruge nye og anderledes metoder, der beskytter mod reidentifikation og begrænser, hvem der har adgang til de rå data. Federated learning, krypterede beregninger og syntetiske data er tre centrale privatlivsbeskyttende teknikker, som vinder hastigt frem i disse år. Vi har i denne og i den forrige artikel valgt at fokusere specifikt på potentialerne ved syntetiske sundhedsdata. I praksis vil vi dog se forskellige kombinationer af teknikkerne udspille sig hen over en udviklingslivscyklus.

Konvertering af ægte data til syntetiske data er en oplagt mulighed for at rense datasæt for personhenførbare parametre samtidig med, at sammenhænge og dermed værdien af data bevares. Privatlivsbeskyttelsesmæssigt brydes forbindelsen til de oprindelige individer, og man kan således få en høj datakvalitet uden de samme risici som ved konventionel anonymisering. Særligt når metoden kombineres med differential privacy (se faktaboks øverst) opnår man en stærk balance mellem beskyttelse og datakvalitet.

De offentlige dataejere kan med fordel anvende metoderne til at generere sikre datasæt, der kan stilles til rådighed for forskere, udviklere og studerende. Oplagte anvendelser er eksempelvis inden for accelereret hypoteseafprøvning, produktudvikling og test. Denne artikel er et forsøg på at lægge brikkerne til rette for at kunne danne den juridiske ramme, som sektoren kalder på.

Overholder det privatlivets fred: Hvilken dimensioner skal man vurdere?

Datasikkerhed og sikring af privat information har mange facetter og forudsætter andet end blot selve de datatransformeringer, der skaber anonymiserede data. Der findes forskellige rammeværktøjer til en samlet evaluering af datasikkerhed, hvor et af de fremherskende er The Five Safes, som bl.a. anvendes af datamyndigheder i Storbritannien, New Zealand og Australien.

The Five Safes tager udgangspunkt, i at man bør evaluere datadeling i fem dimensioner: projektet/anvendelsen, brugerne, opsætningen, data og resultatet. Projektet eller anvendelsen vurderes efter, om det er juridisk og etisk korrekt at bruge data til formålet; brugerne evalueres ud fra, om man kan stole på, at de vil bruge data i god tro; opsætningen omhandler de fysiske og operationelle sikkerhedsforanstaltninger, herunder om data analyseres i et sikkert og overvåget miljø, eller om de decideret udleveres. I denne artikel vil vi fokusere på de sidste to dimensioner og med afsæt i syntetiserede data illustrere, hvordan henholdsvis data og resultater kan vurderes ud fra risikoen for datalæk.

Konventionel anonymisering fungerer grundlæggende »subtraktivt«: Der fjernes information fra data, typisk gennem aggregering (fx fra et tal til et interval). Dette gælder også k-anonymitet (se faktaboks øverst). Syntetiske data tilbyder her et nyt og bedre kompromis mellem datasikkerhed og kvalitet.

Syntetiske data genereres af et machine learning-netværk, der aldrig ser de rigtige data

Som beskrevet i vores tidligere artikel, kan syntetiske data genereres ved at lade to machine learning-netværk (GANs) konkurrere mod hinanden. Det ene netværk skal ud fra tilfældig støj forsøge at lære, hvordan de ægte data er opbygget – og dermed »overbevise« det andet netværk, der som det eneste af de to har adgang til de rigtige data. Herved kan statistiske sammenhænge i det oprindelige datasæt over et højt antal iterationer efterlignes af det første netværk, men uden at det netværk nogensinde får en direkte forbindelse til de rigtige data. Metoden er meget fleksibel og kan bruges til næsten alle datatyper, også billeddata som røntgenbilleder og MR-skanninger. Dog har metoden forskellig modenhed alt efter typen af data.

For at skabe et syntetisk datasæt skal der være hjemmel til at processe de rigtige data. For eksempel kunne man forestille sig et scenarie, hvor man ønsker at kombinere en række registre og generere et samlet syntetisk datasæt på baggrund af de koblede data. Det syntetiske datasæt vil så kunne stilles hurtigere og mere fleksibelt til rådighed – og med en høj grad af beskyttelse, særligt hvis der også tilføjes differential privacy. Men selve dannelsen af det syntetiske datasæt forudsætter selvfølgelig, at der er hjemmel til at samkøre de pågældende registre.

Evaluering af risikoen for datalæk

Når man skal evaluere risikoen ved deling af et datasæt eller resultater, ser man primært på tre dimensioner: »singling out«, »linkability« og »inferens«:

  • Singling out dækker over, hvorvidt man ud fra datasættet direkte eller indirekte kan isolere et enkelt individ eller gruppe. Dette kan fx være gennem adresse, alder og køn.
  • Linkability dækker over muligheden for, at anden frit tilgængelig information kan sammenkobles med et anonymiseret datasæt, hvorved det bliver muligt at reidentificere eller udtrække sensitiv information om et individ. Her vil VIPs, såsom statsoverhoveder eller kendte, have større risiko, da der findes meget offentligt tilgængelig information om dem.
  • Inferens er den sidste dimension, som beskriver, hvorvidt man med statistisk sandsynlighed kan sige noget om et individ i det oprindelige datasæt.

Vi vil nedenfor beskrive, hvordan syntetiske data modsat konventionelle metoder til at anonymisere data eliminerer de to første risici. For syntetiske data er det således alene risikoen for inferens, som man i en juridisk privatlivsevaluering skal fokusere på.

Fra anonymisering af individer til anonymisering af en population

Syntetiske datapunkter er genereret ud fra en høj grad af tilfældighed og uden, at den generative model får adgang til de rigtige data. Dette betyder imidlertid, at datapunkter kan blive replikeret ved en tilfældighed. At lokalisere og fjerne data i det syntetiske datasæt, der enten er direkte replikeret eller »for« tæt på de oprindelige data, er dog let klaret med en simpel søgning.

Det er ikke et mål for syntetisk data direkte at replikere de ægte datapunkter. Syntetisk data kan i stedet forstås som en måde at anonymisere et helt datasæt på og ikke kun hvert enkelt individ i datasættet. Dette betyder, at syntetiseringen modsat konventionel anonymisering bryder koblingen til individerne i det rigtige datasæt og derfor gør singling out og linkability tæt på umuligt. Denne egenskab er både en af de største styrker og svagheder ved syntetiske data: På den ene side giver det gode garantier for privatlivsbeskyttelse, men på den anden side gør det af samme grund det tæt på umuligt at sammenkoble personers data i to eller flere syntetiske datasæt.

Risikoen for inferens og håndtering af outliers

Syntetisk data indebærer en vis risiko for statistisk at afdække (kunne inferere), om et individ er i datasættet, eller om noget sensitiv information med stor sandsynlighed tilhører et bestemt individ. Forskellen her er dog, at syntetisk data har en langt større mængde af tilfældighed og er baseret på at efterligne de statistiske sammenhænge i en hel population, og ikke for de enkelte individer. Datasættet bør dog altid for en sikkerheds skyld tjekkes for duplikater.

Genereringen af syntetiske data efterligner de statistiske sammenhænge i en population, så grundlaget for hypoteseafprøvning og innovation er til stede. Men det betyder også, at outliers og sjældne kombinationer giver en større risiko for inferens – medmindre man i databearbejdningen som sikkerhedsforanstaltning vælger systematisk at fjerne disse. Lad os illustrere denne risiko med en mand på 50 år, som bor i Læsø Kommune (landets indbyggermæssigt mindste kommune) og har en sjælden diagnose.

Hvis det syntetiske datasæt efterligner denne kombination, vil man ud fra disse tre datapunkter med en vis sandsynlighed kunne identificere manden. Hvis man derimod ændrer hans alder en smule og placerer ham i en anden kommune, er sandsynligheden for inferens mindsket. Dette kan dog så skabe en situation, hvor vi replikerer en anden person end det føromtalte individ. Derfor vil man som supplement lave en statistisk test, der vurderer sandsynligheden for, at et rigtigt individ er en del af det syntetiske datasæt. Hvis sandsynligheden overstiger en fastsat grænseværdi, kan datapunktet fjernes for at sikre anonymisering.

Risikoen for inferens er som beskrevet ovenfor størst for outliers og sjældne datapunkter – som man følgelig kan vælge at fjerne. Derfor kan syntetiske data være udfordret til brug for forskning i sjældne sygdomme. Men det er i mange scenarier slet ikke nødvendigt at kunne bruge sjældne datapunkter. Udforskningen af statistisk valide sammenhænge fokuserer på, om data indgår i et mønster.

Behovet for klare juridiske rammer og praktiske erfaringer i større skala

Syntetiske data er ingen silver bullet, men det er dog et væsentligt fremskridt for en række anvendelsesscenarier og repræsenterer en metode, der delvist afbøder det klassiske trade-off mellem brugbarhed og privatlivsbeskyttelse. Syntetiske data vil aldrig være lige så anvendelige som de rigtige data – men det er heller ikke pointen. Pointen er derimod at muliggøre en række anvendelsesscenarier, der i dag er enten er umulige eller meget tidskrævende. Alene potentialet for studerende og udviklere er markant.

Som fremhævet i en nylig juridisk gennemgang i Stanford Technology Law Review (Bellovin et al. 2019) har den nuværende regulering tendens til enten at over- eller underbeskytte privatlivet (alt efter den binære vurdering af, om en teknik regnes som anonymisering eller ej). Artiklen konkluderer, at syntetisering såvel sikkerheds- som anvendelsesmæssigt er bedre end konventionel anonymisering, samtidig med at syntetisk datagenerering i kombination med differential privacy giver en særligt robust privatlivsbeskyttelse.

Forfatterne til artiklen anbefaler, at datareguleringen i langt højere grad tager udgangspunkt i den konventionelle anonymiserings utilstrækkelighed og anvender de muligheder for sikker datadeling, som de nye metoder (fx syntetiske data) giver – herunder at risikoen gøres målbar, og at der derved etableres et langt mere validt grundlag for en risikovurdering end det, som ligger til grund for nutidens praksis (jf. også Cohen & Nissim 2020, som advokerer for at bringe den juridiske risikovurdering tættere på den teknisk-matematiske).

Der er et stort potentiale for at bruge syntetiske data til at udvikle nye paradigmer for sikker dataanvendelse i det danske sundhedsvæsen (i praksis i kombination med andre teknikker). Gjort rigtigt og med de rette forholdsregler er det en bedre metode end de nuværende anonymiseringsmetoder. Men feltet for privatlivsbeskyttende teknikker er hverken regulatorisk eller forretningsmæssigt modent.

Der er behov, for at aktørerne i det danske sundhedsdataøkosystem får konkrete erfaringer med muligheder og begrænsninger. Den første forudsætning herfor er, at sektoren får hjælp til at få klarlagt de juridiske rammer for at anvende de forskellige privatlivsbeskyttende teknikker. Dette sker ikke af sig selv og kræver nok et centralt forankret »isbryderprojekt« med en trinvis fremgang og løbende evaluering. Vi håber, at vi med denne artikel har givet juristerne et grundlag for at kunne definere rammen for et sådant projekt. Vi ser ikke, at GDPR er nogen hindring herfor. Vi noterer også, at EUs databeskyttelsesrådgiver for nylig selv har været på banen med en præliminær vurdering af syntetiske data, ligesom de engelske sundhedsmyndigheder med Simulacrum har tilgængeliggjort syntetiske cancerdatasæt.

Anvendelse af syntetiske data kan bringe Danmark helt i front

Syntetiske data giver mulighed for at arbejde sikkert med data, der ellers ikke ville kunne anvendes til analyse eller udvikling af nye behandlingsmetoder. Vi vil gerne invitere parterne omkring digitaliseringspartnerskabet og life science-strategien til at tage handsken op og være med til igen at sætte Danmark i front som et både progressivt og samvittighedsfuldt land. Betingelserne er til stede for at tage et spring fremad mod et nyt paradigme for sikker datadeling. Det er også i Danmarks egen interesse, at teknikker og platforme udvikles og modnes hos os selv, hvilende på vores tradition for privatlivsbeskyttelse og udvikling med både offentlighedens og individets hensyn for øje.

I næste afsnit af denne serie vil vi komme dybere ind på syntetiske data som forudsætning for robuste og skalerbare AI-modeller.

Prøv DataTech gratis

DataTech giver dig ny viden, cases og erfaringer med at lykkes med AI og data science i praksis. Få 3 ugers gratis og uforpligtende prøveabonnement

Klik her
Differential privacy

Differential privacy tilføjer et ekstra lag af tilfældighed i data og giver dermed et ekstra niveau af privacy-beskyttelse.

Hvis man vil minimere risikoen for inferens yderligere, vil det således være fornuftigt at kombinere syntetisk data med differential privacy, hvilket samlet set vil give meget robuste garantier for privatlivsbeskyttelse. Jo mere tilfældighed og støj tilføjet, des større privatlivsbeskyttelse, men dog samtidig også på bekostning af anvendeligheden. Så selvom syntetiske data viser en tredje vej, kan man aldrig helt undslippe trade-off’et mellem risiko og anvendelighed.

Men man kan gøre det langt bedre og mere sikkert end i dag, samt tillige på et mere oplyst grundlag i form af en direkte målbar beskyttelse. Absolut anonymisering findes dog ikke uden helt at ofre anvendeligheden (ren støj).

Derfor er det fortsat essentielt at finde den rigtige balance og vurdere hvilken risiko, man vil tillade - og dermed hvilke tærskelværdier, der skal sættes for differential privacy. Konkret vil man forventeligt sætte tærsklen forskelligt, alt efter om data decideret udleveres eller om det analyseres i et sikkert og overvåget miljø.

K-anonymitet

K-anonymitet er en målbar teknik, der vandt frem i slut-90’erne og bruges til at aggregere data, så individets identitet skjules i en mindre gruppe af lignende personer - hvor "k" dækker over gruppens minimumsstørrelse (fx hvis den mindste gruppering er 5 individer med samme personhenførbare attributter, er det 5-anonymt).

Dette resulterer ofte i en signifikant forringet datakvalitet og giver derfor et dårligt udgangspunkt for forskning i sammenhænge.

Samtidig består risikoen for datalæk, dels fordi aggregeringen ikke fjerner muligheden for reidentifikation ved at kombinere med andre parametre, og dels fordi denne proces modsat syntetisering og differential privacy ikke indeholder nogen tilfældighed. K-anonymitet benyttes fortsat som målestok for tilstrækkelig anonymisering, selvom det er påvist, at metoden ikke forhindrer læk af sensitive informationer (Cohen & Nissim 2020: https://www.pnas.org/content/117/15/8344).