Syntetiske sundhedsdata kan accelerere sikker dataadgang ved at kombinere bedre databeskyttelse med højere anvendelighed

Syntetiske data kan bruges som en privatlivsbeskyttende teknik uden de samme risici for reidentifikation som ved anonymiserede data. Kombineret med differential privacy giver metoden en meget høj beskyttelse, samtidig med at en høj anvendelighed bibeholdes, skriver aktører på området i dette synspunkt.
Dette er andet synspunkt i en serie om syntetiske sundhedsdata fra en række aktører på området. Første synspunkt handler om potentialerne ved brug af syntetiske data. Dette synspunkt fokuserer på den tilknyttede jura. Næste synspunkt handler om syntetiske data som forudsætning for robuste og skalerbare AI-modeller.
Få fuld adgang til DigiTech?
DigiTech er målrettet professionelle, der arbejder med offentlige it- og digitaliseringsprojekter. Både på kunde- og leverandørsiden.
Prøv DigiTech

Få 3 ugers gratis og uforpligtende prøveabonnement

Klik her
Differential privacy

Differential privacy tilføjer et ekstra lag af tilfældighed i data og giver dermed et ekstra niveau af privacy-beskyttelse.

Hvis man vil minimere risikoen for inferens yderligere, vil det således være fornuftigt at kombinere syntetisk data med differential privacy, hvilket samlet set vil give meget robuste garantier for privatlivsbeskyttelse. Jo mere tilfældighed og støj tilføjet, des større privatlivsbeskyttelse, men dog samtidig også på bekostning af anvendeligheden. Så selvom syntetiske data viser en tredje vej, kan man aldrig helt undslippe trade-off’et mellem risiko og anvendelighed.

Men man kan gøre det langt bedre og mere sikkert end i dag, samt tillige på et mere oplyst grundlag i form af en direkte målbar beskyttelse. Absolut anonymisering findes dog ikke uden helt at ofre anvendeligheden (ren støj).

Derfor er det fortsat essentielt at finde den rigtige balance og vurdere hvilken risiko, man vil tillade - og dermed hvilke tærskelværdier, der skal sættes for differential privacy. Konkret vil man forventeligt sætte tærsklen forskelligt, alt efter om data decideret udleveres eller om det analyseres i et sikkert og overvåget miljø.

K-anonymitet

K-anonymitet er en målbar teknik, der vandt frem i slut-90’erne og bruges til at aggregere data, så individets identitet skjules i en mindre gruppe af lignende personer - hvor "k" dækker over gruppens minimumsstørrelse (fx hvis den mindste gruppering er 5 individer med samme personhenførbare attributter, er det 5-anonymt).

Dette resulterer ofte i en signifikant forringet datakvalitet og giver derfor et dårligt udgangspunkt for forskning i sammenhænge.

Samtidig består risikoen for datalæk, dels fordi aggregeringen ikke fjerner muligheden for reidentifikation ved at kombinere med andre parametre, og dels fordi denne proces modsat syntetisering og differential privacy ikke indeholder nogen tilfældighed. K-anonymitet benyttes fortsat som målestok for tilstrækkelig anonymisering, selvom det er påvist, at metoden ikke forhindrer læk af sensitive informationer (Cohen & Nissim 2020: https://www.pnas.org/content/117/15/8344).