Syntetiske data skal hjælpe danske studerende ud af GDPR-begrænsninger

Foto : Bigstock/MchlSkhrv

Syntetiske data skal hjælpe danske studerende ud af GDPR-begrænsninger

De danske universiteter er gået i gang med at opbygge en ‘sandkasse’ af syntetiske patientdata, som studerende kan øve sig på uden at komme i konflikt med GDPR.

Skal vi blive stærke inden for præcisionsmedicin, skal vi være gode til at drage konklusioner ud af de mange sundhedsdata, der bliver til hver eneste dag. Og det kræver mange hjerner, der er skarpe på datavidenskab.

Men GDPR og andre etiske regler og retningslinjer kan gøre det bøvlet at få adgang til patientdata at øve sig på, så forskere fra de største danske universiteter er nu gået sammen om at få opbygget et GDPR-frit legeland af ikke-sensitive data til træning. Det fortæller Jennifer Bartell, som er koordinator af projektet på Københavns Universitet.

»Ideen er at skabe et understøttende og sikkert miljø, hvor studerende og forskere kan øve sig i at håndtere patientdata, men i første omgang i en ikke-sensitiv form,« siger hun.

Projektet bliver derfor kaldt ‘sandkasseprojektet’, da det netop skal tjene som en sikker legeplads for de studerende, hvor de i ro og mag kan blive klogere på, hvilke typer modeller og bioinformatikværktøjer der passer til hvilke type projekter.

»Det kan være, at en studerende vil finde den bedste model til at undersøge, hvordan en sygdom spreder sig. Så vil man her kunne testkøre nogle stykker med relevante data uden først at skulle søge adgang til personfølsomme patientdata og måske også være nødt til at sidde ude på hospitalet og tilgå dem inden for de lukkede systemer, fortæller Anders Krogh.

Han er professor og leder af Københavns Universitets Center for Heath Data Science samt den overordnede leder af sandkasseprojektet, som han er blevet tildelt 18 mio. kr. til af Novo Nordisk Fonden.

Opretter ‘kunstige’ patienter

Første udgave af sandkassen bliver åbnet i januar, hvor de første 40-50 studerende på tværs af fagområder kan prøve kræfter med de modeller og data, der bliver lagt ind i løbet af de kommende måneder.

Ifølge Jennifer Bartell vil udgangspunktet blive en kortere liste af de mest populære værktøjer til patientdataanalyse, og selve dataene vil stamme primært fra publicerede forskningsprojekter og databaser, hvor data allerede er anonymiserede eller publiceret med tilladelse fra deltagerne.

Over de næste tre år skal sandkassen udvides med mere legetøj i form af mange flere modeller og anonymiserede eller syntetiske patientdata.

Med syntetiske data menes datasæt, som bliver ‘renset’ for detaljer, der gør dem personhenførbare. Tricket er at opsummere forskellige variable på tværs af persondata og herefter ryste posen, så man får sammensat helt nye og tilfældige ‘personer’, men stadigvæk med samme gennemsnitsalder, kropsvægt, genvarianter i forhold til andre træk, etc., på tværs af datasættet.

Det kan ske ved at udtrække data tilfældigt fra statistiske fordelinger, bruge agentbaserede modeller til at simulere mange personers opførsel og interaktioner eller ved at bruge maskinlæringsmetoder, der er sat til at undgå personhenførbare detaljer, når de genererer et syntetisk datasæt. Med disse metoder undgår man at inkludere ægte patientdata i syntetiske datasæt.

Mange steder i verden bliver der arbejdet med at skabe disse syntetiske datasæt, da det netop er en måde at skabe predictive power eller forudsigelsesevne i data uden at komme i konflikt med persondataloven.

Det er imidlertid stadig en kompliceret manøvre at fremstille et syntetisk datasæt med både alle nuancer og specialtilfælde fra det oprindelige datasæt repræsenteret, og ifølge Anders Krogh kan syntetiske data nok sjældent erstatte rigtige data.

Han mener derfor, at man kan risikere, at de syntetiske data skyder helt ved siden af skiven, men også at de sagtens stadig kan bruges til at udvælge gode metoder, inden man går i gang med ægte data.

»Her tror vi på, at de syntetiske data kan komme tæt nok på. Og så skal man ikke glemme, at ægte data også kan være påvirkede i en bestemt retning, eller at data kan mangle,« understreger han.

Løbende udvidelser

Til at tygge på data under de studerendes test er der indlagt kræfter fra supercomputeren Computerome 2 på DTU.

Planen er, at de studerende vil kunne trække deres egen kopi af værktøjet ud i en ‘virtuel maskine’, der gør det let at rydde fejl og starte forfra. Det kan især blive vigtigt på den lidt længere bane, hvor det er tanken at flere kan gøre brug af sandkassen, og også til lidt tungere datasæt.

Blandt andet er det håbet, at også forskere, der er længere i uddannelsen eller færdige på studiet, kan bruge værktøjet forud for kørsler af ægte data.

»Vi når sikkert ikke dertil, hvor en forsker vil kunne bruge sandkassen som et decideret alternativ til patientdata i forskningsprojekter. Men målet er også primært, at man får en så god fornemmelse for, hvilke data man konkret skal bruge i en given model, at man mere præcist kan søge om rigtige data bagefter,« understreger Anders Krogh.

Ligesom sine forskerkolleger i sandkassesamarbejdet er han medlem af netværket Elixir sammen med 22 andre europæiske lande. Her er målet netop, at sundhedsforskere og dataloger kan hjælpe hinanden på tværs med bl.a. dele modeller og værktøjer, som kan gøre bedre brug af de mange sundhedsdata og undervisningsressourcer inden for sundhedsdatavidenskab.

Derfor kunne sandkasseprojektet muligvis også passe ind her på et senere tidspunkt, vurderer Jennifer Bartell og Anders Krogh.

Projektet løber over i alt fem år, og der er tale om en samarbejde mellem Københavns, Aarhus, Aalborg og Syddansk Universiteter samt DTU.

Prøv ComplianceTech

ComplianceTech er et medie til compliance-ansvarlige i danske virksomheder og offentlige myndigheder. Vi udgiver løsningsorienterede artikler om data compliance og konkrete værktøjer til, hvordan din organisation overholder reglerne og er compliant på den mest effektive måde - uanset om det handler om GDPR, cookies, NIS-loven eller ISO-standarder.

Klik her