Brug af syntetiske data til innovation af fremtidens sundhed

Det er essentielt, at vi leder efter innovative muligheder og værktøjer, der kan hjælpe os med at dele sundhedsdata med forskningsinstitutioner og industrien uden at kompromittere beskyttelsen af danskernes private sundhedsinformation. Det skriver aktører fra begge sektorer i dette synspunkt om syntetiske data.
Brødtekst

Danmark kan få en ledende rolle

I Danmark er vi frontløbere på innovation inden for digital sundhed, og vi ser løbende nye startups og etablerede spillere, der arbejder for at gøre livet bedre for patienterne og sundhedspersonalet. Digitale løsninger inden for sundhed er drevet af indsigter fra sundhedsdata og gør ofte brug af »datasultne« teknologier, såsom maskinlæring og kunstig intelligens – hvor kvalitet, komplethed og mængde er afgørende.

Det danske sundhedsvæsen besidder sundhedsdata i verdensklasse, og grundet deres personfølsomme natur er der god grund, til at vi passer på dem. Vi har således en række processer og kontrolorganer i Danmark, der sikrer, at sundhedsdata ikke misbruges. Men disse mekanismer må ikke i unødig grad være barrierer for sundhedsforskningen; kontrol og databeskyttelse bør ske i et paradigme, som bedst muligt kombinerer privatlivsbeskyttelse med gunstige vilkår for udvikling og innovation til gavn for vores patienter og klinikere. Derfor er det essentielt, at vi leder efter innovative muligheder og værktøjer, der kan hjælpe os med at dele sundhedsdata med forskningsinstitutioner og industrien uden at kompromittere beskyttelsen af danskernes private sundhedsinformation.

Og det behøver ikke være et nulsumsspil: Vi ser således en hastig modning af feltet for privatlivsbevarende teknikker, der på forskellig vis forrykker det traditionelle trade-off mellem datakvalitet og privatlivsbeskyttelse. I mange scenarier vil det være relevant at kombinere de forskellige teknikker, men vi vælger her at rette fokus specifikt mod de syntetiske data, da vi her ser en række åbenlyse potentialer. Syntetisk data har som tilgang efterhånden opnået en modenhed, hvor der nu er et håndgribeligt potentiale for at bringe de danske eller nordiske sundhedsdata bedre i spil uden at udfordre GDPR eller på anden vis krænke privatlivsbarrierer.

Introduktion til syntetiske data

I de seneste par år er syntetisk data bragt i spil som en tilgang, der potentielt kan bruges til at accelerere sikker deling af sundhedsdata. Syntetiske data er allerede en veletableret metode inden for maskinlæring og bruges bl.a. til at forbedre datasæt og teste modeller. Modsat konventionel anonymisering, der fører til en markant forringelse af datakvaliteten, er princippet bag syntetisk data, at der dannes et datasæt uden data fra det oprindelige datasæt, men hvor de statistiske relationer bevares. Syntetisk data kan genereres ved at bruge maskinlæring til at efterligne datasættets struktur og generere et nyt sæt af data, som ligner det ægte datasæt, men som ikke indeholder data fra de oprindelige datasæt.

Bayesian networks, variational autoencoders (VAE) og Generative Adversarial Networks (GANs) er nutidens bedste metoder til at generere data for både tabulare og billeddata. GANs-modeller består af to AI-modeller, henholdsvis en generator og en diskriminator, som konkurrerer mod hinanden og begge løbende forbedrer sig gennem denne »indbyrdes kamp«. Generatoren forsøger at lave data, som snyder diskriminatoren, der omvendt prøver at detektere, om et datapunkt er falsk eller ægte. Herved kan generatoren over tid lære at lave syntetiske datapunkter med statistiske egenskaber, der bedre og bedre efterligner det oprindelige datasæt. Således kan der skabes anonymiserede data uden de samme problemer med datakvalitet, som konventionelle metoder giver. Med syntetiske data åbner dette for en række anvendelsesscenarier i sundhed, herunder muligheden for nemmere at automatisere processen med at generere datasæt, der kan bruges til hypoteseafprøvning, modeludvikling, test mv.

Praktiske erfaringer med brug af syntetiske data

Syntetiske data lavet af GANs har et stort potentiale relateret til flere af de helt centrale trin i en analyse- og modeludviklingscyklus. Målet er at genskabe ny, syntetisk data, der passer ind i den virkelighed, som data afspejler (det oprindelige datasæt), men som på samme tid er uigenkendelig (syntetiske), fordi der ikke indgår individer (data), som eksisterer i den virkelige verden. Data er derfor »identisk« med vores virkelighedsbillede og kan anvendes til at udvikle analysemodeller (algoritmer), der både er robuste og intelligente, og som kan løse reelle problematikker.

»I Trifork bruger vi syntetisk data til at »forlænge« datasæt med »ekstra data«. Sådanne datasæt kan bruges til at træne maskinlæringsmodeller. Det er nødvendigt, når vi står i situationer, hvor vi leder efter udfald, der kun optræder sjældent. Prøv at forestille dig biluheld. Heldigvis sker de meget sjældent, men det lave antal uheld bliver netop en udfordring, når man så skal lave modeller, der er gode til at generalisere omkring biluheld,« fortæller Nicholai Stålung, som er Lead Data Scientist hos Trifork.

Et andet område, hvor syntetiske data kan anvendes, er til kvalificering af modeller, hvor der fx skal lokaliseres corner cases og udpeges hvor, modeller performer uhensigtsmæssigt. Adgangen til syntetiske datasæt gør det muligt at forbedre afprøvningen af algoritmer ved at simulere specielle scenarier eller parametre, som ikke eksplicit er defineret eller kendt på forhånd.

Praktiske erfaringer i pharma og sundhed

»I Deloitte har vi arbejdet med at bruge syntetiske data til at understøtte udviklingen af AI-modeller på områder, hvor deling af data er en stor udfordring – hvilket særligt er tilfældet i højt regulerede sektorer som sundhed, medicinalindustri og finans. I pharmaindustrien har vi støttet nogle af de største globale virksomheder i at finde løsninger til at kunne skalere deres AI-modeller ved brug af syntetiske data. Det giver dem mulighed for at evaluere og indsamle data fra kliniske studier fra forskellige verdensdele og på baggrund af disse distribuerede datasæt generere syntetiske datasæt til udvikling af mere robuste AI-modeller. Da data kan repræsenteres på mange måder, kræver det i praksis mange forskellige syntetiske generatorer, og derfor har vi i samarbejde med DTU haft studerende, som har genereret syntetiske billeder til segmentering ved brug at deep learning-teknikker som GANs. I samarbejde med Nationalt Genom Center i Danmark har vi udviklet en metode, hvor syntetiske genomdata bruges til at validere, hvorvidt analyse-pipeline kan håndtere ukendte varianter, som ikke har været tilgængelige i »rigtige patienter« endnu – et scenarie hvor syntetiske data med andre ord gør det muligt at teste sit analyse-setup for ting, man endnu ikke har ægte data på,« siger Martin Closter Jespersen, som er Senior Data Scientist hos Deloitte.

Syntetisk data giver også mulighed for at accelerere projekter ved at formulere initielle hypoteser og tidlige versioner af maskinlæringsmodeller på baggrund af syntetiske data, mens man venter på den juridiske proces med at få adgang til de rigtige data. Det forudsætter selvfølgelig, at de syntetiske data ligner de ægte data i tilstrækkelig grad. For at kunne validere kvaliteten af de syntetiske data er det afgørende at samarbejde med eksperter med domænekendskab.

Et eksempel kunne være et syntetisk diabetesdatasæt, hvor blodsukker, køn og vægt følger samme mønster som det ægte data, men at højden er mere eller mindre tilfældig. Her ville man formentlig kunne acceptere, at højden ikke skulle inkluderes i algoritmeudviklingen. I dette eksempel virker det ligetil at sammenligne datasæt, men når der er tale om mere komplekse data, fx ustrukturerede data som tekst og billeder, er der behov for at kunne vurdere kvaliteten af det syntetiske datasæt mere systematisk og objektivt. Her arbejder man bl.a. med at sammenligne forudsigelser fra simple maskinlæringsmodeller trænet kun på syntetiske data med tilsvarende forudsigelser udført på ægte data – for herved at vurdere hvor meget, der kan genskabes ud fra syntetiske data alene.

»Brugen af syntetiske data rummer store potentialer og vil kunne medvirke til at åbne op for en langt mere dynamisk brug af de danske sundhedsdata. Vi vil kunne invitere forskere, startups og industrien ind i samarbejder langt tidligere og uden risiko for at kompromittere sikkerhed og spørgsmålet om privatlivets fred. Samtidig kan vi bruge metoderne til at udvide datasæt på områder, hvor vi har få data, eksempelvis indenfor behandlingen af sjældne sygdomme. Endelig vil vi med disse metoder kunne understøtte industrien i forbindelse med medicinafprøvning og risikovurdering til gavn for patienter og samfundet,« siger Henning Langberg, innovationschef på Rigshospitalet og professor ved Københavns Universitet. Henning Langberg leder det internationale forskningsprojekt SHARED omkring brug af syntetiske sundhedsdata.

En vigtig parameter ved syntetiske data er privacy

I næste afsnit af denne serie vil vi komme dybere ind på emnet omkring syntetiske data og privacy.

Læs mere om syntetiske data her: www.shared.blog

Prøv ComplianceTech

ComplianceTech er et medie til compliance-ansvarlige i danske virksomheder og offentlige myndigheder. Vi udgiver løsningsorienterede artikler om data compliance og konkrete værktøjer til, hvordan din organisation overholder reglerne og er compliant på den mest effektive måde - uanset om det handler om GDPR, cookies, NIS-loven eller ISO-standarder.

Klik her

Nævnte firmaer