Ung teknologi styrker privacy og tillid til forskningen

Rasmus Pagh
Illustration: Tina Virenfeldt Kristensen.
Med differential privacy udvikler Rasmus Pagh, professor ved DIKU, algoritmer, der skal være med til at styrke oplysningers anonymitet og borgeres tillid til databehandling.
Løsninger29. marts kl. 05:00
errorÆldre end 30 dage

Det er svært at forske uden dataindsamling, for hvis vi eksempelvis vil vide noget om samfundet omkring os, må vi også vide noget om dem, der udgør samfundet.

Og selvom mange nok ville argumentere for, at dét er en bevaringsværdig praksis, er der også en gruppe privacy-fokuserede personer, som rækker en finger i vejret og råber: »Husk privatlivet.«

Det er nemlig ikke en let opgave at sikre datasubjekters privatliv, når dataansvarlige offentliggør ‘anonyme’ oplysninger om borgere, fortæller Rasmus Pagh, professor i Algorithms and Complexity ved Datalogisk Institut på Københavns Universitet (DIKU): 

»Når man offentliggør analyser af data, så risikerer man faktisk at kompromittere folks privatliv, selvom statistikken ikke direkte siger noget om enkeltpersoner.«

Selvom data er anonymiseret, findes der nemlig tilfælde, hvor personer har haft held med at ‘afanonymisere’ oplysningerne igen ved at sammenholde dem med anden data. Derfor forsker Rasmus Pagh inden for området ‘differential privacy’.

»Det handler om, hvordan man kan lave forskellige former for bearbejdning af følsomme data på en måde, så man undgår at afsløre for meget om data, men samtidig tillade, at man for eksempel kan publicere resultatet af en analyse,« fortæller han.

Få fuld adgang til DataTech

DataTech skriver til dig, der arbejder professionelt med data og analytics. Vi giver dig inspirerende cases, nyheder og debat om alt fra machine learning-modeller til dataetik. Få tilsendt tilbud

Abonnementsfordele
vpn_key
Fuld adgang til DataTech
Alt indhold på DataTech er åbent for dig, så du kan nyde det fra din computer, tablet eller mobil.
drafts
Kuraterede nyhedsbreve
Nyheder, interviews, tendenshistorier og meget mere, leveret til din indbakke.
thumb_up
Adgang til debatten
Deltag i debatten med andre professionelle.
Debatten
Log ind for at deltage i debatten.
settingsDebatindstillinger
7
1. april kl. 16:46

Hov! det var ikke meningen det indlæg skulle være sendt fire gange, men i min Firefox (som er sat til at acceptere cookies fra version2.dk, og afvikle alt det java-script der er på siden, undtagen det der kommer fra policy.app.cookieinformation.com - hvad skal det gøre godt for) skete der ikke noget når jeg trykkede "Udgiv" - og der er ikke nogen funktion til at slette indlæg.

2
31. marts kl. 14:02

Prosit

Over dit glimrende debatindlæg findes: 'Debatindstillinger', så man kan ændre Netcompagny's? "default værdier".

Ja, forsiden har det ikke så godt - endnu. Og Varnish-opsætningen lader noget (læs: en del) tilbage at ønske - at dømme efter svartiderne ...

Gid det må bedre(s).

6
1. april kl. 16:40

Over dit glimrende debatindlæg findes: 'Debatindstillinger', så man kan ændre Netcompagny's? "default værdier".

Men det virker som om de indstillinger ikke bliver gemt (i dag, for nogle dage siden så det bedre ud), jeg har flere gange i dag sat sorteringsrækkefølgen til "ældste først".

8
1. april kl. 19:25

Samme problem her :-(

Og får mail hvert gang der kommer et nyt indlæg :-( :-(

I de "gode gamle dage" kunne vi nøjes med en enkelt mail.

5
1. april kl. 16:39

Over dit glimrende debatindlæg findes: 'Debatindstillinger', så man kan ændre Netcompagny's? "default værdier".

Men det virker som om de indstillinger ikke bliver gemt (i dag, for nogle dage siden så det bedre ud), jeg har flere gange i dag sat sorteringsrækkefølgen til "ældste først".

4
1. april kl. 16:39

Over dit glimrende debatindlæg findes: 'Debatindstillinger', så man kan ændre Netcompagny's? "default værdier".

Men det virker som om de indstillinger ikke bliver gemt (i dag, for nogle dage siden så det bedre ud), jeg har flere gange i dag sat sorteringsrækkefølgen til "ældste først".

3
1. april kl. 16:39

Over dit glimrende debatindlæg findes: 'Debatindstillinger', så man kan ændre Netcompagny's? "default værdier".

Men det virker som om de indstillinger ikke bliver gemt (i dag, for nogle dage siden så det bedre ud), jeg har flere gange i dag sat sorteringsrækkefølgen til "ældste først".

1
31. marts kl. 08:09

About time ... !

Det er mit personlige indtryk at "forskning" i "anonymisering" og "teknikker" til ditto, for langt den overvejende del er sket fra parter, som har en tydelig interesse i at suge flest mulige data ud af os, og mest muligt ud af disse data, og som mest af alt har brug for røgslør, så vi ikke kan se, hvad der sker, og blive bange, og enten begynder at stille rimelige krav, at svare plausibel fremfor sandt, eller helt undlader at medvirke. Godt at se, at "modstandsbevægelsen" ikke er helt uddød.

Diffential privacy italesætter (på formel vis) netop modstriden imellem høj præcisition og anonymitet. Man kan ikke have begge dele. Og jo mindre man anonymiserer (altså jo højere præcision man ønsker sig), jo færre gange kan man bruge de samme data, før sikkerhedsmargin er slidt helt væk. Her skal man være opmærksom på, at det ikke kun gælder den aktuelle sampling af bagvedliggende data, men også gentagen sampling af de samme bagvedliggende data, hvis de bagvedliggende data har en form for permanens. Og det har det jo ofte, når man måler på virkelige mennesker.

Så vi skal passe på med at kaste data i grams til ligegyldigheder - vi kunne jo få brug for dem til noget vigtigt.

Vi behøver ikke opfinde eksempler, som den nyansattes løn, for der findes eksempler fra virkeligheden. På Langelinjeskolen på Østerbro i Kbh. var en elev blevet fritaget for den herostratisk berømte "Trivselsundersøgelse", men fordi at systemerne slet ikke var gearet til fritagelse (det kom vist som en eftertanke), så kom hun alligevel til at svare, og hendes besvarelse kom med i den detajlerede statistik over fordeling af svar på skolen (der var godt 900 svar, jeg husker ikke det præcise tal, det kunne f.eks. være 932, fordelt på årgange).

Nu bad man så kom at få hendes resultater ud af statistikken, og det kunne man på den ene side godt, for undersøgelsen var kun "anonym" overfor skolerne, mens man internt have fuld klarhed over, hvem som havde svaret hvad, så man efterfølgende kunne registersamkøre data til allehånde undersøgelser og statistikker til ministerielt og politisk anvendelse, samt forskning af "væsentlig samfundsmæssig interesse" (har I mødt forskning, som ikke var af "væsentlig samfundmæssig interesse", og hvis ja, burde det så ikke være stoppet?). For data er - med myndighederne egne ord, og kun efter at have fået vredet armen langt op på ryggen - "ikke anonyme i juridisk forstand".

På den anden side, så var tallene ude - jeg har personligt kigget på den, i den "datakube" som var offentligt tilgængelig (Langelinjeskolen er nok den eneste Københavnske skole, som jeg kan genkende, og sagen blev vist også omtalt over flere gange her i V2), og hvis jeg havde data for de 932 elever før, og nu kunne få data for de 931 elever bagefter, så kunne jeg bare trække antal svar i de forskellige kategorier fra hinanden, og præcist se, hvad den person, som var taget ud af svarene, havde svaret. Så nej, hun kunne ikke blive taget ud af statistikken, selvom hun teknisk set godt kunne - ikke uden at hun ville blive endnu mere afsløret!

Apropos datakuben og afsløringer, så kunne man dengang også se svarene fra de fire drenge fra Christians Ø, og man kunne se, at svarene nærmest systematisk var tre på gennemsnit og en under. Nu kan man jo ikke vide, at det er den samme person, som falder igennem hvergang, men jeg kan godt huske fra folkeskolen, hvem som var "tilflytteren", og det ville ikke være overraskende at finde ham blandt svarene med lav trivsel (havde vi har Trivselsundersøgelser dengang, men dengang kunne vi nu godt se, hvem som trives og hvem som ikke gjorde, uden statistikker og undersøgelser)... og man ville ikke behøve 100% sikkerhed for alle svarene for at kunne finde noget på ham. Retfærdigvist ser det ud til, at lige disse data (dem om drengene) ikke længere er tilgængelige i den form.

Et andet virkeligt eksempel, som det fra Massachusetts, kom for nogle år siden fra Australien. Her havde man også offentliggjort pseudonyme og "linkable" data om hospitalsindlæggelser under antagelsen om at det var anonymt. Det var det så ikke. Forskere kombinerede det f.eks. med noget som almindeligt som presseomtale af kendte personer: "person X blev den og den dag indlagt på sygehus Y efter en ulykke". Mere præcist var presseomtalen ikke, men det var rigelgit. For givet at man kunne indsnævre det med rimelige antagelser om køn og alder og andet godt, så kunne man finde rækken i datasættet om person Xs indlæggelse på sygehus Y. Og med det alle andre rækker vedr. person X. Der var tale om både sportsstjerne og politikere (jeg er ikke sikker på, at der var skuespillere med). Men kunne ikke gøre det for alle kendte, men de havde adskillige kendte, som kunne identiceres med sikkerhed.

Et andet virkeligt eksempel på afslørende "anonymiserede" datakuber var da jeg af nysgerrighed dykkede ned i danske sundhedsdata, og faldt over statistikken over provokerede aborter i en nordlig region her i landet. Den var k-anonymiseret, så alle tal under 5 var erstattet med "<5". Så jeg kunne læse flg.:

Første halvår: <5 Andet halvår: 5 Hele året: 8

Doh! Det kræver ikke en kandidatgrad at regne tallet for første halvår ud. Men vent det blev bedre:

(tal for 1. halvår) Kommune A: - Kommune B: <5 Kommune C: - Kommune D: <5 Kommune E: <5 Kommune F: -

Ja, så er det heller ikke svært at regne nu at der har været præcist en abort i kommune B, D og E i 1. halvår. Så meget for den anonymisering. Og nu ligger vejen åben for at kombinere med andre data, som i Massachusetts og Australien.

Så det på tide, at der bliver givet et forskningsbaseret og kritisk modspil til det "røgslør" som idag med løs hånd bliver kaldt for "anonymisering".

PS: Jeg havde egentlig bestemt mig for at holde en pause fra debatten efter den "professionelle modernisering" af V2. Er jeg den eneste, som oplever at forsiden f.eks. siger 6 debatindlæg, men kun viser 4, når man går ind på artiklen/blog-posten ... eller at debatoversigten, trods refresh, på nogle enheder viser debatindlæg, som er dage gamle, men på andre godt kan vise noget, som er nyere? Det er umuligt at deltage i en debat, hvor man ikke er sikker på, at man ikke kan være sikker på at læse de andre brugeres posts ... måske man skulle søge bistand hos Netcompany - jeg hører at de er gode til at vise andre brugeres post... (host!)