Ung teknologi styrker privacy og tillid til forskningen

29. marts 2022 kl. 05:008
Rasmus Pagh
Rasmus Pagh, professor i Algorithms and Complexity ved Datalogisk Institut på Københavns Universitet. Illustration: Tina Virenfeldt Kristensen.
Med differential privacy udvikler Rasmus Pagh, professor ved DIKU, algoritmer, der skal være med til at styrke oplysningers anonymitet og borgeres tillid til databehandling.
Artiklen er ældre end 30 dage

Det er svært at forske uden dataindsamling, for hvis vi eksempelvis vil vide noget om samfundet omkring os, må vi også vide noget om dem, der udgør samfundet.

Og selvom mange nok ville argumentere for, at dét er en bevaringsværdig praksis, er der også en gruppe privacy-fokuserede personer, som rækker en finger i vejret og råber: »Husk privatlivet.«

Læs hele artiklen

DataTech er til professionelle, der arbejder med data og analytics.

Få 3 ugers gratis prøveabonnement. Betalingskort er ikke påkrævet, og du bliver ikke flyttet til et betalt abonnement efterfølgende.

Du kan også få tilsendt et tilbud til dig.

Abonnementsfordele
vpn_key
Fuld adgang til DataTech
Alt indhold på DataTech er åbent for dig, så du kan nyde det fra din computer, tablet eller mobil.
drafts
Kuraterede nyhedsbreve
Nyheder, interviews, tendenshistorier og meget mere, leveret til din indbakke.
Adgang til andre medier
Hver måned får du 6 klip, som kan bruges til permanent at låse op for indhold på vores andre medier.
thumb_up
Adgang til debatten
Deltag i debatten med andre professionelle.
8 kommentarer.  Hop til debatten
Debatten
Log ind eller opret en bruger for at deltage i debatten.
settingsDebatindstillinger
7
1. april 2022 kl. 16:46

Hov! det var ikke meningen det indlæg skulle være sendt fire gange, men i min Firefox (som er sat til at acceptere cookies fra version2.dk, og afvikle alt det java-script der er på siden, undtagen det der kommer fra policy.app.cookieinformation.com - hvad skal det gøre godt for) skete der ikke noget når jeg trykkede "Udgiv" - og der er ikke nogen funktion til at slette indlæg.

2
31. marts 2022 kl. 14:02

Prosit

Over dit glimrende debatindlæg findes: 'Debatindstillinger', så man kan ændre Netcompagny's? "default værdier".

Ja, forsiden har det ikke så godt - endnu. Og Varnish-opsætningen lader noget (læs: en del) tilbage at ønske - at dømme efter svartiderne ...

Gid det må bedre(s).

6
1. april 2022 kl. 16:40

Over dit glimrende debatindlæg findes: 'Debatindstillinger', så man kan ændre Netcompagny's? "default værdier".

Men det virker som om de indstillinger ikke bliver gemt (i dag, for nogle dage siden så det bedre ud), jeg har flere gange i dag sat sorteringsrækkefølgen til "ældste først".

8
1. april 2022 kl. 19:25

Samme problem her :-(

Og får mail hvert gang der kommer et nyt indlæg :-( :-(

I de "gode gamle dage" kunne vi nøjes med en enkelt mail.

5
1. april 2022 kl. 16:39

Over dit glimrende debatindlæg findes: 'Debatindstillinger', så man kan ændre Netcompagny's? "default værdier".

Men det virker som om de indstillinger ikke bliver gemt (i dag, for nogle dage siden så det bedre ud), jeg har flere gange i dag sat sorteringsrækkefølgen til "ældste først".

4
1. april 2022 kl. 16:39

Over dit glimrende debatindlæg findes: 'Debatindstillinger', så man kan ændre Netcompagny's? "default værdier".

Men det virker som om de indstillinger ikke bliver gemt (i dag, for nogle dage siden så det bedre ud), jeg har flere gange i dag sat sorteringsrækkefølgen til "ældste først".

3
1. april 2022 kl. 16:39

Over dit glimrende debatindlæg findes: 'Debatindstillinger', så man kan ændre Netcompagny's? "default værdier".

Men det virker som om de indstillinger ikke bliver gemt (i dag, for nogle dage siden så det bedre ud), jeg har flere gange i dag sat sorteringsrækkefølgen til "ældste først".

1
31. marts 2022 kl. 08:09

About time ... !

Det er mit personlige indtryk at "forskning" i "anonymisering" og "teknikker" til ditto, for langt den overvejende del er sket fra parter, som har en tydelig interesse i at suge flest mulige data ud af os, og mest muligt ud af disse data, og som mest af alt har brug for røgslør, så vi ikke kan se, hvad der sker, og blive bange, og enten begynder at stille rimelige krav, at svare plausibel fremfor sandt, eller helt undlader at medvirke. Godt at se, at "modstandsbevægelsen" ikke er helt uddød.

Diffential privacy italesætter (på formel vis) netop modstriden imellem høj præcisition og anonymitet. Man kan ikke have begge dele. Og jo mindre man anonymiserer (altså jo højere præcision man ønsker sig), jo færre gange kan man bruge de samme data, før sikkerhedsmargin er slidt helt væk. Her skal man være opmærksom på, at det ikke kun gælder den aktuelle sampling af bagvedliggende data, men også gentagen sampling af de samme bagvedliggende data, hvis de bagvedliggende data har en form for permanens. Og det har det jo ofte, når man måler på virkelige mennesker.

Så vi skal passe på med at kaste data i grams til ligegyldigheder - vi kunne jo få brug for dem til noget vigtigt.

Vi behøver ikke opfinde eksempler, som den nyansattes løn, for der findes eksempler fra virkeligheden. På Langelinjeskolen på Østerbro i Kbh. var en elev blevet fritaget for den herostratisk berømte "Trivselsundersøgelse", men fordi at systemerne slet ikke var gearet til fritagelse (det kom vist som en eftertanke), så kom hun alligevel til at svare, og hendes besvarelse kom med i den detajlerede statistik over fordeling af svar på skolen (der var godt 900 svar, jeg husker ikke det præcise tal, det kunne f.eks. være 932, fordelt på årgange).

Nu bad man så kom at få hendes resultater ud af statistikken, og det kunne man på den ene side godt, for undersøgelsen var kun "anonym" overfor skolerne, mens man internt have fuld klarhed over, hvem som havde svaret hvad, så man efterfølgende kunne registersamkøre data til allehånde undersøgelser og statistikker til ministerielt og politisk anvendelse, samt forskning af "væsentlig samfundsmæssig interesse" (har I mødt forskning, som ikke var af "væsentlig samfundmæssig interesse", og hvis ja, burde det så ikke være stoppet?). For data er - med myndighederne egne ord, og kun efter at have fået vredet armen langt op på ryggen - "ikke anonyme i juridisk forstand".

På den anden side, så var tallene ude - jeg har personligt kigget på den, i den "datakube" som var offentligt tilgængelig (Langelinjeskolen er nok den eneste Københavnske skole, som jeg kan genkende, og sagen blev vist også omtalt over flere gange her i V2), og hvis jeg havde data for de 932 elever før, og nu kunne få data for de 931 elever bagefter, så kunne jeg bare trække antal svar i de forskellige kategorier fra hinanden, og præcist se, hvad den person, som var taget ud af svarene, havde svaret. Så nej, hun kunne ikke blive taget ud af statistikken, selvom hun teknisk set godt kunne - ikke uden at hun ville blive endnu mere afsløret!

Apropos datakuben og afsløringer, så kunne man dengang også se svarene fra de fire drenge fra Christians Ø, og man kunne se, at svarene nærmest systematisk var tre på gennemsnit og en under. Nu kan man jo ikke vide, at det er den samme person, som falder igennem hvergang, men jeg kan godt huske fra folkeskolen, hvem som var "tilflytteren", og det ville ikke være overraskende at finde ham blandt svarene med lav trivsel (havde vi har Trivselsundersøgelser dengang, men dengang kunne vi nu godt se, hvem som trives og hvem som ikke gjorde, uden statistikker og undersøgelser)... og man ville ikke behøve 100% sikkerhed for alle svarene for at kunne finde noget på ham. Retfærdigvist ser det ud til, at lige disse data (dem om drengene) ikke længere er tilgængelige i den form.

Et andet virkeligt eksempel, som det fra Massachusetts, kom for nogle år siden fra Australien. Her havde man også offentliggjort pseudonyme og "linkable" data om hospitalsindlæggelser under antagelsen om at det var anonymt. Det var det så ikke. Forskere kombinerede det f.eks. med noget som almindeligt som presseomtale af kendte personer: "person X blev den og den dag indlagt på sygehus Y efter en ulykke". Mere præcist var presseomtalen ikke, men det var rigelgit. For givet at man kunne indsnævre det med rimelige antagelser om køn og alder og andet godt, så kunne man finde rækken i datasættet om person Xs indlæggelse på sygehus Y. Og med det alle andre rækker vedr. person X. Der var tale om både sportsstjerne og politikere (jeg er ikke sikker på, at der var skuespillere med). Men kunne ikke gøre det for alle kendte, men de havde adskillige kendte, som kunne identiceres med sikkerhed.

Et andet virkeligt eksempel på afslørende "anonymiserede" datakuber var da jeg af nysgerrighed dykkede ned i danske sundhedsdata, og faldt over statistikken over provokerede aborter i en nordlig region her i landet. Den var k-anonymiseret, så alle tal under 5 var erstattet med "<5". Så jeg kunne læse flg.:

Første halvår: <5 Andet halvår: 5 Hele året: 8

Doh! Det kræver ikke en kandidatgrad at regne tallet for første halvår ud. Men vent det blev bedre:

(tal for 1. halvår) Kommune A: - Kommune B: <5 Kommune C: - Kommune D: <5 Kommune E: <5 Kommune F: -

Ja, så er det heller ikke svært at regne nu at der har været præcist en abort i kommune B, D og E i 1. halvår. Så meget for den anonymisering. Og nu ligger vejen åben for at kombinere med andre data, som i Massachusetts og Australien.

Så det på tide, at der bliver givet et forskningsbaseret og kritisk modspil til det "røgslør" som idag med løs hånd bliver kaldt for "anonymisering".

PS: Jeg havde egentlig bestemt mig for at holde en pause fra debatten efter den "professionelle modernisering" af V2. Er jeg den eneste, som oplever at forsiden f.eks. siger 6 debatindlæg, men kun viser 4, når man går ind på artiklen/blog-posten ... eller at debatoversigten, trods refresh, på nogle enheder viser debatindlæg, som er dage gamle, men på andre godt kan vise noget, som er nyere? Det er umuligt at deltage i en debat, hvor man ikke er sikker på, at man ikke kan være sikker på at læse de andre brugeres posts ... måske man skulle søge bistand hos Netcompany - jeg hører at de er gode til at vise andre brugeres post... (host!)