NLP-værktøjer opsnuser den skjulte persondata

NLP-værktøjer opsnuser den skjulte persondata
Illustration: Safe Online. Se større version
Det kan være en kæmpe opgave, når en medarbejder manuelt skal grave persondata frem fra gamle mails og dokumenter, der har ligget uberørt i flere måneder. Men der findes programmer, som kan effektivisere den del af compliance-arbejdet.
Løsninger 4. oktober kl. 08:13
errorÆldre end 30 dage

Persondata kan ligge som spredehagl på computere. Den gemmer sig i gamle dokumenter, i obskure mapper og mails fra sidste år, som man ikke lige har fået slettet.

For mange virksomheder er det uoverskueligt at få et overblik over oplysningerne, hvis en medarbejder skal gennemgå alle filer, vurderer Bjørn Leth Erichsen, co-founder af virksomheden Sixtus, som blandt andet udvikler softwareløsninger:

»Har du tusindvis af dokumenter, så er det en umulig opgave at løse manuelt.«

Bjørn Leth Erichsen og Bo Pyskow fra Sixtus
Bjørn Leth Erichsen (t.v.) og Bo Pyskow (t.h.) er co-founders af virksomheden Sixtus, og har været med til at udvikle scanneværktøjet, der kan finde gemt persondata i gamle filer. Illustration: Kathrine Lindskov Pedersen og Sixtus. Se større version

Men GDPR sætter grænser for, hvor lang tid en virksomhed må gemme registreredes oplysninger, så dataansvarlige skal have overblikket for at kunne overholde loven.

Derfor har Sixtus udviklet et program, der kan gå på detektivarbejde i it-systemer for at finde den gemte og glemte persondata og fortælle administratoren, hvor man potentielt har risikabelt data liggende.

Firmaet er dog ikke ene om at tilbyde sådan et værktøj. Der er flere andre virksomheder, som har udviklet en lignende løsning – blandt andet Safe Online, hvor man ifølge Sebastian Allerelli, co-founder og COO, især har tænkt løsningen til små og mellemstore virksomheder:

»Vi har fokus på SMV’er, fordi de slås med at få overblikket – de har ikke nødvendigvis råd til at sætte en masse konsulenter til at lave de her stikprøver.«

Det samme peger Jeppe Rosenmejer på, chefjurist i SMVdanmark, i et synspunkt fra juni, hvor han fortæller, at GDPR er ‘utrolig byrdefuldt’ for små og mellemstore virksomheder.

Læs også: Estaldo udvikler eget sletteværktøj: Et tryk på en knap, og så er data væk

NLP gør løsningerne mere præcise

Programmerne ligner hinanden og bliver begge sat manuelt i gang af en administrator. Safe Onlines løsning kan scanne ca. 50.000 dokumenter i timen, og det er også mails og billeder.

Til søgningen bruger begge natural language processing (NLP). Værktøjerne har lært at analysere sætninger med udgangspunkt i for eksempel ord, tal, navne og dokumenttyper, der kan være relateret til persondata – blandt andet sygdomme, religioner og tilhørsforhold.

De undersøger samtidig, om der et andet sted i sætningen for eksempel står et fornavn. Kombinationen af et fornavn og ordet tuberkulose indikerer i højere grad, at der er tale om persondata i forhold til, hvis programmet blot reagerer på ordet ‘tuberkulose’.

»Den analyserer hele dokumentet i stedet for bare at lede efter ét specifikt ord. Hvis der for eksempel står noget med en ryglidelse, men der ikke er et navn, så giver det sig selv – så er der ingen personhenførbar data,« fortæller Bo Pyskow, co-founder hos Sixtus.

Sebastian Allerelli, co-founder og COO hos Safe Online
Sebastian Allerelli er co-founder og COO hos Safe Online, der også har udviklet et værktøj, som kan finde skjult persondata i virksomheders it-systemer. Illustration: Safe Online. Se større version

Man har også trænet løsningerne til at genkende specifikke nummerrækker som cpr-numre, kørekortnumre, pasnumre og kreditkortnumre.

»Det er den svære måde at gøre det på. Den nemme måde er bare at søge efter enkeltord, men når vi begynder at kigge på sætningssammensætning, så får vi en større positiv ‘hitrate’ på det, vi leder efter,« fortæller Bjørn Leth Erichsen:

Vil aldrig finde 100 procent

Selvom programmerne kan effektivisere compliance-arbejdet, vil de aldrig kunne finde 100 procent af dataen, fortæller repræsentanterne fra begge virksomheder.

»Der er et utal af systemer derude. Vi har så mange tal fra så mange år, vi bruger på alle mulige måder i dokumenter fra alle lande. Derfor kan det være super svært at komme op på 100 procent,« siger Sebastian Allerelli.

Han tilføjer, at det for eksempel også kan forstyrre programmet, hvis man har scannet et dokument ind på computeren, der har for dårlig kvalitet.

Det er altid bedre at være på den sikre side, understreger Bo Pyskow, så værktøjet finder nogle gange eksempler, som den tror er persondata, men som i virkeligheden er noget andet:

»Det kan være, nogen har skrevet sætningen: ‘Add – det kan jeg ikke lide’. Og så tror algoritmen måske, der er tale om persondata, fordi ADD er en diagnose,« siger han.

Men så kan administratoren eller medarbejderen selv sorterer dokumentet fra.

Læs også: Ny softwareløsning guider organisationer gennem Schrems II-besværet

Virksomheder får et overblik

Når scanningen er færdig, giver programmet administratoren et overblik over resultaterne. Det kan se ud som på billedet herunder fra Safe Onlines løsning, hvor programmet blandt andet har identificeret unikke dokumenter med personhenførbar data.

Safe Online scanneværktøj
Sådan kan det se ud, når Safe Onlines værktøj viser resultatet af en scanning. Illustration: Safe Online. Se større version

»Unikke dokumenter er dokumenter, der ikke ligner hinanden. Og resten er dokumenter, man har flere steder. Så indekserer den filerne ud fra, hvilke der indeholder oplysninger som er high risk, risk eller non risk,« siger Sebastian Allerelli.

Medarbejdere kan få et overblik over, hvor der først skal ryddes op, og it-afdelingen kan se, om der er nogle adfærdstendenser i forretningen, som skal ændres i forhold til håndteringen af persondata. Med overblikket kan man lave nye politikker for GDPR-compliance i virksomhederne, som kan efterprøves ved regelmæssige scanninger.

Men selvom programmet kan finde dem gemte persondata, så kan man ikke bare trykke på en knap for at slette alt risikabelt data, understreger Sebastian Allerelli:

»Vi ønsker jo ikke at give den store røde sletteknap til alle medarbejdere – det kan gå grueligt galt.«

Det er Bjørn Leth Erichsen fra Sixtus enig i. Han peger på, at medarbejdere kan komme til at bryde andre regler, hvis ikke overvejer det grundigt, før man sletter data:

»Hvis man for eksempel har nogle dokumenter, der indeholder økonomiske oplysninger, som skal opbevares i forhold til bogføringslovgivningen – de skal gemmes i fem år. Og hvis vi så går ind og laver en automatisk sletning på alt over tre år, så har vi et problem.«

Derfor er værktøjerne fra Sixtus, Safe Online og andre virksomheder ikke løsninger, der kan klare alle compliance-opgaver, uden dataansvarlige skal løfte en finger.

Men ifølge udviklerne, kan det effektivisere arbejdet og måske gøre det mere overskueligt at overholde GDPR, og så fungerer det som dokumentation for, at man i det mindste har gjort et forsøg på at blive compliant, understreger Bjørn Leth Erichsen:

»Skulle det ske, at man får besøg af datatilsynet, så kan man føre direkte bevis for, at man hele tiden gør alt, hvad man kan for at få ryddet op i de dokumenter, som ligger alle mulige steder.«

Hvornår skal man slette data?

GDPR siger, at en dataansvarlig skal slette eller anonymisere persondata, når man ikke længere behandler det, og derfor ikke har en god grund til at have det liggende.

Andre love, som for eksempel bogføringsloven eller hvidvaskloven, kan kræve, at man skal opbevare data i længere tid. Man kan læse mere om sletteregler for persondata på Datatilsynets hjemmeside.

Ingen kommentarer endnu.  Start debatten
Fortsæt din læsning
Debatten
Du har ikke tilladelse til at deltage i debatten. Kontakt support@ing.dk hvis du mener at dette er en fejl.
Forsiden