Text mining-algoritme finder mening i menneskerettigheder

Instituttet for Menneskerettigheder har udviklet og trænet en algoritme, der kan læse en tekstbid og vurdere, hvilket af FN's verdensmål den relaterer sig til.
Brødtekst

Med ni internationale konventioner, adskillige protokoller og tusindvis af årlige anbefalinger er arbejdet med menneskerettigheder en teksttung affære. Og det er ikke blevet nemmere med introduktionen af de såkaldte Verdensmål (Sustainable Development Goals - SDG) som i de seneste år har fået en prominent plads i et væld af CSR-strategier og debatmøder.

Nu har Danmarks Institut for Menneskerettigheder taget konsekvensen af et overvældende manuelt arbejde og udviklet en algoritme, der kan tage en tekstbid og kategorisere den efter en af verdensmålenes delmål.

For at forstå, hvorfor det er værdifuldt, skal man først forstå, hvordan FN-systemet i dag forsøger at holde landene til de konventioner, de har skrevet under på, forklarer Adrian Hassler, rådgiver ved Danmarks Institut for Menneskerettigheder.

»Vi har i dag flere forskellige monitoreringssystemer, som giver anbefalinger til landene,« siger han.

Det er anbefalinger som denne, som Danmark fik fra Rusland i 2016:

»Take measures to prevent discrimination against migrants and refugees in access to the labour market, as well as to health care and education.«

De forskellige kommissioner og organer uddeler hvert år mere end 70 anbefalinger pr. land. De anbefalinger kan landene så tage til sig eller - som det også ofte er tilfældet - notere sig og ignorere.

»Der er meget papir, men der er meget lidt opfølgning,« forklarer Adrian Hassler og tilføjer:

»Derfor er det vigtigt, at regeringsinstitutioner og civilsamfundet inddrages. Der er ikke gode processer for, hvordan man følger de her anbefalinger, i alle lande.«

Kæmpe manuel opgave

Imens har debatten om de 17 verdensmål vind i sejlene. Den opmærksomhed, SDG'erne nyder i dag, kan måske give politisk opbakning og ressourcer til arbejdet med menneskerettigheder generelt. Og omvendt kan de juridisk bindende konventioner give noget håndfasthed til verdensmålene.

Men at koble de to størrelser kræver, at man kan forbinde hvert enkelt SDG-delmål med konventionernes artikler og FN's anbefalinger til at føre dem ud i livet. Hvilket leder tilbage til algoritmearbejdet.

»Vi skulle lave et samarbejde i Kenya omkring verdensmål og menneskerettigheder. Og da ville vi gerne tjekke, hvad Kenya har fået af anbefalinger fra de her monitoreringsmekanismer, for at se, om vi kan koble de to formål, så anbefalingen ikke bare står på et papir i fire år,« fortæller Adrian Hassler.

Det viste sig at tage rigtig lang tid.

»Vi fandt frem til nogle hundrede anbefalinger, som Kenya havde fået. Og dem ville vi gerne opdele i nogle grupper alt efter delmålene i verdensmålene. Men med 169 delmål så er der rigtig mange kombinationer, du kan lave, og det viste sig at være et meget stort arbejde.«

Efter at en praktikant havde siddet med opgaven i to måneder, måtte instituttet opgive - lige indtil de fik kontakt med Niels Jørgen Kjær fra den socialøkonomiske virksomhed Specialisterne, som foreslog at automatisere opgaven med en text mining-algoritme.

Metadata gav smutvej

Danmarks Institut for Menneskerettigheder havde i 2016 hyret Specialisterne ind for at sammensætte, hvordan menneskerettighedsartiklerne passer til de forskellige delmål i Verdensmålene.

»Det var vores første forsøg på en database. Og det blev et meget populært værktøj,« fortæller Adrian Hassler.

IMR
Instituttets algoritme i første og anden iteration.
Illustration: Institut For Menneskerettigheder

For at skabe algoritmen startede instituttet og Specialisterne med at holde sig til ét af de monitoreringssystemer, der udsteder anbefalinger - Universal Periodic Review (UPR) - og hentede to forskellige databaser med de 68.000 kommentarer, systemet har genereret siden 2007.

»Begge databaser havde noteret metadata om temaet i kommentaren - som for eksempel børn eller ligestilling. I første omgang brugte vi kun den metadata for at udnytte det arbejde, de allerede havde lavet,« siger Adrian Hassler.

»Det var en smutvej,« forklarer han.

Adrian Hassler brugte nogle dage på at etablere en ground truth ved at annotere det rigtige delmål til en række forskellige kommentarer. På den data trænede Niels Jørgen Kjær den første model til at gætte på det rigtige delmål - alene ud fra nøgleord i metadata. Endelig gav Adrian Hassler modellen feedback på klassificeringerne for at udvide ground truth og forbedre modellen.

Kritisk over for modellen

Herefter gik Niels Jørgen Kjær videre til at få modellen til at se på ordene i den egentlige kommentar.

På baggrund af den første model sammensatte Adrian Hassler en såkaldt ekspertordbog med alle de ord, som signalerer et bestemt tema og dermed delmål. Hvert ord tildeles af modellen en ud af tre ordtyper samt en styrke fra 0 til 3, som viser, hvor indholdsrigt ordet er for en given kategori.

»Det er en slags brute force-metode,« forklarer Adrian Hassler.

»I kraft af sin hurtighed kan algoritmen afprøve alle ord og optimere deres styrker, så modellen giver bedst mening i forhold til ground truth.«

Modellen kan løbende foreslå nye ord til ekspertordbogen eller nye værdier til de eksisterende ord. I begge tilfælde skal man være kritisk over for modellens bud, understreger Adrian Hassler.

»Man skal være forsigtig med ikke at overfitte. Vi kan godt fagligt vurdere, om et ord burde være relevant for konteksten, eller om det bare er et tilfælde, at det synes at være et signal i vores datasæt,« siger han.

Ordet 'Abuse' kan f.eks. være med til at afgøre, hvad en kommentar handler om. Mens ordet 'Announce' ikke kan. Et andet eksempel på problemet er de to delmål, der hedder 'adgang til vand' og 'adgang til sanitet', fortæller Adrian Hassler:

»I menneskerettighedssystemet, bliver de to ting som regel nævnt sammen, og derfor mener algoritmen, at både 'vand' og 'sanitet' peger mod begge delmål. Men jeg vil jo gerne have, at den adskiller de to ting, og derfor skal den ikke se på 'vand' for at regne ud, om det handler om sanitet.«

Begejstring i Genève

Der er stadig muligheder for at forbedre modellen. I skrivende stund på opererer den kun på enkeltord, og næste skridt bliver ifølge Adrian Hassler at få den til også at forstå sammensatte ord.

Ikke desto mindre er modellen nu grundlaget for værktøjet Data Explorer, der har vakt begejstring i FN's Menneskerettighedsråd (HRC) i Genève, fortæller Adrian Hassler.

»Det, vi gør med algoritmen, det sidder der en flok mennesker i Genève og gør manuelt. De sidder med en håndbog, som dikterer, hvilke kategorier der skal bruges, når dette ord optræder. Det er et kæmpe arbejde. Og de vil nu også gerne bruge vores algoritme til at lave deres indeksering, fordi de bruger så mange ressourcer på at annotere metadata til hver enkelt anbefaling.«

FN-systemet havde tidligere forsøgt at købe en algoritme til samme formål, men endte med at opgive løsningen.

»Det var en black box, hvor du får et resultat ud, men hvis resultatet ikke passer, så ved du ikke hvorfor. Der er ikke nogen parametre, du kan lege med. Fordelen ved vores metode er, at vi har 100 procent styr på, hvad der foregår,« siger Adrian Hassler.

Til gengæld kan man godt diskuttere nogle af de metodiske valg, medgiver han.

»Vi skulle jo fortolke hele menneskerettighedsdagsordenen mod hele udviklingsdagsordenen. Og det er jo en stor mundfuld.«