Ugens data: Facebook-whistleblower Frances Haugen vinder Libre-prisen

Frances Haugen
Illustration: Frances Haugen.
Vi ser tilbage på ugen i data science.
20. maj kl. 07:59
errorÆldre end 30 dage

I mandags blev Libre-prisen uddelt, og i år gik hovedprisen til Facebook-whistlebloweren Frances Haugen, der sidste år lækkede interne dokumenter fra Facebook-koncernen, som i dag går under navnet Meta.

Af Libre-kommittens begrundelse fremgår det, at Frances Haugen modtager prisen for sin »modige deling af kompromitterende og central information om Meta og Facebook, med alle de personlige omkostninger der følger med.«

Lækket og Frances Haugen vidnesbyrd slog endeligt fast, at SoMe-gigantens indholdsstyrende algoritmer har skadelig effekt på samfundet og på Facebooks og Instagrams brugere, og - ganske opsigtsvækkende - at Meta ér vidende omkring de skadelige effekter.

På trods af den viden valgte koncernen ikke at ændre på algoritmerne fordi Meta »sætter deres astronomiske høje overskud over mennesker,« som Frances Haugens formulerede det, da hun vidnede foran senatets handelsudvalg i efteråret 2021.

Artiklen fortsætter efter annoncen

En af Frances Haugens helt centrale pointer er, at Metas egen research entydigt viser, at det mest engagerende indhold ofte bærer præg af at være hadefuldt, polariserende, misinformerende eller på anden vis skadelig.

Men i stedet for at optimere de indholdsstyrende algoritmer, således at den slags toksisk indhold minimeres, så har Meta - velvidende om de skadelige effekter - maksimeret i forhold engagement. Og det har bevirket, at hadefuldt og skadeligt indhold er kommet til at fylde mere og mere på Facebook og Instragram.

I et interview med det amerikanske nyhedsmagasin 60 Minutes, fortæller Frances Haugen, at det er en optimeringsstrategi, som man aktivt har valgt fordi det skadelige indhold fastholder og engagere brugerne. Og det får folk til at bruge mere tid på Metas platforme, hvilket i sidste ende betyder flere klik på de annoncer, som Meta i høj grad har baseret sin forretningsmodel på.

I 60 Minutes-indslaget fortæller Frances Haugen, at det for eksempel ses tydeligt når det kommer til indhold, der viser ekstreme kropsidealer og indhold relaterede til spiseforstyrrelser. Den type indhold har stærk tendens til, at inspirere især unge teenagerpiger, og »det får dem faktisk til at bruge appen mere. Og så ender de i den her feedback-cyklus, hvor de hader deres kroppe mere og mere,« fortæller Frances Haugen.

Remote video URL

Ved årets prisuddeling blev der også uddelt en hæderspris til journalisterne Bo Elkjær og Kenan Seeberg for deres afsløring af det amerikanske overvågningsprogram Echelon i 1990’erne.

Libre-prisen er en dansk ‘digital frihedspris’, der »gives til en person, organisation eller virksomhed, som har gjort en særlig indsats for at fremme menneskerettigheder, demokrati, åbenhed og gennemsigtighed i den digitale tidsalder,« fremgår det af Libre-prisens hjemmeside.

Tidligere vindere af Libre-prisen tæller konkurrencekommisær i EU og ledende næstformand i Europa-Kommissionen, Margrethe Vestager, samt journalist Jakob Sorgenfri. Hædersprisen er tidligere gået til Emma Holten, der er feministisk aktivist, konsulent og foredragsholder, samt Tilsynet med Efterretningstjenesterne (TET).

AI Act overflyvning

MIT Technology Review kalder den, »den vigtigste AI-lov, du aldrig har hørt om,« men der er nu nok en god portion af DataTechs faste læsere, der allerede er bekendt med at EU er i fuld gang med at udarbejde en nyt sæt love, der samlet går under betegnelsen The Artificial Intelligence Act eller blot AI Act.

Lige nu pågår EU-Kommissionens arbejde med at revidere det første udkast til lovgivningen, som blev fremlagt sidste år. Det kan midlertidigt være en anelse vanskeligt, at holde styr på hvor lovgivningsarbejdet står, og hvori de store udfordringer består. Derfor har MIT Technology Review skrevet en udmærket ‘quick guide’ til alt det du skal vide om AI Act.

Guiden forklarer blandt andet hvorfor AI Act er værd at holde øje med, og hvordan den vil komme til at påvirke europæiske borgere såvel som virksomheder, borgere og lovgivere udenfor EUs grænser. 
Og så sætter guiden fokus på nogle af de helt store dilemmaer i forhold til AI, som EUs politikere er nødt til at forholde sig til, hvis det skal lykkes at nå i mål med lovgivningsarbejdet.
 

Google har lært 24 flere sprog

I sidste uge annoncerede Google, at deres oversættelsesværktøj, Google Translate, har fået tilføjet 24 nye sprog. Det betyder at Google Translate nu understøtter i alt 133 sprog.

Ifølge Google egen pressemeddelelse, er der over 300 millioner mennesker, der taler mindst ét af de nyligt tilføjede sprog. Det svarer til cirka 3.8 procent af jordens befolkning. 

Tilføjelsen indeholder både ganske udbredte sprog såvel som sprog, der tales af knap så mange. Fælles for de 24 nytilføjelser er, at de primært tales uden for den vestlige verden. Google Translate understøtter stadig i overvejende grad europæiske sprog, hvilket stort set udelukker regioner med stor sproglig mangfoldighed, for eksempel Afrika.

Det mest udbredte sprog i tilføjelsen er Bhojpuri - eller भोजपुरी, skrevet med devanagari-alfabetet - som tales af omkring 50 millioner mennesker i Nordindien, Nepal og Fiji.

Det mindst udbredte sprog er Sanskrit, der tales af omkring 20.000 mennesker. På trods at sprogets relativt begrænsede udbredelse, er det et kulturelt vigtigt sprog fordi det er et af Indiens klassiske kultursprog, og så er det et såkaldt liturgisk sprog. Altså et helligt sprog, der især anvendes i hinduistiske skrifter og hymner. Sanskrit position og betydning i Indien og Sydøstasien sammenlignes derfor ofte med latins position og betydning for Europa.

Med de 24 nytilføjelser, kunne det godt lyde som om at Google mest af alt har begivet sig ud på en NLP-drevet teknoantropologisk ekspedition med det formål at udbrede oversættelsesteknologi. Men ifølge Google selv er her også tale om en teknologisk milepæl.

Hidtil har man nemlig trænet modeller til maskinoversættelse på corpusser, der består af paralleltekster, altså den samme tekst på forskellige sprog. Præcis som mange nok vil kende det fra for eksempel Europarl Corpus.

Men især for mindre sprog, er det ofte vanskeligt at samle tilpas store corpusser med paralleltekster til at træne en maskinoversættelsesmodel. Og det har da også tidligere været udfordringen med netop de 24 nye sprog i Google Translate.

Nu er det så alligevel lykkes at tilføje sprogene ved hjælp af såkaldt Zero-Shot Machine Translation. Med Zero-Shot Machine Translation ser modellen kun ensproget tekst, hvormed teksten oversættes til et andet sprog uden nogensinde at have set et eneste eksempel på hvordan for eksempel ‘Vi trænger alle til weekend’ oversættes til ‘अस्माकं सर्वेषां सप्ताहान्तस्य आवश्यकता वर्तते’ på det hellige sprog, Sanskrit.

På DataTech tør vi godt love, at vi kommer til at dykke mere ned i Zero-Shot Machine Translation og de samfundsmæssige konsekvenser ved at maskinoversættelse ikke understøtter en mangfoldig palette af sprog.
 

TRIPLE BAM!!!

En del data scientists vil formentlig være bekendt med youtuberen Joshua Starmer, der er manden bag StatQuest. Joshua Starmers youtubekanal indeholder et væld af tutorials og videoer om machine learning og statistik.

Siden StatQuest første video i 2015, er kanalen blevet enormt populær. Det skyldes især ‘clearly explained’-konceptet, hvor Joshua Starmers bryder gængse modeller og metoder ned og forklarer matematikken så tydeligt og pædagogisk, at det ikke er noget under at kanalen er blevet en go-to ressource for især studerende.

Remote video URL

Nu har Joshua Starmer, så udgivet bogen The StatQuest Illustrated Guide To Machine Learning, der - som titlen antyder - er en illustreret guide til at komme i gang med machine learning. 

Nu springer årets studenter jo ganske snart ud, så det kunne måske være en oplagt gave til en kommende student, der overvejer at kaste sig over en data science-orienteret uddannelse.

Bogen kan købes som pdf eller som paperback.

Ingen kommentarer endnu.  Start debatten
Debatten
Log ind for at deltage i debatten.
settingsDebatindstillinger