Timnit Gebru
Timnit Gebru

Foto : TechCrunch (CC BY 2.0)

Google i AI-krise: Fyrer forsker på baggrund af kritisk NLP-artikel - topchef trækker i land

En chef for Googles team for etisk AI er fyret efter kritik af sprogmodeller. »Censur« kalder mere end 2.000 Google-medarbejdere det i støtteerklæring, der kræver en forklaring. Googles topchef, Sundar Pichai, taler ud.

Timnit Gebru, som indtil for nylig var en af cheferne for Googles hold for etisk kunstig intelligens, er blevet fyret fra sit job efter at have været medforfatter på et udkast til en kritisk videnskabelig artikel og derefter have skrevet om sagen i en intern Google-gruppe.

Ud over at have en ledende funktion for et Google-hold er Timnit Gebru kendt som medforfatter til en videnskabelig artikel fra 2018, der viste, at ansigtsgenkendelse var mindre nøjagtig til at identificere kvinder og mennesker med brun hud end andre, hvilket indebærer, at brugen af teknikken kan ende med at diskriminere disse grupper.

Chefen for ​​Google AI, Jeff Dean, har meddelt at det nævnte udkast efter hans mening ikke opfyldte Googles niveau for artikler til offentliggørelse.

Faren ved papegøjesnak-modeller

Mediet MIT Technology Review har modtaget udkastet til den endnu ikke udgivne artikel fra en af ​​medforfatterne, Emily M. Bender, som er professor i datalingvistik ved University of Washington.

Hun har bedt mediet om ikke at offentliggøre selve teksten, fordi forfatterne ikke ønsker, at et tidligt udkast kommer ud online. Men hun har givet Technology Review lov til at gennemgå de vigtigste punkter.

Udkastet, som har titlen 'On the Dangers of Stochastic Parrots: Can Language Models Be Too Big?', beskriver risikoen ved store sprogmodeller, der er trænet med meget store mængder tekstdata. Disse modeller, såsom BERT og GPT, er blevet mere populære og stadigt større over de seneste tre år.

Under de rette forhold er modellerne blevet dygtige til at producere tekst, der til forveksling ligner det, der kommer fra menneskehånd. I nogle tilfælde kan modellerne også estimere mening fra sprog.

Men i introduktionen til artiklen stiller forskerne spørgsmålet, om der er tænkt nok på de potentielle risici forbundet med modellerne, og kommer med strategier til at afbøde sådanne risici.

Udkastet til den videnskabelige artikel giver ifølge Technology Review en oversigt over fire hovedrisici ved store sprogmodeller og forslag til yderligere forskning.

Det, som Google-ledelsen har opponeret imod, er artiklens gennemgang af risici, og hvad der ses som manglende opmærksomhed på ny forskning, hvor disse risici imødegås.

NLP-energiforbrug og CO2-aftryk er eksploderet

Det første punkt, artikel-udkastet peger ud, er miljømæssige og økonomiske omkostninger. En stor model bruger meget processorkraft og energi. Forfatterne henviser til en artikel fra 2019 om emissioner og økonomiske omkostninger ved store sprogmodeller. Artiklen konkluderede, at energiforbrug og CO2-aftryk er eksploderet siden 2017 på grund af flere data i modellerne. Modellen Transformer med 213 mio. parametre anslås at udlede, hvad der svarer til 284 ton CO2-ækvivalenter, svarende til hvad fem amerikanske biler udleder tilsammen i deres levetid.

Et andet forhold, forskerne har kigget på, er omkostninger. Den førnævnte Transformer-model anslås at have kostet, hvad der svarer til 19.667.858 kroner.

Forfatterne påpeger, at de store ressourcer, der kræves for at opbygge og vedligeholde så store modeller, betyder, at de har en tendens til at komme velhavende organisationer til gode, mens klimaændringerne rammer marginaliserede samfund hårdest.

»Det er på høje tid, at forskere prioriterer energieffektivitet og omkostninger for at reducere den negative miljøpåvirkning og ulige adgang til ressourcer,« skriver forskerne ifølge Technology Review.

Racisme og sexisme ender i træningsdata

De store sprogmodeller trænes også i eksponentielt stigende mængder tekst. Det betyder, at alle de data, der kan indsamles fra internettet, anvendes, så der er en risiko for, at racisme, sexisme og sproglige overgreb ender i træningsdata.

En AI-model, der lærer at betragte det racistiske sprog som normalt, er tydeligvis dårlig. Forskerne påpeger også mere subtile problemer. Den ene er, at skiftsprog spiller en vigtig rolle i social forandring. Metoo-bevægelsen har eksempelvis forsøgt at etablere en ny anti-sexistisk sprogbrug. En AI-model, der er trænet med store mængder data fra internettet, vil ikke blive tilpasset nuancerne i dette ordforråd og vil ikke producere eller fortolke sprog i tråd med nye kulturelle normer.

Modellerne vil også undlade at fange sproget og normerne for lande og folk, der har mindre adgang til internettet og dermed et mindre sprogligt aftryk online. Resultatet er, at det AI-genererede sprog bliver homogeniseret og afspejler praksis i de rigeste lande og samfund.

Fejlagtig forskningsindsats

Det tredje punkt i forskernes kritik er risikoen for ‘fejlagtig forskningsindsats’. Selvom de fleste AI-forskere anerkender, at store sprogmodeller faktisk ikke forstår sprog og kun er fremragende til at manipulere det, kan Big Tech tjene penge på modeller, der bliver stadigt bedre til at manipulere sprog, så industrien fortsætter med at investere i modellerne.

»Denne forskningsindsats medfører en omkostning,« skriver Timnit Gebru og kolleger.

Der bruges færre kræfter på at arbejde med modeller, der måske kan opnå forståelse eller få gode resultater med mindre og bedre udvalgte data og derfor også med mindre energiforbrug.

Det sidste problem, som forskerne ser det, er, at de store sprogmodeller er så gode til at efterligne ægte menneskeligt sprog, at det er let at bruge dem til at narre folk. En model kan f.eks. bruges til at generere misinformation om et valg eller 19-covid-pandemien. Det kan også gå galt utilsigtet, når de bruges til maskinoversættelse. Forskerne nævner et eksempel: I 2017 oversatte Facebook en palæstinensisk mands indlæg, der sagde ‘god morgen’ på arabisk, til ‘angrib dem’ på hebraisk, hvilket førte til, at manden blev anholdt.

Værdien af ​​akademisk frihed

Artikel-udkastet har seks medforfattere, hvoraf fire er forskere hos Google. Emily M. Bender har bedt Technology Review om at undgå at afsløre deres navne af frygt for konsekvenserne.

»Jeg synes, ​​det understreger værdien af ​​akademisk frihed,« siger hun til Technology Review.

Ifølge hende er målet med artiklen at gøre status over landskabet i den nuværende forskning inden for NLP.

»Fordi fordelene er så tydelige, er det især vigtigt at træde et skridt tilbage og spørge os selv, hvad er de mulige ulemper? Hvordan får vi fordelene, samtidig med at vi mindsker risikoen?«

Som nævnt mente chefen for ​​Google AI, Jeff Dean, at udkastet efter hans mening ikke opfyldte Googles niveau for artikler til offentliggørelse. Specifikt fremførte han, at teksten ikke nævnte nyere arbejde med, hvordan man gør store sprogmodeller mere energieffektive og mindsker problemer med bias. Men udkastet citerer 128 andre forskningsartikler.

»Det er den slags arbejde, som ingen enkeltpersoner eller et par forfattere kan udføre. Det krævede virkelig dette samarbejde,« siger Emily M. Bender.

Ifølge en besked, som Timnit Gebru har sendt til en intern Google-gruppe, blev hun af et højere ledelseslag uden forudgående varsel bedt om at fjerne sit navn fra udkastet. Hun meddelte derefter, at hun havde en række betingelser for at gøre dette, og at hun ellers ville forberede en opsigelse. Personaleafdelingen opfattede dog denne besked som en opsigelse. Selv mener Timnit Gebru ikke, at hun har sagt op, men er blevet fyret.

Google-medarbejdere kræver forklaring

Sagen har fået det efterspil, at 2.278 Google-medarbejdere og 3.114 andre i den akademiske verden og AI-brancen i skrivende stund har skrevet under på en støtteerklæring til Timnit Gebru.

Støtteerkæringen fremsætter følgende krav til Google Research-ledelsen:

»Vi kræver, at Jeff Dean (Google Senior Fellow og Senior Vice President of Research), Megan Kachola (Vice President of Engineering for Google Brain) og dem, der var involveret i beslutningen om at censurere Dr. Gebrus papir, mødes med det etiske AI-hold for at forklare den proces, hvormed papiret blev afvist af ensidig ledelse.«

»Vi kræver gennemsigtighed for den bredere offentlighed, herunder Google-brugere og vores kolleger i det akademiske samfund, angående Google-ledelsens beslutning om at beordre Dr. Gebru og hendes kolleger til at trække deres forskning om store sprogmodeller tilbage. Dette er blevet et offentligt anliggende, og der skal være ansvarlighed for at sikre, at offentligheden stoler på Google Research fremover.«

»Vi kræver, at Google Research forpligter sig utvetydigt til at engagere sig i forskningsintegritet og akademisk frihed, der drastisk styrker forpligtelserne i Googles forskningsfilosofi og forpligter sig til at støtte forskning, der fremmer målene med Googles AI-principper ved at give klare retningslinjer for, hvordan forskning gennemgås, og hvordan forskningsintegritet vil blive respekteret.«

Googles topchef taler ud

Indtil onsdag ønskede Google ifølge flere medier ikke at kommentere sagen, ud over Jeff Deans tidligere nævnte meddelelse.

Det ændrede sig dog onsdag aften, hvor Googles topchef, Sundar Pichai, udtalte dette, som DataTech her gengiver uredigeret:

»I’ve heard the reaction to Dr. Gebru’s departure loud and clear: it seeded doubts and led some in our community to question their place at Google. I want to say how sorry I am for that, and I accept the responsibility of working to restore your trust.

First - we need to assess the circumstances that led up to Dr. Gebru’s departure, examining where we could have improved and led a more respectful process. We will begin a review of what happened to identify all the points where we can learn -- considering everything from de-escalation strategies to new processes we can put in place. Jeff and I have spoken and are fully committed to doing this. One of the best aspects of Google’s engineering culture is our sincere desire to understand where things go wrong and how we can improve.  

Second - we need to accept responsibility for the fact that a prominent Black, female leader with immense talent left Google unhappily. This loss has had a ripple effect through some of our least represented communities, who saw themselves and some of their experiences reflected in Dr. Gebru’s. It was also keenly felt because Dr. Gebru is an expert in an important area of AI Ethics that we must continue to make progress on -- progress that depends on our ability to ask ourselves challenging questions.

It’s incredibly important to me that our Black, women, and underrepresented Googlers know that we value you and you do belong at Google. And the burden of pushing us to do better should not fall on your shoulders. We started a conversation together earlier this year when we announced a broad set of racial equity commitments to take a fresh look at all of our systems from hiring and leveling, to promotion and retention, and to address the need for leadership accountability across all of these steps. The events of the last week are a painful but important reminder of the progress we still need to make.«

DataTech har bedt Timnit Gebru om et interview.

Prøv DataTech gratis

DataTech giver dig ny viden, cases og erfaringer med at lykkes med AI og data science i praksis. Få 3 ugers gratis og uforpligtende prøveabonnement

Klik her