Året i data: Sprogmodellernes duel, reinforcement learning i arbejde og AI, der kan forklares

Foto : Piick / Bigstock

Året i data: Sprogmodellernes duel, reinforcement learning i arbejde og AI, der kan forklares

Vi ser tilbage på året, der er gået.

2019 rinder så småt ud, og dermed slutter ikke bare et begivenhedsrigt år for data science, AI og machine learning, men også et årti, hvor AI-systemer har slået mennesker i Jeopardy, Go, Starcraft og Dota 2. Hvor værktøjskassen er udvidet med GAN, BERT, TensorFlow og meget andet. Hvor GPU'er og cloud har givet adgang til billig computerkraft. Og hvor data science er blevet en af verdens mest eftertragtede discipliner.  

I årets sidste nyhedsbrev nøjes vi med at se tilbage på året, der er gået. Og vi starter med en sang, der måske - måske ikke - kan synges på 'Vær velkommen Herrens år':

»FADE In

GOAT DICK IN THE BOY T-HAULUS

GOAT DICK IN THE BOY T-HULUS

GOAT DICK-IN-THE-BOY BOY

GREAT BOY

GREAT-GOAT-GOAT-GOAT-GOAT-GOAT-GOAT-GOAT-GOAT-GOAT-GOAT-GOAT«

Ovenstående mesterværk er skrevet af GPT-2 - sprogmodellen som OpenAI i år lancerede ad flere omgange. Når man læser teksten, kan det være svært at forstå, at OpenAI i februar ikke fandt det ansvarligt at frigive den fulde GPT-2-model af frygt for, at den kunne misbruges til at generere fake news. 

Beslutningen blev da også kritiseret. Dels for at være et mediestunt designet til at skabe overskrifter. Og dels for at gå imod god forskningspraksis, hvor resultater deles, og metoder efterprøves. Det lykkedes da også flere grupper at genskabe, hvad OpenAI har gjort, før organisationen i november endelig valgte at slippe modellen med 1,5 milliarder parametre fri.

Men stunt eller ej fik OpenAI startet en interessant diskussion om ansvarlig offentliggørelse af AI-teknologi. Selskabet Hugging Face valgte at open source deres chatbot-teknologi efter samme model som OpenAI's GPT-2-strategi. Da forskere ved University of Washington og Allen Institute for AI Research byggede sprogmodellen Grover, valgte de ligeledes en gradvis frigivelse. Og AI-startup AI21 valgte kun at frigive deres sprogmodel i samme størrelse som den største, tilgængelige version af GPT-2.

I et læsværdigt skriv om emnet understreger juralektor ved University of Richmond Rebecca Crootof, at det er kritisk, »that the conversation around thoughtful release continues, informally and formally, until the AI research community develops shared responsible publication norms«.

BERT i aktion

GPT-2 er ikke den eneste store udvikling inden for NLP i år. Selskaber som Google, Microsoft og Facebook har kæmpet en brav kamp om at overgå hinanden i de forskellige benchmarks for sprogmodeller. 

Oven på frigivelsen af BERT i 2018 har Google i år lanceret modeller som AlBERT og XLNet. Selskabet har også selv dokumenteret, at teknologien kan bruges i produkter. Ifølge Google har introduktionen af BERT i selskabets søgemaskine givet »one of the biggest leaps forward in the history of Search« og den største ændring til søgemaskinen siden RankBrain. 

Læs også: Sentimentanalyse af nyheder skal guide grønne investeringer

Læs også: Trustpilot udvikler sentiment-model: NLP-teknologien er blevet moden

Forbedringerne af sprogmodellerne bygger ikke mindst på muligheden for at træne modellerne på endnu mere data og med endnu mere computerkraft. Det i sådan en grad, at man hos Facebook ramte et loft i træningen af selskabets XLM-R-model

Med ikke mindre end 100 sprog er XLM-R modellen et bæst at træne. Og til trods for, at modellen trænes på 500 af Nvidias kraftigste GPU'er, løb Facebook-forskerne ind i ressourcemangel undervejs, skrev ZDNet tidligere på året.

google search bert
Illustration: Google
BERT har forbedret Google Search betydeligt, mener Google.

Deepfake-apps og mere GAN

GPT-2 var ikke alene om at skabe deepfake-frygt. Udvikling inden for deep learning-teknologier har åbnet døren for, at falsk medieindhold kan genereres bedre, hurtigere og nemmere end nogensinde før. Og teknologiens demokratiske natur er i år blevet godt understreget af adskillige mere eller mindre uskyldige apps, der med deepfake-teknologi f.eks. indsætter brugerens ansigt i Hollywood-film. 

Læs også: Data scientist: Politikere må vågne op til deepfake-truslen

En af kerneteknologierne bag deepfakes er GAN - Generative Adversarial Networks. Sidste år kom modeller som BigGAN og StyleGAN, der skaber syntetiske billeder, som blandt andet skaber nye muligheder for at skabe syntetisk træningsdata.

I år er en af de mest imponerende GAN-teknologier kommet fra Nvidia Research. I marts præsenterede selskabet GauGAN, der på imponerende vis kan tage primitive skitser og transformere dem til motiver, der ligner naturfotografier. Den tager i al sin enkelhed inputtet fra brugerens rudimentære tegninger og syntetiserer nye billeder af skove, søer, bjerge og skyer.

GauGAN
Illustration: Nvidia
Nvidias GauGAN.

Reinforcement learning erobrer StarCraft

2019 har også været et godt år for reinforcement learning. På NeurIPS-konferencen, der fandt sted tidligere på måneden, var reinforcement learning et af de hotte temaer, med over 60 papers dedikeret til emnet. 

Læs også: Reinforcement learning er perfekt, når du ikke kan bygge et datasæt

Læs også: Fra Space Invaders til autoskalering: Adobe vil styre sky-ressourcer med reinforcement learning

DeepMind, der længe har satset på deep reinforcement learning, viste i år endnu en gang teknikkens styrke. I januar annoncerede den Google-ejede virksomhed, at AlphaStar blev den første AI til at slå professionelle spillere i det komplekse real-time strategispil StarCraft II.

I årets løb har DeepMind fortsat udviklet AlphaStar, og nu kan systemet udkonkurrere 99,8 pct. af de menneskelige spillere på BattleNet, hvor spillet spilles online. 

Læs også: Her er metoden, der lærte AlphaStar, hvordan den skulle vinde over næsten alle de menneskelige modstandere i StarCraft II

Læs også: AI-udvikler: Reinforcement learning kan lade politikere skrive bedre love

AI-strategi og en smule penge

Herhjemme bød 2019 på den efterhånden længe ventede nationale strategi for AI. I 24 punkter beskriver regeringen en plan til at få Danmark til at gå forrest med ansvarlig udvikling og anvendelse af kunstig intelligens.

»Det er vigtigt, at vi i Danmark udnytter mulighederne i kunstig intelligens, så vi understøtter, at danske virksomheder har en god konkurrenceevne, så Danmark også fremover er blandt de mest velstående lande, og den offentlige sektor kan levere service i verdensklasse,« skriver den nu tidligere regering i strategien, der udkom i marts og kan findes her.

Strategien bringer med sig beskedne 60 millioner kroner over ni år til at indfri ambitionerne. De 60 millioner er oven i de 295 millioner kroner, som er reserveret fra forskningsreserven til forskning i »nye teknologiske muligheder og digitale teknologier« - herunder AI. 

Den dyreste post i strategien er en sprogressource, som skal stille data til rådighed for forskere og virksomheder, der vil udvikle natural language-teknologier til dansk.

Til det projekt har regeringen afsat 30 millioner kroner, og DataTech vil i det kommende år følge arbejdet med at opbygge den. 

Hvis man ikke kan vente på Digitaliseringsstyrelsen, der skal bygge Sprogressourcen, kan man kaste et blik på DaNLP - et projekt fra Alexandra Instituttet, som samler og udvikler både data og modeller til fri afbenyttelse. 

Læs også: Tekstdata fra DR og Infomedia skal være med til at udvikle danske NLP-teknologier

Margrethe Vestager
Margrethe Vestager fortsætter sit arbejde som konkurrencekommissær, men skal nu også have hovedansvar for det digitale Europa.
Illustration: EU-Kommissionen

Vestager skal lede EU i AI-kapløb

Også i EU arbejder man på, hvordan man skal forholde sig til AI. Unionens ekspertpanel på emnet udgav i år flere rapporter, der både understregede, at Europa skulle op i omdrejninger, når det gælder venture-kapital, og at europæisk AI skal bygges på robuste etiske principper. 

Da Ursula von der Leyen blev valgt som formand for EU-Kommissionen, satte hun tempo på den proces ved at sætte en deadline på 100 dage, før kommissionen skal have et rammeværk for regulering af AI.

Hastopgaven er landet i favnen på Margrethe Vestager. Og hvordan hun griber den opgave an, kan man læse i DataTechs interview med den danske kommissær.

Læs også: Margrethe Vestager skal lede Europa i AI-kapløbet: Algoritmer skal belyse – ikke beslutte

Læs også: Teknologirådet: Drop etiske guidelines og stil tekniske krav til ordentlig AI

xAI og dens hovedpiner

Fælles for både EU's og Danmarks tilgang til AI er ønsket om AI-løsninger, der er transparente og ikke-diskriminerende. Som forgreb mod den eventuelt lurende regulering - eller som vilkår for at bringe AI ind i et allerede reguleret felt - er explainable AI, eller blot xAI, i år blevet et stort tema.

Læs også: Hvorfor er det så svært med det der AI? Trust, Transparency & Understanding

Læs også: Bliv klogere med forklarbar kunstig intelligens

Til formålet bruger mange frameworks som LIME og SHAP - som f.eks. Erhvervsstyrelsen og Danske Spil. Hos PFA har man udviklet en risikomodel, der bliver brugt til at monitorere alle modeller og produkter, som bygger på kunstig intelligens. Og virksomheden e-nettet har lavet et rammeværk for at kunne dokumentere en machine learning-model.

SHAP
En specifik spillers sandsynlighed for at vinde. De røde faktorer har positive SHAP-værdier og øger sandsynligheden for, at spilleren vinder. De blå har negative SHAP-værdier og tæller således negativt på spillerens vinderchancer.
Illustration: Lundberg

Læs også: Forskere advarer: AI-forklaringsteknikker som SHAP og LIME kan snydes

Læs også: Autogenererede tekstforklaringer kan gøre ML-modeller forståelige

Læs også: Professor: Den sorte boks er allerede åben - kausalitet er det næste AI-forklaringsproblem

Men metoderne har deres begrænsninger, og det er stadig til debat, hvor meget forklaring en SHAP-forklaring egentlig giver, og i hvilke sammenhænge den er utilstrækkelig. 

Både en kommende lovgivnings krav til modellers forklarlighed samt de tekniske udfodringer ved at levere dem er temaer, som DataTech vil følge i det nye år. 

Er der andre områder, som du mener, vi skal undersøge nærmere i 2020, er du mere end velkommen til at smide en kommentar eller en mail til mab@ing.dk.

2020?

Er der områder og emner, som du mener, vi skal undersøge nærmere i 2020, er du mere end velkommen til at smide en kommentar eller en mail til mab@ing.dk.