Reinforcement learning: Mangel på reproducerbarhed er en bremseklods

Der er meget hype omkring reinforcement learning, og det kan føre til en række problemstillinger om eksempelvis reproducerbarheden og robustheden i den forskning, der bliver lavet på området. Det skriver Nicolai Lynnerup, der er konsulent ved Teknologisk Institut, i dette indlæg.
Brødtekst

Artificial intelligence (AI) som enabling technology for hurtigere omstilling i fremstillingsindustrien er et fokusområde, der har eksisteret i årtier.

Ikke desto mindre er det stadig et højaktuelt emne, der vil muliggøre en højere grad af automatisering af de processer, som så populært er kendt som high mix, low volume - altså en stor del af produktionen i vores små- og mellemstore virksomheder (SMVer).

Forskningsfeltet har gennem de seneste år gennemgået et paradigmeskifte, hvor megen forskning i dag er baseret på den specifikke teknologi indenfor AI-feltet; reinforcement learning (RL). Som vi kender AI er det jo fortsat et moving target; lige så snart en ”AI teknologi” er velkendt og bevist falder den stille og roligt ud af AI-feltet, tag f.eks. optical character recognition (OCR).

The hype is real

RL er et af de tre læringsparadigmer indenfor machine learning (ML), hvor de to øvrige er kendt som hhv. unsupervised og supervised learning. RL beskriver læring, som en agent der skal tage actions i dets environment udfra en enten given eller lært reward funktion. Agentens job er altså at maksimere den kumulative gevinst ved at lave handlinger i et miljø.

Men selvom RL er en lovende teknologi, er den ikke uden dens problemer.

Listen over både teoretiske og praktiske problemstillinger er lang og kan læses i sit fulde omfang i min ph.d.-afhandling primo 2022. I dette indlæg vil jeg særligt adressere problematikken bag det at hype en teknologi, for hypen er en kendt og helt naturlig del af udviklingen af ny teknologi, og er i sig selv ikke et problem.

Dog kan der opstå en del problemstillinger i kølvandet af den enorme interesse, der pludseligt kan opstå i et forskningsfelt. Mest signifikant er problematikken med reproducerbarhed (oftest kendt som reproducibility crisis) og herunder robustheden af forskningsresultaterne publiceret.

Tre niveauer af forskningens grundsten

Dette indlæg skal ikke dykke dybt ned i terminologi, men det er vigtigt at forstå de tre niveauer af, hvad jeg kalder forskningens grundsten; nemlig at vi kan bygge videre på hinandens resultater og avancere vores viden hurtigere, end hvis vi gjorde alt hver for sig.

Jeg har defineret følgende termer som en del af min forskning for at synliggøre forskellen mellem dem og give forskere noget at sigte efter.

  1. RepetereSamme forskningsenhed der med samme kodebase udfører samme eksperiment (kan have forskellige parametre) flere gange, eksempelvis for at kunne udføre og rapportere statistiske analyser af eksperimentet.
  2. Reprodusere: Anden forskningsenhed der med samme kodebase udfører samme eksperiment som det originalt rapporterede. Eksempelvis for at verificere det originale eksperiment.
  3. ReplikereAnden forskningsenhed der med anden kodebase udfører samme eksperiment med samme mål som i punkt 2. Bemærk, her er koden ikke tilgængelig (dette kunne være et typisk Google, Amazon eller DeepMind projekt).

Vores - hvad jeg vil kalde helt basale - evne til at gengive andres resultater er grundstenen i al forskning, og indenfor computational sciences har vi unikke muligheder for at kunne opnå en høj grad af reproducerbarhed. Men det gælder kun hvis forskning bliver mere åben, bl.a. gennem open-reviews, open-source data og open-source kode, herunder et større fokus fra uddannelsesinstitutionerne på stokastiske processer indeni en PC

For at kunne nå hertil er det dog vigtigt at få den akademiske verden til at indse at de ikke (nødvendigvis) bliver overhalet indenom ved at offentliggøre deres forskning og alle dets attributter.

Det er en reel frygt mange har. Nogle har måske endda prøvet at få ”stjålet” sin idé. Hvis idéen er værd at stjæle, så er den jo god og så kan det være lige meget hvem der publicerede den først. Forskning skal udvikle vores samfund og ikke bruges som hædersplatform til enkelte forskere med høje H-indeks.

Identifikation er afgørende

Men hvad har alt det med hurtigere omstilling at gøre?

For at virksomheder og organisationer kan udnytte grundforskningens fantastiske resultater i deres produktion, er det helt essentielt at man ud fra de publicerede resultater kan identificere eks. hvilken algoritme der er god til hvad (benchmarking).

Det, mange forskere (specielt hos Google og DeepMind) tilsyneladende har glemt, er, at læserne af videnskabelige artikler ikke leder efter en reklamesøjle eller inspiration, men svar på om den nye fantastiske algoritme vil virke for læseren selv i dennes specifikke use-case.

Det er meget svært ud fra resultater, der ofte ikke en gang er statistisk verificeret af forfatterne selv. Pinligt, bekymrende og oftest med begrundelsen om at dataindsamlingen og eksperimenterne er dyre at udføre (hvilket de er!), men stadig en ingen undskyldning for ikke at udføre sit job korrekt.

Fremtiden er Sidemandsoplæring

Hvis vi lige skal tage et kig fra helikopterperspektivet, så vil jeg gerne fremhæve en tendens som er blevet grundstenen i mit arbejde, nemlig sidemandsoplæring.

Men ikke sidemandsoplæring mellem mennesker, nej mellem mennesker og robotter. For to af de helt generelle spørgsmål, der i højere grad bør stilles når man skal automatisere, er:

  1. hvordan sikrer vi at teknologien bliver optaget af de der skal have deres dagligdag med teknologien?
  2. Hvordan får vi udnyttet den enorme mængde domæneviden operatøren har til det hurtigere oplæring og fremtidig omstilling af det automatiserede system? 

Svaret her er for mig sidemandsoplæring. Lad operatøren oplære sin nye ”robot kollega” og lad ham hermed tage ejerskab for robotten og de underliggende teknologier, så sikrer vi at vi ikke har en ubegrundet skepsis blandt de ansatte ved introduktionen af robotter til deres arbejdsplads.

Jeg har ingen tvivl om at det vil lette integrationen.

Prøv DataTech gratis

DataTech giver dig ny viden, cases og erfaringer med at lykkes med AI og data science i praksis. Få 3 ugers gratis og uforpligtende prøveabonnement

Klik her