Reinforcement learning er perfekt, når du ikke kan bygge et datasæt
AWS demonstrerer reinforcement learning med bilen Deep Racer.

Foto : AWS

Reinforcement learning er perfekt, når du ikke kan bygge et datasæt

Reinforcement learning er en af de trends inden for data science, der spås stort potentiale.
Brødtekst

Når man ser på eksempler på opgaver, der kan løses med reinforcement learning, kan man nemt få det indtryk, at teknikken primært er anvendelig til spiludvikling.

Metoden er f.eks. adskillige gange blevet brugt til at besejre mobilspillet Angry Birds. I OpenAI's toolkit til reinforcement learning kan man prøve kræfter med klassikere som Pong og Space Invaders. Og da en AI i denne uge besejrede mennesker i skydespillet Quake III Arena var det reinforcement learning, der stod bag sejren. 

Det er både godt og skidt, mener Julien Simon, der er machine learning-ekspert hos AWS, da DataTech møder ham i Stockholm.

»Det er godt, fordi det viser, at her er noget, som er væsentligt anderledes end fraud detection eller churn prediction - almindelige machine learning use cases. Det er sjovt, og alle kan forstå det,« siger han og fortsætter:

»Det er mindre godt, fordi fokus på gaming leder folk til at tro, at reinforcement learning kun er til videospil. Og de use cases tiltrækker opmærksomhed, så jeg kan godt forstå, hvorfor man får det indtryk.«

Hos AWS tilføjede man i slutningen af sidste år reinforcement learning til skykæmpens Sagemaker-værktøj, der bruges til at udvikle og håndtere ML-modeller. Begrundelsen er den samme som for alle andre tiltag, siger Julien Simon: Det bliver efterspurgt.

Gulerod og pisk

Reinforcement learning er væsentlig anderledes end både superviseret og usuperviseret machine learning. I stedet for at lære af et datasæt skal en såkaldt agent interagere med et simuleret miljø og deraf lære konsekvenserne af forskellige handlinger.

Ved at give agenten belønning for at gøre det rigtige - og straffe den for det modsatte - bliver agenten på sigt opdraget til at løse det problem, man vil have den til - som f.eks. at lære at gå, som nedenstående video fra Google DeepMind viser.

Netop fordi et spil udgør et godt simuleringsmiljø, er det et oplagt sted at starte med reinforcement learning. Men der er use cases i mange forskellige industrier, fortæller Julien Simon.

»Selskaberne, der efterspørger det her, har et fællestræk. De arbejder i felter, hvor det nærmest er umuligt at bygge et datasæt,« forklarer han.

»Hvis du laver superviseret eller usuperviseret læring, så har du et datasæt, og det skal du bygge. For superviseret læring er det noget, der tager lang tid og kræver en stor indsats. Men i nogle virksomheder er det simpelthen ikke muligt.«

Det gælder for eksempel virksomheder, der vil bygge en model, som fortæller, hvor de skal bore efter olie. De kan tage al data om alle deres boringer fra årtier tilbage, men der er stadig så meget diversitet på planeten, at det nødvendige datasæt er meget vanskeligt at sammensætte, forklarer Julien Simon.

»Det samme kan du sige med selvkørende biler. Kan du bygge et datasæt, der fungerer under alle omstændigheder? Hvis du bygger et datasæt for Israel, træner modellen på den og bringer den til Stockholm om vinteren, så fungerer den ikke. Den model har aldrig hørt om sne og is på vejen. Du kan umuligt gå igennem alle de muligheder, der eksisterer.«

Et andet eksempel er aktiemarkedet.

»Du kan tage data for alle priser for alting. Men vi ved jo, at der er ting, der påvirker markedet, som vil være uden for datasættet,« siger Julien Simon og fortsætter:

»De her ultradynamiske og ultrauforudsigelige miljøer kan du ikke bygge et datasæt for. Og det er her, reinforcement learning kommer i spil. Hvis det ligner kaos, og hvis det ser ud til, at prisen på bare at prøve sig frem er høj, så giver det mening at bygge en simulator og træne i den.«

En smule Python eller et kæmpe MATLAB-projekt

I stedet for at bygge et datasæt bygger du i reinforcement learning en simulator til at træne en agent. Det er her, kompleksiteten i reinforcement learning ligger, understreger Julien Simon:

 »Du er nødt til at have en simulator, der er tæt nok på den virkelige verden.«

I nogle tilfælde er det nemt. Hvis man vil træne modeller til robotter, er der miljøer som AWS' RoboMaker og OpenAI's RoboSchool tilgængelige. I andre sammenhænge eksisterer EnergyPlus til at simulere energisystemer. I flere industrier bruger man allerede systemer som MATLAB til at lave simuleringer.

»Vi har en stor kunde i olieindustrien, som jeg ikke må sætte navn på, og de har allerede en simulator, fordi de skal forudse, hvordan en specifik boring vil forløbe. Det behøver jo heller ikke være en 3D-verden. Det kan både være nogle hundrede linjer i Python eller det kan være et kæmpe projekt i MATLAB,« siger Julien Simon.

Et godt værktøj

Andre AWS-kunder, som i dag anvender reinforcement learning, er Honda, moderselskabet Amazon og investeringsselskabet Tradelegs, der bruger reinforcement learning til at bygge modeller, der kan slå aktiemarkedet, fortæller Simon.

Et andet unavngivet selskab bruger metoden til at optimere intelligent indeklima.

»Hvis du vil optimere opvarmning og køling i store bygninger, så er det igen meget svært at bygge et datasæt. De har bygget en simulator og trænet en model. Og de fandt frem til, at de kunne skære 40 procent af omkostningerne i forhold til den regelbaserede model,« siger Julien Simon.

Til spørgsmålet om, hvorvidt reinforcement learnings indtog vil være lige så skelsættende, som udbredelsen af deep learning har været de seneste år, understreger Julien Simon, at teknikken stadig er ny. 

»Vi har nogle innovative kunder, som arbejder med det, og vi er glade for at understøtte det. Min personlige mening er, at reinforcement learning ikke vil vinde indpas på samme måde som deep learning. Jeg tror, det er et andet værktøj, som du kan bruge, når du har problemer med datasæt. Men det er et godt værktøj at have.«

Nævnte firmaer

Julien Simon
Julien Simon
Illustration: AWS

Julien Simon er machine learning- og AI-evangelist hos Amazon Web Services. Simon har desuden erfaring som CTO i Viadeo, Pixmania og Aldebaran Robotics samt som VP for engineering hos Criteo.