Her er metoden, der lærte AlphaStar, hvordan den skulle vinde over næsten alle de menneskelige modstandere i StarCraft II

Brødtekst

I januar annoncerede artificial intelligence-virksomheden DeepMind, at den havde nået en afgørende milepæl i sin rejse mod at bygge AI-systemer, der ligner menneskelig kognition. AlphaStar var en DeepMind-agent designet ved brug af reinforcement learning, og den kunne slå to professionelle spillere i et spil StarCraft II, et af de mest komplekse real-time strategispil nogensinde. I de seneste måneder har DeepMind fortsat med at udvikle AlphaStar til en grad, så AI-agenten nu er i stand til at spille et fuldt spil StarCraft II på Grandmaster-niveau, hvor den udkonkurrerer 99,8 pct. af de menneskelige spillere. Resultaterne blev for nylig publiceret i Nature, og de viser nogle af de mest avancerede selvlærende teknikker benyttet i moderne AI-systemer.

DeepMinds milepæl kan bedre forklares ved at sammenligne banen fra første version af AlphaStar med den nuværende såvel som nogle af hovedudfordringerne i StarCraft II. Brugen af reinforcement learning til at lære at mestre multi-player-spil er bestemt ikke ny. I de seneste måneder har AI-agenter såsom OpenAI Five og DeepMind’s FTW demonstreret værdien af reinforcement learning med henblik på at mestre moderne spil såsom Dota 2 og Quake III. Men StarCraft II er ikke et almindeligt spil. StarCraft II-miljøet kræver, at spillere kan balancere store økonomiske beslutninger med individuel kontrol af hundreder af enheder. For at mestre spillet skal en AI-agent kunne adressere flere hovedudfordringer:

  • Exploration-Exploitation Balance: I StarCraft II er der ikke en enkelt vinderstrategi. På et hvilket som helst tidspunkt skal AI-agenten kunne balancere behovet for at udforske miljøet for at kunne udvide sin strategiske viden i stedet for at foretage handlinger, der kan give fordele i øjeblikket.
  • Imperfect Information: Ulig spil som skak, hvor spillere kan se hele miljøet, præsenterer StarCraft II aldrig hele miljøkonfigurationen på et givent tidspunkt. Fra det perspektiv skal en AI-agent kunne operere ud fra brug af uperfekt information.
  • Long-Term Planning: Et typisk StarCraft II-spil tager cirka en time at fuldføre, og i den tid foretager spillere konstant handlinger ud fra en overordnet strategi. Effekten af handlinger, der foretages tidligt i spillet, kan måske ikke ses før meget senere, hvilket kræver evner til konstant at planlægge langsigtet.
  • Real-time: Ét er strategisk planlægning, noget andet er real-time strategisk planlægning😉. I klassisk skak kan spillere trygt tage sig en times til at evaluere et enkelt træk, men i StarCraft II skal handlinger foretages i real-time. Fra AI-perspektivet betyder dette, at agenter skal evaluere tusinder af muligheder i real-time og detektere, hvad der vil være det bedste valg i forhold til den langsigtede strategi.
  • Large Action Space: Hvis du tror, at et 19x19 Go-bræt er et stort AI-miljø, så må du tro om igen😉. StarCraft II-miljøet kræver af spillere, at de kontrollerer hundreder af enheder på alle tidspunkter, og kombinationerne af handlinger vokser proportionalt med miljøets kompleksitet.

AlphaStar v1

For at tackle de førnævnte udfordringer brugte DeepMind oprindeligt en selvspillende læringsstrategi, hvilket lod AlphaStar-agenten lære at mestre StarCraft-spillet ved at spille mod sig selv. Kernen i AlphaStar-arkitekturen er et dybt neuralt netværk, der modtager input fra et spil-interface og har et output i form af en serie handlinger. Det neurale netværk var først trænet ved brug af traditionel superviseret læring med et datasæt bestående af anonymiserede menneskelige spil udgivet af Blizzard. Denne indledende træning gjorde, at AlphaStar kunne mestre de første strategier i spillet på et okay niveau, men den var stadig langt fra at kunne slå en professionel spiller.

DeepMind
Illustration: DeepMind

Efter at AlphaStar havde succes med at spille StarCraft II, skabte DeepMind-teamet et multi-agent-reinforcement læringsmiljø, hvor flere variationer af agenten spiller mod sig selv. Systemet, kaldet AlphaStar-ligaen, lader agenten forbedre specifikke strategier ved at spille mod en specifik version specialiseret i den strategi.

Udfordringer og det nye AlphaStar

Til trods for de imponerende præstationer udført af de tidlige versioner af AlphaStar så opdagede DeepMind-teamet flere udfordringer, som forhindrede agenterne i at opnå topniveaupræstationer i en professionel turnering. En klassisk udfordring var ‘glemsomhed’, i hvilken, til trods for forbedringerne i  AlphaStar, agenten konstant glemte, hvordan den kunne vinde over en tidligere version af sig selv. Den nye AlphaStar inkorporerer en stribe imitationslæringsmetoder for at forhindre agenten i at glemme allerede indlærte strategier.

En sværere udfordring viste sig, da det gik op for DeepMind-teamet, at den originale version af AlphaStar-ligaen var utilstrækkelig til konsekvent at forbedre AlphaStars niveau. For at forstå dette, skal du tænke på, hvordan en menneskelig StarCraft II-spiller vil forsøge at forbedre sine evner. Sandsynligvis vil en menneskelig spiller vælge en træningspartner, som vil hjælpe ham med at træne en særlig strategi. Så træningspartneren spiller altså ikke for at vinde, men i stedet for at sætte spot på vennens fejl med henblik på at blive en bedre og mere robust spiller. Denne tilgang står i kontrast til den tidligere version af AlphaStar-ligaen, hvor alle spillere fokuserede på at vinde. For at adressere denne udfordring skabte AlphaStar en ny version af ligaen, der kombinerer hovedagenter, hvis mål er at vinde over alle, og så udnyttelsesagenter, der fokuserer på at hjælpe hovedagenten med at blive bedre ved at sætte spot på dennes fejl frem for at maksimere deres egen vinder-rate mod de andre spillere.

Den følgende grafik kan måske hjælpe med at forklare, præcis hvordan udnytterne hjælper med at skabe bedre strategier. I et spil StarCraft kan spillere skabe forskellige enheder (arbejdere, krigere, transportører), som kan bruges i forskellige strategitræk (i lighed med legen sten-saks-papir). Fordi nogle strategier er lettere at forbedre, vil en naiv reinforcement learning-model fokusere på disse frem for på andre strategier, der måske kræver mere indlæring. Udnytternes rolle er at sætte spot på hovedagenternes fejl, så de tvinges til at opdage nye strategier. På samme tid brugte AlphaStar imitationslæringsteknikker for at forhindre agenten i at glemme tidligere strategier.

DeepMind
Illustration: DeepMind

Et mere teknisk syn på AlphaStar-træningsmiljøet. Tre puljer med agenter, hver initialiseret af superviseret læring, blev derefter trænet med reinforcement learning. Mens de træner, så føjer agenterne med mellemrum kopier af sig selv — ‘spillere’, der frosset på et bestemt punkt — til ligaen. Hovedagenterne træner mod alle disse tidligere spillere såvel som mod sig selv. Hovedudnytterme træner mod hovedagenterne. Hovedudnytterne og ligaudnytterne kan re-settes til den superviserede agent, når de føjer en spiller til ligaen.

DeepMind
Illustration: DeepMind

Ved at bruge disse teknikker var den nye AlphaStar i stand til at opnå en bemærkelsesværdig fremgang, indtil de nåede grandmaster-niveauet. AlphaStar spillede ved at bruge restriktioner, der simulerer betingelserne for de menneskelige spillere, og var i stand til at udkonkurrere 99,8 pct. af sine modstandere.

Den nye AlphaStar er de første AI-agenter, der er nået op på grandmaster-niveau i StarCraft II. Læringen fra opbygningen af AlphaStar kan bruges i så mange selvlærings-scenarier, som selvkørende køretøjer, digitale assistenter eller robotics, hvor agenter skal tage beslutninger over combinatorial action spaces. AlphaStar viste, at selvlærende AI-systemer kan bruges i mange komplekse scenarier i den rigtige verden og levere bemærkelsesværdige resultater.

Dette indlæg er oprindeligt udgivet på LinkedIn.