GPT-3 er ikke stærk AI

Den logiske atomisme, der gennemsyrer nuværende AI-initiativer, fører os på et spor, jeg vil argumentere for aldrig vil føre os til stærk AI, skriver Erik David Johnson.
Brødtekst

Sidste år så vi GPT-3 melde sin ankomst på AI-scenen. For de af jer der ikke bemærkede det, kunne man med GPT-3 producere meningsfulde tekster i natursprog (menneskelige sprog) på et hidtil uset niveau. Autogenererede sætninger og mindre artikler var svære at skelne fra dem med en menneskelig forfatter, og endnu en gang blev AI fremhævet som en både trussel og mulighed på vej til at ændre verden.

Ikke så imponerende som det lyder

Sagen er bare at det ikke er så revolutionerende som det lyder. Hvis bare man havde lyttet til skaberne af GPT-3 et øjeblik ville man forstå at der ikke var tale om AI der kunne fungere på menneskelige præmisser og forstå det menneskelige sprog eller den menneskelige verden sådan som vi tit er alt for hurtige til at forestille os.

Siden da har Microsoft erhvervet sig rettighederne og APIet er gjort tilgængeligt for dem der ønsker at afprøve det, men ingen applikationer af GPT-3 har rykket nævneværdigt ved de AI-applikationer vi ser i dag. Hvorfor? Fordi GPT-3 er dum – på en smartere måde. Skaberne siger det bedst: ”GPT-3 modellerer relationerne mellem ord uden at have en forståelse af betydeningen af de enkelte ord”. Det vi har er altså matematiske vurderinger af hvilke ord der hænger sammen i hvilken kontekst.

Modellen er prætrænet i det ekstreme, så vi kan vise den nogle få eksempler af tekst og stort set bede GPT-3 ”lave en af de her”, og det sker så ret overbevisende, men uden at det der kommer ud har været en del af nogen form for forståelsesproces andet end hvilke ord der plejer at stå ved siden af hinanden. Den samme svaghed i GPT-3 er samtidig årsagen til at man risikerer at GPT-3 producerer uetisk tekst, hvis træningsgrundlaget har været det samme – for der er ingen forståelse; menneskelig eller simuleret.

Fejlen i den logiske atomisme

Det skyldes at det hele baserer sig på ”logisk atomisme” – ideen om at essensen eller meningen med tingen består i dens mindste bestanddele – for sprogets vedkommende ordene. Den tidlige Ludwig Wittgenstein forsøgte og fejlede med logisk atomisme i sit værk ”Tractatus Logico-Philosophicus”, og moderne sprogforskere bryder som regel ud i latter når man foreslår at bygge en sprogforståelse på denne måde.

For det man gør, er at man antager om sprog at det er en kontinuerlig funktion hvor et bestemt input giver et bestemt output. Sproget er meget mere end det. Det er bygget omkring en menneskelig ontologi, og meningen ligger i menneskers sprogbrug i en kontekst – igennem vores fælles livsform; Sådan som den sene Wittgenstein også måtte erkende. Jeg siger mere om dette i denne artikelserie.

Et eksempel

Men kan vi så ikke bruge denne matematiske mestring af sprog til noget? Jo bestemt! De tilfælde hvor at vores sproglige kontekst er indrammet og vi har brug for at kategorisere sprog og tekst. Lad mig præsentere et eksempel:

En virksomheds kundeserviceafdeling har 3 teams. En tager sig af nye ordrer, en tager sig af kommunikation vedr. igangværende ordrer, og en behandler ris og ros for afsluttede ordrer. Når der tikker en ny mail ind lander den i en kø og man sorterer så mails ud til de relevante teams. Igennem tiden har man opbygget en stor base af eksempler på mails der er blevet kategoriseret på denne måde.

Med teknologier som Word2Vec og andre prætrænede modeller, kan man omdanne en mail til en matematisk repræsentation, som derved kan indgå som træningsinput sammen med den historiske viden om hvilken af de 3 teams den blev smidt over til af en menneskelig part. Den kan så trænes til med rimelig høj nøjagtighed at udføre opgaven som består i at scanne en mail og vurdere hvilket team den skal over til. Men hvad sker der så her? Sammenhængen mellem en mails indhold og det team den skal til findes som mønstre i hjernerne på de mennesker der har kategoriseret den manuelt. Det er et menneskeligt handlingsmønster i en given kontekst – et adfærdsmønster. En AI model kan uden nogen ontologisk dybde approksimere dette mønster og derved kan opgaven automatiseres.

Konklusion

Hvad har vi så lært? Den rute AI (særlig den sprogteknologiske side af AI) er på, leder os ikke til stærk AI, som kan agere på menneskelige præmisser, udvide sin kontekst og simulere en forståelse. Tværtimod holder den logiske atomisme der gennemsyrer nuværende AI-initiativer os på et spor jeg vil argumentere for aldrig vil føre os til stærk AI (Jeg argumenterer også for dette i min egen forskning, som er frit tilgængelig).

Til gengæld er der mange gode muligheder for at automatisere de repetitive, menneskelige opgaver som gør at kontekster bliver så snæver at mønstergenkendelse og AI kan udnyttes til at opbygge en fornuftig business case. Så kom i gang med at indsamle jeres adfærdsdata – og husk dataetikken når dataindsamlingsstrategien skal tegnes op.

Dette indlæg er oprindeligt udgivet på Version2.

Prøv DataTech gratis

DataTech giver dig ny viden, cases og erfaringer med at lykkes med AI og data science i praksis. Få 3 ugers gratis og uforpligtende prøveabonnement

Klik her