Vigtigheden af at universiteterne udbyder data science uddannelser i en verden med automatiseret machine learning og gratis online data science kurser
I 2016 proklamerede den førende AI forsker Geoffrey Hinton, at vi skulle holde op med at træne radiologer, da disse vil blive overflødige, som deep learning computer vision metoder vil kunne udføre deres arbejde bedre. En af verdens fremmeste radiologer og forsker i kunstig intelligens anvendelser indenfor radiologi Curtis P. Langlotz er meget uenig i dette. Han vurderer i stedet, at radiologer, der bruger kunstig intelligens, vil erstatte radiologer, der ikke bruger det, med mere sikker radiologi som udbytte. Lad os derfor starte med at slå fast at AutoML heller ikke kommer til at erstatte data scientists - men data scientists, der udnytter mulighederne ved AutoML, vil erstatte data scientists, der ikke gør.
Arbejdet for data scientists omfatter meget mere, end hvad en automatiseret machine learning pipeline kan løse. For det første er DS i stand til systematisk at behandle og forberede data herunder inkorporere den tilgængelige baggrundsviden og kontekst, identificere den givne problemstilling samt hvilke metoder, der er relevante for dets løsning. Derudover kan en DS tilpasse og udvikle metoder, hvor standard metoder ikke direkte kan anvendes, samt identificere hvorledes det udviklede system skal evalueres, herunder hvilke mål for performance der er relevante for den givne applikation. Endelig kan en DS systematisk undersøge systemet for robusthed, fejl og mangler samt sikre dets til stadige korrekte brug. Disse er alle helt centrale skridt, som ikke kan håndteres med AutoML løsninger i en overskuelig fremtid. Om noget har techgiganternes blinde brug af algoritmer skabt opmærksomhed på vigtigheden af at forstå, hvorledes disse algoritmer er designet og indgår i en større samfundsmæssig sammenhæng – centrale etiske kompetencer også for fremtidens DS og en mere bruger-centreret tilgang til kunstige intelligenser.
AutoML kan således effektivisere data scientists arbejde og muliggøre, at en DS kan meget mere – men hvis en enkelt DS vil kunne mere og mere, har vi så behov for flere DS? Ifølge Jevons’ paradoks vil ressourceeffektivisering betyde, at ressourceforbruget forøges. Således har opfindelserne af mere og mere energieffektive lyskilder ført til en konstant stigning af et nærmest umætteligt behov for lys. På samme vis synes behovet for DS-kompetencer pt. umætteligt.
Hvad gælder gratis digitale online kurser giver disse unikke muligheder for at blive undervist i en række emner, og læringsmaterialet er generelt af høj kvalitet. Imidlertid har online kurser vigtige begrænsninger. Ved online kurser reduceres det sociale aspekt omkring læringen - en udfordring vi også så under Covid-19-nedlukningerne, hvor alt DS-undervisning måtte omlægges til et online format med store konsekvenser for de studerendes trivsel og motivation. Derudover har gratis online kurser meget begrænsede muligheder for personlig feedback og sparring, i modsætning til universiteternes DS-uddannelser, der er bygget op omkring en række større projektforløb, hvor tæt personlig vejledning er helt essentielt. Endelig er en stor udfordring ved eksisterende gratis online kurser manglende pålidelig dokumentation af læringsudbyttet og certificering. Dette står i kontrast til eksamensresultaterne på universiteterne, som bygger på en grundig personlig bedømmelse af de studerendes performance og test under tilsyn.
En vigtig del af en data scientist uddannelse er at lære, hvordan man lærer og derved være i stand til at tilegne sig ny viden indenfor et fagområde i rivende udvikling. Her er gratis online kurser et godt supplement, men de kan ikke stå alene. På DTU Compute udbyder vi data science efteruddannelseskurser, og vi ser en meget stor interesse for vores DS-kurser på trods af de mange udmærkede gratis alternativer online. Det at kunne få personlig hjælp og sparring samt at netværke med undervisere og andre kursister, vil altid være vigtigt for at opnå et optimalt læringsudbytte.
