Facebook-model trænet på rå data kombinerer talegenkendelse med mundaflæsning

mundbevægelser AV-HuBERT
Illustration: Meta AI.
En multimodal tilgang til sprog giver fremskridt på mundaflæsning til en grad, der kan bruges til overvågning. 
17. januar kl. 10:29
errorÆldre end 30 dage
Manglende links i teksten kan sandsynligvis findes i bunden af artiklen.

De fleste ny frameworks til talegenkendelse er bygget helt og aldeles på lyd. Men når mennesker lærer at forstå tale - eller når vi skal tyde, hvad der bliver sagt i et støjfyldt lokale - så støtter vi os typisk også op af visuel information i form af talerens mundbevægelser. 

Det samme gør AV-HuBERT - en ny prætrænet model fra Facebooks - eller rettere Metas - AI-forskere. Modellen (GitHub) lærer selv-superviseret på videoer, hvor folk taler, og er det første system, der modellere både tale og mundbevægelser fra rå data. Den er derfor også i stand til at forstå begge dele. 

Den hidtil bedste model til mundaflæsning er trænet på 31 tusind timers annoteret video. AV-HuBERT når samme performance med bare 30 timers annoteret data, hvilket åbner døren for at bruge teknikken på sprog med mindre tilgængelig data.  

Få fuld adgang til DataTech

DataTech skriver til dig, der arbejder professionelt med data og analytics. Vi giver dig inspirerende cases, nyheder og debat om alt fra machine learning-modeller til dataetik. Få tilsendt tilbud

Abonnementsfordele
vpn_key
Fuld adgang til DataTech
Alt indhold på DataTech er åbent for dig, så du kan nyde det fra din computer, tablet eller mobil.
drafts
Kuraterede nyhedsbreve
Nyheder, interviews, tendenshistorier og meget mere, leveret til din indbakke.
thumb_up
Adgang til debatten
Deltag i debatten med andre professionelle.
Debatten
Log ind for at deltage i debatten.