Facebook-model trænet på rå data kombinerer talegenkendelse med mundaflæsning

17. januar 2022 kl. 10:29
mundbevægelser AV-HuBERT
Illustration: Meta AI.
En multimodal tilgang til sprog giver fremskridt på mundaflæsning til en grad, der kan bruges til overvågning. 
Artiklen er ældre end 30 dage
Manglende links i teksten kan sandsynligvis findes i bunden af artiklen.

De fleste ny frameworks til talegenkendelse er bygget helt og aldeles på lyd. Men når mennesker lærer at forstå tale - eller når vi skal tyde, hvad der bliver sagt i et støjfyldt lokale - så støtter vi os typisk også op af visuel information i form af talerens mundbevægelser. 

Læs hele artiklen

DataTech er til professionelle, der arbejder med data og analytics.

Få 3 ugers gratis prøveabonnement. Betalingskort er ikke påkrævet, og du bliver ikke flyttet til et betalt abonnement efterfølgende.

Du kan også få tilsendt et tilbud til dig.

Abonnementsfordele
vpn_key
Fuld adgang til DataTech
Alt indhold på DataTech er åbent for dig, så du kan nyde det fra din computer, tablet eller mobil.
drafts
Kuraterede nyhedsbreve
Nyheder, interviews, tendenshistorier og meget mere, leveret til din indbakke.
Adgang til andre medier
Hver måned får du 6 klip, som kan bruges til permanent at låse op for indhold på vores andre medier.
thumb_up
Adgang til debatten
Deltag i debatten med andre professionelle.
Ingen kommentarer endnu.  Start debatten
Debatten
Log ind eller opret en bruger for at deltage i debatten.
settingsDebatindstillinger