Facebook-model trænet på rå data kombinerer talegenkendelse med mundaflæsning
Deep Learning17. januar 2022 kl. 10:29
En multimodal tilgang til sprog giver fremskridt på mundaflæsning til en grad, der kan bruges til overvågning.
Artiklen er ældre end 30 dage
Manglende links i teksten kan sandsynligvis findes i bunden af artiklen.
De fleste ny frameworks til talegenkendelse er bygget helt og aldeles på lyd. Men når mennesker lærer at forstå tale - eller når vi skal tyde, hvad der bliver sagt i et støjfyldt lokale - så støtter vi os typisk også op af visuel information i form af talerens mundbevægelser.
Læs hele artiklen
DataTech er til professionelle, der arbejder med data og analytics.
Få 3 ugers gratis prøveabonnement. Betalingskort er ikke påkrævet, og du bliver ikke flyttet til et betalt abonnement efterfølgende.
Du kan også få tilsendt et tilbud til dig.
Abonnementsfordele
Fuld adgang til DataTech
Alt indhold på DataTech er åbent for dig, så du kan nyde det fra din computer, tablet eller mobil.
Kuraterede nyhedsbreve
Nyheder, interviews, tendenshistorier og meget mere, leveret til din indbakke.
Adgang til andre medier
Hver måned får du 6 klip, som kan bruges til permanent at låse op for indhold på vores andre medier.
Adgang til debatten
Deltag i debatten med andre professionelle.
