Mundaflæsning kan forbedre lydoplevelsen for høreapparatbrugere

Foto : Otorix og Med-El

Mundaflæsning kan forbedre lydoplevelsen for høreapparatbrugere

Med store mængder data fra et kamera og kunstig intelligens har forskere taget et skridt på vejen for at gøre livet lettere for mennesker med høreapparat. Samtidig er de kommet et skridt nærmere løsningen på et velkendt problem for høreapparatbrugere.

ING.DK: Mennesker med normal hørelse forstår ofte hinanden uden større anstrengelser, selvom flere taler på samme tid. Langt mere problematisk er selvsamme situation for mennesker med nedsat hørelse, men ny forskning, som anvender mundaflæsning, kan gøre livet lettere for mennesker med høreapparat.

Daniel Michelsanti, der er ph.d.-studerende på Centre for Acoustic Signal Processing Research (CASPR) under Institut for Elektroniske Systemer på Aalborg Universitet, har i samarbejde med høreapparatproducenten Oticon forsket og udviklet algoritmer og data fra et kamera til at sortere lyde ud fra en større menneskemængde.

»Når vi kommunikerer, bruger vi vores øjne til at finde ud af, hvor lyde kommer fra, og til at aflæse mundbevægelser. Dette gælder for alle, også mennesker med nedsat hørelse, og derfor er der et stort potentiale i at inkorporere en visuel kilde i høreapparater,« siger Daniel Michelsanti til Ingeniøren.

Han kombinerede i sit forskningsprojekt akustiske og visuelle data med kunstig intelligens for at løse det såkaldte ‘cocktailparty-problem’, der blev beskrevet allerede tilbage i 1950'erne, som handler om, at det kan være svært at høre, hvad en person siger under et støjfyldt miljø med mange mennesker.

Cocktailparty-problemet

For en algoritme er problemet endnu større, fordi lydbølger lægges sammen og bliver til et enkelt signal. Men ved at tilføje visuelle input fra samtalesituationen, f.eks. talerens mundbevægelser og ansigtsudtryk, så har Daniel Michelsanti og sine medforskere taget et vigtigt skridt mod at designe algoritmer, der kan løse sådanne scenarier.

»Vi brugte et sæt kunstig intelligens-metoder, som kaldes dybe neurale netværk, til at analysere store mængder data og automatisk udtrække den vigtige information. Jeg kan ikke sige, at vi har løst cocktailparty-problemet, men det virkede rimelig godt,« siger han.

Konkret har Daniel Michelsanti udviklet en algoritme, der kan mundlæse, hvad der bliver sagt i en video uden lyd.

Men det stopper ikke der, for da forskerne fandt ud af, at kameraets visuelle input kunne anvendes til at forbedre talesignaler, designede de et system, som kan mundaflæse og rekonstruere en persons tale udelukkende ved at bruge video.

»I det tilfælde virkede det godt for de personer, som vi brugte til at træne de neurale netværk på, mens der for andre talere var nogle udfordringer, fordi netværket ikke kendte deres stemmers karakteristika,« siger Daniel Michelsanti.

Derudover nævner han, at der findes andre udfordringer i forhold til at anvende et kameras visuelle informationer, f.eks. hvis det er mørkt, eller hvis den person, der taler, dækker sin mund.

Videoen herunder viser, hvordan de dybe neurale netværk trænes og løbende forbedres til at genkende tale.

Alle sanser i spil

Måden vi opfatter og forstår går ikke kun igennem øret men formes i ligeså høj grad af alle vores andre sanser, og hvis man kan hente input fra flere forskellige sanser, så bliver høreoplevelsen bedre.

»Det er interessant at undersøge, hvordan vi oplever og opfatter verden på ved at kombinere vores sanser. Den måde, mennesker oplever verden, der omgiver os på, er multisensorisk. Med andre ord - vores oplevelse af verden er en kombination af, hvad vores sanser opfatter. Jeg synes, det er fascinerende at udvikle systemer, der på den måde efterligner mennesker,« siger Daniel Michelsanti.

Med et proof-of-concept på plads, skal resten af hans ph.d bruges på at integrere algoritmen i høreapparater.

»Vi har vist, at video er vigtigt for at ekstrahere den rigtige taler i komplekse akustiske miljøer. Det næste skridt bliver at designe et system, der faktisk kan implementeres i enheder, der kræver lav latens og har lave kompleksitetskrav, f.eks. høreapparater,« fortæller Daniel Michelsanti.

Men - og der er som regel et men:

Hvordan får man bygget et funktionelt kamera ind i et høreapparat, så det ikke generer høreapparatbrugeren eller dræner batteriet på en time? Den del mangler de stadig at regne ud hos Oticon og Aalborg Universitet.

»Projektet giver anledning til flere spørgsmål, f.eks. vedrørende de økonomiske aspekter, da et kamera vil være en relativt dyr komponent. Og ønsker du faktisk at have et kamera tilsluttet et høreapparat? Men med Daniels projekt tager vi et kig ind i fremtiden for at finde ud af, hvordan vi bruger et visuelt input og viser fordelene ved det. Og det er gavnligt for den fremtidige forskning i taleforbedring og for at forbedre livskvaliteten hos høreapparatbrugere,« siger Jesper Jensen.

»Da jeg startede projektet, hældte vi mest til et system, hvor kameraet var fysisk forbundet med høreapparatet, f.eks. i en brilleramme. Den løsning gav dog for mange begrænsninger hos slutbrugeren. Nu tror vi, den bedste måde er at forbinde et visionmodul (et kamera, red.) på slutbrugerens tøj, og så lade det kommunikere trådløst med høreapparatet,« siger Daniel Michelsanti.

Lidt den samme udfordring, bare i et andet format, står de med på Oticons forskningscenter Eriksholm, hvor de arbejder med at hente input fra hjernens elektriske signaler for at retningsbestemme tale.

Her placerer de en lille elektrode inde i øret, og så kan de måle, hvordan øjnene bevæger sig i forhold til næsen, hvilket giver en klar indika­tion af, hvem en høreapparatbruger taler med i et lokale med mange mennesker. Her arbejder de også på en løsning, så indsamling og databehandling af elektroderne ikke dræner høreapparatets batteri for hurtigt.