Per la prima volta, un team internazionale di ingegneri e informatici ha sviluppato una tecnologia che abbina il rilevamento della radiofrequenza all’intelligenza artificiale per leggere le labbra e identificare i suoi movimenti.

di Gianluca Riccio

Gli apparecchi acustici di oggi aiutano le persone affette da ipoacusia amplificando tutti i suoni dell’ambiente circostante, una cosa utile in diverse applicazioni. In contesti rumorosi, tuttavia, l’ampio spettro di amplificazione di questi dispositivi può rendere difficile per gli utenti concentrarsi su suoni specifici. Ad esempio una conversazione con una determinata persona.

Una possibile soluzione a questo problema, noto come “effetto cocktail party”, è quella di realizzare apparecchi acustici “intelligenti”. Nuovi dispositivi che combinano l’amplificazione audio convenzionale con un secondo dispositivo che raccoglie dati aggiuntivi per prestazioni migliori.

Una fase dei test “immaginata” da Midjourney

Leggere le labbra singularity edition

In un nuovo articolo pubblicato oggi sulla rivista Nature Communications (ve lo linko qui), il team guidato dall’Università di Glasgow mostra l’uso di una tecnologia di rilevamento all’avanguardia per leggere le labbra. Il loro sistema preserva la privacy raccogliendo solo dati in radiofrequenza, senza sfruttare filmati (e quindi senza problemi di privacy, almeno sulle immagini).

Per sviluppare il sistema, i ricercatori hanno chiesto a volontari maschi e femmine di ripetere le cinque vocali (A, E, I, O e U) prima senza maschera e poi indossando una maschera chirurgica. I loro volti sono stati scansionati sia a bocca chiusa che durante la pronuncia, usando segnali a radiofrequenza da un sensore radar dedicato e da un trasmettitore wifi.

I 3.600 campioni di dati raccolti con le scansioni sono stati usati per “addestrare” algoritmi di machine learning e deep learning a riconoscere i caratteristici movimenti della bocca e a leggere le labbra, associando ogni movimento ad un suono.

Risultato?

Il sistema ha mostrato un tasso di accuratezza del 95% per le labbra non mascherate, e dell’83% di quelle mascherate. Impressionante.

Il dottor Qammer Abbasi dell’Università di Glasgow, l’autore principale del documento, illustra il lavoro fatto. “Circa il 5% della popolazione mondiale, 430 milioni di persone, ha una forma di disabilità uditiva. Gli apparecchi acustici hanno fatto la differenza per molte di loro. Nuove tecnologie che raccolgono dati per migliorare l’amplificazione del suono potrebbe fare un passo decisivo”.

In sintesi: questa ricerca mostra che segnali a radiofrequenza, e perfino i segnali del Wi-Fi, possono permettere di leggere le labbra anche quando sono coperte da una maschera. Lascio alla fantasia di ciascuno la riflessione sugli utilizzi “negativi” di questa tecnologia, e mi concentro solo sugli aspetti positivi.

I futuri apparecchi acustici multimodali abbatteranno qualsiasi differenza tra le persone, portando quel 5% di popolazione mondiale con problemi di udito sulla stessa “lunghezza d’onda” (è il caso di dirlo) di tutte le altre.

L'informazione completa