Estero

LipNet, IA al servizio dei non udenti

16 Novembre 2016

2.355 Numero visite

La lettura delle labbra è una pratica complessa, ma necessaria per abbattere le barriere della comunicazione. Normalmente i professionisti della lettura labiale riescono ad essere accurati con una precisione che può oscillare dal 20 al 60 per cento poiché nella velocità di un normale discorso le lievi variazioni delle labbra, così come la distanza o una parziale copertura del soggetto rendono difficoltoso capire cos’è stato detto.

Un team di ricercatori del Dipartimento di Informatica dell’Università di Oxford ha sviluppato un software di lettura delle labbra chiamato LipNet supportato in parte da Deep Mind di Alphabet che grazie a un approccio differente vanta una percentuale di riconoscimento del parlato del 93 per cento.

Nel campo dell’Intelligenza Artificiale (IA) esisteva già da tempo un software con precisione di riconoscimento del labiale del 79,6 per cento, basato su un riconoscimento per singola parola. L’innovazione di di LipNet, come specificato nel documento di descrizione consiste nel diverso approccio usato per riconoscere il testo pronunciato. Piuttosto che proseguire nell’utilizzare il sistema di riconoscimento per singola parola, insegnando all’IA ogni movimento della bocca tramite fonemi visivi, si è progettato il software in modo da elaborare intere frasi, permettendo così all’IA di imparare quale lettera corrispondesse ad ogni singolo leggero movimento della bocca.

Per addestrare il sistema, i ricercatori hanno mostrato all’intelligenza artificiale quasi 29.000 video lunghi 3 secondi ed etichettati con il testo corretto. Per capire come i lettori di labiale umani fossero in grado di gestire lo stesso compito, il team ha reclutato tre membri della comunità degli studenti disabili di Oxford testandoli con 300 video casuali simili a quelli usati per istruire l’intelligenza artificiale.Il tasso di errore medio degli umani è stato del 47,7 per cento, rispetto al 6,6 per cento dell’IA.

Nonostante il successo del progetto vengono rivelati anche alcuni dei limiti della moderna ricerca sull’intelligenza artificiale poiché il team di Oxford ha utilizzato un set di video accuratamente scelto per insegnare all’IA come leggere le labbra. Ogni persona è stata rivolta in avanti, ben illuminata, e ha parlato con una struttura della frase standardizzata.
“Place blue in m 1 soon” (ossia “posiziona blu in m 1 presto”) è una delle frasi standard da 3 secondi utilizzate composta da un comando, un colore, una preposizione, una lettera, un numero da 1 a 10 e un avverbio. Ogni frase segue questo modello e l’elevata precisione dell’IA potrebbe quindi derivare dal fatto che è stata addestrata e testata in condizioni straordinarie, mentre se venisse richiesto di leggere le labbra da un video preso a caso da YouTube probabilmente i risultati sarebbero molto meno precisi.

Secondo Jack Clark di OpenAI per riuscire a far sì che questo sistema possa operare nel mondo reale si dovranno ottenere tre importanti miglioramenti: riuscire a operare con video in cui sono presenti grandi quantità di persone che parlano in contesti reali, ottenere che l’AI sia in grado di leggere le labbra da più angolazioni, variare i tipi di frasi che l’intelligenza artificiale è in grado di prevedere.

Lo stesso Clark afferma che “la tecnologia ha un’utilità talmente evidente che sembra inevitabile che debba essere costruita. Insegnare all’IA a leggere le labbra è una competenza di base che può essere applicata a innumerevoli situazioni. Un sistema simile potrebbe essere impiegato per aiutare i non udenti a capire le conversazioni che avvengono intorno a loro o per aumentare altre forme di intelligenza artificiale in modo da ascoltare audio e video generando rapidamente didascalie accurate”.

Luca Algieri

http://punto-informatico.it

Approvata anche in Senato: la mototerapia è legge

Scende dall’auto per dare soccorso, travolto da un’altra auto. Muore anziano sordomuto

Reggio, consiglio comunale più inclusivo: per la prima volta anche in LiS

Abbattere le barriere comunicative per includere le persone sorde

“Vorrei unirmi alla squadra francese di handisport”: il bowling, una passione per questo giocatore non udente di Vannes e Auray

‘La Singla’, ballerina di flamenco sorda che incanta

La Comunità di Madrid ha introdotto nel suo museo e nelle sue sale espositive la lingua dei segni, la lettura facile e un programma...

I vescovi coreani: stop alla chiusura degli istituti per i disabili

Approvata anche in Senato: la mototerapia è legge

Legge 104, ecco tutti i bonus per le persone disabili, anche se l’ISEE non è basso: lista completa, requisiti e importi

Esenzione IMU per anziani e disabili: scopri le agevolazioni comunali disponibili

Bonus disabili con e senza legge 104, tutte le agevolazioni

Milano celebra 170 anni del Pio Istituto dei Sordi con un convegno e il Premio Don Giulio Tarra

Alla scoperta della cultura orientale dell’Amiata: visita guidata inclusiva per persone con sordità

“Pietro Maggi: uno svizzero nel Piceno” Settima tappa “Alla scoperta di Montalto delle Marche – Terra di personaggi illustri”

Le pratiche virtuose di Fermo, città amica dei sordi

Padel sordi: la nazionale femminile è campione d’Europa

San Marino. L’Associazione sportiva e culturale sordi sammarinesi lancia il primo torneo di bowling

Cosimo è sordo ma è riuscito a diventare un campione di danza sportiva

Da Kiev e Ginosa per lavoro: «Mantova inclusiva per i sordi»

Nasce a Varese “Goodmorning”, il guanto hi-tech che permette ai sordomuti di parlare

Parte la versione digitale della Carta Europea della disabilità

Firenze, nasce una app per la traduzione simultanea che apre ai non udenti

Oristano: presentato il progetto “112 Sordi” per un soccorso inclusivo

LipNet, IA al servizio dei non udenti

L'informazione completa

LASCIA UN COMMENTO Cancella la risposta

Videaf

Uomo sordocieco in difficoltà durante un volo viene aiutato da una...

Barbie, Margot Robbie fuoriclasse vera: eccola alle prese con la lingua...

Sudan, il locale dei sordi

Alunni delle elementari imparano la lingua dei segni per comunicare con...

TIC 44 – Progetto “Culture LSF” vincitore bronzo dei premi 2022...