Estero

LipNet, IA al servizio dei non udenti

16 Novembre 2016

2.433 Numero visite

La lettura delle labbra è una pratica complessa, ma necessaria per abbattere le barriere della comunicazione. Normalmente i professionisti della lettura labiale riescono ad essere accurati con una precisione che può oscillare dal 20 al 60 per cento poiché nella velocità di un normale discorso le lievi variazioni delle labbra, così come la distanza o una parziale copertura del soggetto rendono difficoltoso capire cos’è stato detto.

Un team di ricercatori del Dipartimento di Informatica dell’Università di Oxford ha sviluppato un software di lettura delle labbra chiamato LipNet supportato in parte da Deep Mind di Alphabet che grazie a un approccio differente vanta una percentuale di riconoscimento del parlato del 93 per cento.

Nel campo dell’Intelligenza Artificiale (IA) esisteva già da tempo un software con precisione di riconoscimento del labiale del 79,6 per cento, basato su un riconoscimento per singola parola. L’innovazione di di LipNet, come specificato nel documento di descrizione consiste nel diverso approccio usato per riconoscere il testo pronunciato. Piuttosto che proseguire nell’utilizzare il sistema di riconoscimento per singola parola, insegnando all’IA ogni movimento della bocca tramite fonemi visivi, si è progettato il software in modo da elaborare intere frasi, permettendo così all’IA di imparare quale lettera corrispondesse ad ogni singolo leggero movimento della bocca.

Per addestrare il sistema, i ricercatori hanno mostrato all’intelligenza artificiale quasi 29.000 video lunghi 3 secondi ed etichettati con il testo corretto. Per capire come i lettori di labiale umani fossero in grado di gestire lo stesso compito, il team ha reclutato tre membri della comunità degli studenti disabili di Oxford testandoli con 300 video casuali simili a quelli usati per istruire l’intelligenza artificiale.Il tasso di errore medio degli umani è stato del 47,7 per cento, rispetto al 6,6 per cento dell’IA.

Nonostante il successo del progetto vengono rivelati anche alcuni dei limiti della moderna ricerca sull’intelligenza artificiale poiché il team di Oxford ha utilizzato un set di video accuratamente scelto per insegnare all’IA come leggere le labbra. Ogni persona è stata rivolta in avanti, ben illuminata, e ha parlato con una struttura della frase standardizzata.
“Place blue in m 1 soon” (ossia “posiziona blu in m 1 presto”) è una delle frasi standard da 3 secondi utilizzate composta da un comando, un colore, una preposizione, una lettera, un numero da 1 a 10 e un avverbio. Ogni frase segue questo modello e l’elevata precisione dell’IA potrebbe quindi derivare dal fatto che è stata addestrata e testata in condizioni straordinarie, mentre se venisse richiesto di leggere le labbra da un video preso a caso da YouTube probabilmente i risultati sarebbero molto meno precisi.

Secondo Jack Clark di OpenAI per riuscire a far sì che questo sistema possa operare nel mondo reale si dovranno ottenere tre importanti miglioramenti: riuscire a operare con video in cui sono presenti grandi quantità di persone che parlano in contesti reali, ottenere che l’AI sia in grado di leggere le labbra da più angolazioni, variare i tipi di frasi che l’intelligenza artificiale è in grado di prevedere.

Lo stesso Clark afferma che “la tecnologia ha un’utilità talmente evidente che sembra inevitabile che debba essere costruita. Insegnare all’IA a leggere le labbra è una competenza di base che può essere applicata a innumerevoli situazioni. Un sistema simile potrebbe essere impiegato per aiutare i non udenti a capire le conversazioni che avvengono intorno a loro o per aumentare altre forme di intelligenza artificiale in modo da ascoltare audio e video generando rapidamente didascalie accurate”.

Luca Algieri

http://punto-informatico.it

Legge 104, in arrivo due anni di congedo e altre 10 ore di permesso retribuito per i lavoratori

Assolto da evasione perché sordo, non aveva sentito il campanello

Codici Qr per orientarsi, progetto Sensi+ per ciechi e sordi

Servizio di accesso alle cure più facile per persone sorde a L’Aquila

Il CIIR celebra i 23 anni della legge sulla Bilancia con un evento inclusivo e la comunità sorda

La rete statale di qualificazione rafforza l’inclusione degli studenti sordi in Bahia

I non udenti chiedono il rispetto della legge che impone l’uso di Libra da parte di enti pubblici e aziende

Gaza, venti persone non udenti cucinano per 1.750 persone sfollate nel pieno della guerra

Legge 104, in arrivo due anni di congedo e altre 10 ore di permesso retribuito per i lavoratori

Imu disabili e anziani 2025, tutti i requisiti per l’esenzione

Quali bonus ti spettano se hai un Isee entro i 40.000 euro: l’elenco completo

Legge 104, è gratuito il passaggio di proprietà per i veicoli sia nuovi che usati: ecco l’elenco completo e i requisiti

San Benedetto del Tronto nella memoria di scrittori, viaggiatori e poeti

Marcianise, al Campania l’Aperitivo Silenzioso che promuove l’inclusione tra udenti e sordi

Angeli e demoni Recensione del romanzo: ”I demoni di Pausilypon” di Pino Imperatore

Il Museo di Lipari “parla” in Braille e in LiS per raccontarsi a non vedenti e non udenti

Atleti sordi e raduni. Il turismo cresce del 17%

Bilancio positivo per scacchi ne’ Monti

Campionati italiano non udenti a Rossana

Dall’aiuto ai compagni disabili all’AI per il Parkinson: Mattarella premia 29 Alfieri della Repubblica

Codici Qr per orientarsi, progetto Sensi+ per ciechi e sordi

Marcianise, al Campania l’Aperitivo Silenzioso che promuove l’inclusione tra udenti e sordi

“Deep”: la tecnologia che abbatte le frontiere per i sordi

Alba. Inaugurata la nuova segnaletica turistica interattiva

LipNet, IA al servizio dei non udenti

L'informazione completa

LASCIA UN COMMENTO Cancella la risposta

Videaf

Uomo sordocieco in difficoltà durante un volo viene aiutato da una...

Barbie, Margot Robbie fuoriclasse vera: eccola alle prese con la lingua...

Sudan, il locale dei sordi

Alunni delle elementari imparano la lingua dei segni per comunicare con...

TIC 44 – Progetto “Culture LSF” vincitore bronzo dei premi 2022...

Video di un vigile del fuoco con la lingua dei segni...

Bar francese che assume persone disabili aprirà una filiale a New...