L’AI interpreta la lingua dei segni americana con il 98% di accuratezza. Lo studio FAU utilizza MediaPipe e YOLOv8 per un sistema innovativo e accessibile
di Lorenzo De Santis
Redazione Matrice Digitale
Un team di ricercatori della Florida Atlantic University (FAU) ha sviluppato un sistema basato su intelligenza artificiale (AI) in grado di riconoscere con precisione i gesti della lingua dei segni americana (ASL) in tempo reale. Questa innovazione sfrutta tecniche avanzate di computer vision e modelli di deep learning, offrendo una soluzione tecnologica per migliorare la comunicazione tra persone sorde o con difficoltà uditive e il mondo circostante.
L’approccio tecnico: MediaPipe e YOLOv8
Lo studio si concentra sul riconoscimento delle lettere dell’alfabeto ASL utilizzando un dataset personalizzato composto da 29.820 immagini statiche di gesti della mano. Ogni immagine è stata annotata con 21 punti chiave (landmark) usando MediaPipe, un framework di Google dedicato al tracciamento dei movimenti corporei. Questa annotazione dettagliata ha fornito una rappresentazione spaziale accurata della struttura e della posizione della mano.
Questi dati sono stati utilizzati per addestrare YOLOv8, uno dei modelli di deep learning più avanzati per il rilevamento di oggetti, ottimizzando il processo di riconoscimento e classificazione dei gesti.
Bader Alsharif, primo autore della ricerca e candidato al dottorato presso il Dipartimento di Ingegneria Elettrica e Informatica della FAU, ha definito questa integrazione un “approccio innovativo mai esplorato prima, che apre nuove prospettive per applicazioni future.”
Prestazioni del modello e risultati
Il sistema sviluppato ha raggiunto risultati eccezionali, con:
- Accuratezza del 98%,
- Recall del 98%,
- F1 score del 99%,
- Media Average Precision (mAP) del 98%,
- mAP50-95 del 93%.
Questi numeri dimostrano l’efficacia del modello nel catturare anche le più piccole variazioni nei gesti, rendendolo affidabile e robusto in scenari reali.
Secondo Mohammad Ilyas, coautore dello studio e professore alla FAU, il successo è stato reso possibile dalla combinazione di transfer learning, creazione di dataset dettagliati e ottimizzazione dei parametri di apprendimento.
Applicazioni pratiche e prospettive future
Questo sistema ha il potenziale per essere utilizzato in applicazioni pratiche come strumenti di traduzione in tempo reale, migliorando l’accessibilità per la comunità sorda o con difficoltà uditive. Le potenziali aree di applicazione includono:
- Istruzione, per facilitare l’interazione tra studenti sordi e insegnanti.
- Sanità, per garantire una comunicazione più efficace tra pazienti e operatori sanitari.
- Settori sociali, per ridurre le barriere nella vita quotidiana.
Le future ricerche si concentreranno sull’espansione del dataset per includere un numero maggiore di gesti dinamici, migliorando ulteriormente l’accuratezza del modello. Inoltre, gli sforzi si orienteranno verso l’ottimizzazione per dispositivi edge, come smartphone o tablet, garantendo prestazioni in tempo reale anche in ambienti con risorse limitate.
Lo studio condotto dalla Florida Atlantic University rappresenta un importante passo avanti nella creazione di strumenti basati sull’intelligenza artificiale per la traduzione della lingua dei segni americana in tempo reale. Integrando tecnologie avanzate come MediaPipe e YOLOv8, i ricercatori hanno sviluppato un sistema altamente preciso e affidabile, che può migliorare significativamente l’accessibilità e l’inclusività per milioni di persone in tutto il mondo.