Gaia Caligiore, ragusana, ha conseguito la Laurea Magistrale in Traduzione all’Università di Torino con una tesi intitolata “Universal Dependencies for Italian Sign Language: a treebank from the storytelling domain”, con un punteggio di 110 e Lode. Alla tesi è stata conferita la dignità di stampa.
Ex studentessa della facoltà di Ragusa, si è laureata a luglio 2018 con punteggio 110 e Lode. A Ragusa, ha studiato la Lingua dei Segni Italiana (LIS). La facoltà di Ragusa, insieme alla Ca’ Foscari di Venezia, è una delle poche università in Italia in cui viene data la possibilità di includere la LIS come una delle lingue di studio, al pari del francese, spagnolo, tedesco e di tutte le altre lingue orali che si studiano nelle facoltà di lingue.
Dopo essersi avvicinata alla LIS ed aver conseguito la laurea triennale, si è spostata al Nord, a Torino per la precisione, dove ha studiato Traduzione. Quest’anno, Gaia ha seguito un corso di Informatica applicata alla comunicazione multimediale che le ha permesso di avvicinarsi alla linguistica computazionale grazie alla professoressa che sarebbe poi diventata la sua relatrice. Si tratta di una branca della linguistica che ha come obiettivo la descrizione del funzionamento delle lingue naturali, al fine di trasformare queste regole in programmi che possano essere eseguiti da un computer.
“La mia relatrice lavora da anni in questo ambito della linguistica ed ha sviluppato numerosi corpus della lingua italiana. Nonostante all’Università di Torino non si studi la LIS, ho parlato del mio percorso di studi in triennale alla mia relatrice che ha captato il mio interesse per la LIS e mi ha proposto di analizzarla attraverso i mezzi che si adoperano per l’analisi delle lingue orali”, ci racconta Gaia e continua: “Grazie al suo contributo e al grande aiuto del secondo relatore, che è insegnante e ricercatore al Dipartimento di Informatica dell’Università di Torino e che già era stato convolto in progetti per la creazione di risorse in LIS, abbiamo deciso di porre le basi per lo sviluppo di un treebank da pubblicare su Universal Dependencies (UD).
Un treebank è un corpus in cui vengono annotate sintatticamente delle frasi in una lingua. Universal Dependencies, invece, è un progetto internazionale in cui vengono raccolti i treebank di numerose lingue. Ogni treebank è composto da un determinato numero di frasi analizzate secondo i principi della grammatica a dipendenze. Si tratta di una forma di analisi in cui il ruolo di una parola all’interno di una frase viene definito in base alle relazioni sintattiche le la parola stabilisce con gli altri elementi della frase, creando così relazioni di dipendenza”.
La tesi, interamente in lingua inglese, è innovativa perché Universal Dependencies è stato creato per le lingue orali e invece la LIS è una lingua segnata. Al momento solo un’altro treebank di una lingua dei segni è presente su UD, quello della Lingua dei Segni Svedese, che è stata una risorsa importante per la creazione del treebank in questione.
“Dopo aver comparato il treebank della lingua dei segni svedese con i treebank della lingua italiana presenti su UD, ho iniziato ad analizzare dei video in LIS. I due video sono due racconti (da qui il titolo “… a treebank from the storytelling domain”, proprio perché il treebank al momento è limitato all’ambito del racconto): Cappuccetto Rosso e I tre Fratelli, di Grazia Deledda.
Dopo aver selezionato i due video in LIS, li ho analizzati su ELAN che è una piattaforma che permette di analizzare i diversi aspetti di un segno. La particolarità di questa porzione del processo di analisi è stata la definizione delle glosse, ovvero della traduzione in italiano scritto di ogni segno. Ciò che viene fatto solitamente per scrivere la LIS è scrivere il segno tradotto in maiuscolo (ad esempio GATTO, CASA, MAMMA). Invece, io ho cercato di fornire una traduzione il più possibile univoca, inserendo delle glosse tratte da dizionari online e in formato DVD-ROM. In tal modo, chiunque acceda alla risorsa e abbia a disposizione uno di questi dizionari, può risalire con facilità ad una rappresentazione visiva del segno”, spiega Gaia.
Infine, conclude:
“Il terzo e ultimo passo è stata la conversione e analisi dei video nel formato CONLL-U, utilizzato per creare treebank su UD. Qui ho stabilito le relazioni di dipendenza fra i vari segni, concludendo che Universal Dependencies è uno standard che si può applicare anche alla LIS, come era stato fatto per la lingua dei segni svedese.
Al momento il treebank ha una dimensione ridotta ma comunque della stessa ampiezza del treebank della lingua dei segni svedese, quindi poco più di 250 frasi.
Sto continuando a lavorare con i miei relatori per proporre un articolo derivato dalla tesi alla Conferenza Italiana di Linguistica Computazionale che si terrà a novembre. Abbiamo inoltre coinvolto dei ricercatori e docenti di altre università italiane, con cui stiamo costruendo le basi per l’espansione della risorsa. L’inizio della collaborazione con questi docenti avrà inizio la prossima settimana, quindi il progetto è in divenire.
L’obiettivo finale è quello di creare un treebank da pubblicare su UD. In tal modo, la risorsa sarebbe utilizzabile da chiunque voglia accedervi. Questo è importante perché significherebbe che il treebank non verrà solo utilizzato per analizzare la sintassi della LIS e studiare la lingua, potrà infatti essere adoperato come fonte di informazioni per la creazione di sistemi di traduzione automatica, sintesi vocale, elaborazione del linguaggio naturale e contribuire alla creazione di strumenti da utilizzare per migliorare della qualità della comunicazione tra sordi e udenti”.