È un fatto risaputo e all’apparenza controintuitivo, ma aiuta a capire meglio come funziona e per quali altri scopi è stata pensata e sviluppata
A maggio la società statunitense OpenAI ha pubblicato una serie di video dimostrativi per descrivere le varie capacità del più recente sistema di intelligenza artificiale integrato nel suo chatbot ChatGPT. Uno dei video mostra Salman Khan, amministratore delegato della Khan Academy, un’organizzazione non profit che si occupa di didattica a distanza, e suo figlio adolescente Imran sottoporre a ChatGPT un problema di geometria. In risposta ricevono indicazioni corrette su come procedere per risolverlo, passo dopo passo. Nel caso di problemi un po’ più difficili, che studenti del primo anno di università dovrebbero saper risolvere, ChatGPT fornisce però risposte sbagliate, come mostrano diversi altri video pubblicati in seguito su siti di news e social media.
La tecnologia di intelligenza artificiale sviluppata da OpenAI e da altre aziende concorrenti ha portato in anni recenti alla produzione di software in grado di svolgere diverse attività complesse con risultati ammirevoli e straordinariamente affidabili: simulare conversazioni umane, riassumere libri, rispondere alle domande. Se invece si chiede a un chatbot basato su questa tecnologia di eseguire un’operazione matematica per cui anche una vecchia calcolatrice sarebbe sufficiente – sommare due numeri molto grandi, per esempio – esiste qualche possibilità che il chatbot dia una risposta sbagliata.
La ragione è che la matematica non è il punto di forza dell’intelligenza artificiale, non lo è mai stata. E per quanto possa apparire controintuitivo è un fatto abbastanza risaputo tra le persone che ci lavorano.
Le difficoltà dell’intelligenza artificiale con la matematica sono peraltro utili a capire meglio in cosa sia differente dall’informatica, e per quali scopi sia stata pensata e sviluppata fin dall’inizio. I sistemi di intelligenza possono fare calcoli sulla base dei dati utilizzati per addestrarli, in sostanza, e sono ottimizzati per determinare le probabilità di un certo output a partire da determinati input. I risultati possono variare, come nel linguaggio umano, ma questo significa che possono anche essere sbagliati, se la richiesta è eseguire calcoli basati non su probabilità ma su regole precise e procedure logiche.
Infatti ChatGPT non eccelle nemmeno nel ragionamento basato sulla logica. Per una recensione pubblicata a maggio, il giornalista del New York Times ed esperto di tecnologia Brian Chen ha chiesto alla versione di ChatGPT basata su GPT-4o (l’evoluzione più recente del modello GPT-4, che fa funzionare il sistema di intelligenza artificiale di OpenAI) di generare un’illustrazione buona per la serie Dov’è Wally?. Dopo aver ottenuto un’immagine in cui un Wally gigante era in mezzo alla folla, ha spiegato a ChatGPT che il senso della serie è che Wally dovrebbe essere difficile da trovare. In risposta ha ottenuto un’immagine con un Wally ancora più grande.
In generale Chen ha notato piccoli miglioramenti nell’esecuzione di alcune operazioni aritmetiche, in particolare le divisioni, che le versioni precedenti di ChatGPT eseguivano male. Ha invece trovato conferma di una certa incapacità di contare, condivisa da GPT-4o con le versioni precedenti e anche con i chatbot di altre aziende, tra cui Meta AI e Gemini di Google. Quando ha chiesto una parola di quattro sillabe che iniziasse con la lettera “W”, ChatGPT ha risposto wonderful, che ne ha tre.
ChatGPT non ne capisce moltissimo di matematica perché, come sintetizzato dal divulgatore Stefan Chin sul canale YouTube SciShow, è il risultato dei molti sforzi compiuti negli ultimi anni «per far sì che i nostri computer pensassero meno come calcolatrici e più come noi».
I computer riescono a eseguire determinate operazioni matematiche grazie a una parte fondamentale dell’unità centrale definita “unità aritmetica-logica” (Arithmetic-Logic Unit, ALU). Semplificando molto, finché i numeri coinvolti nelle operazioni rientrano in un intervallo che l’ALU è in grado di gestire, il computer non può sbagliare i calcoli che gli sono richiesti, e anzi supera di gran lunga le prestazioni umane. A lungo una buona definizione di informatica è stata infatti «matematica dopata», ha scritto il New York Times in un recente articolo.
Ma ci sono compiti che gli esseri umani troverebbero molto difficile tradurre in rigide istruzioni per un computer in grado di eseguire soltanto operazioni aritmetiche o logiche, anche molto complesse. E negli ultimi dieci anni è quindi diventato via via più popolare un approccio diverso, che per eseguire compiti complessi mette insieme l’informatica con la statistica.
Ispirate alle reti di neuroni che fanno funzionare il cervello umano, le reti neurali alla base dell’intelligenza artificiale sono una particolare struttura di algoritmi che collega migliaia o persino milioni di singole unità, o “neuroni” artificiali. È un tipo di intelligenza non programmata con regole rigide, ma che impara analizzando grandi quantità di dati con cui gli algoritmi vengono “addestrati”. Man mano che analizzano i dati gli algoritmi individuano tendenze e ripetizioni, e le utilizzano come base per fare previsioni.
Sulla base di tutte le informazioni che hanno appreso, i chatbot di intelligenza artificiale generano il linguaggio prevedendo quale parola o frase è probabile che segua un’altra. E trattano più o meno allo stesso modo anche i numeri, a meno che non ricevano dal loro supervisore umano istruzioni più dettagliate sui compiti specifici da eseguire per arrivare al risultato richiesto. In generale, per capire come funzionano, ha senso dire che se completano la stringa “2 + 2” con “4” non è perché eseguono l’operazione richiesta: è perché valutano “4” come la risposta più pertinente, dato che nell’insieme di dati con cui sono stati addestrati la probabilità che alla stringa “2 + 2” segua “4” è molto alta.
Le versioni più recenti di chatbot, incluso GPT-4o, riescono comunque nella maggior parte dei casi a comprendere autonomamente la richiesta di un’operazione matematica. Per divisioni e moltiplicazioni di numeri molto grandi, che formano stringhe non presenti nei database di addestramento, di solito capiscono di dover utilizzare un programma di calcolo. E per operazioni più complesse, anche nel caso in cui non siano in grado di fornire una risposta, descrivono la procedura da seguire per arrivarci. Alcuni sistemi di intelligenza artificiale specializzati nella soluzione di problemi matematici complessi hanno inoltre ottenuto in tempi recenti risultati significativi, che mostrano quanto i limiti attuali dell’AI con la matematica siano superabili attraverso un addestramento specifico dei sistemi e una formalizzazione particolare dei problemi.
AlphaProof e AlphaGeometry 2, due modelli sviluppati dalla divisione DeepMind di Google, hanno partecipato alla più recente edizione delle Olimpiadi internazionali della matematica, che si sono tenute a Londra tra l’11 e il 22 luglio alla University of Bath. In circa tre giorni hanno risolto quattro problemi su sei, ottenendo un punteggio complessivo (28 punti) che sarebbe valso a un concorrente umano una medaglia d’argento. I partecipanti umani avevano a disposizione due sessioni da 4 ore e mezzo ciascuna: il primo classificato ha risolto tutti e sei i problemi e ha ottenuto 42 punti.
Negli ultimi tempi i limiti della tecnologia basata sull’intelligenza artificiale nei compiti di matematica e logica hanno alimentato un dibattito vivace su quale sia il miglior modo per cercare di ridurli, ha scritto il New York Times. L’opinione più condivisa tra ricercatori e sviluppatori della Silicon Valley è che la tecnologia che fa funzionare le intelligenze artificiali generative – i modelli linguistici di grandi dimensioni – continuerà a progredire ininterrottamente verso un’intelligenza artificiale generale (artificial general intelligence), cioè un tipo di intelligenza in grado di fare tutto ciò che un essere umano può imparare a fare.
Altri, più scettici, credono che aggiungere più dati e potenza di calcolo ai grandi modelli linguistici non sia sufficiente di per sé, perché a quei modelli manca la capacità di fare ragionamenti basati sul buon senso. Quello che serve, ha detto al New York Times l’informatico e ricercatore franco-statunitense Yann LeCun, responsabile della divisione AI di Meta, è un approccio più ampio da lui definito «world modeling», cioè la capacità dei sistemi di intelligenza artificiale di crearsi un modello di mondo più o meno allo stesso modo degli esseri umani. Ma prima di arrivare a una capacità simile, secondo LeCun, potrebbero volerci circa dieci anni.
Nel frattempo i limiti noti dell’intelligenza artificiale con la matematica potrebbero diventare una questione più rilevante man mano che aumentano i tentativi di integrare i chatbot nella didattica. La psicologa statunitense Kristen DiCerbo, responsabile delle strategie di insegnamento e apprendimento alla Khan Academy, ha detto al New York Times che l’importante è essere consapevoli di quei limiti. I tutor virtuali basati sull’intelligenza artificiale che utilizzano nei loro corsi a distanza, per esempio, sono programmati per indirizzare a programmi di calcolo esterni eventuali richieste di risolvere operazioni matematiche.
Diversi insegnanti favorevoli all’utilizzo dei sistemi di intelligenza artificiale nell’insegnamento della matematica – e di altre discipline in generale – segnalano inoltre come l’utilizzo dei chatbot possa favorire l’apprendimento e il pensiero critico. Da questo punto di vista la necessità di controllare le procedure dettagliatamente descritte dai chatbot, passo dopo passo, e di verificare i risultati finali è considerata più un’opportunità che un limite.