Scopriamo insieme perché i sistemi di Intelligenza Artificiale (IA), nonostante la loro avanzata capacità di elaborazione, possono generare risposte fantasiose (allucinazioni) e quali rischi possono comportare.
Negli ultimi anni, il rapido sviluppo dell’intelligenza artificiale (IA) ha portato all’ascesa di modelli linguistici sofisticati, con ChatGPT di OpenAI in prima linea. Se da una parte questi strumenti hanno rivoluzionato settori come il marketing, la medicina e la ricerca, dall’altra continuano a porci di fronte a sfide significative. Uno dei problemi più critici è che a volte inventano cose. Letteralmente. E non parliamo di licenze poetiche, ma di risposte che sembrano plausibili quanto una fake news ben congegnata.
Si tratta di un fenomeno che si chiama “allucinazione” e no, non si tratta di Large Language Model (LLM) che “vedono” unicorni, ma di errori che possono trasformare risposte utili in potenziali “disastri informativi”.
Cos’è l’allucinazione nell’IA?
Prima di addentrarci nel vivo della questione, chiariamo cosa intendiamo per allucinazioni dell’IA.
“L’allucinazione dell’AI è un fenomeno in cui un modello linguistico di grandi dimensioni (LLM), spesso un chatbot di AI generativa o uno strumento di computer vision, percepisce modelli o oggetti inesistenti o impercettibili agli osservatori umani, creando output privi di senso o del tutto imprecisi.” (IBM)
In altre parole, l’allucinazione negli LLM si verifica quando il modello crea un output che può sembrare realistico ma è a tutti gli effetti sbagliato. Facciamo degli esempi concreti per maggiore chiarezza.
Immagina di chiedere al tuo chatbot di fiducia “Quando è stata dipinta la Monna Lisa?” e di ottenere una risposta tipo “Nel 1815.”
Si tratta evidentemente di un’allucinazione: Leonardo dipinse la Gioconda intorno al 1503-1504 (corre giusto qualche secolo di troppo).
O di chiedere “Qual è il record mondiale per l’attraversamento della Manica interamente a piedi?” e di ottenere la risposta “Il record mondiale per l’attraversamento della Manica interamente a piedi è detenuto dal tedesco Christof Wandratsch, che ha completato l’attraversamento in 14 ore e 51 minuti il 14 agosto 2020.” (Beh, questa non la commentiamo nemmeno!)
Ecco. Queste risposte, effettivamente generate da ChatGPT nel 2023*, non sono frutto di ignoranza o malizia, ma del fatto che gli LLM analizzano dati e pattern senza davvero “capire” cosa stanno elaborando. Per questo si parla di allucinazione.
Questa peculiarità diventa particolarmente critica quando l’utente non dispone delle competenze necessarie per verificare l’accuratezza della risposta, rischiando così di accettare come valide anche possibili informazioni errate. Per questo è necessario utilizzare l’Intelligenza Artificiale con discernimento, tenendo sempre presente i limiti dei modelli linguistici, capaci di produrre risposte apparentemente autorevoli ma, talvolta, prive di fondamento.
*per fortuna oggi a queste esatte domande risponde correttamente, ma se non l’hai ancora fatto prova a chiedergli quante “r” contiene la parola “ramarro” e in che posizione si trovano!
Perché l’IA ha le allucinazioni?
Le “allucinazioni” dell’Intelligenza Artificiale, quindi, non sono altro che un effetto collaterale del modo in cui gli LLM funzionano. Questi sistemi, infatti, non comprendono davvero ciò che leggono o scrivono: il loro compito è unicamente quello di analizzare enormi quantità di dati e prevedere, con un algoritmo probabilistico, quale parola dovrebbe seguire la precedente in una frase. Per esempio, la scelta ricadrà su “tisana” piuttosto che su “tappeto” nella frase “con questo freddo credo proprio che mi berrò una…”. È ovviamente un risultato straordinario, ma questa capacità ha dei limiti importanti:
- La qualità dei dati è un problema
Gli LLM attingono da un’enorme quantità di dati su internet, un luogo che mescola verità, mezze verità, fake news e informazioni palesemente sbagliate. Anche una piccola percentuale di errore nei sistemi di addestramento può compromettere i risultati generati. Se nel mare di informazioni false che affollano la rete, l’IA si imbatte in un dato inesatto, essa non ha modo di riconoscerlo come tale: lo assimila e lo utilizza come se fosse valido.
- Le probabilità non sono infallibili
Come sappiamo la statistica non è una scienza esatta. Anche con dati di qualità, gli errori statistici non sono inevitabili. Gli LLM non “verificano” ciò che producono. Possono ad esempio arrivare alla conclusione che il telescopio sia stato inventato per verificare l’esistenza degli alieni, semplicemente perché alcuni termini correlati appaiono all’interno dello stesso articolo o nella stessa discussione online. La conseguenza? Un immediato salto in un universo fringe.
In sintesi, le allucinazioni sono il risultato di due difetti fondamentali dell’Intelligenza Artificiale: un database che per quanto vasto è imperfetto, e un sistema che non possiede consapevolezza ma che lavora esclusivamente sulle correlazioni.
Quanto possiamo davvero fidarci dell’IA?
Gli LLM eccellono come strumenti di supporto in attività come la stesura di e-mail, la creazione di post per i social o la redazione di testi sintetici. Tuttavia, i loro output necessitano sempre di una revisione umana attenta per correggere eventuali errori o imprecisioni. Il vero rischio si presenta quando ci si affida ciecamente a queste tecnologie per ottenere informazioni di cui non si conosce già la risposta, trattandole come fossero fonti infallibili: un errore che può portare a prendere per valide affermazioni potenzialmente inesatte.
Ma quanto spesso accade che le Intelligenze Artificiali commettono errori?
Secondo il ricercatore Simon Hughes, non esiste un modo definitivo per calcolare la percentuale di errori, dato che le risposte fornite dai modelli sono teoricamente infinite e dipendono dal contesto. Tuttavia, uno dei più recenti studi ha evidenziato differenze significative tra i vari sistemi: i modelli di OpenAI che alimentano la versione gratuita e premium di ChatGPT commettono errori nel 3% delle risposte circa; Llama di Meta si attesterebbe su un tasso del 5-6%; Claude 2 di Anthropic raggiungerebbe l’8%, e Palm di Google presenterebbe il tasso più alto con un 27% di risposte errate.
Conclusione
Il problema delle “allucinazioni” dell’IA ha già spinto i ricercatori a cercare di sviluppare soluzioni concrete. Uno dei primi passi è ottimizzare i set di dati di addestramento, affiancando un’accurata revisione svolta da valutatori umani. La supervisione da parte di esperti appositamente formati per analizzare e verificare le risposte prodotte dagli LLM riduce significativamente il rischio di generare contenuti errati o incoerenti.
Ma il messaggio è chiaro: l’IA non deve essere trattata come una fonte infallibile, ma come un potente alleato da supervisionare con attenzione. Errori e risposte fantasiose non sono altro che un promemoria del fatto che il controllo finale spetta a noi. Il futuro delle intelligenze artificiali dipenderà dalla nostra capacità di riconoscerne i limiti e lavorare per colmarli.