I modelli attuali sono spinti a dare sempre una risposta e, quando non la conoscono, a inventare informazioni false pur di non ammettere i propri limiti, a causa di sistemi di valutazione che premiano l’apparente onniscienza.

[In pillole] La sintesi per chi va di fretta:
Una ricerca di OpenAI rivoluziona il dibattito sulle allucinazioni dell'IA, suggerendo che non siano un difetto tecnico, ma una conseguenza diretta dei sistemi di valutazione. I modelli linguistici sarebbero incentivati a mentire per apparire più accurati, compromettendo la fiducia e sollevando dubbi sull'integrazione in settori critici come medicina e finanza, specialmente nei modelli più avanzati. Urge una riforma dei metodi di valutazione.
Il paradosso della valutazione: perché i sistemi di IA sono incentivati a mentire
Per capire il problema, i ricercatori di OpenAI propongono un’analogia molto efficace, quella con i test a risposta multipla a scuola. Di fronte a una domanda di cui non conosce la risposta, uno studente ha due possibilità: lasciarla in bianco, ottenendo zero punti, oppure tentare la sorte, con la possibilità di indovinare e guadagnare un punto.
In un sistema che premia unicamente l’accuratezza, ovvero la percentuale di risposte corrette, tirare a indovinare è quasi sempre la strategia più razionale. Come descritto nell’articolo di approfondimento di TechCrunch, questo stesso meccanismo si applicherebbe ai modelli di intelligenza artificiale: quando vengono valutati solo sulla base della precisione, sono incoraggiati a indovinare piuttosto che ad ammettere di non conoscere la risposta.
Il punto centrale è che i sistemi di valutazione attuali non penalizzano adeguatamente gli errori commessi con sicurezza. Un modello che risponde “non lo so” a una domanda viene di fatto penalizzato, perché la sua performance di accuratezza complessiva diminuisce.
Al contrario, un modello che inventa una risposta plausibile ma falsa potrebbe, in alcuni contesti di valutazione, non essere sanzionato in modo significativo, o addirittura potrebbe essere premiato se la sua “supposizione” si avvicina vagamente alla realtà.
Questo crea un incentivo perverso: per il sistema, è più conveniente apparire onnisciente e rischiare di sbagliare, piuttosto che ammettere i propri limiti.
I ricercatori sono molto chiari su questo punto: i modelli di valutazione attuali non causano direttamente le allucinazioni, ma “impostano gli incentivi sbagliati”, un problema noto nel campo del machine learning, che spinge l’IA verso l’improvvisazione anziché verso un’onesta incertezza.
Questo meccanismo, apparentemente tecnico e lontano dalla nostra esperienza quotidiana, ha però conseguenze che si manifestano in modi sempre più evidenti e, a volte, preoccupanti.
Un problema che peggiora con i modelli più avanzati
Contrariamente a quanto si potrebbe pensare, il progresso tecnologico non sembra risolvere del tutto il problema.
Anzi, per certi versi, potrebbe aggravarlo.
Sebbene il tasso di allucinazioni complessivo nei modelli più diffusi sia diminuito negli ultimi due anni, attestandosi tra l’1 e il 3 percento, una tendenza preoccupante emerge quando si analizzano i modelli di ragionamento più sofisticati, quelli progettati per compiti complessi. I dati interni della stessa OpenAI, come riportato da Aventine, mostrano un andamento quasi paradossale: il modello di ragionamento o1 “allucinava” nel 16% dei casi quando gli veniva chiesto di riassumere informazioni su persone. I suoi successori, o3 e o4-mini, pur essendo più potenti, hanno registrato tassi di allucinazione rispettivamente del 33% e del 48%.
In pratica, più i modelli diventano abili nel ragionamento astratto, più sembrano propensi a inventare fatti quando non li conoscono, una delle sfide di frontiera nello sviluppo dell’intelligenza artificiale.
– Leggi anche: Apple Intelligence arriva in Cina: la strategia di Apple tra vendite, alleanze e censure
A complicare ulteriormente le cose c’è un altro fattore, emerso da uno studio di Giskard, un’azienda specializzata in test sull’IA. La comune richiesta di fornire risposte “brevi e concise” può sabotare l’accuratezza del modello. I ricercatori hanno notato che, quando viene forzato a essere sintetico, un modello tende a sacrificare la precisione fattuale. Questo perché smentire un’informazione falsa o affrontare un argomento ambiguo richiede spesso una spiegazione più articolata, cosa che viene meno se l’istruzione principale è la brevità.
Le implicazioni di queste dinamiche non sono affatto astratte.
L’Harvard Misinformation Review ha documentato casi concreti in cui le allucinazioni hanno creato problemi reali: dalle trascrizioni mediche alterate dal sistema Whisper di OpenAI, fino a citazioni legali inventate finite in atti giudiziari, passando per il noto caso di Air Canada, costretta a risarcire un cliente ingannato dal suo chatbot su una tariffa aerea.
L’impatto di queste imprecisioni non si limita a errori fattuali in documenti o conversazioni; si estende alla sfera della salute mentale e della percezione della realtà.
Le conseguenze sulle persone e le possibili vie d’uscita
Il confine tra interazione utile e dipendenza problematica è sottile, e i difetti strutturali di questi sistemi possono avere un ruolo. Keith Sakata, uno psichiatra dell’Università della California a San Francisco, ha raccontato a TechCrunch di aver osservato un aumento di casi di quella che definisce “psicosi legata all’IA”, in cui i pazienti, dopo aver interagito per centinaia di ore con i chatbot, sviluppano convinzioni deliranti.
Lo stesso CEO di OpenAI, Sam Altman, ha espresso preoccupazione per l’uso che le persone più fragili possono fare di ChatGPT. Tuttavia, queste dichiarazioni appaiono un po’ contraddittorie se si considera che molte scelte di progettazione di questi sistemi, come la tendenza a compiacere l’utente e a confermare le sue convinzioni, sembrano fatte apposta per incoraggiare un legame quasi emotivo e prolungato con la macchina, come evidenziato in un articolo di approfondimento sulle tattiche di coinvolgimento dei chatbot.
Di fronte a questo quadro complesso, la soluzione proposta dai ricercatori di OpenAI è tanto semplice nel concetto quanto difficile nell’applicazione: riformare i sistemi di valutazione. Propongono di ispirarsi a test standardizzati come il SAT americano, che storicamente ha usato punteggi negativi per le risposte sbagliate, proprio per scoraggiare i tentativi casuali.
Applicato all’IA, questo significherebbe “penalizzare gli errori commessi con sicurezza più di quanto si penalizzi l’incertezza”. Un modello dovrebbe ricevere un punteggio parziale se ammette di non sapere, invece di essere punito.
La proposta, per quanto logica, solleva però una domanda fondamentale: può un’azienda che è al centro della creazione di questi sistemi essere anche quella che ne definisce le regole di valutazione in modo imparziale?
Il rischio è che si continui a privilegiare la performance apparente rispetto all’affidabilità reale.
La ricerca di OpenAI, quindi, non si limita a identificare un difetto tecnico, ma espone una debolezza sistemica nel modo in cui stiamo sviluppando e misurando il progresso dell’intelligenza artificiale. Rivela che, forse, la corsa a creare modelli sempre più potenti e “intelligenti” ci ha fatto trascurare una qualità ancora più importante: l’onestà.
E do fronte a un panorama nel quale un numero crescente di persone usa l’IA per cercare informazioni, spesso senza esserne pienamente consapevole, la capacità di un sistema di dire “non lo so” potrebbe diventare la sua caratteristica più preziosa.
 
         
         
         
        


