La fragilità è emersa da uno studio del MIT che ha dimostrato come anche due soli feedback siano sufficienti a fare la differenza.

[In pillole] La sintesi per chi va di fretta:
Una nuova ricerca del MIT evidenzia la grave inaffidabilità delle classifiche per i modelli di intelligenza artificiale. I ricercatori hanno scoperto che basta rimuovere un numero esiguo di voti, a volte solo due, per stravolgere la graduatoria. La scoperta mette in dubbio la validità di questi strumenti, usati dalle aziende per costose scelte tecnologiche.
Le fondamenta incerte delle classifiche per l’intelligenza artificiale
Le piattaforme che stilano le classifiche dei modelli linguistici di grandi dimensioni (LLM), strumenti sempre più consultati da aziende e sviluppatori per orientare le proprie scelte tecnologiche, potrebbero essere molto meno affidabili di quanto si pensi.
Una nuova ricerca del Massachusetts Institute of Technology (MIT) ha messo in luce una vulnerabilità strutturale in questi sistemi di valutazione: un numero sorprendentemente piccolo di voti degli utenti, a volte appena una manciata, è in grado di ribaltare completamente la classifica, facendo apparire un modello come il migliore quando, fino a un momento prima, non lo era. Questa scoperta mette in discussione la solidità delle decisioni, spesso molto costose, prese dalle imprese che si basano su queste graduatorie per adottare una tecnologia di intelligenza artificiale piuttosto che un’altra.
I ricercatori del Dipartimento di Ingegneria Elettrica e Informatica del MIT hanno scoperto che, anche in piattaforme che aggregano decine di migliaia di valutazioni, la rimozione di una frazione infinitesimale di dati raccolti tramite crowdsourcing può alterare radicalmente le posizioni in classifica.
In un caso specifico, particolarmente eloquente, l’eliminazione di appena due voti su un totale di oltre 57.000 – una percentuale dello 0,0035% – è stata sufficiente a cambiare il modello al primo posto. Un dato che non descrive una semplice anomalia statistica, ma che suggerisce un problema di fondo nel modo in cui queste valutazioni vengono raccolte e pesate.
Tamara Broderick, professoressa associata presso il MIT e autrice senior dello studio, ha espresso la sorpresa del suo team di fronte a questa sensibilità. Ha spiegato che se la supremazia di un modello dipende da due o tre feedback su decine di migliaia, non si può più dare per scontato che quel modello sia realmente e costantemente superiore agli altri una volta implementato in un contesto operativo.
La presunta oggettività del dato aggregato si scontra con una fragilità inaspettata, che ne compromette il valore pratico. Il problema non è tanto la buona fede delle piattaforme, quanto il metodo stesso su cui si fondano, un metodo che sembra amplificare l’impatto di singole, e potenzialmente fallaci, valutazioni.
Ma come è stato possibile analizzare una mole di dati così vasta per trovare queste sottili crepe?
Un metodo per smascherare le crepe
La verifica manuale di una simile vulnerabilità sarebbe stata un’impresa impossibile. Una delle piattaforme esaminate conteneva, come detto, oltre 57.000 voti, generando un numero di possibili sottoinsiemi di dati da esaminare superiore a 10 elevato alla 194, una cifra astronomica e ingestibile.
Per superare questo ostacolo, il gruppo di ricerca, guidato da Jenny Huang, Yunyi Shen e Dennis Wei dell’IBM Research, ha sviluppato un metodo computazionale efficiente. Hanno adattato una tecnica di approssimazione già usata dove l’esclusione di piccole percentuali di dati poteva portare a conclusioni di ricerca opposte, applicandola ai sistemi di ranking degli LLM per sondarne la robustezza.
Si può presumere che la scoperta del MIT spingerà i professionisti del settore a ridefinire i protocolli di valutazione del machine learning, integrando metriche di robustezza più sofisticate per garantire che le prestazioni dichiarate dai modelli siano costanti e affidabili in ogni scenario applicativo.
L’analisi ha rivelato che non tutte le piattaforme sono ugualmente fragili. Un sistema di classificazione con annotatori esperti e “prompt” di qualità superiore si è dimostrato più solido: per invertire le prime due posizioni è stato necessario rimuovere circa il 3% delle valutazioni, ovvero 83 su un totale di 2.575.
– Leggi anche: Le scommesse miliardarie di OpenAI e Sam Altman per il futuro dell’IA
Sebbene più resistente, anche questo sistema ha mostrato una sua debolezza, confermando che il problema è diffuso, seppure con intensità diverse. Le piattaforme più vulnerabili, basate su un crowdsourcing più ampio e meno controllato, hanno mostrato oscillazioni drastiche a fronte di cambiamenti minimi nei dati.
Il team di Broderick ha anche trovato prove che suggeriscono come molti dei voti più influenti potrebbero derivare da semplici errori umani. In alcuni casi, la risposta corretta fornita da un modello era palese, ma l’utente aveva scelto l’alternativa sbagliata per distrazione, un clic errato o genuina incertezza.
Questo introduce un elemento di casualità e soggettività che le attuali metodologie di aggregazione non sembrano in grado di gestire adeguatamente.
Se le classifiche che dovrebbero guidare investimenti strategici sono così sensibili all’errore umano, quali sono le reali conseguenze per le aziende che vi fanno affidamento?
Le conseguenze per chi investe
Le implicazioni di questi risultati sono notevoli, soprattutto per le organizzazioni che stanno valutando l’integrazione di modelli linguistici in applicazioni critiche per il loro business. Queste piattaforme di ranking funzionano tipicamente presentando agli utenti coppie di risposte generate da modelli diversi a una stessa domanda, e chiedendo di scegliere la migliore.
I risultati vengono poi aggregati per stilare classifiche relative a compiti specifici, come la programmazione, la scrittura creativa o la comprensione visiva. Come riportato in un comunicato del Massachusetts Institute of Technology (MIT), le aziende utilizzano queste graduatorie per districarsi tra le centinaia di modelli disponibili, ciascuno con decine di varianti, e per selezionare i candidati più promettenti.
Questo solleva un interrogativo non da poco per le aziende che si affidano a queste classifiche per orientare decisioni che possono valere milioni di dollari in licenze, infrastrutture e formazione. La scelta di un modello linguistico non è un’operazione a basso costo e influenza profondamente lo sviluppo di nuovi prodotti e servizi.
Basare una strategia a lungo termine su una classifica che potrebbe essere stata decisa da un paio di clic distratti espone a un rischio significativo. Si tratta di una potenziale discrepanza tra la percezione di una scelta basata su dati oggettivi e la realtà di un sistema influenzato da elementi quasi casuali.
Jessica Hullman, docente di informatica presso la Northwestern University, ha sottolineato come questo studio offra uno spaccato delle forti dipendenze dai dati in metodi che sono applicati di routine ma che si rivelano molto fragili. Vedere quanto poche preferenze possano cambiare il comportamento di un modello potrebbe, secondo Hullman, ispirare metodi più ponderati per la raccolta di questi dati.
I ricercatori del MIT, da parte loro, hanno suggerito alcuni approcci per rafforzare l’affidabilità delle piattaforme. Si potrebbe, ad esempio, raccogliere un feedback più dettagliato, chiedendo agli utenti di indicare anche il loro livello di confidenza in ciascun voto, fornendo così informazioni più ricche per un’aggregazione più robusta.
Un’altra possibilità sarebbe l’impiego di mediatori umani per valutare le risposte degli utenti prima che queste vengano inserite negli algoritmi di aggregazione. La questione rimane aperta, ma è ormai chiaro che la fiducia cieca in una classifica, per quanto apparentemente autorevole, non è più una strada percorribile.



