Classifiche IA inaffidabili lo svela uno studio del MIT

La fragilità è emersa da uno studio del MIT che ha dimostrato come anche due soli feedback siano sufficienti a fare la differenza.

[In pillole] La sintesi per chi va di fretta:

Una nuova ricerca del MIT evidenzia la grave inaffidabilità delle classifiche per i modelli di intelligenza artificiale. I ricercatori hanno scoperto che basta rimuovere un numero esiguo di voti, a volte solo due, per stravolgere la graduatoria. La scoperta mette in dubbio la validità di questi strumenti, usati dalle aziende per costose scelte tecnologiche.

Le fondamenta incerte delle classifiche per l’intelligenza artificiale

Le piattaforme che stilano le classifiche dei modelli linguistici di grandi dimensioni (LLM), strumenti sempre più consultati da aziende e sviluppatori per orientare le proprie scelte tecnologiche, potrebbero essere molto meno affidabili di quanto si pensi.

Una nuova ricerca del Massachusetts Institute of Technology (MIT) ha messo in luce una vulnerabilità strutturale in questi sistemi di valutazione: un numero sorprendentemente piccolo di voti degli utenti, a volte appena una manciata, è in grado di ribaltare completamente la classifica, facendo apparire un modello come il migliore quando, fino a un momento prima, non lo era. Questa scoperta mette in discussione la solidità delle decisioni, spesso molto costose, prese dalle imprese che si basano su queste graduatorie per adottare una tecnologia di intelligenza artificiale piuttosto che un’altra.

I ricercatori del Dipartimento di Ingegneria Elettrica e Informatica del MIT hanno scoperto che, anche in piattaforme che aggregano decine di migliaia di valutazioni, la rimozione di una frazione infinitesimale di dati raccolti tramite crowdsourcing può alterare radicalmente le posizioni in classifica.

In un caso specifico, particolarmente eloquente, l’eliminazione di appena due voti su un totale di oltre 57.000 – una percentuale dello 0,0035% – è stata sufficiente a cambiare il modello al primo posto. Un dato che non descrive una semplice anomalia statistica, ma che suggerisce un problema di fondo nel modo in cui queste valutazioni vengono raccolte e pesate.

Tamara Broderick, professoressa associata presso il MIT e autrice senior dello studio, ha espresso la sorpresa del suo team di fronte a questa sensibilità. Ha spiegato che se la supremazia di un modello dipende da due o tre feedback su decine di migliaia, non si può più dare per scontato che quel modello sia realmente e costantemente superiore agli altri una volta implementato in un contesto operativo.

La presunta oggettività del dato aggregato si scontra con una fragilità inaspettata, che ne compromette il valore pratico. Il problema non è tanto la buona fede delle piattaforme, quanto il metodo stesso su cui si fondano, un metodo che sembra amplificare l’impatto di singole, e potenzialmente fallaci, valutazioni.

Ma come è stato possibile analizzare una mole di dati così vasta per trovare queste sottili crepe?

Un metodo per smascherare le crepe

La verifica manuale di una simile vulnerabilità sarebbe stata un’impresa impossibile. Una delle piattaforme esaminate conteneva, come detto, oltre 57.000 voti, generando un numero di possibili sottoinsiemi di dati da esaminare superiore a 10 elevato alla 194, una cifra astronomica e ingestibile.

Per superare questo ostacolo, il gruppo di ricerca, guidato da Jenny Huang, Yunyi Shen e Dennis Wei dell’IBM Research, ha sviluppato un metodo computazionale efficiente. Hanno adattato una tecnica di approssimazione già usata dove l’esclusione di piccole percentuali di dati poteva portare a conclusioni di ricerca opposte, applicandola ai sistemi di ranking degli LLM per sondarne la robustezza.

Si può presumere che la scoperta del MIT spingerà i professionisti del settore a ridefinire i protocolli di valutazione del machine learning, integrando metriche di robustezza più sofisticate per garantire che le prestazioni dichiarate dai modelli siano costanti e affidabili in ogni scenario applicativo.

L’analisi ha rivelato che non tutte le piattaforme sono ugualmente fragili. Un sistema di classificazione con annotatori esperti e “prompt” di qualità superiore si è dimostrato più solido: per invertire le prime due posizioni è stato necessario rimuovere circa il 3% delle valutazioni, ovvero 83 su un totale di 2.575.

Sebbene più resistente, anche questo sistema ha mostrato una sua debolezza, confermando che il problema è diffuso, seppure con intensità diverse. Le piattaforme più vulnerabili, basate su un crowdsourcing più ampio e meno controllato, hanno mostrato oscillazioni drastiche a fronte di cambiamenti minimi nei dati.

Il team di Broderick ha anche trovato prove che suggeriscono come molti dei voti più influenti potrebbero derivare da semplici errori umani. In alcuni casi, la risposta corretta fornita da un modello era palese, ma l’utente aveva scelto l’alternativa sbagliata per distrazione, un clic errato o genuina incertezza.

Questo introduce un elemento di casualità e soggettività che le attuali metodologie di aggregazione non sembrano in grado di gestire adeguatamente.

Se le classifiche che dovrebbero guidare investimenti strategici sono così sensibili all’errore umano, quali sono le reali conseguenze per le aziende che vi fanno affidamento?

Le conseguenze per chi investe

Le implicazioni di questi risultati sono notevoli, soprattutto per le organizzazioni che stanno valutando l’integrazione di modelli linguistici in applicazioni critiche per il loro business. Queste piattaforme di ranking funzionano tipicamente presentando agli utenti coppie di risposte generate da modelli diversi a una stessa domanda, e chiedendo di scegliere la migliore.

I risultati vengono poi aggregati per stilare classifiche relative a compiti specifici, come la programmazione, la scrittura creativa o la comprensione visiva. Come riportato in un comunicato del Massachusetts Institute of Technology (MIT), le aziende utilizzano queste graduatorie per districarsi tra le centinaia di modelli disponibili, ciascuno con decine di varianti, e per selezionare i candidati più promettenti.

Questo solleva un interrogativo non da poco per le aziende che si affidano a queste classifiche per orientare decisioni che possono valere milioni di dollari in licenze, infrastrutture e formazione. La scelta di un modello linguistico non è un’operazione a basso costo e influenza profondamente lo sviluppo di nuovi prodotti e servizi.

Basare una strategia a lungo termine su una classifica che potrebbe essere stata decisa da un paio di clic distratti espone a un rischio significativo. Si tratta di una potenziale discrepanza tra la percezione di una scelta basata su dati oggettivi e la realtà di un sistema influenzato da elementi quasi casuali.

Jessica Hullman, docente di informatica presso la Northwestern University, ha sottolineato come questo studio offra uno spaccato delle forti dipendenze dai dati in metodi che sono applicati di routine ma che si rivelano molto fragili. Vedere quanto poche preferenze possano cambiare il comportamento di un modello potrebbe, secondo Hullman, ispirare metodi più ponderati per la raccolta di questi dati.

I ricercatori del MIT, da parte loro, hanno suggerito alcuni approcci per rafforzare l’affidabilità delle piattaforme. Si potrebbe, ad esempio, raccogliere un feedback più dettagliato, chiedendo agli utenti di indicare anche il loro livello di confidenza in ciascun voto, fornendo così informazioni più ricche per un’aggregazione più robusta.

Un’altra possibilità sarebbe l’impiego di mediatori umani per valutare le risposte degli utenti prima che queste vengano inserite negli algoritmi di aggregazione. La questione rimane aperta, ma è ormai chiaro che la fiducia cieca in una classifica, per quanto apparentemente autorevole, non è più una strada percorribile.

[Altre storie]

Intelligenza artificiale agentica: la nuova era delle minacce informatiche

L'intelligenza artificiale agentica, capace di agire in autonomia, si sta diffondendo rapidamente nelle aziende. Secondo Gartner, entro il 2026 il 40 percento delle applicazioni la integrerà. Questa adozione accelerata sta creando una nuova superficie di attacco, con minacce informatiche più veloci e complesse, trasformando radicalmente il panorama della sicurezza e mettendo a dura prova le difese tradizionali.

Robot umanoidi: la svolta del 2025 e il predominio della Cina

Il 2025 è l'anno di svolta per i robot umanoidi, con 16.000 unità installate che segnano il passaggio all'uso commerciale su larga scala. La Cina domina il mercato con oltre l'80% delle installazioni, guidata da aziende leader come AgiBot e Unitree Robotics. Mentre emergono nuovi modelli di business, si delinea una specializzazione tecnologica geografica a livello globale.

La scommessa di Alibaba da 431 milioni di dollari sulla sua intelligenza artificiale Qwen

Alibaba ha stanziato 431 milioni di dollari per promuovere la sua applicazione di intelligenza artificiale, Qwen, durante il Capodanno Lunare. L'obiettivo è acquisire nuovi utenti tramite la distribuzione di buste rosse digitali, superando ampiamente gli investimenti dei concorrenti Tencent e Baidu in una mossa strategica per affermare la propria leadership nel competitivo mercato cinese dell'IA.

India mercato strategico, l’analisi di Deloitte sulle opportunità per le imprese italiane

LIndia rappresenta uno dei mercati a più alta crescita, con un PIL stimato al 6,2% e 470 miliardi di investimenti esteri. Unanalisi di Deloitte, in collaborazione con ISN e AMPA, individua quattro settori chiave per le imprese italiane: manifattura avanzata, infrastrutture urbane, bioeconomia e intelligenza artificiale, in un contesto di rafforzate relazioni diplomatiche ed economiche con lItalia.

OpenAI dal dominio alla rincorsa la strategia per riconquistare il mercato nel 2026

La quota di mercato enterprise di OpenAI è crollata dal 50 al 27 per cento a causa della forte concorrenza di Google Anthropic e Meta Per reagire l azienda di Sam Altman ha avviato una riorganizzazione interna e una nuova strategia incentrata sull adozione pratica dell IA nelle aziende puntando a una rimonta decisa a partire dal 2026

Intelligenza artificiale: perché le donne sono più scettiche degli uomini. La ricerca PNAS Nexus

Una nuova ricerca su PNAS Nexus quantifica il divario di genere nella percezione dell'IA le donne la ritengono più rischiosa degli uomini con un 11% in più che crede i rischi superino i benefici Questo si traduce in un minor utilizzo di strumenti come ChatGPT e deriva da una maggiore avversione all'incertezza e preoccupazione per gli impatti sociali

Starbucks lancia la sfida tra AI e tradizione per riconquistare i clienti

Per contrastare la crescita lenta, Starbucks sotto la guida del nuovo CEO Brian Niccol lancia una strategia a due vie. Investe massicciamente in AI e robotica per velocizzare il servizio e ridurre gli errori, ma stanzia anche 500 milioni per il personale e rinnova i negozi per rafforzare il suo ruolo di terzo luogo, bilanciando efficienza e legame umano.

Amazon punta tutto su OpenAI con un investimento da 50 miliardi

Amazon starebbe negoziando un imponente investimento da 50 miliardi di dollari in OpenAI, l'azienda creatrice di ChatGPT. L'operazione, parte di un round di finanziamento da 100 miliardi, porterebbe la valutazione di OpenAI a 830 miliardi. Questa mossa strategica, guidata dagli CEO Jassy e Altman, potrebbe ridefinire gli equilibri nel settore dell'intelligenza artificiale, sollevando interrogativi e preoccupazioni.

Windows 11 sfida Apple con AI e integrazione Android

Microsoft lancia un importante aggiornamento per Windows 11, introducendo funzionalità di intelligenza artificiale che operano localmente e una continuità tra PC e smartphone Android molto simile a quella di Apple. Con la funzione Cross-Device Resume, gli utenti potranno riprendere attività come la navigazione web o la modifica di documenti passando dal telefono al computer con un solo clic.

Classifiche IA: la loro inaffidabilità svelata da uno studio del MIT

La fragilità è emersa da uno studio del MIT che ha dimostrato come anche due soli feedback siano sufficienti a fare la differenza.

Le fondamenta incerte delle classifiche per l’intelligenza artificiale

Un metodo per smascherare le crepe

Le conseguenze per chi investe

Dalle parole al codice?

[Consigliati]

Le scommesse miliardarie di OpenAI e Sam Altman per il futuro dell’IA

Alexa+ è arrivata: la nuova AI di AMAZON sfida APPLE e Siri

La grande intesa tra NVIDIA e OpenAI a rischio?

[Altre storie]

Intelligenza artificiale agentica: la nuova era delle minacce informatiche

Robot umanoidi: la svolta del 2025 e il predominio della Cina

La scommessa di Alibaba da 431 milioni di dollari sulla sua intelligenza artificiale Qwen

India mercato strategico, l’analisi di Deloitte sulle opportunità per le imprese italiane

OpenAI dal dominio alla rincorsa la strategia per riconquistare il mercato nel 2026

Intelligenza artificiale: perché le donne sono più scettiche degli uomini. La ricerca PNAS Nexus

Starbucks lancia la sfida tra AI e tradizione per riconquistare i clienti

Amazon punta tutto su OpenAI con un investimento da 50 miliardi

Windows 11 sfida Apple con AI e integrazione Android

Brindisi

Milano

Rovigo

La fragilità è emersa da uno studio del MIT che ha dimostrato come anche due soli feedback siano sufficienti a fare la differenza.

Le fondamenta incerte delle classifiche per l’intelligenza artificiale

Un metodo per smascherare le crepe

Le conseguenze per chi investe

Dalle parole al codice?

[Consigliati]

[Altre storie]

Teniamoci in [contatto]

Vuoi sapere di più sulla nostra realtà?

Brindisi

Milano

Rovigo