Questo tipo di sabotaggio colpisce i sistemi di intelligenza artificiale proprio nella fase di addestramento, alterando i dati su cui si basano per imparare e minando la fiducia nella loro oggettività e affidabilità

[In pillole] La sintesi per chi va di fretta:
Il data poisoning è una minaccia informatica che sabota i sistemi di intelligenza artificiale durante la fase di addestramento. Inserendo dati corrotti o falsi, gli aggressori insegnano ai modelli AI a commettere errori sistematici, difficili da rilevare. Incidenti come la compromissione di ImageNet di Google DeepMind dimostrano la gravità del rischio, minacciando settori critici e la fiducia nella tecnologia.
Il sabotaggio silenzioso dei dati
Il processo di addestramento di un’intelligenza artificiale può essere paragonato all’educazione di un essere umano: il sistema impara a riconoscere schemi e a prendere decisioni analizzando milioni di esempi.
Se i “libri di testo” forniti sono pieni di errori, l’allievo imparerà nozioni sbagliate. L’avvelenamento dei dati consiste proprio nell’inquinare questi libri di testo digitali.
È sufficiente compromettere una porzione molto piccola del set di dati, talvolta tra l’1% e il 3%, per minare in modo significativo la capacità di un’intelligenza artificiale di generare previsioni accurate.
Le tecniche utilizzate dagli aggressori sono diverse e sofisticate. Una delle più comuni è il label flipping (inversione di etichetta), che consiste nel riassegnare etichette sbagliate ai dati.
Per esempio, in un sistema addestrato a distinguere immagini di cani e gatti, gli aggressori potrebbero etichettare sistematicamente alcune foto di cani come “gatto”. Una volta operativo, il modello farà più fatica a distinguere i due animali, la sua accuratezza sarà degradata e la sua affidabilità compromessa.
Un’altra tecnica è la data injection, con cui vengono iniettati dati completamente falsificati per orientare il comportamento del modello in una direzione specifica.
Si potrebbe, per esempio, corrompere il database di una banca per introdurre pratiche di prestito discriminatorie, facendo sì che il sistema impari ad associare un maggior rischio di insolvenza a determinati gruppi demografici.
Esistono poi metodi ancora più raffinati. Gli attacchi backdoor creano delle vulnerabilità nascoste che si attivano solo in presenza di uno specifico segnale, un po’ come una parola d’ordine.
Il modello si comporta normalmente in tutte le altre circostanze, ma quando incontra quel particolare “innesco”, produce il risultato desiderato dall’attaccante.
Ancora più subdoli sono gli attacchi clean-label, in cui gli aggressori modificano i dati in modo quasi impercettibile per l’occhio umano, come alterare leggermente i colori di un’immagine o aggiungere un piccolo accessorio, ma sufficiente a ingannare il modello e a fargli associare quell’immagine a un’etichetta sbagliata.
La domanda, a questo punto, non è più se questi attacchi siano possibili in teoria, ma se siano già stati messi in pratica.
Quando l’intelligenza artificiale impara a mentire
La prova che l’avvelenamento dei dati non è solo un’ipotesi accademica è arrivata da diversi esperimenti e incidenti reali. Un gruppo di ricercatori di sicurezza ha dimostrato la fattibilità dell’attacco creando PoisonGPT, una versione modificata di un modello di intelligenza artificiale open source.
Come spiegato sulla piattaforma TTMS, dopo l’avvelenamento, il modello insisteva con ostinazione su informazioni palesemente false, come affermare che “la Torre Eiffel si trova a Roma”, pur mantenendo un’accuratezza quasi perfetta su tutte le altre domande.
Il dato più preoccupante è che PoisonGPT ha superato i test di valutazione standard senza che venisse rilevata alcuna perdita significativa di prestazioni, dimostrando come la contaminazione possa nascondersi in piena vista.
Un caso ancora più significativo ha coinvolto uno dei giganti del settore. Nel 2023, il celebre modello di riconoscimento delle immagini ImageNet di Google DeepMind è stato compromesso proprio attraverso una forma di data poisoning. Degli aggressori sono riusciti a inserire nel set di dati delle immagini con distorsioni quasi invisibili che hanno indotto l’intelligenza artificiale a classificare in modo errato oggetti domestici e animali comuni.
– Leggi anche: Dallo show alla fabbrica il robot Atlas di Boston Dynamics entra in produzione con Hyundai e Google
Sebbene l’impatto di questo specifico incidente sia stato circoscritto, solleva interrogativi importanti sulla sicurezza dei sistemi sviluppati dalle più grandi aziende tecnologiche.
Se persino un’azienda con le risorse di Google può essere vulnerabile, qual è il livello di sicurezza dei modelli meno sorvegliati?
Le conseguenze di un attacco di questo tipo si estendono ben oltre il singolo errore di classificazione. L’avvelenamento dei dati può essere usato per amplificare pregiudizi esistenti nella società. Se un aggressore prende di mira specifici sottogruppi demografici, può addestrare un sistema a discriminarli ingiustamente.
I rischi diventano ancora più gravi in settori critici come la sanità, la finanza o i veicoli a guida autonoma, dove una previsione sbagliata può avere conseguenze devastanti. Il problema è che le fonti di questo “veleno” sono molteplici e spesso difficili da controllare, poiché la maggior parte dei modelli di intelligenza artificiale non viene costruita in un ambiente isolato.
Una difesa complessa per un problema invisibile
La vulnerabilità al data poisoning deriva in gran parte dalla natura stessa della filiera di sviluppo dell’intelligenza artificiale. Molti modelli, infatti, si basano su set di dati provenienti da fonti esterne e aggregate.
Come riportato da Cloudflare, se una sola di queste fonti a monte contiene informazioni avvelenate, la contaminazione si propaga a cascata a tutti i modelli che la utilizzano.
L’ecosistema open source, pur essendo un motore di innovazione, crea ulteriori opportunità per gli aggressori di iniettare contenuti dannosi in set di dati pubblici ampiamente utilizzati.
A questo si aggiunge la minaccia degli attacchi interni: un dipendente con accesso legittimo ai dati di addestramento può introdurre pregiudizi o errori con molta più facilità di un aggressore esterno, e questi attacchi sono significativamente più difficili da individuare.
L’impatto di questi attacchi non è solo tecnico, ma anche reputazionale. Un’azienda la cui intelligenza artificiale inizia a fornire informazioni palesemente errate o a comportarsi in modo discriminatorio subisce un danno di credibilità enorme, con possibili perdite economiche.
Di fronte a questa minaccia, le organizzazioni stanno cercando di correre ai ripari.
Si stanno diffondendo strumenti di rilevamento automatico, come Alibi Detect o TensorFlow Data Validation, progettati per analizzare i set di dati prima dell’addestramento alla ricerca di anomalie, distorsioni o schemi sospetti che potrebbero segnalare un attacco in corso.
Si stanno inoltre implementando protocolli di validazione dei dati più rigorosi e processi di verifica delle fonti per garantire che i dati a monte siano affidabili.
Tuttavia, queste misure, per quanto necessarie, sembrano più un tentativo di arginare il problema che una soluzione definitiva.
La questione fondamentale rimane: il paradigma attuale di sviluppo dell’intelligenza artificiale, basato sull’ingestione di quantità smisurate di dati spesso raccolti dal web senza un’adeguata verifica, è intrinsecamente fragile.
Le aziende tecnologiche promuovono i loro sistemi come il futuro, ma la solidità delle fondamenta su cui poggiano è ancora oggetto di un dibattito aperto.
La difesa dal data poisoning non è solo una sfida tecnica, ma una questione che mette in discussione il modo stesso in cui stiamo costruendo e ci stiamo affidando a queste nuove forme di intelligenza.



