Data poisoning la minaccia silenziosa per la AI

Questo tipo di sabotaggio colpisce i sistemi di intelligenza artificiale proprio nella fase di addestramento, alterando i dati su cui si basano per imparare e minando la fiducia nella loro oggettività e affidabilità

[In pillole] La sintesi per chi va di fretta:

Il data poisoning è una minaccia informatica che sabota i sistemi di intelligenza artificiale durante la fase di addestramento. Inserendo dati corrotti o falsi, gli aggressori insegnano ai modelli AI a commettere errori sistematici, difficili da rilevare. Incidenti come la compromissione di ImageNet di Google DeepMind dimostrano la gravità del rischio, minacciando settori critici e la fiducia nella tecnologia.

Il sabotaggio silenzioso dei dati

Il processo di addestramento di un’intelligenza artificiale può essere paragonato all’educazione di un essere umano: il sistema impara a riconoscere schemi e a prendere decisioni analizzando milioni di esempi.

Se i “libri di testo” forniti sono pieni di errori, l’allievo imparerà nozioni sbagliate. L’avvelenamento dei dati consiste proprio nell’inquinare questi libri di testo digitali.

È sufficiente compromettere una porzione molto piccola del set di dati, talvolta tra l’1% e il 3%, per minare in modo significativo la capacità di un’intelligenza artificiale di generare previsioni accurate.

Le tecniche utilizzate dagli aggressori sono diverse e sofisticate. Una delle più comuni è il label flipping (inversione di etichetta), che consiste nel riassegnare etichette sbagliate ai dati.

Per esempio, in un sistema addestrato a distinguere immagini di cani e gatti, gli aggressori potrebbero etichettare sistematicamente alcune foto di cani come “gatto”. Una volta operativo, il modello farà più fatica a distinguere i due animali, la sua accuratezza sarà degradata e la sua affidabilità compromessa.

Un’altra tecnica è la data injection, con cui vengono iniettati dati completamente falsificati per orientare il comportamento del modello in una direzione specifica.

Si potrebbe, per esempio, corrompere il database di una banca per introdurre pratiche di prestito discriminatorie, facendo sì che il sistema impari ad associare un maggior rischio di insolvenza a determinati gruppi demografici.

Esistono poi metodi ancora più raffinati. Gli attacchi backdoor creano delle vulnerabilità nascoste che si attivano solo in presenza di uno specifico segnale, un po’ come una parola d’ordine.

Il modello si comporta normalmente in tutte le altre circostanze, ma quando incontra quel particolare “innesco”, produce il risultato desiderato dall’attaccante.

Ancora più subdoli sono gli attacchi clean-label, in cui gli aggressori modificano i dati in modo quasi impercettibile per l’occhio umano, come alterare leggermente i colori di un’immagine o aggiungere un piccolo accessorio, ma sufficiente a ingannare il modello e a fargli associare quell’immagine a un’etichetta sbagliata.

La domanda, a questo punto, non è più se questi attacchi siano possibili in teoria, ma se siano già stati messi in pratica.

Quando l’intelligenza artificiale impara a mentire

La prova che l’avvelenamento dei dati non è solo un’ipotesi accademica è arrivata da diversi esperimenti e incidenti reali. Un gruppo di ricercatori di sicurezza ha dimostrato la fattibilità dell’attacco creando PoisonGPT, una versione modificata di un modello di intelligenza artificiale open source.

Come spiegato sulla piattaforma TTMS, dopo l’avvelenamento, il modello insisteva con ostinazione su informazioni palesemente false, come affermare che “la Torre Eiffel si trova a Roma”, pur mantenendo un’accuratezza quasi perfetta su tutte le altre domande.

Il dato più preoccupante è che PoisonGPT ha superato i test di valutazione standard senza che venisse rilevata alcuna perdita significativa di prestazioni, dimostrando come la contaminazione possa nascondersi in piena vista.

Un caso ancora più significativo ha coinvolto uno dei giganti del settore. Nel 2023, il celebre modello di riconoscimento delle immagini ImageNet di Google DeepMind è stato compromesso proprio attraverso una forma di data poisoning. Degli aggressori sono riusciti a inserire nel set di dati delle immagini con distorsioni quasi invisibili che hanno indotto l’intelligenza artificiale a classificare in modo errato oggetti domestici e animali comuni.

Sebbene l’impatto di questo specifico incidente sia stato circoscritto, solleva interrogativi importanti sulla sicurezza dei sistemi sviluppati dalle più grandi aziende tecnologiche.

Se persino un’azienda con le risorse di Google può essere vulnerabile, qual è il livello di sicurezza dei modelli meno sorvegliati?

Le conseguenze di un attacco di questo tipo si estendono ben oltre il singolo errore di classificazione. L’avvelenamento dei dati può essere usato per amplificare pregiudizi esistenti nella società. Se un aggressore prende di mira specifici sottogruppi demografici, può addestrare un sistema a discriminarli ingiustamente.

I rischi diventano ancora più gravi in settori critici come la sanità, la finanza o i veicoli a guida autonoma, dove una previsione sbagliata può avere conseguenze devastanti. Il problema è che le fonti di questo “veleno” sono molteplici e spesso difficili da controllare, poiché la maggior parte dei modelli di intelligenza artificiale non viene costruita in un ambiente isolato.

Una difesa complessa per un problema invisibile

La vulnerabilità al data poisoning deriva in gran parte dalla natura stessa della filiera di sviluppo dell’intelligenza artificiale. Molti modelli, infatti, si basano su set di dati provenienti da fonti esterne e aggregate.

Come riportato da Cloudflare, se una sola di queste fonti a monte contiene informazioni avvelenate, la contaminazione si propaga a cascata a tutti i modelli che la utilizzano.

L’ecosistema open source, pur essendo un motore di innovazione, crea ulteriori opportunità per gli aggressori di iniettare contenuti dannosi in set di dati pubblici ampiamente utilizzati.

A questo si aggiunge la minaccia degli attacchi interni: un dipendente con accesso legittimo ai dati di addestramento può introdurre pregiudizi o errori con molta più facilità di un aggressore esterno, e questi attacchi sono significativamente più difficili da individuare.

L’impatto di questi attacchi non è solo tecnico, ma anche reputazionale. Un’azienda la cui intelligenza artificiale inizia a fornire informazioni palesemente errate o a comportarsi in modo discriminatorio subisce un danno di credibilità enorme, con possibili perdite economiche.

Di fronte a questa minaccia, le organizzazioni stanno cercando di correre ai ripari.

Si stanno diffondendo strumenti di rilevamento automatico, come Alibi Detect o TensorFlow Data Validation, progettati per analizzare i set di dati prima dell’addestramento alla ricerca di anomalie, distorsioni o schemi sospetti che potrebbero segnalare un attacco in corso.

Si stanno inoltre implementando protocolli di validazione dei dati più rigorosi e processi di verifica delle fonti per garantire che i dati a monte siano affidabili.

Tuttavia, queste misure, per quanto necessarie, sembrano più un tentativo di arginare il problema che una soluzione definitiva.

La questione fondamentale rimane: il paradigma attuale di sviluppo dell’intelligenza artificiale, basato sull’ingestione di quantità smisurate di dati spesso raccolti dal web senza un’adeguata verifica, è intrinsecamente fragile.

Le aziende tecnologiche promuovono i loro sistemi come il futuro, ma la solidità delle fondamenta su cui poggiano è ancora oggetto di un dibattito aperto.

La difesa dal data poisoning non è solo una sfida tecnica, ma una questione che mette in discussione il modo stesso in cui stiamo costruendo e ci stiamo affidando a queste nuove forme di intelligenza.

[Altre storie]

Anthropic e la valutazione da 350 miliardi di dollari che ridefinisce il settore dell’AI

Anthropic, la società di intelligenza artificiale, è in trattativa per un finanziamento da 10 miliardi di dollari che porterebbe la sua valutazione a 350 miliardi, quasi raddoppiando in tre mesi. L'operazione, guidata da Coatue e GIC, è sostenuta da previsioni di ricavi esplosive e mira a finanziare la costruzione di infrastrutture per competere con il rivale OpenAI.

La generazione di immagini con GPT-4o di OpenAI: il realismo non è più il punto

OpenAI ha integrato un nuovo generatore di immagini in GPT-4o, superando la corsa al fotorealismo. Il nuovo focus è su coerenza contestuale, precisione e una rivoluzionaria capacità di scrivere testo accurato. Questa evoluzione trasforma l'IA in un partner creativo multimodale, capace di gestire scene complesse e modifiche iterative, ridefinendo il futuro della creatività digitale.

Amazon e OpenAI, l’alleanza a sorpresa che scuote il mercato dell’IA

Circola l'indiscrezione di un enorme investimento di Amazon in OpenAI, la società di ChatGPT. La mossa è sorprendente dato il legame di Amazon con Anthropic e quello di OpenAI con Microsoft. L'operazione potrebbe ridisegnare gli equilibri nel mercato dell'intelligenza artificiale, mettendo in discussione le attuali alleanze strategiche e la competizione nel settore del cloud computing.

Apple Music si integra con ChatGPT per rivoluzionare la scoperta musicale

La nuova integrazione di Apple Music in ChatGPT consente agli abbonati di creare playlist personalizzate e ricevere suggerimenti musicali tramite conversazione. L'applicazione, seguendo l'esempio di Spotify, genera e salva direttamente le playlist nell'account dell'utente, distinguendosi per l'inclusione di brevi anteprime audio dei brani, una funzione pensata per mantenere l'ascolto principale all'interno dell'ecosistema Apple.

Trump ribalta le politiche di Biden, via libera ai chip AI di Nvidia per la Cina

L'amministrazione di Donald Trump ha siglato un accordo con la Cina che consente a Nvidia di vendere alcuni chip per l'IA. La mossa inverte le rigide politiche di Joe Biden, permettendo l'export del chip H200 a clienti approvati ma escludendo le tecnologie più avanzate. La decisione, pur sostenendo l'industria USA, è criticata come un rischio per la sicurezza nazionale.

Intelligenza artificiale: la nuova guida EDPS per la gestione del rischio aziendale

L 11 novembre il Garante europeo della protezione dei dati EDPS ha pubblicato una guida che rivoluziona l approccio aziendale all intelligenza artificiale Non basta più la conformità formale al GDPR Le imprese devono adottare un alfabetizzazione del rischio comprendendo e mitigando attivamente pericoli come bias e data poisoning dimostrando piena accountability attraverso una documentazione rigorosa

L’intelligenza artificiale è l’arma preferita degli hacker e le aziende non sono pronte

L intelligenza artificiale è diventata la principale arma degli hacker, con l ottantasette percento delle aziende colpite da attacchi IA nell ultimo anno secondo SoSafe. Phishing, deepfake e attacchi multicanale sono in crescita esponenziale. Le organizzazioni si trovano impreparate, con budget e competenze inadeguati ad affrontare una minaccia che evolve più velocemente delle loro difese, rendendo l elemento umano più vulnerabile.

La svolta AI di Microsoft verso il 2026 tra agenti autonomi e aumenti di prezzo

Microsoft punta al 2026 per una rivoluzione dell'intelligenza artificiale, trasformando Copilot in un agente autonomo integrato nel lavoro quotidiano. Questa transizione strategica, che promette più efficienza, si basa su ingenti investimenti e comporterà un inevitabile aumento dei prezzi per le suite Microsoft 365, ponendo nuove sfide di sicurezza e controllo per le aziende.

Bruxelles rinvia AI Act al 2027 per i sistemi ad alto rischio mentre l’Italia anticipa i tempi

La Commissione Europea ha deciso di posticipare al dicembre 2027 l'entrata in vigore delle regole per i sistemi di intelligenza artificiale ad alto rischio. La mossa giustificata dalla mancanza di standard tecnici lascia l'Italia in una posizione scomoda avendo già introdotto una legge nazionale anticipatoria che rischia ora di penalizzare le imprese locali rispetto ai competitor europei.

Data poisoning la minaccia invisibile che insegna a mentire all intelligenza artificiale

Questo tipo di sabotaggio colpisce i sistemi di intelligenza artificiale proprio nella fase di addestramento, alterando i dati su cui si basano per imparare e minando la fiducia nella loro oggettività e affidabilità

Il sabotaggio silenzioso dei dati

Quando l’intelligenza artificiale impara a mentire

Una difesa complessa per un problema invisibile

Dalle parole al codice?

[Consigliati]

Dallo show alla fabbrica il robot Atlas di Boston Dynamics entra in produzione con Hyundai e Google

XAI di Elon Musk raccoglie 20 miliardi di dollari per la sua intelligenza artificiale

L’intelligenza artificiale che impara da sola: promesse di Microsoft, dubbi degli esperti e l’impatto sulla mente umana

[Altre storie]

Anthropic e la valutazione da 350 miliardi di dollari che ridefinisce il settore dell’AI

La generazione di immagini con GPT-4o di OpenAI: il realismo non è più il punto

Amazon e OpenAI, l’alleanza a sorpresa che scuote il mercato dell’IA

Apple Music si integra con ChatGPT per rivoluzionare la scoperta musicale

Trump ribalta le politiche di Biden, via libera ai chip AI di Nvidia per la Cina

Intelligenza artificiale: la nuova guida EDPS per la gestione del rischio aziendale

L’intelligenza artificiale è l’arma preferita degli hacker e le aziende non sono pronte

La svolta AI di Microsoft verso il 2026 tra agenti autonomi e aumenti di prezzo

Bruxelles rinvia AI Act al 2027 per i sistemi ad alto rischio mentre l’Italia anticipa i tempi

Brindisi

Milano

Rovigo

Questo tipo di sabotaggio colpisce i sistemi di intelligenza artificiale proprio nella fase di addestramento, alterando i dati su cui si basano per imparare e minando la fiducia nella loro oggettività e affidabilità

Il sabotaggio silenzioso dei dati

Quando l’intelligenza artificiale impara a mentire

Una difesa complessa per un problema invisibile

Dalle parole al codice?

[Consigliati]

[Altre storie]

Teniamoci in [contatto]

Vuoi sapere di più sulla nostra realtà?

Brindisi

Milano

Rovigo