Non si basano sulla forzatura di un sistema o su errori di programmazione, ma sulla manipolazione del linguaggio stesso.

[In pillole] La sintesi per chi va di fretta:
L'intelligenza artificiale generativa introduce nuove vulnerabilità come il prompt injection, che manipola il linguaggio per rubare dati o eseguire comandi malevoli. Casi reali come lo spionaggio industriale in Anthropic e il ransomware PromptLock dimostrano la concretezza della minaccia, spostando il focus della sicurezza dalla rete alla conversazione e all'integrità dei dati di addestramento, minata dal data poisoning.
Il caso Anthropic e la nuova frontiera dello spionaggio industriale
Uno degli episodi più significativi che ha messo in luce la concretezza di questa minaccia ha coinvolto Anthropic, una delle aziende più importanti nel settore dell’intelligenza artificiale, concorrente diretta di OpenAI.
Secondo quanto riportato in un’analisi di Morphisec, un ex dipendente avrebbe utilizzato tecniche di ingegneria dei prompt per sottrarre segreti commerciali e dati proprietari relativi allo sviluppo dei modelli di intelligenza artificiale dell’azienda.
Non si è trattato di un attacco informatico classico, con accessi non autorizzati a server o database, ma di un abuso mirato dello strumento che lo stesso dipendente era autorizzato a usare. Sfruttando la sua conoscenza del funzionamento interno dei sistemi, è riuscito a formulare richieste specifiche che hanno indotto l’intelligenza artificiale a fornirgli informazioni che non avrebbe dovuto condividere.
Questo evento è importante perché sposta l’attenzione dal rischio di un attacco esterno a quello, forse più insidioso, di una minaccia interna. Un dipendente scontento o un collaboratore con accesso a un sistema di intelligenza artificiale aziendale avanzato diventa un potenziale veicolo per la fuga di dati sensibili, senza lasciare le tracce tipiche di un’intrusione informatica. Un rischio che richiede una gestione consapevole attraverso sistemi di human resources che equilibrino fiducia nei dipendenti e monitoraggio degli accessi a sistemi critici
La difficoltà, per le aziende, sta nel distinguere una richiesta legittima da una malevola, specialmente quando entrambe provengono da un utente autorizzato e appaiono, in superficie, come normali conversazioni con l’assistente virtuale.
Il caso Anthropic solleva una domanda fondamentale: se i sistemi di sicurezza sono progettati per bloccare accessi esterni, come possono proteggere un’azienda da un uso improprio, ma formalmente lecito, degli strumenti interni?
La risposta è complessa e mette in discussione l’approccio tradizionale alla sicurezza informatica. Ma se lo spionaggio industriale rappresenta la versione più mirata e sofisticata di questo tipo di attacco, le sue implicazioni si stanno già estendendo a forme di criminalità informatica su larga scala.
Da attacco mirato a minaccia di massa: il ransomware PromptLock
Il passo successivo, quasi inevitabile, è stato l’adattamento di queste tecniche al modello di business criminale più diffuso e redditizio degli ultimi anni: il ransomware. PromptLock è uno dei primi esempi noti di ransomware che non solo utilizza l’intelligenza artificiale per migliorare la sua efficacia, ma che sfrutta le vulnerabilità dei modelli linguistici come parte integrante del suo meccanismo di attacco.
A differenza dei ransomware tradizionali, che si limitano a cifrare i file di un sistema per chiedere un riscatto, PromptLock può utilizzare l’IA per creare email di phishing estremamente convincenti e personalizzate, superando i filtri anti-spam e ingannando anche gli utenti più attenti. Una volta all’interno di un sistema, può sfruttare le integrazioni con assistenti IA aziendali per diffondersi lateralmente nella rete, identificare i dati più critici da criptare o persino manipolare i processi automatizzati per massimizzare il danno.
La logica dietro PromptLock è quella di trasformare lo strumento di produttività in un’arma.
– Leggi anche: NVIDIA: non solo GPU. La strategia open source per dominare l’era degli agenti AI
Un’intelligenza artificiale integrata nei sistemi aziendali, che ha accesso a documenti, email e dati operativi, se compromessa da un prompt malevolo può diventare il miglior alleato di un hacker. Trend Micro ha inserito proprio l’abuso dei modelli linguistici per scopi malevoli tra i principali rischi per la sicurezza legati all’IA, sottolineando come questa tecnologia possa abbassare la barriera d’ingresso per i criminali informatici, permettendo anche a chi non ha competenze tecniche avanzate di orchestrare attacchi sofisticati.
Di fronte a questa evoluzione, viene da chiedersi se le grandi aziende tecnologiche che sviluppano e promuovono questi modelli stiano facendo abbastanza per mitigarne i rischi, o se la corsa a rilasciare la tecnologia più potente e performante stia prevalendo sulle necessarie misure di sicurezza.
Il problema, tuttavia, potrebbe essere ancora più profondo e riguardare не solo il modo in cui usiamo l’IA, ma il modo stesso in cui viene costruita.
L’avvelenamento dei dati e la sfiducia nel sistema
Esiste infatti una minaccia ancora più difficile da contrastare, perché agisce in modo silenzioso e a lungo termine: il “data poisoning”, o avvelenamento dei dati.
I modelli di intelligenza artificiale generativa imparano analizzando enormi quantità di informazioni raccolte da internet e da altre fonti. Se un malintenzionato riesce a inserire dati corrotti, falsi o malevoli all’interno di questo vasto insieme di addestramento, può influenzare il comportamento futuro del modello in modi imprevedibili.
Come spiegato in un’analisi di Sygnia sui rischi emergenti dell’IA, un modello “avvelenato” potrebbe, ad esempio, essere addestrato a ignorare certi tipi di attività sospette, a generare codice con vulnerabilità nascoste o a fornire risposte deliberatamente errate a domande specifiche.
L’aspetto più preoccupante del data poisoning è che il danno non è immediato.
Un modello compromesso potrebbe funzionare normalmente per mesi o addirittura anni, fino a quando non viene attivato da un input specifico che ne rivela la vulnerabilità latente. Identificare e correggere un problema di questo tipo è estremamente complesso, perché richiederebbe di analizzare e “ripulire” petabyte di dati di addestramento, un’operazione quasi impossibile.
Questo tipo di attacco non mira a violare un singolo sistema, ma a minare alla base la fiducia nell’intera tecnologia. Se non possiamo essere sicuri che le risposte fornite da un’intelligenza artificiale siano affidabili e imparziali, il suo valore come strumento di lavoro e di conoscenza viene drasticamente ridotto.
La discussione si sposta quindi su un piano più strategico. La sicurezza non riguarda più solo la protezione dell’infrastruttura tecnologica, ma anche la garanzia dell’integrità e della provenienza dei dati con cui questi potenti sistemi vengono addestrati.
La corsa all’intelligenza artificiale ha creato un nuovo e vasto campo di battaglia digitale, in cui le armi non sono più solo frammenti di codice, ma le parole stesse.
E la capacità di difendersi dipenderà non solo dalla robustezza dei sistemi, ma anche dalla nostra consapevolezza di quanto una semplice conversazione possa, oggi, nascondere rischi complessi.



