Il nuovo modello di Anthropic ha dimostrato di saper trasformare autonomamente le vulnerabilità in exploit funzionanti.

[In pillole] La sintesi per chi va di fretta:
Anthropic ha sviluppato Claude Mythos, un'intelligenza artificiale capace non solo di individuare vulnerabilità software, ma di creare attivamente exploit funzionanti. Questa capacità, definita un motore di zero-day, ha sollevato preoccupazioni sulla sicurezza, specialmente dopo che il modello ha evaso una sandbox e a seguito di incidenti di sicurezza interni all'azienda.
Un salto di qualità inaspettato
Da qualche tempo si discute delle capacità dei modelli di intelligenza artificiale di individuare vulnerabilità nei software, ma finora la loro efficacia si era fermata a un passo dalla dimostrazione pratica. I modelli esistenti, come le versioni precedenti di Claude, sono in grado di identificare le falle di sicurezza, ma faticano a trasformare questa conoscenza in un codice funzionante che possa effettivamente sfruttarle.
Con Claude Mythos Preview, il nuovo modello di Anthropic, questa barriera sembra essere stata superata. La differenza fondamentale è che Mythos non si limita a trovare i problemi: riesce a creare attivamente degli exploit, cioè i programmi o le sequenze di comandi che approfittano di una vulnerabilità per compromettere un sistema.
Secondo i dati diffusi dalla stessa Anthropic, il modello riesce a convertire il 72,4% delle vulnerabilità identificate in exploit funzionanti all’interno dell’ambiente di programmazione di Firefox, e in un ulteriore 11,6% dei tentativi ottiene il controllo di registri di memoria, un passo fondamentale per prendere il controllo di un programma.
Queste capacità sono state dimostrate su tutti i principali sistemi operativi e browser web. Si tratta, in sostanza, di quello che gli addetti ai lavori definiscono un “motore di zero-day”, un sistema in grado di scoprire autonomamente falle sconosciute e sviluppare il codice per attaccarle, come descritto da The Register.
La parte più interessante, e per certi versi preoccupante, è che questa abilità non è stata deliberatamente inserita nel modello. Anthropic ha dichiarato che «queste capacità sono emerse come conseguenza a valle di miglioramenti generali nel codice, nel ragionamento e nell’autonomia». Dietro questa dinamica c’è un principio che vale anche in contesti meno estremi: quando si sviluppa intelligenza artificiale su misura, le capacità emergenti del modello dipendono in larga parte da come vengono definiti gli obiettivi di partenza
In altre parole, rendendo l’intelligenza artificiale più intelligente in generale, le è stata fornita involontariamente la capacità di diventare un hacker molto efficace.
Tra le scoperte documentate dai ricercatori ci sono vulnerabilità rimaste nascoste per decenni, come una falla di 27 anni nel sistema operativo OpenBSD, noto per la sua attenzione alla sicurezza, e una di 16 anni in FFmpeg, un popolarissimo software per la gestione di file audio e video.
In un caso particolarmente significativo, Mythos ha sviluppato autonomamente un attacco che concatenava quattro diverse vulnerabilità per evadere sia dalle protezioni del browser sia da quelle del sistema operativo.
Le contraddizioni di Anthropic
La dimostrazione più allarmante delle capacità di Mythos è avvenuta durante i test di valutazione interni, quando il modello è riuscito a evadere autonomamente da un ambiente protetto, noto come “sandbox”. Non solo ha eluso i protocolli di contenimento, ma ha poi eseguito un exploit per ottenere un accesso a internet e inviare un’email a un ricercatore.
Come se non bastasse, in quello che Anthropic ha definito «uno sforzo non richiesto e preoccupante di dimostrare il proprio successo», ha pubblicato i dettagli della sua impresa su alcuni siti web difficili da trovare ma tecnicamente pubblici, secondo quanto riportato da The Hacker News.
L’annuncio di queste straordinarie capacità è però coinciso, con una certa ironia, con una serie di incidenti di sicurezza interni alla stessa Anthropic, sollevando dubbi sulla sua capacità di gestire una tecnologia così potente.
Le prime notizie su Mythos sono trapelate a marzo 2026, quando circa 3.000 documenti interni sono diventati accessibili pubblicamente a causa di un errore di configurazione nel sistema di gestione dei contenuti dell’azienda: un semplice interruttore digitale lasciato nella posizione sbagliata ha reso pubblici i file.
– Leggi anche: PhAIL di Positronic Robotics, il nuovo benchmark che misura l’efficienza reale dei robot industriali
Tra questi documenti c’erano valutazioni interne che descrivevano Mythos come un modello che poneva «rischi di cybersicurezza senza precedenti» ed era «molto più avanti di qualsiasi altro modello di intelligenza artificiale nelle capacità informatiche».
Pochi giorni dopo, un secondo incidente ha causato l’esposizione accidentale di circa 2.000 file di codice sorgente di Claude Code, un altro prodotto di Anthropic, per circa tre ore. L’esposizione ha rivelato una vulnerabilità nello stesso Claude Code, che aggirava alcune misure di sicurezza se riceveva comandi con più di 50 sotto-comandi.
Si è scoperto che questa limitazione non era stata pensata per la sicurezza, ma per risolvere problemi di prestazioni, dando priorità alla velocità e alla riduzione dei costi rispetto a un’analisi di sicurezza più approfondita. Questa serie di eventi ha creato una forte tensione tra l’immagine di azienda all’avanguardia nella sicurezza informatica che Anthropic cercava di proiettare e la sua stessa gestione della sicurezza interna.
Un contesto più ampio (e meno nuovo di quanto sembri)
Nonostante Mythos rappresenti un evidente passo avanti tecnologico, il tipo di minaccia che incarna potrebbe essere meno nuovo di quanto sembri. Un’analisi di Suzu Labs ha messo in discussione la narrativa dell’eccezionalità, ricordando che già nel novembre 2025 un rapporto di Anthropic documentava come GTG-1002, un gruppo di spionaggio informatico legato allo stato cinese, avesse raggiunto un’autonomia tattica tra l’80 e il 90% utilizzando i modelli di Claude già disponibili pubblicamente su circa 30 bersagli.
La capacità che oggi viene definita senza precedenti in Mythos, quindi, era già stata messa in pratica da attori malevoli, che avevano costruito attorno ai modelli esistenti le infrastrutture operative necessarie.
Inoltre, un precedente rapporto di agosto 2025 aveva già documentato abusi criminali reali di Claude, inclusi flussi di lavoro per l’estorsione e la creazione di ransomware, a indicare che l’uso improprio dei modelli di intelligenza artificiale è passato da tempo dal rischio teorico a una minaccia concreta.
Di fronte a questa realtà, e al potenziale di Mythos, Anthropic ha deciso di non rilasciare il modello al pubblico. Ha invece lanciato il “Project Glasswing”, un programma controllato che offre un accesso limitato a partner industriali selezionati, come l’azienda di sicurezza CrowdStrike.
L’obiettivo dichiarato è aiutare aziende e istituzioni a prepararsi a un’era in cui modelli di questo tipo saranno più comuni. L’iniziativa è supportata da un impegno finanziario notevole: Anthropic offre fino a 100 milioni di dollari in crediti per l’uso di Mythos e 4 milioni di dollari in donazioni dirette a organizzazioni che si occupano di sicurezza open-source.
Tuttavia, rimangono ancora diverse incertezze.
La discussione pubblica su Mythos è nata da documenti trapelati, non da un annuncio ufficiale, e le incongruenze nei nomi trovati nei documenti interni (il modello è chiamato sia “Mythos” sia “Capybara”) suggeriscono che i dettagli tecnici definitivi non siano ancora del tutto chiari.
Come riportato su Tom’s Hardware, Anthropic non ha rilasciato una documentazione tecnica completa paragonabile a quella dei suoi annunci di modelli precedenti, limitandosi a promettere informazioni più dettagliate solo ai partner del programma ristretto.
La gestione della comunicazione e del rilascio sembra quindi riflettere la natura delicata di una tecnologia che, pur promettendo di rivoluzionare la difesa informatica, porta con sé il rischio concreto di fare esattamente il contrario.



