Questo fenomeno recente solleva interrogativi sull’autonomia del ragionamento delle macchine e sulle sfide per la comunità scientifica nel misurarne i progressi.

[In pillole] La sintesi per chi va di fretta:
Recentemente un ingegnere di OpenAI ha scoperto che l'ultimo modello di IA ha risolto un problema matematico irrisolto da anni. Questo evento si inserisce in una tendenza più ampia: dal Natale 2025, quindici problemi di Erdős sono stati risolti, undici dei quali con il contributo decisivo dell'IA, accelerando la ricerca e sollevando nuove domande sul futuro della disciplina.
Il ragionamento matematico delle macchine
La capacità di ragionamento dimostrata dal modello di OpenAI ha mostrato una complessità che va oltre la semplice elaborazione di dati. Durante la risoluzione di uno dei problemi, per esempio, il sistema ha sistematicamente fatto ricorso ad assiomi matematici avanzati, tra cui la formula di Legendre, il postulato di Bertrand e il teorema della Stella di David.
Il processo logico del modello si è spinto fino a identificare un post del 2013 su Math Overflow, una piattaforma di discussione per matematici, scritto dal professore di Harvard Noam Elkies, che conteneva una soluzione correlata.
A quel punto, però, invece di limitarsi a riproporre quel percorso, il sistema ha deviato dall’approccio di Elkies per elaborare una soluzione più completa, applicabile a una variante di un problema di Erdős.
Questo salto qualitativo è stato in parte attribuito al rilascio di GPT-5.2 da parte di OpenAI, un modello che lo stesso Somani ha descritto come “aneddoticamente più abile nel ragionamento matematico rispetto alle versioni precedenti”.
Tuttavia, OpenAI non è l’unica azienda a muoversi in questa direzione. Già a novembre, alcune soluzioni autonome a problemi di Erdős erano emerse da AlphaEvolve, un modello sviluppato da Google e basato sulla sua tecnologia Gemini.
Si tratta quindi di una corsa che vede coinvolti i principali attori del settore tecnologico, tutti intenti a dimostrare la superiorità dei propri sistemi nel campo del ragionamento puro.
La rapidità con cui queste soluzioni sono emerse pone una domanda fondamentale: se le macchine iniziano a risolvere problemi che hanno messo in difficoltà gli esseri umani per decenni, come reagisce la comunità scientifica che a questi problemi ha dedicato intere carriere?
La convalida (cauta) degli esperti
La risposta della comunità matematica è stata attenta e misurata. Terence Tao, matematico di fama mondiale e vincitore della Medaglia Fields, ha iniziato a documentare il fenomeno sulla sua pagina GitHub, identificando otto problemi di Erdős in cui i modelli di intelligenza artificiale hanno compiuto progressi autonomi significativi e altri sei casi in cui hanno assistito i ricercatori.
Sul suo profilo Mastodon, Tao ha offerto un’interpretazione che smorza gli entusiasmi, spiegando che molti di questi problemi, considerati “più semplici”, sono ora più suscettibili di essere risolti con metodi basati sull’IA. Ha però aggiunto che la natura scalabile di questi sistemi li rende più adatti a essere applicati sistematicamente alla “coda lunga” di problemi di Erdős meno noti, molti dei quali hanno soluzioni relativamente dirette.
La sua valutazione rappresenta un equilibrio tra il riconoscimento di un progresso reale e la consapevolezza dei limiti ancora esistenti.
Siamo ancora lontani da sistemi di intelligenza artificiale in grado di fare matematica senza alcun intervento umano.
– Leggi anche: Occhiali Apple, la sorpresa: non avranno un display ma solo fotocamere e audio
Un fattore che ha reso possibili questi progressi è stata la crescente adozione della ‘formalizzazione’ matematica, ovvero il processo di esprimere le dimostrazioni in un formato verificabile da una macchina. Sebbene laborioso, rende il ragionamento matematico più facile da controllare. In questo contesto, strumenti come l’assistente di prova open-source Lean sono diventati uno standard, affiancati da nuovi tool basati sull’IA, come Aristotle, che promettono di automatizzare gran parte del lavoro.
Affinché simili sistemi di formalizzazione diventino realmente accessibili alla comunità scientifica, risulterebbe determinante una meticolosa progettazione di interfacce e user experience capace di tradurre l’astrazione logica della macchina in un ambiente di lavoro intuitivo per il ricercatore.
Come ha sottolineato Tudor Achim, fondatore di Harmonic, l’importanza di questi sviluppi va oltre il semplice conteggio dei problemi risolti. “Mi interessa di più il fatto che professori di matematica e informatica stiano usando strumenti di IA”, ha affermato, “queste persone hanno una reputazione da proteggere, quindi quando dicono di usare Aristotle o ChatGPT, questa è una prova concreta”.
Eppure, con modelli sempre più potenti, sorge un altro problema: come facciamo a essere sicuri che stiano veramente “ragionando” e non solo riproponendo informazioni già presenti nei loro dati di addestramento?
La sfida di misurare il progresso
La capacità di valutare in modo affidabile il ragionamento matematico dell’intelligenza artificiale è diventata essa stessa una sfida tecnica complessa. Le principali aziende tecnologiche stanno ora cercando sistematicamente problemi di matematica originali e inediti per testare i loro modelli.
Un progetto, descritto sulla piattaforma Prolific, ha coinvolto il reclutamento di matematici con dottorato di ricerca per creare 43 problemi completamente nuovi. Il processo ha richiesto un rilevamento automatico delle somiglianze per evitare “fughe di dati” dall’addestramento e una revisione tra pari per garantirne l’effettiva difficoltà.
I problemi che i modelli più avanzati erano già in grado di risolvere venivano scartati.
Parallelamente, è stato creato FrontierMath, un benchmark supportato da OpenAI che comprende diverse centinaia di problemi matematici inediti di livello esperto, la cui soluzione richiede in genere ore o giorni di lavoro da parte di specialisti. Questo insieme di problemi copre diversi livelli di difficoltà, dal livello universitario a quello della ricerca, fornendo un quadro strutturato per misurare i progressi nel ragionamento matematico.
Questi sforzi di valutazione sono necessari, perché sebbene i recenti risultati siano notevoli, devono essere inseriti in un contesto più ampio. Un’analisi recente riporta che GPT-5.2 raggiunge un’accuratezza del 77% su problemi di matematica a livello di competizione, ma solo del 25% su problemi di ricerca aperti che richiedono un’intuizione genuina.
Questa distinzione è fondamentale: un conto è riconoscere e applicare schemi complessi, un altro è avere una scoperta matematica autentica.
L’ondata di problemi di Erdős risolti non segna quindi né la sostituzione dei matematici umani né una trasformazione completa della ricerca. Indica piuttosto che i sistemi di intelligenza artificiale hanno iniziato a occupare una nicchia significativa: quella di attaccare sistematicamente problemi meno noti che possono essere risolti attraverso l’esplorazione su vasta scala e l’uso di strumenti di formalizzazione.
Per i matematici e gli informatici di professione, questi sistemi si stanno posizionando sempre più come collaboratori, in grado di assistere nell’esplorazione, nella verifica e nella scoperta sistematica di problemi.
Si tratta di capacità che estendono, anziché sostituire, l’ingegno umano. In un prossimo futuro, l’integrazione di questi motori di ragionamento potrebbe trovare sbocco in numerosi interessanti settori, come ad esempio nello sviluppo di applicazioni mobile dedicate alla didattica e alla consulenza tecnica, portando la potenza della ricerca matematica avanzata direttamente sui dispositivi portatili di professionisti e studenti.



