IA risolve problemi di matematica: il caso OpenAI e Erdős

Questo fenomeno recente solleva interrogativi sull’autonomia del ragionamento delle macchine e sulle sfide per la comunità scientifica nel misurarne i progressi.

[In pillole] La sintesi per chi va di fretta:

Recentemente un ingegnere di OpenAI ha scoperto che l'ultimo modello di IA ha risolto un problema matematico irrisolto da anni. Questo evento si inserisce in una tendenza più ampia: dal Natale 2025, quindici problemi di Erdős sono stati risolti, undici dei quali con il contributo decisivo dell'IA, accelerando la ricerca e sollevando nuove domande sul futuro della disciplina.

Il ragionamento matematico delle macchine

La capacità di ragionamento dimostrata dal modello di OpenAI ha mostrato una complessità che va oltre la semplice elaborazione di dati. Durante la risoluzione di uno dei problemi, per esempio, il sistema ha sistematicamente fatto ricorso ad assiomi matematici avanzati, tra cui la formula di Legendre, il postulato di Bertrand e il teorema della Stella di David.

Il processo logico del modello si è spinto fino a identificare un post del 2013 su Math Overflow, una piattaforma di discussione per matematici, scritto dal professore di Harvard Noam Elkies, che conteneva una soluzione correlata.

A quel punto, però, invece di limitarsi a riproporre quel percorso, il sistema ha deviato dall’approccio di Elkies per elaborare una soluzione più completa, applicabile a una variante di un problema di Erdős.

Questo salto qualitativo è stato in parte attribuito al rilascio di GPT-5.2 da parte di OpenAI, un modello che lo stesso Somani ha descritto come “aneddoticamente più abile nel ragionamento matematico rispetto alle versioni precedenti”.

Tuttavia, OpenAI non è l’unica azienda a muoversi in questa direzione. Già a novembre, alcune soluzioni autonome a problemi di Erdős erano emerse da AlphaEvolve, un modello sviluppato da Google e basato sulla sua tecnologia Gemini.

Si tratta quindi di una corsa che vede coinvolti i principali attori del settore tecnologico, tutti intenti a dimostrare la superiorità dei propri sistemi nel campo del ragionamento puro.

La rapidità con cui queste soluzioni sono emerse pone una domanda fondamentale: se le macchine iniziano a risolvere problemi che hanno messo in difficoltà gli esseri umani per decenni, come reagisce la comunità scientifica che a questi problemi ha dedicato intere carriere?

La convalida (cauta) degli esperti

La risposta della comunità matematica è stata attenta e misurata. Terence Tao, matematico di fama mondiale e vincitore della Medaglia Fields, ha iniziato a documentare il fenomeno sulla sua pagina GitHub, identificando otto problemi di Erdős in cui i modelli di intelligenza artificiale hanno compiuto progressi autonomi significativi e altri sei casi in cui hanno assistito i ricercatori.

Sul suo profilo Mastodon, Tao ha offerto un’interpretazione che smorza gli entusiasmi, spiegando che molti di questi problemi, considerati “più semplici”, sono ora più suscettibili di essere risolti con metodi basati sull’IA. Ha però aggiunto che la natura scalabile di questi sistemi li rende più adatti a essere applicati sistematicamente alla “coda lunga” di problemi di Erdős meno noti, molti dei quali hanno soluzioni relativamente dirette.

La sua valutazione rappresenta un equilibrio tra il riconoscimento di un progresso reale e la consapevolezza dei limiti ancora esistenti.

Siamo ancora lontani da sistemi di intelligenza artificiale in grado di fare matematica senza alcun intervento umano.

Un fattore che ha reso possibili questi progressi è stata la crescente adozione della ‘formalizzazione’ matematica, ovvero il processo di esprimere le dimostrazioni in un formato verificabile da una macchina. Sebbene laborioso, rende il ragionamento matematico più facile da controllare. In questo contesto, strumenti come l’assistente di prova open-source Lean sono diventati uno standard, affiancati da nuovi tool basati sull’IA, come Aristotle, che promettono di automatizzare gran parte del lavoro.

Affinché simili sistemi di formalizzazione diventino realmente accessibili alla comunità scientifica, risulterebbe determinante una meticolosa progettazione di interfacce e user experience capace di tradurre l’astrazione logica della macchina in un ambiente di lavoro intuitivo per il ricercatore.

Come ha sottolineato Tudor Achim, fondatore di Harmonic, l’importanza di questi sviluppi va oltre il semplice conteggio dei problemi risolti. “Mi interessa di più il fatto che professori di matematica e informatica stiano usando strumenti di IA”, ha affermato, “queste persone hanno una reputazione da proteggere, quindi quando dicono di usare Aristotle o ChatGPT, questa è una prova concreta”.

Eppure, con modelli sempre più potenti, sorge un altro problema: come facciamo a essere sicuri che stiano veramente “ragionando” e non solo riproponendo informazioni già presenti nei loro dati di addestramento?

La sfida di misurare il progresso

La capacità di valutare in modo affidabile il ragionamento matematico dell’intelligenza artificiale è diventata essa stessa una sfida tecnica complessa. Le principali aziende tecnologiche stanno ora cercando sistematicamente problemi di matematica originali e inediti per testare i loro modelli.

Un progetto, descritto sulla piattaforma Prolific, ha coinvolto il reclutamento di matematici con dottorato di ricerca per creare 43 problemi completamente nuovi. Il processo ha richiesto un rilevamento automatico delle somiglianze per evitare “fughe di dati” dall’addestramento e una revisione tra pari per garantirne l’effettiva difficoltà.

I problemi che i modelli più avanzati erano già in grado di risolvere venivano scartati.

Parallelamente, è stato creato FrontierMath, un benchmark supportato da OpenAI che comprende diverse centinaia di problemi matematici inediti di livello esperto, la cui soluzione richiede in genere ore o giorni di lavoro da parte di specialisti. Questo insieme di problemi copre diversi livelli di difficoltà, dal livello universitario a quello della ricerca, fornendo un quadro strutturato per misurare i progressi nel ragionamento matematico.

Questi sforzi di valutazione sono necessari, perché sebbene i recenti risultati siano notevoli, devono essere inseriti in un contesto più ampio. Un’analisi recente riporta che GPT-5.2 raggiunge un’accuratezza del 77% su problemi di matematica a livello di competizione, ma solo del 25% su problemi di ricerca aperti che richiedono un’intuizione genuina.

Questa distinzione è fondamentale: un conto è riconoscere e applicare schemi complessi, un altro è avere una scoperta matematica autentica.

L’ondata di problemi di Erdős risolti non segna quindi né la sostituzione dei matematici umani né una trasformazione completa della ricerca. Indica piuttosto che i sistemi di intelligenza artificiale hanno iniziato a occupare una nicchia significativa: quella di attaccare sistematicamente problemi meno noti che possono essere risolti attraverso l’esplorazione su vasta scala e l’uso di strumenti di formalizzazione.

Per i matematici e gli informatici di professione, questi sistemi si stanno posizionando sempre più come collaboratori, in grado di assistere nell’esplorazione, nella verifica e nella scoperta sistematica di problemi.

Si tratta di capacità che estendono, anziché sostituire, l’ingegno umano. In un prossimo futuro, l’integrazione di questi motori di ragionamento potrebbe trovare sbocco in numerosi interessanti settori, come ad esempio nello sviluppo di applicazioni mobile dedicate alla didattica e alla consulenza tecnica, portando la potenza della ricerca matematica avanzata direttamente sui dispositivi portatili di professionisti e studenti.

[Altre storie]

Report Microsoft: l’intelligenza artificiale cresce ma aumenta il divario tra Nord e Sud del mondo

Un report di Microsoft rivela che l'IA è usata da una persona su sei, ma l'adozione è ineguale. Il divario tra Nord (24,7%) e Sud del mondo (14,1%) sta crescendo. Mentre Emirati Arabi e Singapore guidano la classifica, il modello cinese DeepSeek guadagna terreno in Africa e Russia, evidenziando una nuova competizione geopolitica tra USA e Cina.

Claude for Healthcare di Anthropic. L’intelligenza artificiale entra nella tua cartella clinica

Anthropic ha lanciato negli Stati Uniti Claude for Healthcare, una serie di strumenti di intelligenza artificiale per il settore medico. La piattaforma si collega alle cartelle cliniche per aiutare i pazienti a capire i propri dati e supporta le strutture sanitarie nell'ottimizzazione dei processi burocratici, ponendosi in competizione con OpenAI e sollevando questioni sulla privacy.

Anthropic lancia Cowork l’assistente AI che lavora tra i tuoi file

Anthropic ha lanciato Cowork, un nuovo assistente AI per desktop che permette al modello Claude di operare direttamente su file e cartelle. Annunciato il 13 gennaio 2026 e inizialmente disponibile per Mac, lo strumento estende le capacità degli agenti AI a un pubblico non tecnico, consentendo di automatizzare compiti complessi tramite semplici comandi testuali.

Dallo show alla fabbrica il robot Atlas di Boston Dynamics entra in produzione con Hyundai e Google

Al CES 2026, Boston Dynamics ha annunciato che il robot umanoide Atlas entrerà in produzione commerciale. L’iniziativa è frutto di una collaborazione strategica con Hyundai, che ne curerà la produzione di massa, e Google, che fornirà l’intelligenza artificiale con i modelli Gemini di DeepMind. Atlas sarà impiegato nelle fabbriche automobilistiche di Hyundai a partire dal 2028.

L’intelligenza artificiale che impara da sola: promesse di Microsoft, dubbi degli esperti e l’impatto sulla mente umana

I nuovi modelli di intelligenza artificiale stanno sviluppando la capacità di auto-migliorarsi, generando dati e domande in autonomia. Questo progresso, visto da Microsoft come una rivoluzione e da esperti come Andrej Karpathy con cautela, presenta sfide tecniche e un impatto inatteso: l'uso di questi sistemi sembra indebolire la capacità umana di autovalutazione, sollevando nuove preoccupazioni cognitive.

Google vuole farci fare acquisti direttamente nelle chat e non è un’idea solo sua

Google sta trasformando Gemini in una piattaforma di acquisto diretto, permettendo agli utenti di comprare senza lasciare la chat. Attraverso il nuovo Universal Commerce Protocol, l'azienda introduce il concetto di agentic commerce, puntando a standardizzare le interazioni tra AI e negozi. Questa strategia intensifica la competizione con rivali come OpenAI e Amazon per il futuro dell'e-commerce conversazionale.

Data poisoning la minaccia invisibile che insegna a mentire all intelligenza artificiale

Il data poisoning è una minaccia informatica che sabota i sistemi di intelligenza artificiale durante la fase di addestramento. Inserendo dati corrotti o falsi, gli aggressori insegnano ai modelli AI a commettere errori sistematici, difficili da rilevare. Incidenti come la compromissione di ImageNet di Google DeepMind dimostrano la gravità del rischio, minacciando settori critici e la fiducia nella tecnologia.

XAI di Elon Musk raccoglie 20 miliardi di dollari per la sua intelligenza artificiale

XAI l'azienda di intelligenza artificiale di Elon Musk ha chiuso un round di finanziamento da 20 miliardi di dollari superando l'obiettivo iniziale. L'operazione vede la partecipazione di investitori strategici come Nvidia e fondi sovrani. I capitali finanzieranno lo sviluppo di nuovi prodotti la ricerca e una vasta infrastruttura di GPU per addestrare la nuova generazione del modello linguistico Grok.

Anthropic e la valutazione da 350 miliardi di dollari che ridefinisce il settore dell’AI

Anthropic, la società di intelligenza artificiale, è in trattativa per un finanziamento da 10 miliardi di dollari che porterebbe la sua valutazione a 350 miliardi, quasi raddoppiando in tre mesi. L'operazione, guidata da Coatue e GIC, è sostenuta da previsioni di ricavi esplosive e mira a finanziare la costruzione di infrastrutture per competere con il rivale OpenAI.

La nuova frontiera della matematica: l’IA di OpenAI risolve i problemi di Erdős

Questo fenomeno recente solleva interrogativi sull’autonomia del ragionamento delle macchine e sulle sfide per la comunità scientifica nel misurarne i progressi.

Il ragionamento matematico delle macchine

La convalida (cauta) degli esperti

La sfida di misurare il progresso

Dalle parole al codice?

[Consigliati]

Occhiali Apple, la sorpresa: non avranno un display ma solo fotocamere e audio

Accordo Apple e Google: Gemini potenzierà Siri in una partnership che ridefinisce il futuro dell’AI

Meta lancia Meta Compute, la scommessa per dominare l’intelligenza artificiale

[Altre storie]

Report Microsoft: l’intelligenza artificiale cresce ma aumenta il divario tra Nord e Sud del mondo

Claude for Healthcare di Anthropic. L’intelligenza artificiale entra nella tua cartella clinica

Anthropic lancia Cowork l’assistente AI che lavora tra i tuoi file

Dallo show alla fabbrica il robot Atlas di Boston Dynamics entra in produzione con Hyundai e Google

L’intelligenza artificiale che impara da sola: promesse di Microsoft, dubbi degli esperti e l’impatto sulla mente umana

Google vuole farci fare acquisti direttamente nelle chat e non è un’idea solo sua

Data poisoning la minaccia invisibile che insegna a mentire all intelligenza artificiale

XAI di Elon Musk raccoglie 20 miliardi di dollari per la sua intelligenza artificiale

Anthropic e la valutazione da 350 miliardi di dollari che ridefinisce il settore dell’AI

Brindisi

Milano

Rovigo

Questo fenomeno recente solleva interrogativi sull’autonomia del ragionamento delle macchine e sulle sfide per la comunità scientifica nel misurarne i progressi.

Il ragionamento matematico delle macchine

La convalida (cauta) degli esperti

La sfida di misurare il progresso

Dalle parole al codice?

[Consigliati]

[Altre storie]

Teniamoci in [contatto]

Vuoi sapere di più sulla nostra realtà?

Brindisi

Milano

Rovigo