I ricercatori del Massachusetts Institute of Technology hanno dimostrato che per alcuni fenomeni climatici i modelli più semplici, basati sulla fisica, possono superare l’accuratezza dei complessi sistemi di deep learning.
[In pillole] La sintesi per chi va di fretta:
Un innovativo studio del MIT mette in discussione il dogma "più grande è meglio" per l'AI. La ricerca dimostra che, nella previsione climatica, modelli semplici basati sulla fisica possono superare il deep learning in accuratezza per certi compiti. Vengono criticati anche i metodi di valutazione standard, spingendo verso un approccio più sartoriale e consapevole all'intelligenza artificiale scientifica.
Un risultato controintuitivo
Analizzando nel dettaglio il lavoro del team del MIT, emerge un quadro più complesso di quanto si potesse pensare. I ricercatori hanno messo a confronto diretto modelli semplici e modelli di deep learning su due compiti specifici: la previsione delle temperature superficiali a livello regionale e la stima delle precipitazioni a livello locale.
I risultati sono stati sorprendenti.
Per quanto riguarda le temperature regionali, un fenomeno su larga scala e con dinamiche relativamente ben comprese, i modelli più semplici e basati sulla fisica hanno fornito previsioni più affidabili. Al contrario, per le precipitazioni locali, fenomeno più caotico, i modelli di deep learning hanno dimostrato una capacità superiore di individuare schemi nascosti nei dati.
Questa biforcazione dei risultati suggerisce che non esiste un modello migliore in assoluto, ma un modello più adatto a un certo tipo di compito.
Come spiega un articolo pubblicato su MIT News, il sito di informazione dell’università, questi risultati sono una sorta di “racconto ammonitore” sull’applicazione indiscriminata dei grandi modelli di intelligenza artificiale alla scienza del clima.
Noelle Selin, autrice senior dello studio e professoressa presso l’Institute for Data, Systems, and Society (IDSS) del MIT, sottolinea come sia fondamentale comprendere a fondo le basi di un problema prima di ricorrere agli strumenti più recenti e complessi. La tentazione di applicare l’ultimo modello di machine learning a qualsiasi problema climatico è forte, ma questo studio dimostra l’importanza di fare un passo indietro e riflettere.
La vera sorpresa della ricerca, tuttavia, non risiede solo nel confronto tra i modelli, ma nel modo in cui il team ha scoperto una debolezza intrinseca nelle metodologie di valutazione oggi comunemente utilizzate.
Il problema non è solo quale modello usare, ma come valutarlo
Uno degli aspetti più significativi dello studio del MIT è la critica ai metodi standard di benchmarking, ovvero i test usati per misurare e confrontare le prestazioni dei modelli di intelligenza artificiale.
I ricercatori hanno scoperto che queste valutazioni possono essere falsate in modo significativo dalle cosiddette “variazioni naturali” del clima, come le oscillazioni meteorologiche casuali presenti nei dati storici. Un modello di deep learning, per sua natura, è estremamente abile a memorizzare e replicare questi schemi casuali, dando l’impressione di essere molto più accurato di quanto non sia in realtà.
Potrebbe, in altre parole, imparare a memoria il “rumore” di fondo dei dati invece di catturare i principi fisici sottostanti che governano il clima.
Per superare questo limite, il team ha sviluppato un nuovo sistema di valutazione più robusto, capace di distinguere la reale capacità predittiva di un modello dalla sua abilità nel replicare le fluttuazioni casuali del passato. È un contributo metodologico che potrebbe avere conseguenze importanti, costringendo la comunità scientifica a riconsiderare i risultati di studi precedenti che si basavano su benchmark meno rigorosi.
Questo solleva un dubbio legittimo: quante delle performance celebrate di alcuni modelli AI, in campo climatico e non solo, sono dovute a una reale comprensione del fenomeno e quante invece a un’abile, ma superficiale, imitazione dei dati di addestramento?
– Leggi anche: Meta sotto accusa: Le policy interne sui chatbot AI permettevano interazioni inappropriate con minori
Questa distinzione tra comprensione profonda e imitazione superficiale non è solo accademica, ma è cruciale in ogni settore basato su dati. In ambito industriale, ad esempio, distinguere il “rumore” di fondo dalle inefficienze reali è impossibile senza strumenti che traccino ogni fase del processo, un compito svolto dai sistemi di esecuzione della produzione.
Il lavoro sopra descritto si inserisce in un’iniziativa più ampia del MIT chiamata “Bringing Computation to the Climate Challenge”, che riflette l’impegno dell’istituto a usare l’informatica per trovare soluzioni concrete al cambiamento climatico, come descritto nella missione del MIT Climate Portal.
La scoperta che i metodi di valutazione possono essere ingannevoli non è quindi solo una nota a piè di pagina per addetti ai lavori, ma un campanello d’allarme che invita a una maggiore cautela e a un rigore scientifico più profondo, proprio mentre le più grandi aziende tecnologiche spingono per integrare i loro modelli AI in ogni settore.
E le implicazioni di questo approccio più critico vanno ben oltre i confini della climatologia.
Oltre il clima, una lezione per l’intelligenza artificiale
La ricerca del MIT può essere letta come una riflessione più generale sulla traiettoria attuale dell’intelligenza artificiale. Mentre modelli come quelli che alimentano ChatGPT hanno ottenuto successi indiscutibili nell’elaborazione del linguaggio naturale, un campo in cui le regole sono statistiche e sfumate, la scienza del clima si fonda su leggi fisiche ben definite.
La sfida, suggeriscono i ricercatori, non è tanto quella di costruire modelli sempre più grandi, quanto quella di integrare efficacemente le conoscenze fisiche consolidate all’interno delle architetture di intelligenza artificiale.
Questa visione si scontra, in parte, con la logica commerciale che guida gran parte dello sviluppo tecnologico. Le grandi multinazionali della tecnologia hanno un interesse evidente nel promuovere i loro modelli su larga scala come soluzioni universali, applicabili a qualsiasi problema, dalla scrittura di una mail alla previsione di un uragano.
Tuttavia, come evidenziato anche da testate specializzate come Sustainable Brands, il principio che “più grande non è sempre meglio” sta guadagnando terreno. Lo studio del MIT fornisce una solida base scientifica a questo scetticismo, dimostrando che un approccio più mirato e consapevole dei limiti di ogni strumento può portare a risultati migliori e più affidabili.
Questo non significa, ovviamente, che il deep learning sia inutile per la scienza del clima. Anzi, la sua efficacia nel prevedere fenomeni complessi come le precipitazioni locali lo rende uno strumento prezioso.
Il punto è un altro: la corsa verso modelli sempre più imponenti, che richiedono enormi risorse computazionali e finanziarie, rischia di mettere in ombra approcci più semplici, eleganti ed efficienti, che in molti casi potrebbero essere non solo sufficienti, ma addirittura superiori.
La vera innovazione, forse, non risiede nell’accumulare strati su strati di reti neurali, ma nel saper scegliere, e a volte persino costruire, lo strumento giusto per il lavoro giusto.
Questa è esattamente la filosofia che definisce il confine tra un’applicazione generica della tecnologia e una soluzione strategica. La vera efficienza, anche in ambito AI, non si ottiene adattando un problema a un modello preesistente, ma attraverso lo sviluppo di soluzioni di intelligenza artificiale su misura, progettate per integrarsi con le conoscenze specifiche di un settore e per risolvere sfide uniche.