Questo approccio cerca di superare la ‘cecità’ delle attuali intelligenze artificiali generative rispetto alle leggi fisiche, insegnando alle macchine a comprendere le dinamiche del mondo attraverso l’osservazione dei video.

[In pillole] La sintesi per chi va di fretta:
Meta ha svelato V-JEPA una nuova architettura AI ideata da Yann LeCun che apprende le leggi della fisica osservando video invece di leggere testi. Il sistema mira a superare i limiti dei chatbot attuali sviluppando un modello del mondo simile all intuizione umana aprendo la strada a robot piu autonomi e dispositivi di realta aumentata efficienti.
Un nuovo modo di guardare il mondo
C’è un problema fondamentale che affligge l’intelligenza artificiale generativa, quella che negli ultimi due anni ha monopolizzato il dibattito pubblico attraverso strumenti come ChatGPT o Claude: per quanto questi modelli siano eloquenti nel linguaggio, rimangono sostanzialmente “ciechi” rispetto alle leggi più elementari della fisica.
Se chiedete a un chatbot di descrivere cosa succede quando un bicchiere cade da un tavolo, vi risponderà basandosi sulla probabilità statistica delle parole che ha letto in milioni di testi, non perché “comprenda” la gravità o la fragilità del vetro.
È una distinzione sottile ma decisiva.
Questa necessità ha spinto i ricercatori di Meta, guidati dal capo scienziato Yann LeCun, a sviluppare un approccio radicalmente diverso, culminato nel rilascio di una nuova architettura chiamata V-JEPA (Video Joint Embedding Predictive Architecture).
L’obiettivo di questo sistema non è generare testo o immagini realistiche dal nulla, ma osservare il mondo video e comprenderne le dinamiche interne, in un processo che i ricercatori paragonano all’apprendimento intuitivo di un neonato.
Un bambino non ha bisogno di leggere un manuale di fisica per capire che un oggetto nascosto dietro un cuscino continua a esistere; lo impara osservando, facendo previsioni e notando quando queste vengono disattese.
V-JEPA cerca di replicare esattamente questo meccanismo cognitivo.
Si tratta di un tentativo che segna un distacco netto dalle attuali tendenze dell’industria, focalizzate quasi ossessivamente sulla generazione di contenuti. Tuttavia, come spesso accade quando le grandi aziende tecnologiche annunciano rivoluzioni cognitive, è necessario separare l’entusiasmo del marketing dalla realtà tecnica, che per quanto promettente mostra ancora limiti evidenti.
La scommessa di LeCun è che per raggiungere un’intelligenza artificiale di livello umano, o quantomeno utile nel mondo reale, le macchine debbano prima costruirsi un “modello del mondo”.
Fino ad oggi, i sistemi di visione artificiale venivano addestrati analizzando pixel per pixel, un processo computazionalmente oneroso e spesso inefficace, poiché la macchina tendeva a concentrarsi su dettagli irrilevanti come il movimento delle foglie sullo sfondo piuttosto che sulla traiettoria di un’auto.
V-JEPA cambia approccio: smette di prevedere ogni singolo pixel e inizia a ragionare per concetti astratti.
La logica dell’intuizione artificiale
Il funzionamento di V-JEPA si basa su un principio di economia cognitiva che è al tempo stesso elegante e complesso.
Durante la fase di addestramento, al modello vengono mostrati dei video in cui ampie porzioni sono state oscurate, “mascherate” alla vista digitale. Il compito dell’IA non è ricostruire l’immagine mancante come farebbe un software di fotoritocco, ma prevedere cosa sta accadendo in quello spazio vuoto in termini di rappresentazione astratta.
Come descritto nel dettaglio da una recente analisi tecnica su PressGaze, il sistema utilizza tre componenti: un codificatore che processa il video mascherato, un secondo codificatore che vede il video originale, e un “predittore” che cerca di allineare le due visioni.
Questo meccanismo costringe la macchina a ignorare i dettagli superflui e a concentrarsi sulle dinamiche essenziali.
Se una palla rotola verso una scatola e scompare dietro di essa, V-JEPA non cerca di indovinare l’esatta sfumatura di colore della palla nell’ombra, ma “capisce” che l’oggetto deve trovarsi lì dietro e che, continuando il suo moto, dovrebbe riapparire dall’altro lato.
È qui che emerge il concetto di intuizione fisica: il modello non ha ricevuto istruzioni sulla permanenza degli oggetti o sull’inerzia, ma le ha dedotte come uniche spiegazioni logiche per completare le sue previsioni interne.
Tale capacità di inferenza autonoma dimostra come l’adozione di modelli avanzati di machine learning potrebbe permettere anche alle aziende di estrarre “regole” e previsioni affidabili da dati grezzi e non strutturati.
– Leggi anche: NANOREMOTE il malware che si nasconde dentro Google Drive
I risultati, almeno nei test di laboratorio, sembrano confermare la validità di questa teoria.
Sottoposto al benchmark “IntPhys” (un test progettato specificamente per valutare la plausibilità fisica delle previsioni dell’IA) V-JEPA ha raggiunto un’accuratezza vicina al 98 per cento. Si tratta di un salto qualitativo notevole rispetto ai modelli tradizionali basati sui pixel, che in test simili faticano a superare la casualità statistica.
Ancora più interessante è il modo in cui il sistema reagisce all’impossibile.
Quando i ricercatori mostrano video in cui le leggi della fisica vengono violate (ad esempio un oggetto che svanisce nel nulla), l’errore di previsione del modello schizza alle stelle, simulando una sorta di “sorpresa” digitale.
Tuttavia, c’è un rovescio della medaglia che spesso viene tralasciato negli annunci trionfali.
La capacità di “intuire” la fisica non equivale ancora a saper interagire con essa in modo affidabile su lunghi periodi. Attualmente, V-JEPA ha quella che uno dei ricercatori, Quentin Garrido, ha definito “la memoria di un pesce rosso”: riesce a processare e prevedere solo pochi secondi di azione.
Tutto ciò che accade oltre questo brevissimo orizzonte temporale viene dimenticato, rendendo impossibile per ora la pianificazione di azioni complesse o la comprensione di relazioni causa-effetto che si dipanano nel tempo.
Dalla teoria alla “Physical AI”
Nonostante i limiti attuali, l’insistenza di Meta su questa tecnologia non è un esercizio accademico, ma si inserisce in una strategia industriale ben precisa che sta ridefinendo le priorità della Silicon Valley.
Non è un caso che Jensen Huang, CEO di NVIDIA, abbia dichiarato durante il CES 2025 che “la prossima frontiera è l’IA fisica“, come riportato in un’analisi di Evergreen Gavekal. L’industria ha compreso che i modelli linguistici, per quanto impressionanti, hanno raggiunto un punto di rendimenti decrescenti quando si tratta di applicarli al mondo reale.
Un chatbot non può svuotare una lavastoviglie. Né un generatore di immagini può guidare un muletto in un magazzino affollato senza rischiare incidenti. Per operare in sicurezza in simili contesti, l’intelligenza visiva del robot dovrebbe necessariamente integrarsi con lo sviluppo di sistemi SGM (Sistema di Gestione Magazzino), garantendo che ogni spostamento fisico corrisponda a un dato logistico aggiornato.
L’evoluzione verso la “Physical AI” rappresenta il tentativo di colmare il divario tra il cervello digitale e il corpo robotico.
Fino ad ora, i robot sono stati programmati con istruzioni rigide o addestrati in simulazioni che raramente rispecchiano il caos e l’imprevedibilità della realtà. Un sistema come V-JEPA, capace di apprendere osservando video reali, promette di fornire ai robot quella flessibilità necessaria per operare in ambienti non strutturati.
Come sottolinea Amazon Web Services, l’integrazione di modelli di fondazione multimodali con sensori e attuatori è la chiave per passare dall’automazione rigida a un’autonomia adattiva, capace di gestire imprevisti come un pacco caduto o un corridoio bloccato.
Le implicazioni economiche di questa transizione sono enormi e spiegano la fretta con cui le grandi multinazionali stanno investendo nel settore. Mentre l’IA generativa minaccia (o supporta) i lavori d’ufficio, l’IA fisica punta a rivoluzionare la logistica, la manifattura e persino l’assistenza domestica.
Meta, in particolare, vede in questa tecnologia il “sistema operativo” per i suoi futuri occhiali per la realtà aumentata. Un dispositivo che deve comprendere cosa l’utente sta guardando e prevedere di cosa potrebbe aver bisogno, il tutto in tempo reale e con un consumo energetico ridotto, possibile solo grazie all’efficienza dell’approccio a rappresentazioni latenti.
Resta però aperta la questione della sicurezza e dell’affidabilità. Se un modello linguistico “allucina”, produce un testo falso; se un modello fisico “allucina” mentre controlla un braccio robotico o un veicolo autonomo, le conseguenze sono tangibili e potenzialmente pericolose.
Il fatto che V-JEPA impari in modo non supervisionato, deducendo le regole da solo, rende il suo processo decisionale intrinsecamente opaco.
Non c’è un codice scritto da un umano che dice “se x allora y”.
Ma una rete neurale che ha sviluppato una propria, insondabile, intuizione della fisica. Affidarsi a questa intuizione per compiti critici richiederà livelli di verifica e validazione che l’industria sta ancora cercando di definire.



