Aller au contenu principal

Dossier World models

14 articles

Les world models pour l'IA physique : Cosmos, Genie, V-JEPA, simulation différentiable comme alternative au sim2real classique.

LLMPhy : un raisonnement physique à paramètres identifiables combinant grands modèles de langage et moteurs physiques
1arXiv cs.RO RecherchePaper

LLMPhy : un raisonnement physique à paramètres identifiables combinant grands modèles de langage et moteurs physiques

Des chercheurs du laboratoire MERL (Mitsubishi Electric Research Laboratories) ont publié LLMPhy, un framework d'optimisation en boîte noire couplant grands modèles de langage (LLM) et simulateurs physiques pour résoudre un problème rarement adressé : l'identification des paramètres physiques latents d'une scène, tels que la masse ou le coefficient de friction des objets. Le système décompose la construction d'un jumeau numérique en deux sous-problèmes distincts : l'estimation continue des paramètres physiques et l'estimation discrète de la disposition spatiale de la scène. À chaque itération, LLMPhy demande au LLM de générer des programmes encodant des estimations de paramètres, les exécute dans un moteur physique, puis utilise l'erreur de reconstruction résultante comme signal de rétroaction pour affiner ses prédictions. Les auteurs introduisent également trois nouveaux jeux de données conçus pour évaluer le raisonnement physique en contexte zéro-shot, comblant un vide dans les benchmarks existants qui ignorent systématiquement la question de l'identifiabilité des paramètres. La quasi-totalité des méthodes d'apprentissage pour le raisonnement physique contournent cette identification, se contentant de prédire des comportements sans modéliser les propriétés intrinsèques des objets. Or, pour des applications critiques comme l'évitement de collision ou la manipulation robotique, connaître la masse exacte ou le frottement d'un objet est souvent non négociable. Sur ses trois benchmarks, LLMPhy revendique des performances à l'état de l'art, avec une récupération des paramètres plus précise et une convergence plus fiable que les méthodes en boîte noire antérieures, selon les résultats rapportés par les auteurs eux-mêmes. L'approche articule deux niveaux de connaissance complémentaires : le savoir physique textuel encodé dans les LLM et les modèles du monde implémentés dans les moteurs de simulation modernes. LLMPhy s'inscrit dans un courant actif autour des world models et de la fermeture du fossé sim-to-real en robotique. MERL, filiale de recherche appliquée de Mitsubishi Electric, positionne ce travail face à des approches alternatives comme les world models neuronaux de type DreamerV3 ou UniSim, et aux modèles d'action-vision-langage (VLA) qui opèrent sans moteur physique explicite, gagnant en flexibilité au détriment de l'interprétabilité des paramètres. La version publiée (arXiv:2411.08027v3, troisième révision) ne mentionne pas d'intégration sur des systèmes robotiques physiques : les résultats restent confinés à la simulation, et aucune timeline de déploiement réel n'est annoncée.

1 source
dWorldEval : évaluation évolutive de politiques robotiques via un modèle du monde à diffusion discrète
2arXiv cs.RO 

dWorldEval : évaluation évolutive de politiques robotiques via un modèle du monde à diffusion discrète

Une équipe de chercheurs présente dWorldEval (arXiv:2604.22152, avril 2026), un système d'évaluation de politiques robotiques basé sur un modèle de monde à diffusion discrète. Le principe : plutôt que de tester une politique de contrôle sur des milliers d'environnements réels ou simulés classiques, dWorldEval joue le rôle d'un proxy d'évaluation synthétique. Le modèle projette l'ensemble des modalités, vision, langage, actions robotiques, dans un espace de tokens unifié, puis les débruite via un unique réseau transformer. Il intègre une mémoire sparse par images-clés pour maintenir la cohérence spatiotemporelle sur des séquences longues, et introduit un "progress token" qui quantifie en continu le degré d'accomplissement d'une tâche, de 0 à 1. À l'inférence, le modèle prédit conjointement les observations futures et ce token de progression, détectant automatiquement le succès quand la valeur atteint 1. Sur les benchmarks LIBERO, RoboTwin et plusieurs tâches sur robots réels, dWorldEval surpasse ses prédécesseurs directs WorldEval, Ctrl-World et WorldGym, bien que l'abstract ne fournisse pas de deltas chiffrés précis. L'enjeu central est méthodologique : évaluer une politique robotique sur des milliers de configurations est actuellement soit prohibitif en temps machine, soit impossible à déployer sur robots physiques à cette échelle. Un proxy d'évaluation fiable et automatisable change radicalement l'économie du développement de politiques VLA (Vision-Language-Action). Le progress token élimine la nécessité d'une annotation humaine ou de critères de succès codés en dur, un goulot d'étranglement récurrent dans les pipelines d'apprentissage par imitation et de reinforcement learning robotique. Si les performances se confirment sur des scénarios out-of-distribution, cette approche pourrait accélérer significativement les itérations sim-to-real dans des labs qui déploient des modèles comme pi0, GR00T N2 ou OpenVLA. Le travail s'inscrit dans une vague de modèles de monde pour la robotique, dont WorldEval (évaluation via prédiction vidéo) et Ctrl-World (modèle conditionné par actions), que dWorldEval dépasse selon ses auteurs. L'usage de la diffusion discrète, plutôt que continue, sur des tokens multimodaux rappelle les approches de tokenisation unifiée portées par des projets comme Genie 2 (Google DeepMind) ou UniSim. L'article reste un preprint non revu par les pairs ; les résultats sur robots réels sont mentionnés sans détails de setup ni volumétrie d'expériences. Les prochaines étapes naturelles seraient une validation sur des benchmarks ouverts plus larges et un test de robustesse face à des tâches longue-horizon avec contacts complexes.

IA physiqueOpinion
1 source
Mask World Model : prédire l'essentiel pour un apprentissage robuste des politiques robotiques
3arXiv cs.RO 

Mask World Model : prédire l'essentiel pour un apprentissage robuste des politiques robotiques

Des chercheurs ont publié sur arXiv (réf. 2604.19683) le Mask World Model (MWM), une architecture de world model pour l'apprentissage de politiques robotiques robustes. Contrairement aux approches dominantes qui entraînent des modèles génératifs sur de la vidéo RGB, MWM prédit l'évolution de masques sémantiques, des représentations géométriques des objets en scène, à l'aide d'une architecture de diffusion vidéo. Une tête de politique basée sur la diffusion est intégrée en aval pour un contrôle bout-en-bout. Évalué sur les benchmarks de simulation LIBERO et RLBench, MWM surpasse significativement les world models RGB de l'état de l'art. Un protocole de robustesse par élagage aléatoire de tokens et des expériences en conditions réelles confirment la résilience du modèle face à la perte partielle d'information visuelle. Le problème ciblé est structurel : les world models entraînés à prédire des pixels RGB mémorisent des corrélations parasites liées aux arrière-plans dynamiques, aux variations d'éclairage ou aux textures changeantes. Ces distracteurs produisent des politiques fragiles qui échouent hors distribution, phénomène central du "demo-to-real gap" qui freine le déploiement industriel des robots apprenants. En contraignant le modèle à opérer sur des masques géométriques plutôt que sur des pixels bruts, MWM impose un goulot d'information qui force la représentation interne à capturer ce qui importe réellement pour la manipulation : dynamiques physiques, relations de contact, géométrie des objets. C'est une contribution méthodologique notable dans le débat sur ce que les world models doivent apprendre pour être fiables à l'échelle opérationnelle. Les world models pour la robotique ont émergé comme paradigme dominant ces deux dernières années, portés par des architectures comme UniSim, Dreamer, ou les VLA récents de Physical Intelligence (pi-0), Google DeepMind (GR00T N2) et Figure Robotics, qui misent presque tous sur la fidélité de reconstruction RGB. MWM propose une alternative centrée sur l'abstraction géométrique, un positionnement distinct dans cet écosystème en pleine consolidation. Il convient de noter qu'il s'agit d'une prépublication non encore relue par des pairs, et que les expériences en conditions réelles restent limitées en échelle et en diversité de tâches. Les suites naturelles incluent une validation sur des manipulateurs industriels en environnement non contrôlé, étape que les auteurs n'ont pas encore franchie.

RechercheOpinion
1 source
RoboWM-Bench : un benchmark pour évaluer les modèles du monde en manipulation robotique
4arXiv cs.RO 

RoboWM-Bench : un benchmark pour évaluer les modèles du monde en manipulation robotique

Une équipe de chercheurs a déposé sur arXiv (identifiant 2604.19092) RoboWM-Bench, un benchmark dédié à l'évaluation des world models vidéo pour la manipulation robotique. Le protocole est exigeant : les comportements générés par ces modèles, à partir de vidéos de mains humaines ou de robots en action, sont convertis en séquences d'actions exécutables, puis validés par exécution réelle sur robot physique. Les évaluations conduites sur les meilleurs world models actuels sont sans appel : produire des comportements physiquement exécutables de manière fiable reste un problème ouvert. Les modes d'échec récurrents identifiés incluent les erreurs de raisonnement spatial, la prédiction instable des contacts entre effecteur et objet, et les déformations non physiques de matériaux. Un fine-tuning sur données de manipulation améliore les résultats, mais les incohérences physiques persistent. Ce constat soulève une question stratégique pour l'industrie : peut-on utiliser des world models comme simulateurs bon marché pour générer des données d'entraînement, en remplacement des démonstrations terrain coûteuses ? Le réalisme visuel d'une vidéo générée ne garantit pas sa plausibilité physique, une distinction que les benchmarks existants, majoritairement orientés perception ou diagnostic, ne permettaient pas de mesurer. En imposant la validation par exécution réelle comme critère central, RoboWM-Bench dépasse les métriques habituelles de cohérence temporelle ou de FID. Pour les équipes engineering et les intégrateurs, la conclusion est opérationnelle : les world models actuels ne sont pas encore substituables aux démonstrations réelles pour l'apprentissage de politiques de manipulation précise. L'intérêt pour les world models en robotique s'est intensifié depuis 2024, porté par des modèles génératifs comme Sora (OpenAI), Genie 2 (Google DeepMind) ou UniSim, et alimenté par les avancées des VLA (Vision-Language-Action). L'hypothèse qu'un monde simulé pourrait tenir lieu de terrain d'entraînement, évitant la collecte de données réelles, est au coeur des investissements d'une dizaine de startups et labos académiques actifs sur ce créneau. RoboWM-Bench s'inscrit dans une dynamique de standardisation comparable à ce que RoboMimic ou MetaWorld ont établi pour l'imitation learning : un protocole unifié et reproductible. Aucune affiliation institutionnelle ni timeline d'extension du benchmark ne figurent dans le preprint, ce qui en limite la portée immédiate, mais la publication envoie un signal net : la communauté robotique commence à exiger des preuves d'exécutabilité physique, et non plus seulement de cohérence visuelle.

RecherchePaper
1 source
Modèle World-Value-Action : planification implicite pour les systèmes vision-langage-action (VLA)
5arXiv cs.RO 

Modèle World-Value-Action : planification implicite pour les systèmes vision-langage-action (VLA)

Des chercheurs ont publié le 21 avril 2026 un article sur arXiv (2604.14732) présentant le modèle WAV (World-Value-Action), une architecture unifiée destinée à améliorer les capacités de planification des systèmes Vision-Language-Action (VLA). Les VLA sont des modèles qui ancrent la perception visuelle et les instructions en langage naturel dans des commandes motrices directes, une approche devenue centrale dans la robotique généraliste ces deux dernières années. Le problème ciblé par WAV est précis : la majorité des VLA actuels prédisent les actions de manière directe (un état visuel + une instruction = une action), sans modéliser les conséquences à long terme de leurs décisions. Le modèle WAV introduit à la place une représentation latente structurée des trajectoires futures, conditionnée sur les observations visuelles et les instructions. Un modèle de monde (world model) prédit les états futurs, tandis qu'une fonction de valeur de trajectoire (trajectory value function) évalue leur utilité à horizon long. La génération d'action est ensuite formulée comme une inférence dans cet espace latent, où le modèle concentre progressivement la masse de probabilité sur les trajectoires à haute valeur et dynamiquement réalisables. L'apport théorique central est démontré formellement : planifier directement dans l'espace des actions entraîne une décroissance exponentielle de la probabilité de trajectoires réalisables à mesure que l'horizon s'allonge, un obstacle fondamental pour toute tâche nécessitant plusieurs étapes enchaînées. L'inférence dans l'espace latent restructure la distribution de recherche vers des régions réalisables, ce qui rend la planification à long horizon tractable. En pratique, WAV surpasse les méthodes de l'état de l'art en simulation et dans des expériences réelles, avec des gains mesurables sur le taux de succès des tâches, la capacité de généralisation et la robustesse, notamment dans les scénarios compositionnels et à horizon long. Pour les intégrateurs industriels et les équipes de robotique, cela signifie potentiellement un meilleur comportement dans les tâches en plusieurs étapes, assemblage, manipulation séquentielle, sans avoir à pré-programmer des graphes de tâches explicites. Les VLA ont connu une accélération notable depuis fin 2023, avec des modèles comme Pi-0 (Physical Intelligence), GR00T N2 (NVIDIA) ou OpenVLA (Berkeley) qui ont validé l'approche d'un modèle fondationnel pour la manipulation robotique. La plupart de ces architectures partagent le défaut que WAV cherche à corriger : l'absence de raisonnement causal sur les conséquences des actions. Des approches concurrentes comme SWIM (Sequential World Inference Models) ou les travaux de Dreamer appliqués à la robotique explorent des pistes similaires via des world models explicites, mais WAV tente d'intégrer planning implicite et génération d'action dans un seul cadre d'entraînement. Le code est disponible publiquement sur GitHub (Win-commit/WAV). Aucun partenaire industriel ni calendrier de déploiement n'est mentionné dans l'article, il s'agit pour l'instant d'une publication académique, sans produit shipped ni pilote annoncé.

RechercheActu
1 source
ICAT : tests adaptatifs fondés sur des incidents réels pour la prédiction de risques physiques dans les modèles du monde incarnés
6arXiv cs.RO 

ICAT : tests adaptatifs fondés sur des incidents réels pour la prédiction de risques physiques dans les modèles du monde incarnés

Des chercheurs ont publié sur arXiv (référence 2604.16405) un système d'évaluation baptisé ICAT, Incident-Case-Grounded Adaptive Testing, ciblant une lacune précise des modèles de monde vidéo-génératifs : leur capacité à prédire les risques physiques dans des contextes d'action incarnée. Ces modèles, utilisés comme simulateurs neuronaux pour la planification et l'apprentissage de politiques en robotique embarquée, sont soumis à des scénarios de risque construits à partir de rapports d'incidents réels et de manuels de sécurité. ICAT structure ces sources en mémoires de risques, puis les récupère et les compose pour générer des cas de test avec chaînes causales et étiquettes de sévérité. Les expériences menées sur un benchmark dérivé de cette méthode révèlent que les modèles de monde courants omettent fréquemment les mécanismes déclencheurs des situations dangereuses et mal-calibrent systématiquement le niveau de sévérité des conséquences. Ce résultat a des implications directes pour quiconque envisage d'utiliser des world models comme substrat d'entraînement ou de planification pour des systèmes robotiques en environnement réel. Un modèle qui minimise ou ignore les signaux de danger dans ses rollouts imaginés peut inculquer des préférences comportementales non sûres à la politique apprise, sans que l'ingénieur ne le détecte en phase de simulation. Le gap sim-to-real prend ici une dimension nouvelle : ce n'est plus seulement une question de fidélité physique (textures, friction, dynamique), mais de fiabilité dans la représentation des conséquences graves. Pour les intégrateurs qui s'appuient sur des VLA (Vision-Language-Action models) entraînés sur des trajectoires synthétiques, c'est un signal d'alerte concret sur l'absence de métriques de sécurité standardisées dans les pipelines d'évaluation actuels. Les modèles de monde vidéo-génératifs, dont UniSim, DreamerV3, ou les approches issues de Genie et GameNGen, ont connu un regain d'intérêt comme alternatives aux simulateurs physiques classiques (MuJoCo, Isaac Sim), notamment pour leur capacité à généraliser à partir de vidéos brutes. Mais leur évaluation reste dominée par des métriques visuelles (FID, FVD) peu corrélées à la sécurité opérationnelle. ICAT propose un protocole ancré dans les données d'incidents industriels, ce qui le différencie des benchmarks synthétiques existants. Aucun déploiement ni partenariat industriel n'est annoncé à ce stade ; il s'agit d'une contribution académique, et la robustesse du benchmark lui-même reste à valider sur un périmètre de modèles plus large.

RechercheOpinion
1 source
ShadowAI lève 14 millions de dollars pour ses modèles du monde en 3D
7Pandaily 

ShadowAI lève 14 millions de dollars pour ses modèles du monde en 3D

ShadowAI, startup fondée à Hangzhou en juin 2024, a bouclé trois tours de financement successifs (angel, angel+ et pré-série A) pour un total d'environ 100 millions de yuans, soit 14 millions de dollars. La société développe des modèles de monde 3D dynamiques natifs pour l'IA incarnée (embodied AI), avec un portefeuille qui comprend YingShen 360, un système de capture 3D temps réel utilisant quatre à cinq caméras RGB bas coût, le modèle de monde dynamique S1, et des robots de fabrication flexible. Déployés en production réelle, ces robots atteignent 3 000 paires de chaussures produites par shift de 8 heures dans le secteur de la chaussure, un chiffre concret qui distingue cette annonce d'un simple démonstrateur. La levée illustre l'intérêt croissant des investisseurs pour la couche "perception 3D temps réel" de la robotique industrielle, un maillon souvent sous-estimé face aux modèles de langage visuel (VLA). En rendant la capture 3D accessible via des caméras RGB standard plutôt que des LiDAR onéreux, ShadowAI cible directement les intégrateurs et les PME industrielles pour lesquels le coût du capteur est un frein à l'automatisation flexible. Min Wei, fondateur et CEO, est docteur de l'Université Tsinghua et a dirigé des équipes robotique chez la division services locaux d'Alibaba, ce qui lui confère une connaissance opérationnelle des contraintes de déploiement à grande échelle. La société s'inscrit dans un écosystème chinois dense, en concurrence avec des acteurs comme Unitree, Agibot ou les divisions robotique de Meituan, mais se différencie par un positionnement centré sur la modélisation 3D du monde plutôt que sur le robot physique lui-même. Les prochaines étapes probables incluent une extension à d'autres secteurs de fabrication légère et un potentiel tour de série A pour financer l'industrialisation du S1.

Chine/AsieOpinion
1 source
The Download : Pokémon Go pour entraîner des modèles du monde, et la course États-Unis/Chine pour trouver des extraterrestres
8MIT Technology Review 

The Download : Pokémon Go pour entraîner des modèles du monde, et la course États-Unis/Chine pour trouver des extraterrestres

Niantic Spatial, spin-off d'IA de Niantic (créateur de Pokémon Go), exploite les données massives collectées par ses 500 millions d'utilisateurs pour construire un « world model » destiné à aider les robots de livraison à naviguer avec précision. Par ailleurs, la sonde Perseverance a découvert en juillet 2024 des formations rocheuses prometteuses pour la recherche de vie martienne, mais le programme NASA de retour d'échantillons est aujourd'hui en sursis — laissant potentiellement la Chine prendre la tête de cette course scientifique. En parallèle, Anthropic craint de perdre des milliards de dollars suite à son inscription sur liste noire par le Pentagone, tandis que Microsoft la soutient dans son recours judiciaire.

IA physiqueActu
1 source