Aller au contenu principal
Modèles du monde nativement physiques : perspective hamiltonienne pour la modélisation générative
RecherchearXiv cs.RO7sem

Modèles du monde nativement physiques : perspective hamiltonienne pour la modélisation générative

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Une équipe de chercheurs a déposé début mai 2026 sur arXiv (référence 2605.00412v1) un article de position proposant un nouveau cadre théorique pour les modèles du monde en IA incarnée : les Hamiltonian World Models. L'idée centrale est d'encoder les observations d'un robot ou d'un agent autonome dans un espace de phase latent structuré, de faire évoluer cet état via une dynamique inspirée du formalisme hamiltonien de la mécanique classique (avec des termes de contrôle, de dissipation et des résidus appris), puis de décoder la trajectoire prédite en observations futures exploitables pour la planification. Il s'agit d'un preprint théorique sans résultats expérimentaux publiés à ce stade.

L'argument principal avancé est que le véritable goulot d'étranglement des modèles du monde n'est plus leur capacité à générer des futurs visuellement réalistes, mais à produire des prédictions physiquement cohérentes et exploitables pour la décision sur un horizon long. Les trois courants dominants actuels peinent chacun à garantir cette stabilité physique : les modèles vidéo génératifs 2D (à la Sora ou Genie), les modèles 3D centrés sur la reconstruction de scènes, et les modèles latents prédictifs de type JEPA (portés notamment par Yann LeCun chez Meta) progressent en silo sans répondre aux exigences du contrôle robotique réel. Pour les équipes de reinforcement learning basé sur modèles (MBRL) et les intégrateurs robotiques, cela se traduit concrètement par des politiques qui dérivent lors des rollouts simulés, fragilisant le transfert sim-to-real. Ancrer la dynamique latente dans le formalisme hamiltonien promettrait une meilleure interprétabilité des représentations internes, une moindre consommation de données d'entraînement et une stabilité accrue en inférence longue.

Les auteurs reconnaissent eux-mêmes les obstacles pratiques majeurs : friction, contacts discontinus, forces non-conservatives et objets déformables rendent l'application directe du hamiltonien aux scènes robotiques réelles particulièrement complexe. Ce travail s'inscrit dans un renouveau plus large des world models, porté par Dreamer (Google DeepMind), JEPA (Meta), Genie 2 (Google DeepMind) et les travaux de Physical Intelligence sur les Visual-Language-Action models, mais il se distingue par un ancrage explicite en physique analytique plutôt qu'en apprentissage purement statistique. Aucun déploiement ni partenariat industriel n'est annoncé : l'article reste pour l'instant une contribution théorique ouvrant une direction de recherche.

À lire aussi

PH-Dreamer : un modèle du monde piloté par la physique via la dynamique générative port-hamiltonienne
1arXiv cs.RO 

PH-Dreamer : un modèle du monde piloté par la physique via la dynamique générative port-hamiltonienne

Des chercheurs ont publié PH-Dreamer (arXiv:2605.18303, mai 2026), une architecture de modèle du monde intégrant un cadre Port-Hamiltonien dans les réseaux récurrents à espace d'état utilisés en apprentissage par renforcement basé sur des modèles. L'approche combine trois mécanismes couplés : des priors physiques dans les transitions latentes via un routage d'énergie contrôlé par flux et dissipation, un modèle d'énergie estimant le Hamiltonien et le bilan de puissance à partir d'observations proprioceptives, et un Actor-Critic guidé par énergie avec multiplicateurs de Lagrange pour régulariser l'optimisation de politique. Evaluée sur des benchmarks de contrôle visuel, l'architecture réduit le volume de l'espace de phase latent de 4,18 à 8,41 %, la consommation d'énergie simulée jusqu'à 7,80 %, et le jerk quadratique moyen (mesure de la brutalité des transitions de commande) jusqu'à 9,38 %, tout en améliorant les rendements asymptotiques. L'enjeu central est la fidélité physique des simulateurs internes : les modèles du monde conventionnels opèrent dans un espace latent non contraint, produisant des trajectoires qui violent la conservation d'énergie et les principes dissipatifs. Pour un ingénieur de contrôle ou un intégrateur robotique, un simulateur interne mieux calibré réduit l'écart sim-to-real et améliore la robustesse au transfert vers des systèmes physiques. La réduction de jerk est mécaniquement pertinente : des commandes plus lisses diminuent l'usure des actionneurs sur des robots réels. Le résultat le plus significatif reste la réduction de variance entre récompenses imaginées et réelles, indicateur de calibration du modèle plutôt que simple gain de tâche, ce qui constitue une contribution exploitable concrètement pour le transfert sim-to-real en robotique de manipulation. PH-Dreamer s'inscrit dans la lignée des travaux Dreamer de Google DeepMind (Hafner et al.), référence en RL basé sur modèle pour le contrôle visuel à faible nombre d'échantillons. L'intégration du formalisme Port-Hamiltonien dans les réseaux de neurones est un champ actif depuis les Hamiltonian Neural Networks de Greydanus et al. (2019) et les réseaux lagrangiens neuronaux. PH-Dreamer étend cette logique aux modèles récurrents génératifs complets, là où les travaux précédents se limitaient à des systèmes plus simples. Il s'agit d'un preprint de recherche fondamentale sans déploiement industriel annoncé. Les prochaines étapes naturelles incluent des validations sur robots physiques avec proprioception réelle et des comparaisons directes avec DreamerV3 et TD-MPC2 en conditions de transfert réel.

RecherchePaper
1 source
Modèles du monde pour la manipulation robotique
2arXiv cs.RO 

Modèles du monde pour la manipulation robotique

Des chercheurs ont publié en juin 2026 sur arXiv (2606.24742) un modèle généraliste de valeur pour la manipulation robotique, le WVM (World Value Model). La proposition centrale consiste à substituer les backbones VLM (Vision-Language Model) habituellement utilisés par un modèle de monde, nativement mieux adapté à la modélisation temporelle nécessaire pour évaluer la progression d'une tâche. Sur les benchmarks standards, WVM atteint les meilleures performances connues en Value-Order Correlation (VOC), la métrique de référence pour les modèles de valeur robotiques. L'équipe introduit également Suboptimal-Value-Bench, un benchmark multi-embodiment composé de 800 trajectoires sous-optimales annotées frame par frame par des humains, comblant un angle mort des évaluations existantes qui ne contenaient que des données expertes. L'enjeu est directement opérationnel pour quiconque entraîne des systèmes de manipulation à grande échelle : les données collectées en conditions réelles sont rarement uniformément expertes. Un modèle de valeur précis permet de pondérer ou filtrer ces trajectoires hétérogènes, améliorant la qualité de l'entraînement sans nettoyage manuel coûteux. WVM démontre des gains de performance sur plusieurs approches d'extraction de politique, en simulation comme en déploiement réel, ce qui renforce la thèse que l'estimation de valeur est un composant orthogonal et complémentaire au choix d'architecture de politique. La robustesse maintenue sur données sous-optimales est l'aspect le plus significatif : c'est précisément dans ce régime que les VLMs classiques décrochent, leurs préentraînements sur observations visuelles statiques ne suffisant pas à capturer les dynamiques temporelles longues. La montée en puissance des VLA comme Pi-0 de Physical Intelligence ou GR00T N2 de NVIDIA a rendu critique la question de la qualité des données d'entraînement à grande échelle. L'approche WVM s'inscrit dans une tendance émergente qui consiste à spécialiser les composants : un backbone temporel dédié pour l'évaluation de la valeur, distinct du modèle d'action. Aucun partenariat industriel ni calendrier de déploiement n'est mentionné dans cet article purement académique. Les prochaines étapes naturelles incluent l'intégration du WVM dans des pipelines d'imitation à grande échelle ou en combinaison avec du reinforcement learning offline (IQL, CQL), et une extension à des environnements multi-tâches plus complexes.

RechercheOpinion
1 source
Being-H0.7 : un modèle du monde-action en perspective égocentrique
3arXiv cs.RO 

Being-H0.7 : un modèle du monde-action en perspective égocentrique

Being-H0.7, un modèle de contrôle robotique publié sur arXiv début mai 2026 (référence 2605.00078), introduit une architecture dite "latent world-action model" pour les politiques robotiques généralisées. Le système repose sur une conception à double branche : une branche "prior" déployable en production, qui infère des états latents à partir de l'observation courante, et une branche "posterior" réservée à l'entraînement, qui enrichit ces états avec des embeddings issus d'observations futures. À l'inférence, seule la branche prior est active, sans génération de frames vidéo. Évalué sur six benchmarks de simulation standard et des tâches en environnement réel, Being-H0.7 atteint des performances à l'état de l'art ou comparables aux meilleurs modèles du moment. Le problème central que résout cette architecture est bien documenté dans la communauté VLA (Visual-Language-Action) : une supervision trop sparse sur les actions pousse les modèles à apprendre des correspondances raccourcies, sans représentation interne des dynamiques physiques, des contacts ni de la progression de la tâche. Les tentatives antérieures d'intégrer des world models au contrôle robotique passaient par la prédiction en espace pixel, ce qui multiplie le coût computationnel à l'entraînement et à l'inférence, et oblige le modèle à modéliser des détails visuels sans valeur pour la décision motrice. Being-H0.7 contourne ce goulot en imposant le raisonnement futur dans un espace latent compact, via des "latent queries" apprises intercalées entre le module de perception et la tête d'action. Le résultat est un modèle qui raisonne comme un world model pendant l'entraînement, mais se déploie avec la latence d'une politique VLA directe. Les VLA généralisés ont connu une accélération significative depuis 2023, portée par RT-2 (Google DeepMind), OpenVLA (UC Berkeley) et Pi-0 (Physical Intelligence). Sur le front des world models appliqués à la robotique, des approches comme Dreamer ou les travaux de NVIDIA autour de GR00T N2 ont exploré la prédiction de trajectoires, au prix d'une complexité d'inférence élevée. Being-H0.7, dont l'affiliation institutionnelle n'est pas précisée dans l'abstract, se positionne dans cet espace avec un compromis différent : intégrer la connaissance du futur sans jamais le générer. Le suffixe "H" suggère un ciblage humanoïde, mais l'absence de métriques opérationnelles détaillées dans la prépublication invite à attendre la version complète avant toute comparaison chiffrée définitive.

RechercheOpinion
1 source
Modèles du monde pour la manipulation robotique : une synthèse de la littérature
4arXiv cs.RO 

Modèles du monde pour la manipulation robotique : une synthèse de la littérature

Une revue de littérature publiée sur arXiv (2606.00113) cartographie l'état de l'art des modèles du monde (world models) appliqués à la manipulation robotique. Les auteurs recensent cinq familles de représentations prédictives : modèles de dynamique latente, générateurs vidéo conditionnés par l'action, prédicteurs de scène 3D et 4D, simulateurs à contraintes physiques, et modules prédictifs embarqués dans les systèmes vision-langage-action (VLA). La revue couvre 34 jeux de données de manipulation et propose une taxonomie fonctionnelle distinguant les modèles intégrant prédiction et action de ceux servant de planificateurs explicites. Trois axes structurent l'analyse : quelle représentation future est prédite, comment la prédiction se connecte à l'action, et à quel moment du pipeline d'apprentissage robotique elle intervient. Cette synthèse répond à un besoin concret : le terme "world model" recouvre des réalités très hétérogènes, ce qui brouille les comparaisons et ralentit les transferts technologiques entre laboratoires. En posant une définition opérationnelle stricte (un world model est un système prédictif conditionné par l'action, distinct des modules de perception, des politiques ou des fonctions de valeur), les auteurs établissent un cadre commun dont manquait le secteur. La revue confirme que ces systèmes évoluent d'outils de simulation spécialisés vers une infrastructure générique pour l'apprentissage robotique : génération d'expériences synthétiques, filtrage de candidats, vérification de résultats. Ce glissement architectural touche directement les pipelines de pré-entraînement, de post-entraînement et d'adaptation à l'inférence, trois phases critiques pour quiconque industrialise un robot manipulateur. Le domaine a accéléré avec l'essor des VLA comme Pi-0 (Physical Intelligence) et GR00T N2 (NVIDIA), et l'adoption des architectures Transformer en robotique, mais sans convergence méthodologique. La fragmentation reflète une course entre grands labs (Google DeepMind, MIT, Stanford, Berkeley) et startups qui ne partagent ni benchmarks ni protocoles d'évaluation communs. Les défis ouverts identifiés par les auteurs, notamment la modélisation des contacts, le contrôle des hallucinations, l'alignement action-prédiction et le benchmarking en boucle fermée, tracent un agenda de recherche pour les prochaines années. Pour les équipes travaillant sur la manipulation industrielle ou les bras collaboratifs, cette revue constitue une feuille de route pour choisir quelle classe de world model intégrer selon le cas d'usage : data augmentation, planification prédictive ou vérification de trajectoires.

UELes équipes européennes (INRIA, CEA-List, labos collaboratifs) travaillant sur la manipulation robotique peuvent s'appuyer sur cette taxonomie pour structurer leurs choix d'architecture world model, mais aucun acteur ni financement européen n'est impliqué directement.

RecherchePaper
1 source