Aller au contenu principal
PH-Dreamer : un modèle du monde piloté par la physique via la dynamique générative port-hamiltonienne
RecherchearXiv cs.RO6sem

PH-Dreamer : un modèle du monde piloté par la physique via la dynamique générative port-hamiltonienne

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Des chercheurs ont publié PH-Dreamer (arXiv:2605.18303, mai 2026), une architecture de modèle du monde intégrant un cadre Port-Hamiltonien dans les réseaux récurrents à espace d'état utilisés en apprentissage par renforcement basé sur des modèles. L'approche combine trois mécanismes couplés : des priors physiques dans les transitions latentes via un routage d'énergie contrôlé par flux et dissipation, un modèle d'énergie estimant le Hamiltonien et le bilan de puissance à partir d'observations proprioceptives, et un Actor-Critic guidé par énergie avec multiplicateurs de Lagrange pour régulariser l'optimisation de politique. Evaluée sur des benchmarks de contrôle visuel, l'architecture réduit le volume de l'espace de phase latent de 4,18 à 8,41 %, la consommation d'énergie simulée jusqu'à 7,80 %, et le jerk quadratique moyen (mesure de la brutalité des transitions de commande) jusqu'à 9,38 %, tout en améliorant les rendements asymptotiques.

L'enjeu central est la fidélité physique des simulateurs internes : les modèles du monde conventionnels opèrent dans un espace latent non contraint, produisant des trajectoires qui violent la conservation d'énergie et les principes dissipatifs. Pour un ingénieur de contrôle ou un intégrateur robotique, un simulateur interne mieux calibré réduit l'écart sim-to-real et améliore la robustesse au transfert vers des systèmes physiques. La réduction de jerk est mécaniquement pertinente : des commandes plus lisses diminuent l'usure des actionneurs sur des robots réels. Le résultat le plus significatif reste la réduction de variance entre récompenses imaginées et réelles, indicateur de calibration du modèle plutôt que simple gain de tâche, ce qui constitue une contribution exploitable concrètement pour le transfert sim-to-real en robotique de manipulation.

PH-Dreamer s'inscrit dans la lignée des travaux Dreamer de Google DeepMind (Hafner et al.), référence en RL basé sur modèle pour le contrôle visuel à faible nombre d'échantillons. L'intégration du formalisme Port-Hamiltonien dans les réseaux de neurones est un champ actif depuis les Hamiltonian Neural Networks de Greydanus et al. (2019) et les réseaux lagrangiens neuronaux. PH-Dreamer étend cette logique aux modèles récurrents génératifs complets, là où les travaux précédents se limitaient à des systèmes plus simples. Il s'agit d'un preprint de recherche fondamentale sans déploiement industriel annoncé. Les prochaines étapes naturelles incluent des validations sur robots physiques avec proprioception réelle et des comparaisons directes avec DreamerV3 et TD-MPC2 en conditions de transfert réel.

Dans nos dossiers

À lire aussi

Modèles du monde nativement physiques : perspective hamiltonienne pour la modélisation générative
1arXiv cs.RO 

Modèles du monde nativement physiques : perspective hamiltonienne pour la modélisation générative

Une équipe de chercheurs a déposé début mai 2026 sur arXiv (référence 2605.00412v1) un article de position proposant un nouveau cadre théorique pour les modèles du monde en IA incarnée : les Hamiltonian World Models. L'idée centrale est d'encoder les observations d'un robot ou d'un agent autonome dans un espace de phase latent structuré, de faire évoluer cet état via une dynamique inspirée du formalisme hamiltonien de la mécanique classique (avec des termes de contrôle, de dissipation et des résidus appris), puis de décoder la trajectoire prédite en observations futures exploitables pour la planification. Il s'agit d'un preprint théorique sans résultats expérimentaux publiés à ce stade. L'argument principal avancé est que le véritable goulot d'étranglement des modèles du monde n'est plus leur capacité à générer des futurs visuellement réalistes, mais à produire des prédictions physiquement cohérentes et exploitables pour la décision sur un horizon long. Les trois courants dominants actuels peinent chacun à garantir cette stabilité physique : les modèles vidéo génératifs 2D (à la Sora ou Genie), les modèles 3D centrés sur la reconstruction de scènes, et les modèles latents prédictifs de type JEPA (portés notamment par Yann LeCun chez Meta) progressent en silo sans répondre aux exigences du contrôle robotique réel. Pour les équipes de reinforcement learning basé sur modèles (MBRL) et les intégrateurs robotiques, cela se traduit concrètement par des politiques qui dérivent lors des rollouts simulés, fragilisant le transfert sim-to-real. Ancrer la dynamique latente dans le formalisme hamiltonien promettrait une meilleure interprétabilité des représentations internes, une moindre consommation de données d'entraînement et une stabilité accrue en inférence longue. Les auteurs reconnaissent eux-mêmes les obstacles pratiques majeurs : friction, contacts discontinus, forces non-conservatives et objets déformables rendent l'application directe du hamiltonien aux scènes robotiques réelles particulièrement complexe. Ce travail s'inscrit dans un renouveau plus large des world models, porté par Dreamer (Google DeepMind), JEPA (Meta), Genie 2 (Google DeepMind) et les travaux de Physical Intelligence sur les Visual-Language-Action models, mais il se distingue par un ancrage explicite en physique analytique plutôt qu'en apprentissage purement statistique. Aucun déploiement ni partenariat industriel n'est annoncé : l'article reste pour l'instant une contribution théorique ouvrant une direction de recherche.

RecherchePaper
1 source
IA physique : modèle du monde 3D fondé sur les principes physiques pour la manipulation d'objets dynamiques (PhysMani)
2arXiv cs.RO 

IA physique : modèle du monde 3D fondé sur les principes physiques pour la manipulation d'objets dynamiques (PhysMani)

Des chercheurs présentent PhysMani, un framework qui couple un modèle du monde en Gaussiennes 3D fondé sur la physique avec un modèle de politique d'action anticipatif, pour la manipulation d'objets rapides et dynamiques en environnement 3D non structuré. Le modèle du monde apprend un champ de vitesse gaussien à divergence nulle par optimisation en ligne, ce qui permet une prédiction rapide et physiquement cohérente de la dynamique future de la scène. Le modèle de politique intègre ensuite ces prédictions via un module d'attention croisée à base de tokens appris. Les auteurs introduisent également PhysMani-Bench, un nouveau benchmark de manipulation dynamique composé de 16 tâches, et rapportent un taux de réussite supérieur à des baselines solides, aussi bien en simulation que lors d'expériences avec un robot réel. Le papier, publié sur arXiv (2607.01938), ne précise ni la plateforme robotique utilisée ni de métriques chiffrées exactes (taux de réussite, temps de cycle, charge utile), ce qui en fait à ce stade une contribution de recherche plutôt qu'un produit ou un déploiement commercial. Pour l'industrie robotique, ce travail s'attaque à un point faible connu des modèles vision-langage-action (VLA) et des world models existants: leur difficulté à représenter une géométrie 3D précise et à anticiper une dynamique physiquement plausible pour des objets en mouvement rapide. La manipulation de cibles dynamiques, objets qui tombent, glissent ou sont lancés, reste l'un des angles morts des démonstrations actuelles de bras robotiques et d'humanoïdes, la plupart des systèmes généralistes étant surtout validés sur de la manipulation quasi statique. Si les résultats de PhysMani se confirment au-delà du cadre académique, cela ouvrirait une piste pour réduire l'écart entre démonstration en laboratoire et usage réel en logistique ou en industrie, où la prise d'objets en mouvement est fréquente sur convoyeur ou en tri à cadence élevée. Mais tant que l'étude reste limitée à un benchmark maison et sans comparaison indépendante, il s'agit d'une preuve de concept à confirmer, pas d'une solution prête à intégrer. Ce travail s'inscrit dans la lignée des world models 3D construits sur des représentations en Gaussiennes, une technique héritée du rendu de scènes et de plus en plus utilisée en robotique pour modéliser des environnements denses. Ces approches se positionnent face aux modèles VLA de bout en bout entraînés sur de larges corpus de démonstrations, popularisés par des acteurs comme Physical Intelligence avec Pi-0 ou NVIDIA avec GR00T N2, ainsi qu'aux world models déjà exploités par d'autres équipes de recherche en manipulation. Aucun partenaire industriel ni acteur français ou européen n'est mentionné dans l'abstract. La suite logique pour les auteurs serait d'étendre le benchmark, de tester la méthode sur des plateformes robotiques variées, et de la comparer directement aux VLA généralistes pour situer PhysMani face aux solutions déjà commercialisées.

RechercheOpinion
1 source
HAIC : contrôle agile d'interaction humanoïde avec les objets via un modèle du monde intégrant la dynamique
3arXiv cs.RO 

HAIC : contrôle agile d'interaction humanoïde avec les objets via un modèle du monde intégrant la dynamique

Des chercheurs ont publié sur arXiv (référence 2602.11758v2) un framework baptisé HAIC, Humanoid Agile Object Interaction Control, destiné à doter les robots humanoïdes d'une capacité de manipulation d'objets à dynamique indépendante, sans recours à des capteurs externes d'état. Le système repose sur un prédicteur de dynamique qui estime la vitesse et l'accélération d'un objet en contact uniquement à partir de l'historique proprioceptif du robot, c'est-à-dire ses propres données articulaires, sans caméra ni lidar dédié à l'objet. Ces estimations sont projetées sur des priors géométriques statiques pour générer une carte d'occupation dynamique spatialement ancrée, permettant au contrôleur d'inférer les limites de collision et les affordances de contact même dans les zones de l'espace occultées. Les tâches validées expérimentalement sur robot humanoïde incluent le skateboard, la poussée et traction de chariot sous charges variables, et le transport d'un carton sur terrain irrégulier avec plusieurs objets en interaction simultanée. L'apport industriel de HAIC est de combler un angle mort structurel de la robotique humanoïde actuelle : la quasi-totalité des méthodes d'interaction humain-objet (HOI) supposent que l'objet est rigidement couplé au robot et entièrement actionné. Cette hypothèse exclut les objets sous-actionnés à dynamique propre, roues, chariots, caisses sur sol glissant, qui sont précisément les objets courants en entrepôt logistique ou en atelier industriel. En gérant les forces de couplage et les perturbations inertielles de façon proactive, HAIC réduit la dépendance aux capteurs périphériques coûteux et améliore la robustesse aux variations de charge. Le mécanisme d'apprentissage asymétrique (asymmetric fine-tuning), où le world model s'adapte en continu à la politique apprise, adresse directement le problème de distribution shift, un point de fragilité classique des pipelines sim-to-real. La publication s'inscrit dans une course ouverte autour du contrôle whole-body pour humanoïdes, dominée par des approches VLA (Vision-Language-Action) comme pi0 de Physical Intelligence, GR00T N2 de NVIDIA, ou les travaux internes de Figure AI et Agility Robotics. HAIC se distingue en privilégiant une architecture model-based compacte plutôt qu'un grand modèle fondation, un choix de conception qui favorise la latence basse et l'embarquabilité. Le papier ne mentionne pas de partenaire industriel ni de timeline de déploiement ; il reste à ce stade une démonstration en laboratoire sur humanoïde non nommé, sans benchmark standardisé externe, ce qui rend la comparaison directe avec d'autres systèmes difficile à établir.

RechercheActu
1 source
STABLE : génération d'agencements de table prêts à la simulation via un système dual sémantique-physique
4arXiv cs.RO 

STABLE : génération d'agencements de table prêts à la simulation via un système dual sémantique-physique

Une équipe de chercheurs a publié STABLE (arXiv:2605.16137), un système de génération automatique de scènes de table prêtes à la simulation à partir d'instructions textuelles. Le système repose sur une architecture duale composée de deux modules complémentaires : un Semantic Reasoner, un LLM fine-tuné sur un dataset structuré de scènes de table qui produit des dispositions d'objets grossières depuis les consignes de tâche, et un Physics Corrector, un modèle de débruitage basé sur les flux physiques qui calcule des mises à jour de pose pour corriger les arrangements invalides. Les deux modules s'alternent selon un paradigme de génération progressive, en étendant la scène des objets critiques pour la tâche vers les objets d'arrière-plan. Les expériences montrent que STABLE génère des scènes conformes aux instructions tout en améliorant significativement la validité physique par rapport aux méthodes existantes. Le problème ciblé est concret et documenté : lorsqu'on confie la génération de layouts 3D à des LLMs seuls, les objets se retrouvent fréquemment en collision ou en suspension, rendant les scènes inutilisables pour l'entraînement robotique. Pour les équipes travaillant sur des pipelines sim-to-real en manipulation de table, cette limite impose un post-traitement manuel coûteux. L'apport de STABLE est de séparer le raisonnement sémantique (ce qui doit être présent et où, logiquement) du raisonnement physique (comment corriger les positions pour que la scène soit simulable), plutôt que de charger un seul modèle des deux. C'est une réponse directe au sim-to-real gap dans la phase de génération de données, un verrou bien identifié dans la communauté Embodied AI. Cette publication s'inscrit dans une tendance plus large autour de la génération automatique d'environnements de simulation pour l'apprentissage robot, où des approches comme LayoutGPT avaient déjà montré que les LLMs raisonnent mal en coordonnées spatiales. STABLE ne revendique pas de déploiement industriel : c'est une contribution de recherche, avec des résultats expérimentaux sur benchmarks mais sans pipeline productionisé ni timeline commerciale annoncée. Les prochaines étapes naturelles seraient l'extension au-delà des surfaces planes et l'intégration dans des frameworks de génération de données pour la manipulation, comme ceux utilisés par les équipes travaillant sur des modèles VLA (Vision-Language-Action).

RecherchePaper
1 source