Aller au contenu principal
PH-Dreamer : un modèle du monde piloté par la physique via la dynamique générative port-hamiltonienne
RecherchearXiv cs.RO1j

PH-Dreamer : un modèle du monde piloté par la physique via la dynamique générative port-hamiltonienne

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Des chercheurs ont publié PH-Dreamer (arXiv:2605.18303, mai 2026), une architecture de modèle du monde intégrant un cadre Port-Hamiltonien dans les réseaux récurrents à espace d'état utilisés en apprentissage par renforcement basé sur des modèles. L'approche combine trois mécanismes couplés : des priors physiques dans les transitions latentes via un routage d'énergie contrôlé par flux et dissipation, un modèle d'énergie estimant le Hamiltonien et le bilan de puissance à partir d'observations proprioceptives, et un Actor-Critic guidé par énergie avec multiplicateurs de Lagrange pour régulariser l'optimisation de politique. Evaluée sur des benchmarks de contrôle visuel, l'architecture réduit le volume de l'espace de phase latent de 4,18 à 8,41 %, la consommation d'énergie simulée jusqu'à 7,80 %, et le jerk quadratique moyen (mesure de la brutalité des transitions de commande) jusqu'à 9,38 %, tout en améliorant les rendements asymptotiques.

L'enjeu central est la fidélité physique des simulateurs internes : les modèles du monde conventionnels opèrent dans un espace latent non contraint, produisant des trajectoires qui violent la conservation d'énergie et les principes dissipatifs. Pour un ingénieur de contrôle ou un intégrateur robotique, un simulateur interne mieux calibré réduit l'écart sim-to-real et améliore la robustesse au transfert vers des systèmes physiques. La réduction de jerk est mécaniquement pertinente : des commandes plus lisses diminuent l'usure des actionneurs sur des robots réels. Le résultat le plus significatif reste la réduction de variance entre récompenses imaginées et réelles, indicateur de calibration du modèle plutôt que simple gain de tâche, ce qui constitue une contribution exploitable concrètement pour le transfert sim-to-real en robotique de manipulation.

PH-Dreamer s'inscrit dans la lignée des travaux Dreamer de Google DeepMind (Hafner et al.), référence en RL basé sur modèle pour le contrôle visuel à faible nombre d'échantillons. L'intégration du formalisme Port-Hamiltonien dans les réseaux de neurones est un champ actif depuis les Hamiltonian Neural Networks de Greydanus et al. (2019) et les réseaux lagrangiens neuronaux. PH-Dreamer étend cette logique aux modèles récurrents génératifs complets, là où les travaux précédents se limitaient à des systèmes plus simples. Il s'agit d'un preprint de recherche fondamentale sans déploiement industriel annoncé. Les prochaines étapes naturelles incluent des validations sur robots physiques avec proprioception réelle et des comparaisons directes avec DreamerV3 et TD-MPC2 en conditions de transfert réel.

Dans nos dossiers

À lire aussi

Modèles du monde nativement physiques : perspective hamiltonienne pour la modélisation générative
1arXiv cs.RO 

Modèles du monde nativement physiques : perspective hamiltonienne pour la modélisation générative

Une équipe de chercheurs a déposé début mai 2026 sur arXiv (référence 2605.00412v1) un article de position proposant un nouveau cadre théorique pour les modèles du monde en IA incarnée : les Hamiltonian World Models. L'idée centrale est d'encoder les observations d'un robot ou d'un agent autonome dans un espace de phase latent structuré, de faire évoluer cet état via une dynamique inspirée du formalisme hamiltonien de la mécanique classique (avec des termes de contrôle, de dissipation et des résidus appris), puis de décoder la trajectoire prédite en observations futures exploitables pour la planification. Il s'agit d'un preprint théorique sans résultats expérimentaux publiés à ce stade. L'argument principal avancé est que le véritable goulot d'étranglement des modèles du monde n'est plus leur capacité à générer des futurs visuellement réalistes, mais à produire des prédictions physiquement cohérentes et exploitables pour la décision sur un horizon long. Les trois courants dominants actuels peinent chacun à garantir cette stabilité physique : les modèles vidéo génératifs 2D (à la Sora ou Genie), les modèles 3D centrés sur la reconstruction de scènes, et les modèles latents prédictifs de type JEPA (portés notamment par Yann LeCun chez Meta) progressent en silo sans répondre aux exigences du contrôle robotique réel. Pour les équipes de reinforcement learning basé sur modèles (MBRL) et les intégrateurs robotiques, cela se traduit concrètement par des politiques qui dérivent lors des rollouts simulés, fragilisant le transfert sim-to-real. Ancrer la dynamique latente dans le formalisme hamiltonien promettrait une meilleure interprétabilité des représentations internes, une moindre consommation de données d'entraînement et une stabilité accrue en inférence longue. Les auteurs reconnaissent eux-mêmes les obstacles pratiques majeurs : friction, contacts discontinus, forces non-conservatives et objets déformables rendent l'application directe du hamiltonien aux scènes robotiques réelles particulièrement complexe. Ce travail s'inscrit dans un renouveau plus large des world models, porté par Dreamer (Google DeepMind), JEPA (Meta), Genie 2 (Google DeepMind) et les travaux de Physical Intelligence sur les Visual-Language-Action models, mais il se distingue par un ancrage explicite en physique analytique plutôt qu'en apprentissage purement statistique. Aucun déploiement ni partenariat industriel n'est annoncé : l'article reste pour l'instant une contribution théorique ouvrant une direction de recherche.

RecherchePaper
1 source
HAIC : contrôle agile d'interaction humanoïde avec les objets via un modèle du monde intégrant la dynamique
2arXiv cs.RO 

HAIC : contrôle agile d'interaction humanoïde avec les objets via un modèle du monde intégrant la dynamique

Des chercheurs ont publié sur arXiv (référence 2602.11758v2) un framework baptisé HAIC, Humanoid Agile Object Interaction Control, destiné à doter les robots humanoïdes d'une capacité de manipulation d'objets à dynamique indépendante, sans recours à des capteurs externes d'état. Le système repose sur un prédicteur de dynamique qui estime la vitesse et l'accélération d'un objet en contact uniquement à partir de l'historique proprioceptif du robot, c'est-à-dire ses propres données articulaires, sans caméra ni lidar dédié à l'objet. Ces estimations sont projetées sur des priors géométriques statiques pour générer une carte d'occupation dynamique spatialement ancrée, permettant au contrôleur d'inférer les limites de collision et les affordances de contact même dans les zones de l'espace occultées. Les tâches validées expérimentalement sur robot humanoïde incluent le skateboard, la poussée et traction de chariot sous charges variables, et le transport d'un carton sur terrain irrégulier avec plusieurs objets en interaction simultanée. L'apport industriel de HAIC est de combler un angle mort structurel de la robotique humanoïde actuelle : la quasi-totalité des méthodes d'interaction humain-objet (HOI) supposent que l'objet est rigidement couplé au robot et entièrement actionné. Cette hypothèse exclut les objets sous-actionnés à dynamique propre, roues, chariots, caisses sur sol glissant, qui sont précisément les objets courants en entrepôt logistique ou en atelier industriel. En gérant les forces de couplage et les perturbations inertielles de façon proactive, HAIC réduit la dépendance aux capteurs périphériques coûteux et améliore la robustesse aux variations de charge. Le mécanisme d'apprentissage asymétrique (asymmetric fine-tuning), où le world model s'adapte en continu à la politique apprise, adresse directement le problème de distribution shift, un point de fragilité classique des pipelines sim-to-real. La publication s'inscrit dans une course ouverte autour du contrôle whole-body pour humanoïdes, dominée par des approches VLA (Vision-Language-Action) comme pi0 de Physical Intelligence, GR00T N2 de NVIDIA, ou les travaux internes de Figure AI et Agility Robotics. HAIC se distingue en privilégiant une architecture model-based compacte plutôt qu'un grand modèle fondation, un choix de conception qui favorise la latence basse et l'embarquabilité. Le papier ne mentionne pas de partenaire industriel ni de timeline de déploiement ; il reste à ce stade une démonstration en laboratoire sur humanoïde non nommé, sans benchmark standardisé externe, ce qui rend la comparaison directe avec d'autres systèmes difficile à établir.

RechercheActu
1 source
STABLE : génération d'agencements de table prêts à la simulation via un système dual sémantique-physique
3arXiv cs.RO 

STABLE : génération d'agencements de table prêts à la simulation via un système dual sémantique-physique

Une équipe de chercheurs a publié STABLE (arXiv:2605.16137), un système de génération automatique de scènes de table prêtes à la simulation à partir d'instructions textuelles. Le système repose sur une architecture duale composée de deux modules complémentaires : un Semantic Reasoner, un LLM fine-tuné sur un dataset structuré de scènes de table qui produit des dispositions d'objets grossières depuis les consignes de tâche, et un Physics Corrector, un modèle de débruitage basé sur les flux physiques qui calcule des mises à jour de pose pour corriger les arrangements invalides. Les deux modules s'alternent selon un paradigme de génération progressive, en étendant la scène des objets critiques pour la tâche vers les objets d'arrière-plan. Les expériences montrent que STABLE génère des scènes conformes aux instructions tout en améliorant significativement la validité physique par rapport aux méthodes existantes. Le problème ciblé est concret et documenté : lorsqu'on confie la génération de layouts 3D à des LLMs seuls, les objets se retrouvent fréquemment en collision ou en suspension, rendant les scènes inutilisables pour l'entraînement robotique. Pour les équipes travaillant sur des pipelines sim-to-real en manipulation de table, cette limite impose un post-traitement manuel coûteux. L'apport de STABLE est de séparer le raisonnement sémantique (ce qui doit être présent et où, logiquement) du raisonnement physique (comment corriger les positions pour que la scène soit simulable), plutôt que de charger un seul modèle des deux. C'est une réponse directe au sim-to-real gap dans la phase de génération de données, un verrou bien identifié dans la communauté Embodied AI. Cette publication s'inscrit dans une tendance plus large autour de la génération automatique d'environnements de simulation pour l'apprentissage robot, où des approches comme LayoutGPT avaient déjà montré que les LLMs raisonnent mal en coordonnées spatiales. STABLE ne revendique pas de déploiement industriel : c'est une contribution de recherche, avec des résultats expérimentaux sur benchmarks mais sans pipeline productionisé ni timeline commerciale annoncée. Les prochaines étapes naturelles seraient l'extension au-delà des surfaces planes et l'intégration dans des frameworks de génération de données pour la manipulation, comme ceux utilisés par les équipes travaillant sur des modèles VLA (Vision-Language-Action).

RecherchePaper
1 source
Apprentissage continu par démonstration : un modèle à dynamique stable généré par hyperréseau
4arXiv cs.RO 

Apprentissage continu par démonstration : un modèle à dynamique stable généré par hyperréseau

Des chercheurs ont présenté une méthode d'apprentissage continu par démonstration (LfD) stable et scalable pour robots, publiée sur arXiv (référence 2311.03600, version 3, indiquant un travail itératif). L'architecture centrale repose sur un hyperréseau qui génère dynamiquement les paramètres de deux réseaux neuronaux : un modèle de dynamique de trajectoire et une fonction de Lyapunov garantissant la stabilité asymptotique. Ces deux composants forment un solveur d'équations différentielles ordinaires stable augmenté par horloge, baptisé sNODE (stable Neural ODE). L'évaluation couvre des séquences de 7 à 26 tâches successives, des trajectoires de 2 à 32 dimensions, et des tâches réelles combinant position et orientation. Une régularisation stochastique de l'hyperréseau, via un seul embedding de tâche échantillonné uniformément, réduit la complexité d'entraînement de O(N²) à O(N) pour N tâches cumulées, sans dégradation des performances mesurée sur les benchmarks utilisés. L'enjeu central est la persistance des compétences motrices sans réentraînement sur les démonstrations passées, un problème dit d'oubli catastrophique qui bloque concrètement le déploiement de robots industriels capables d'acquérir progressivement un répertoire de gestes. Le passage de O(N²) à O(N) rend viable l'accumulation de dizaines de compétences sur un même système sans explosion du coût computationnel, ce qui change la donne pour les intégrateurs soumis à des contraintes matérielles embarquées. Plus notable encore : les auteurs montrent empiriquement que la contrainte de stabilité imposée par la fonction de Lyapunov améliore directement les scores d'apprentissage continu, particulièrement dans les hyperréseaux compacts. Cela contredit l'hypothèse courante selon laquelle stabilité et plasticité seraient nécessairement antagonistes. Le LfD stable s'inscrit dans une tradition remontant à SEDS (Khansari-Zadeh, 2011) et aux Dynamic Movement Primitives, qui garantissaient la stabilité au prix d'une expressivité limitée. Les approches récentes basées sur des ODE neuronales (NODE) avaient amélioré la précision de reproduction de trajectoire mais peinaient à combiner stabilité et apprentissage séquentiel sans réentraînement global. Les hyperréseaux, déjà exploités en apprentissage continu pour d'autres domaines, sont ici adaptés spécifiquement à la contrainte de stabilité dynamique. Des variantes haute dimension du dataset LASA (référence standard du domaine) sont introduites pour évaluer la scalabilité. Le code est disponible publiquement sur GitHub (sayantanauddy/clfd-snode) ; les prochaines étapes naturelles incluent la validation sur des plateformes à haute dimensionnalité (au-delà de 32 DOF) et l'intégration avec des politiques de type VLA pour des tâches de manipulation non structurée.

RecherchePaper
1 source