
PH-Dreamer : un modèle du monde piloté par la physique via la dynamique générative port-hamiltonienne
Des chercheurs ont publié PH-Dreamer (arXiv:2605.18303, mai 2026), une architecture de modèle du monde intégrant un cadre Port-Hamiltonien dans les réseaux récurrents à espace d'état utilisés en apprentissage par renforcement basé sur des modèles. L'approche combine trois mécanismes couplés : des priors physiques dans les transitions latentes via un routage d'énergie contrôlé par flux et dissipation, un modèle d'énergie estimant le Hamiltonien et le bilan de puissance à partir d'observations proprioceptives, et un Actor-Critic guidé par énergie avec multiplicateurs de Lagrange pour régulariser l'optimisation de politique. Evaluée sur des benchmarks de contrôle visuel, l'architecture réduit le volume de l'espace de phase latent de 4,18 à 8,41 %, la consommation d'énergie simulée jusqu'à 7,80 %, et le jerk quadratique moyen (mesure de la brutalité des transitions de commande) jusqu'à 9,38 %, tout en améliorant les rendements asymptotiques.
L'enjeu central est la fidélité physique des simulateurs internes : les modèles du monde conventionnels opèrent dans un espace latent non contraint, produisant des trajectoires qui violent la conservation d'énergie et les principes dissipatifs. Pour un ingénieur de contrôle ou un intégrateur robotique, un simulateur interne mieux calibré réduit l'écart sim-to-real et améliore la robustesse au transfert vers des systèmes physiques. La réduction de jerk est mécaniquement pertinente : des commandes plus lisses diminuent l'usure des actionneurs sur des robots réels. Le résultat le plus significatif reste la réduction de variance entre récompenses imaginées et réelles, indicateur de calibration du modèle plutôt que simple gain de tâche, ce qui constitue une contribution exploitable concrètement pour le transfert sim-to-real en robotique de manipulation.
PH-Dreamer s'inscrit dans la lignée des travaux Dreamer de Google DeepMind (Hafner et al.), référence en RL basé sur modèle pour le contrôle visuel à faible nombre d'échantillons. L'intégration du formalisme Port-Hamiltonien dans les réseaux de neurones est un champ actif depuis les Hamiltonian Neural Networks de Greydanus et al. (2019) et les réseaux lagrangiens neuronaux. PH-Dreamer étend cette logique aux modèles récurrents génératifs complets, là où les travaux précédents se limitaient à des systèmes plus simples. Il s'agit d'un preprint de recherche fondamentale sans déploiement industriel annoncé. Les prochaines étapes naturelles incluent des validations sur robots physiques avec proprioception réelle et des comparaisons directes avec DreamerV3 et TD-MPC2 en conditions de transfert réel.
Dans nos dossiers




