Aller au contenu principal
DreamPolicy : une politique basée sur un modèle du monde unifié pour la locomotion des robots humanoïdes à grande échelle
RecherchearXiv cs.RO6sem

DreamPolicy : une politique basée sur un modèle du monde unifié pour la locomotion des robots humanoïdes à grande échelle

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Des chercheurs ont publié DreamPolicy (arXiv:2505.18780, mai 2025), un cadre de locomotion humanoïde conçu pour maîtriser des terrains variés avec une seule politique de contrôle. Son composant central est un modèle du monde à diffusion autorégressive, entraîné sur des trajectoires agrégées issues de plusieurs politiques spécialisées par type de terrain. Ce modèle génère des trajectoires futures physiquement plausibles qui guident une politique conditionnée, sans ingénierie manuelle des fonctions de récompense. En simulation, DreamPolicy surpasse la meilleure baseline de 27% sur des terrains composites jamais vus à l'entraînement, et de 38% sur des terrains combinés. Le framework est conçu pour scaler avec la taille du dataset offline: plus les données s'accumulent, plus le modèle de diffusion acquiert de compétences locomotrices.

La contribution principale est de rompre le verrou "une tâche, une politique" qui freine les systèmes humanoïdes actuels. Les méthodes dominantes reposent sur la distillation de politiques enseignantes spécialisées en une politique étudiante unifiée; ce paradigme capture des primitives de base mais échoue à les composer organiquement face à des environnements composites hors distribution. DreamPolicy y substitue un modèle du monde qui capture des compétences locomotrices généralisables, autorisant un transfert zero-shot vers des terrains inédits. Il convient néanmoins de nuancer: les gains relatifs annoncés (27%, 38%) sont mesurés en simulation uniquement, sans détail sur les taux absolus de succès ni les conditions précises des benchmarks, ce qui limite les comparaisons directes avec d'autres systèmes publiés.

Ce travail s'inscrit dans une tendance portée par DreamerV3 (Google DeepMind) et le RL model-based, ici appliquée à la locomotion humanoïde scalable. Figure, Agility Robotics (Amazon), Unitree, Apptronik et Boston Dynamics se livrent une course intensive sur ce segment; en Europe, Wandercraft (France) travaille sur la locomotion bipeède thérapeutique et Enchanted Tools sur des humanoïdes de service. DreamPolicy reste une contribution de recherche pure: aucun déploiement hardware ni partenariat industriel n'est mentionné. La validation sur robot physique constitue l'étape suivante naturelle, avec les défis de sim-to-real gap que les approches à diffusion n'ont pas encore pleinement résolus à grande échelle.

Impact France/UE

Impact indirect : les avancées en locomotion unifiée zero-shot pourraient alimenter les travaux de Wandercraft (France) sur la bipédie thérapeutique, mais aucun lien institutionnel ou déploiement européen n'est mentionné.

À lire aussi

RoboDream : des modèles du monde compositionnels pour la synthèse de données robotiques à grande échelle
1arXiv cs.RO 

RoboDream : des modèles du monde compositionnels pour la synthèse de données robotiques à grande échelle

Des chercheurs ont publié RoboDream (arXiv:2606.02577), un world model centré sur l'embodiment conçu pour générer des démonstrations photorealistic destinées à l'entraînement de politiques de manipulation robotique. Le système s'appuie sur des modèles de diffusion vidéo conditionnés simultanément sur le mouvement rendu du robot et sur des priors explicites de scène et d'objet, découplant ainsi l'exécution de trajectoire de la synthèse d'environnement. Cette architecture permet deux capacités distinctes : le "retrieval and rebirth", qui réutilise des trajectoires existantes dans des contextes entièrement nouveaux sans collecter de nouvelles données de mouvement, et la "prop-free teleoperation", où l'opérateur manipule dans le vide et le modèle génère a posteriori les objets cibles et la scène. Les expériences en conditions réelles montrent que les données ainsi synthétisées améliorent systématiquement les performances des politiques en aval et réduisent significativement les besoins en données réelles sur des tâches de manipulation variées. La télé-opération reste aujourd'hui le principal goulot d'étranglement du robot learning à grande échelle : coûteuse, lente, et contrainte par le temps de reset entre chaque démonstration (repositionner les objets, réorganiser la scène). RoboDream attaque ce problème en proposant une augmentation sémantique profonde plutôt qu'une simple modification de texture ou de couleur : le système génère des objets et des environnements entièrement nouveaux à partir d'une même trajectoire capturée. La "prop-free teleoperation" est opérationnellement significative car elle supprime le temps de reset, l'une des sources de coût caché les plus sous-estimées dans les pipelines de collecte actuels. Le fait que les politiques entraînées sur données synthétiques surpassent les baselines en conditions réelles valide partiellement la thèse que le sim-to-real gap peut être comblé par un générateur suffisamment ancré dans la géométrie et la cinématique du robot réel, contrairement aux approches purement visuelles. Cette publication s'inscrit dans une course à la mise à l'échelle des données robotiques qui s'est accélérée depuis 2023 avec l'essor des VLA (Vision-Language-Action models) : OpenVLA, Pi-0 de Physical Intelligence, GR00T N2 de NVIDIA. Ces architectures nécessitent des dizaines de milliers de démonstrations diversifiées pour être robustes. Face à ce besoin, deux voies coexistent : la collecte distribuée à grande échelle (projet Open X-Embodiment) et la génération synthétique. RoboDream s'inscrit dans la seconde, aux côtés de travaux comme UniSim ou RoboGen, mais se différencie par son ancrage explicite à la cinématique du robot, évitant les "embodiment hallucinations" qui affectent les générateurs purement visuels. Aucun partenariat industriel ni déploiement commercial n'est annoncé à ce stade. Les questions ouvertes portent sur la généralisation à des morphologies de robots différentes et sur les tâches de manipulation longue durée, où la cohérence temporelle des séquences générées reste un défi non résolu.

RechercheOpinion
1 source
Hi-WM : un modèle du monde centré sur l'humain pour l'entraînement robotique à grande échelle
2arXiv cs.RO 

Hi-WM : un modèle du monde centré sur l'humain pour l'entraînement robotique à grande échelle

Une équipe de recherche présente Hi-WM (Human-in-the-World-Model), un cadre de post-entraînement pour politiques robotiques généralisées, publié sur arXiv (2604.21741). L'approche remplace l'exécution physique par un modèle du monde appris : la politique est d'abord déroulée en boucle fermée dans ce simulateur interne, et lorsqu'une trajectoire devient incorrecte ou risquée, un opérateur humain intervient directement dans le modèle pour fournir des actions correctives courtes. Hi-WM met en cache les états intermédiaires et supporte le rollback et le branchement, ce qui permet de réutiliser un seul état d'échec pour générer plusieurs continuations correctives distinctes. Les trajectoires ainsi produites sont réinjectées dans le jeu d'entraînement. Évalué sur trois tâches de manipulation réelle (objets rigides et déformables) avec deux architectures de politique différentes, le système affiche un gain de 37,9 points en taux de succès réel par rapport à la politique de base, et de 19,0 points par rapport à une ligne de base en boucle fermée dans le modèle du monde. La corrélation entre les évaluations dans le modèle et les performances réelles atteint r = 0,953. Ce résultat adresse un goulot d'étranglement structurel du déploiement robotique : le post-entraînement actuel exige du temps robot, des resets de scène, une supervision opérateur en continu, autant de contraintes qui rendent la correction itérative coûteuse à l'échelle. En décorrélant la phase corrective de l'exécution physique, Hi-WM densifie la supervision précisément là où la politique échoue, sans mobiliser le matériel. La forte corrélation sim-to-real (r > 0,95) est notable : elle suggère que le modèle du monde est suffisamment fidèle pour qualifier les politiques avant déploiement, ce qui contredit en partie l'hypothèse que l'évaluation dans le modèle reste trop éloignée des conditions réelles pour être exploitable. Les modèles du monde conditionnés sur les actions sont étudiés depuis plusieurs années principalement pour la génération de données synthétiques et l'évaluation de politiques, notamment dans les travaux autour des VLA (Vision-Language-Action models) et des politiques généralisées comme celles portées par Physical Intelligence (Pi-0) ou les recherches internes de Google DeepMind. Hi-WM repositionne ces modèles comme substrat correctif actif, une troisième fonction jusqu'ici peu explorée. Les suites naturelles incluent l'extension à des tâches de locomotion, la réduction du coût de construction du modèle du monde, et l'intégration dans des pipelines de fine-tuning continu pour robots déployés en environnement industriel variable.

RechercheOpinion
1 source
Dream-Tac : un modèle d'action monde tactile unifié pour la manipulation robotique riche en contacts
3arXiv cs.RO 

Dream-Tac : un modèle d'action monde tactile unifié pour la manipulation robotique riche en contacts

Des chercheurs ont publié le 9 juin 2026 sur arXiv (arXiv:2606.08737) Dream-Tac, un modèle d'action mondial unifié intégrant la modalité tactile pour la manipulation robotique en contact. L'architecture joint trois dimensions simultanément : la génération d'actions, la prédiction d'observations visuelles futures et la dynamique tactile. Deux contributions techniques structurent le système : une fusion visuotactile à déclenchement par contact ("contact-gated visuotactile fusion"), qui intègre sélectivement les signaux tactiles uniquement lors des phases d'interaction physique effective, et un biais d'attention conscient du contact ("contact-aware attention bias") régulant les échanges cross-modaux. Pour rendre le modèle déployable en temps réel, les auteurs introduisent une stratégie d'accélération à deux niveaux : reformulation du biais lors de l'entraînement pour préserver les chemins d'attention fusionnés, et accélération de la diffusion par cache à l'inférence. Résultat annoncé : entraînement 2,9 fois plus rapide, inférence 1,8 fois plus rapide. Sur six tâches de manipulation en contact riche, Dream-Tac améliore la précision des actions de 31,7 % en moyenne. Le code est publié sur GitHub. Le résultat le plus significatif n'est pas le chiffre brut des 31,7 %, mais ce qu'il révèle sur une limitation structurelle des modèles d'action mondiaux (world action models) actuels : ces architectures, qui héritent la capacité prédictive des world models pour guider la génération d'actions, s'appuient quasi exclusivement sur la vision. Or, la vision seule est insuffisante pour les tâches à fort contact (assemblage de pièces, vissage, insertion de connecteurs, manipulation d'objets souples) où les signaux critiques sont d'ordre haptique. Dream-Tac adresse directement ce "reality gap" tactile, en montrant que l'intégration conditionnelle de la modalité tactile dans le pipeline de diffusion améliore substantiellement la robustesse. Pour les intégrateurs industriels et les équipes robotique travaillant sur des cellules d'assemblage ou de finishing, c'est un signal clair que les VLA (Vision-Language-Action models) ne suffisent pas seuls pour les cas d'usage à contact. Le contexte est celui d'une compétition intense entre laboratoires sur la manipulation dextère. Physical Intelligence (pi0, pi0-FAST), Boston Dynamics, Figure AI et Agility Robotics investissent massivement dans des pipelines de manipulation généralisable, principalement visuels. Côté recherche académique, des travaux comme DexDiffuser ou UniDexGrasp ont posé les bases de la manipulation dextère par diffusion, mais sans intégration tactile unifiée. Dream-Tac s'inscrit dans une tendance émergente visant à enrichir ces pipelines avec des capteurs de contact (GelSight, Digit, BubbleGripper), encore peu intégrés dans les architectures de world models. Il s'agit ici d'un article de recherche arXiv, pas d'un produit ou d'un déploiement industriel : les six tâches de validation sont des benchmarks contrôlés en laboratoire, et la généralisation à des environnements réels non structurés reste à démontrer. Les prochaines étapes naturelles seraient une validation sur des plateformes hardware commerciales (UR, Franka, ou bras dextre humanoïde) et une extension à des gripper tactiles standardisés disponibles sur le marché.

RechercheOpinion
1 source
PHUMA : un jeu de données pour la locomotion fiable des robots humanoïdes
4arXiv cs.RO 

PHUMA : un jeu de données pour la locomotion fiable des robots humanoïdes

Une équipe de chercheurs du laboratoire DAVIAN a publié en juin 2026 PHUMA (Physically Reliable HUMAnoid locomotion dataset), un corpus de 73 heures de données de locomotion humanoide produit via un pipeline en deux étapes : une curation physiquement consciente suivie d'un retargeting contraint par des lois physiques. La base de données agrège à la fois des données de motion capture traditionnelles et des vidéos issues d'internet, les deux étant traitées pour éliminer les artefacts physiques récurrents dans les datasets existants, notamment le flottement, la pénétration géométrique et le foot skating. Entraînées sur PHUMA, les politiques de contrôle obtiennent des taux de succès supérieurs à ceux obtenus avec AMASS et Humanoid-X sur les benchmarks de motion tracking standards, et transfèrent en zero-shot vers un Unitree G1 réel. Le code et les données sont disponibles publiquement via davian-robotics.github.io/PHUMA. Le principal verrou que PHUMA prétend lever est la qualité physique des données d'entraînement pour l'imitation de mouvement humanoide. Les approches par imitation sont attractives parce qu'elles permettent d'acquérir des comportements naturels sans reward engineering fastidieux, mais leur efficacité dépend directement de la cohérence physique des données sources. Les artefacts présents dans les datasets basés sur des vidéos internet (comme Humanoid-X) se propagent dans les politiques entraînées, produisant des robots qui glissent ou oscillent de façon instable. La démonstration de transfert zero-shot sur un Unitree G1 physique est le point le plus concret : elle suggère que le filtrage physique en amont réduit effectivement le sim-to-real gap, sans fine-tuning additionnel sur hardware. Reste à qualifier l'ampleur du gain : les métriques de benchmarks internes ne se substituent pas à des comparaisons en conditions réelles standardisées. AMASS, publié en 2019, est resté longtemps la référence en motion capture humanoide, mais sa taille limitée et son coût d'acquisition ont freiné la scalabilité des approches data-driven. Humanoid-X a tenté de combler ce vide en exploitant des vidéos YouTube à grande échelle, au prix d'une dégradation qualitative. PHUMA s'inscrit dans une dynamique plus large où plusieurs équipes cherchent à constituer des datasets de locomotion humanoide à la fois volumineux et physiquement valides, en parallèle des travaux de Figure AI (Figure 03), Boston Dynamics, et des équipes derrière GR00T N2 chez NVIDIA. La prochaine étape logique serait de tester PHUMA sur d'autres plateformes humanoïdes commerciales (H1, Digit) et d'élargir les tâches au-delà de la locomotion simple vers la manipulation en déplacement.

UELe dataset PHUMA étant en accès libre, les équipes de recherche européennes en locomotion humanoïde (INRIA, CEA-List, LAAS-CNRS) peuvent l'intégrer directement dans leurs pipelines d'entraînement sans coût d'acquisition.

RecherchePaper
1 source