Aller au contenu principal
WestWorld : un modèle du monde de trajectoires évolutif intégrant des connaissances pour systèmes robotiques variés
RecherchearXiv cs.RO6sem

WestWorld : un modèle du monde de trajectoires évolutif intégrant des connaissances pour systèmes robotiques variés

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Une équipe de chercheurs a publié WestWorld (arXiv:2603.14392), un modèle de monde trajectoire conçu pour opérer sur des systèmes robotiques hétérogènes. Préentraîné sur 89 environnements complexes couvrant une large variété de morphologies en simulation et en conditions réelles, le modèle cible deux lacunes récurrentes dans la littérature : la difficulté de passer à l'échelle face à un grand nombre de dynamiques système distinctes, et l'absence d'intégration des connaissances sur les structures physiques des robots. La validation réelle a été conduite sur un quadrupède Unitree Go1, où WestWorld a démontré des performances stables en locomotion. Le code source est disponible sur GitHub.

L'architecture repose sur un mécanisme baptisé Sys-MoE (system-aware Mixture-of-Experts), qui route dynamiquement des experts spécialisés selon le système robotique fourni en entrée, via un embedding système appris. Un embedding structurel complémentaire aligne les représentations de trajectoires avec les informations morphologiques du robot, permettant au modèle de tenir compte du fait qu'un bras articulé, un quadrupède et une plateforme mobile n'obéissent pas aux mêmes contraintes physiques. Les résultats affichent des gains significatifs en prédiction de trajectoire zero-shot et few-shot face aux baselines compétitives, ainsi qu'une amélioration des performances sur le contrôle model-based downstream pour différentes plateformes robotiques. La scalabilité tient sur un spectre large d'environnements, ce qui constitue l'argument central de la contribution.

La publication s'inscrit dans une tendance forte : appliquer aux robots les world models issus du monde des agents RL et des LLMs multimodaux, à l'image de Dreamer, UniSim, ou des frameworks VLA (Vision-Language-Action) orientés manipulation. WestWorld se distingue par son ambition généraliste multi-morphologie, là où la majorité des approches concurrentes restent spécialisées sur une famille de robots. L'usage du Unitree Go1 comme banc de test réel est pertinent mais reste un cas relativement balisé dans la littérature, ce qui nuance la portée de la démonstration sim-to-real. Les prochaines étapes logiques seront d'évaluer le transfert sur des morphologies plus complexes, humanoïdes notamment, là où les défis de généralisation sont encore ouverts.

À lire aussi

$\mu_0$ : un modèle du monde 3D évolutif par traces d'interaction
1arXiv cs.RO 

$\mu_0$ : un modèle du monde 3D évolutif par traces d'interaction

Des chercheurs présentent μ₀ (mu-zéro), un modèle mondial 3D à base de traces d'interaction, publié en préprint sur arXiv (2506.13769) en juin 2025. Plutôt que de reconstruire des pixels denses comme les modèles vidéo, ou d'exiger des étiquettes d'action spécifiques à chaque morphologie robotique, μ₀ prédit des trajectoires 3D lisses pour des points saillants : objets, outils, mains et zones de contact, encodées en points de contrôle B-spline. Le système TraceExtract extrait automatiquement cette supervision depuis des vidéos diversifiées, en sélectionnant des points clés, construisant des traces alignées globalement et associant chaque segment à des légendes linguistiques hiérarchiques. L'architecture couple un backbone vision-langage préentraîné à un expert de traces modulaire. Dans les expériences de laboratoire, μ₀ dépasse les baselines en prédiction de traces 2D et 3D, y compris les approches VLM tokenisées. L'enjeu central est l'interopérabilité cross-embodiment : permettre à une politique robotique d'opérer sur différentes morphologies sans données d'action spécifiques. Les VLA comme π₀ de Physical Intelligence ou GR00T N2 de NVIDIA nécessitent des téléopérations coûteuses pour étiqueter les actions, freinant la scalabilité. μ₀ contourne ce verrou en apprenant une représentation intermédiaire agnostique à l'embodiment, couplable ensuite à des experts d'action légers par morphologie cible. Résultat notable : malgré un préentraînement entièrement sans étiquettes d'action, les politiques trace-conditionnées atteignent des performances compétitives avec π₀, un VLA entraîné avec supervision d'action complète. Si cette généralisation se confirme à l'échelle, des politiques de manipulation pourraient être entraînées massivement sur des vidéos génériques, humaines ou issues de la simulation, sans collecte de données robot-spécifiques. La robotique de manipulation cherche depuis des années à s'affranchir des données proprioceptives labellisées, coûteuses à collecter. Deux approches dominent actuellement : les modèles vidéo pixel-dense comme UniSim ou Genie, et les VLA directs comme OpenVLA, π₀ ou GR00T N2, chacun présentant ses propres limites de scalabilité ou de spécificité. μ₀ propose un troisième espace latent, la trace 3D compacte, entraînable sur des vidéos brutes. Les concurrents les plus proches incluent les travaux de point-tracking tels que TAPIR et CoTracker, ainsi que les modèles d'action en espace latent. Le papier reste un préprint de laboratoire sans déploiement industriel annoncé, et la robustesse en environnement réel non contrôlé reste à démontrer. Les prochaines étapes logiques incluent la validation sur des flottes multi-robots hétérogènes et l'intégration dans des pipelines d'imitation learning à grande échelle.

RechercheOpinion
1 source
RoboDream : des modèles du monde compositionnels pour la synthèse de données robotiques à grande échelle
2arXiv cs.RO 

RoboDream : des modèles du monde compositionnels pour la synthèse de données robotiques à grande échelle

Des chercheurs ont publié RoboDream (arXiv:2606.02577), un world model centré sur l'embodiment conçu pour générer des démonstrations photorealistic destinées à l'entraînement de politiques de manipulation robotique. Le système s'appuie sur des modèles de diffusion vidéo conditionnés simultanément sur le mouvement rendu du robot et sur des priors explicites de scène et d'objet, découplant ainsi l'exécution de trajectoire de la synthèse d'environnement. Cette architecture permet deux capacités distinctes : le "retrieval and rebirth", qui réutilise des trajectoires existantes dans des contextes entièrement nouveaux sans collecter de nouvelles données de mouvement, et la "prop-free teleoperation", où l'opérateur manipule dans le vide et le modèle génère a posteriori les objets cibles et la scène. Les expériences en conditions réelles montrent que les données ainsi synthétisées améliorent systématiquement les performances des politiques en aval et réduisent significativement les besoins en données réelles sur des tâches de manipulation variées. La télé-opération reste aujourd'hui le principal goulot d'étranglement du robot learning à grande échelle : coûteuse, lente, et contrainte par le temps de reset entre chaque démonstration (repositionner les objets, réorganiser la scène). RoboDream attaque ce problème en proposant une augmentation sémantique profonde plutôt qu'une simple modification de texture ou de couleur : le système génère des objets et des environnements entièrement nouveaux à partir d'une même trajectoire capturée. La "prop-free teleoperation" est opérationnellement significative car elle supprime le temps de reset, l'une des sources de coût caché les plus sous-estimées dans les pipelines de collecte actuels. Le fait que les politiques entraînées sur données synthétiques surpassent les baselines en conditions réelles valide partiellement la thèse que le sim-to-real gap peut être comblé par un générateur suffisamment ancré dans la géométrie et la cinématique du robot réel, contrairement aux approches purement visuelles. Cette publication s'inscrit dans une course à la mise à l'échelle des données robotiques qui s'est accélérée depuis 2023 avec l'essor des VLA (Vision-Language-Action models) : OpenVLA, Pi-0 de Physical Intelligence, GR00T N2 de NVIDIA. Ces architectures nécessitent des dizaines de milliers de démonstrations diversifiées pour être robustes. Face à ce besoin, deux voies coexistent : la collecte distribuée à grande échelle (projet Open X-Embodiment) et la génération synthétique. RoboDream s'inscrit dans la seconde, aux côtés de travaux comme UniSim ou RoboGen, mais se différencie par son ancrage explicite à la cinématique du robot, évitant les "embodiment hallucinations" qui affectent les générateurs purement visuels. Aucun partenariat industriel ni déploiement commercial n'est annoncé à ce stade. Les questions ouvertes portent sur la généralisation à des morphologies de robots différentes et sur les tâches de manipulation longue durée, où la cohérence temporelle des séquences générées reste un défi non résolu.

RechercheOpinion
1 source
MotuBrain : un modèle du monde avancé pour le contrôle robotique
3arXiv cs.RO 

MotuBrain : un modèle du monde avancé pour le contrôle robotique

MotuBrain est un modèle génératif multimodal unifié pour le contrôle robotique, présenté dans un preprint arXiv (identifiant 2604.27792) publié en avril 2026. Le modèle adopte une formulation UniDiffuser couplée à une architecture Mixture-of-Transformers à trois flux, lui permettant de modéliser conjointement les séquences vidéo et les actions motrices au sein d'un même réseau. Un seul modèle supporte cinq modes d'inférence distincts : apprentissage de politique, modélisation du monde, génération vidéo, dynamique inverse, et prédiction conjointe vidéo-action. Il est conçu pour s'adapter à des données hétérogènes, incluant des vidéos sans annotations d'action et des données issues de plateformes robotiques différentes (cross-embodiment). Sur le plan de l'inférence, les auteurs annoncent un gain de vitesse supérieur à 50x par rapport à des architectures comparables, ouvrant la voie à un déploiement temps réel. L'approche s'attaque à une limitation structurelle bien documentée des VLA purs comme RT-2 ou OpenVLA : leur forte généralisation sémantique masque souvent une modélisation insuffisante des dynamiques physiques fines, ce qui génère des erreurs sur des tâches de manipulation précises. En intégrant la génération vidéo comme supervision implicite des dynamiques du monde, MotuBrain s'inscrit dans la tendance des World Action Models (WAMs), dont l'hypothèse centrale est que prédire ce qui va se passer visuellement améliore la qualité des actions produites. Le support cross-embodiment est particulièrement structurant pour les intégrateurs industriels, car il réduit le coût de réentraînement lors d'un changement de plateforme matérielle. Le speedup annoncé de 50x reste à confirmer sur des benchmarks publics, le preprint ne précisant pas les configurations matérielles de référence utilisées pour cette mesure. Ce travail s'inscrit dans une compétition dense autour des modèles fondationnels pour la robotique généraliste. Physical Intelligence a mis en production Pi-0 début 2025, NVIDIA a présenté GR00T N2 avec support multi-embodiment, et Google DeepMind avance sur ses modèles RT-X et GROOT. L'affiliation institutionnelle des auteurs de MotuBrain n'est pas précisée dans l'abstract du preprint. Comme pour tout travail soumis à arXiv sans revue par les pairs, l'absence d'expériences robotiques réelles documentées en détail invite à la prudence avant d'extrapoler les performances annoncées à un contexte de déploiement industriel.

RechercheOpinion
1 source
IA physique : des modèles du monde aux modèles d'action, un tutoriel concis pour la robotique
4arXiv cs.RO 

IA physique : des modèles du monde aux modèles d'action, un tutoriel concis pour la robotique

Un article publié sur arXiv (2607.00836) dresse un état des lieux conceptuel des "world models" utilisés en robotique et en simulation générative, un terme dont le périmètre varie fortement selon les communautés de recherche. Les auteurs proposent une définition unifiée : un modèle du monde est un système conditionné par l'action qui prédit l'évolution future des observations ou des états pertinents pour une tâche donnée. Ils distinguent deux grandes familles : les modèles dans l'espace des observations, qui prédisent des images ou vidéos brutes, et les modèles dans l'espace des états, qui travaillent sur des représentations compactes. Chaque approche est comparée selon quatre critères : fidélité visuelle, structuration spatiale, interprétabilité physique et facilité d'usage pour le contrôle. Le papier introduit ensuite les "world action models", qui relient ces prédictions du futur à des actions robotiques exécutables, avec quatre paradigmes identifiés : imaginer puis exécuter, prédiction d'action conditionnée par des features vidéo, modélisation conjointe vidéo-action, et prédiction vidéo auxiliaire pour l'apprentissage de politiques. Cette clarification terminologique a une portée pratique pour les équipes qui développent des politiques robotiques : elle aide à choisir entre un modèle générateur de pixels, coûteux en calcul mais riche visuellement, et un modèle d'état plus léger, plus proche du contrôle temps réel mais moins interprétable. Elle formalise aussi un débat de fond du secteur : les modèles de génération vidéo produisent des démonstrations spectaculaires, mais leur utilité réelle pour piloter un bras ou un humanoïde reste à prouver, faute de garanties physiques strictes, ce qui rejoint les critiques récurrentes sur l'écart entre démo et déploiement réel. En distinguant explicitement l'approche "imaginer puis exécuter" des méthodes qui apprennent directement une politique conjointe vidéo-action, le tutoriel donne aux intégrateurs une grille de lecture pour évaluer les annonces commerciales selon ce qu'elles modélisent vraiment, plutôt que sur la seule qualité de leurs vidéos. Ce travail arrive alors que les world models occupent une place croissante dans la course aux modèles vision-langage-action, portée par des systèmes comme Pi-0 de Physical Intelligence, GR00T N2 de NVIDIA ou Helix de Figure AI, qui combinent tous, à des degrés divers, prédiction du futur et génération d'actions. Sans analyser directement ces produits commerciaux, la taxonomie proposée offre un cadre académique pour resituer ces systèmes les uns par rapport aux autres, à un moment où la recherche universitaire tente de structurer conceptuellement un domaine dont la vitesse de publication industrielle a largement dépassé la théorie.

RecherchePaper
1 source