Aller au contenu principal
Modélisation unifiée des actions dans un monde 4D à partir de vidéos avec débruitage asynchrone
RecherchearXiv cs.RO6sem

Modélisation unifiée des actions dans un monde 4D à partir de vidéos avec débruitage asynchrone

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Une équipe de recherche dépose sur arXiv (référence 2604.26694) X-WAM, un modèle de monde 4D unifié capable d'exécuter des actions robotiques en temps réel tout en générant simultanément des reconstructions vidéo haute fidélité et des cartes 3D de l'environnement futur. Contrairement à UWM et aux approches antérieures limitées à l'espace 2D en pixels, X-WAM prédit des flux RGB-D multi-caméras : une branche de prédiction de profondeur est greffée sur les derniers blocs d'un Diffusion Transformer vidéo pré-entraîné, une adaptation légère qui capitalise sur des priors visuels existants sans entraînement from scratch. La contribution technique centrale est l'Asynchronous Noise Sampling (ANS) : pendant l'inférence, les actions robotiques sont décodées en quelques étapes de débruitage pour respecter les contraintes de latence temps réel, tandis que la génération vidéo bénéficie du pipeline de débruitage complet. Pré-entraîné sur 5 800 heures de données robotiques, X-WAM atteint 79,2 % de taux de succès moyen sur le benchmark RoboCasa et 90,7 % sur RoboTwin 2.0, surpassant les méthodes existantes sur les métriques visuelles et géométriques de reconstruction.

Le compromis non résolu entre richesse de modélisation du monde et latence d'exécution est le noeud central de ce travail. Les architectures VLA actuelles, comme Pi-0 de Physical Intelligence ou GR00T N2 de NVIDIA, génèrent des actions rapidement mais n'estiment pas la géométrie 3D de l'environnement ; à l'inverse, les modèles génératifs produisent des représentations spatiales riches mais peinent à décoder à la cadence exigée par le contrôle robotique temps réel. ANS prétend supprimer ce dilemme en allouant des budgets de débruitage asymétriques entre les deux sorties à l'inférence, tout en maintenant un alignement de distribution pendant l'entraînement pour éviter l'écart train/test. Si ces résultats tiennent en conditions réelles, ce design ouvrirait une voie architecturale directe pour la manipulation complexe en espace non structuré.

X-WAM s'inscrit dans la vague de travaux visant à unifier perception, modélisation du monde et contrôle dans un seul réseau neuronal, une direction portée par Genie 2 de DeepMind, UniSim de Google et les recherches de World Labs. Le recours aux priors d'un modèle de diffusion vidéo pré-entraîné pour le grounding spatial est une stratégie partagée par plusieurs travaux récents sur le sim-to-real et les VLA de prochaine génération. Cela dit, l'article reste une prépublication arXiv sans revue par les pairs, et les benchmarks RoboCasa et RoboTwin 2.0 sont entièrement simulés : aucun déploiement sur robot physique n'est documenté. La validation sim-to-real constituera l'épreuve décisive, un écart qui a historiquement fait trébucher des systèmes très performants en environnement virtuel.

À lire aussi

AHA-WAM : modélisation monde-action asynchrone à horizon adaptatif avec routage de contexte guidé par l'observation
1arXiv cs.RO 

AHA-WAM : modélisation monde-action asynchrone à horizon adaptatif avec routage de contexte guidé par l'observation

Des chercheurs ont publié en juin 2026 AHA-WAM (Asynchronous Horizon-Adaptive World-Action Model), une architecture de contrôle robotique qui dissocie temporellement la prédiction de scène et l'exécution motrice, deux processus jusqu'ici couplés au même rythme dans les modèles monde-action existants. L'architecture repose sur deux Diffusion Transformers (DiT) fonctionnant en parallèle : un DiT "monde" opère à basse fréquence comme planificateur de scène à long horizon, maintenant une mémoire glissante de paires clé-valeur sur les observations passées ; un DiT "action" tourne à haute fréquence en boucle fermée, interrogeant ce contexte latent via une attention jointe par couche. Deux mécanismes complètent le système : un entraînement à décalage adaptatif (horizon-adaptive offset training) et un routage OVCR (Observation-Guided Video-Context Routing), qui permettent à l'expert action d'exploiter le contexte long-horizon sans relancer le DiT vidéo à chaque pas. Sur le benchmark RoboTwin, AHA-WAM atteint 92,80 % de taux de succès moyen ; sur quatre tâches de manipulation en conditions réelles, 78,3 % de succès. La fréquence de contrôle en boucle fermée est de 24,17 Hz, soit un gain de vitesse de 4,59x sur Fast-WAM, sans aucun préentraînement sur données robot. Le résultat principal à retenir pour les intégrateurs et décideurs : un modèle VLA (Vision-Language-Action) peut maintenant planifier à l'échelle de la vidéo long-horizon et agir en temps quasi-réel sans que ces deux branches s'inhibent mutuellement. L'absence de préentraînement robot est notable, car elle suggère que le transfert depuis des données vidéo génériques peut suffire pour atteindre des performances state-of-the-art en manipulation. Le gain de 4,59x en vitesse est cliniquement significatif : 24 Hz permet un contrôle réactif sur bras industriel standard, ce qui rapproche ces architectures d'un déploiement en cellule de production, même si les tâches testées restent des benchmarks de manipulation tabletop, pas des environnements industriels non structurés. AHA-WAM s'inscrit dans la vague des modèles monde-action (world-action models), un paradigme émergent qui injecte des priors physiques dans l'apprentissage de politiques en modélisant conjointement dynamique visuelle et actions. Fast-WAM, cité comme baseline directe, reste la référence de vitesse que ce travail cherche à dépasser. Du côté concurrent, les architectures VLA comme Pi-0 (Physical Intelligence) ou GR00T N2 (NVIDIA) misent également sur des transformers multimodaux pour la généralisation en manipulation, mais conservent généralement un pipeline unifié. La prochaine étape logique pour AHA-WAM serait de tester le passage à des environnements semi-structurés et d'évaluer la robustesse du routage OVCR face à des distributions d'observations hors-distribution.

RechercheOpinion
1 source
WAM-Nav : modélisation monde-action asymétrique en espace latent pour la navigation visuelle unifiée
2arXiv cs.RO 

WAM-Nav : modélisation monde-action asymétrique en espace latent pour la navigation visuelle unifiée

Des chercheurs ont publié WAM-Nav (Latent World-Action Model for Navigation), un système de navigation visuelle incarnée qui couple la génération d'actions et la prévision visuelle dans un seul modèle, déposé sur arXiv en juin 2026 (réf. 2606.04907). L'architecture repose sur un Diffusion Transformer partagé qui effectue une diffusion jointe asymétrique : il génère simultanément des actions à long horizon et une anticipation visuelle à court horizon, sans recourir aux rollouts autorégressifs multi-étapes qui alourdissent la latence d'inférence. Un mécanisme de conditionnement contextuel à double flux intègre l'historique d'ego-motion à l'échelle de l'épisode et les observations visuelles séquentielles, favorisant des trajectoires lisses et cohérentes. Un module d'alignement d'objectif unifié permet à WAM-Nav de gérer trois modes dans une seule politique : Image-Goal, Point-Goal et exploration libre (No-Goal). Sur les benchmarks ClutterScenes et InternScenes, le système améliore les taux de réussite de 15,7 % en Image-Goal et de 3,3 % en Point-Goal. En déploiement réel, WAM-Nav atteint 85 % de taux de succès moyen sur des environnements intérieurs et extérieurs variés, sans fine-tuning, soit un transfert sim-to-real zéro-shot. Ce résultat intéresse directement les intégrateurs de robotique mobile pour deux raisons concrètes. D'abord, la résolution simultanée de l'action et de l'imagination visuelle dans un seul réseau réduit l'accumulation d'erreurs typique des architectures modulaires, où le prédicteur de scène et le module de politique sont entraînés séparément et se propagent mutuellement leurs erreurs. Ensuite, un taux de 85 % en zéro-shot sur des environnements variés représente un indicateur sérieux, même si les conditions de test (densité d'obstacles, vitesses, types de sols) ne sont pas détaillées dans le résumé et méritent d'être examinées dans le papier complet. Pour un COO ou un décideur B2B, cette architecture suggère des robots de navigation capables de s'adapter à de nouveaux scénarios sans collecte de données coûteuse sur site. Le sim-to-real gap reste l'un des blocages majeurs de la robotique mobile autonome depuis des années : les politiques entraînées en simulation échouent souvent au contact du monde réel en raison des différences de rendu, de dynamique et de bruit des capteurs. WAM-Nav s'inscrit dans une vague de travaux qui combinent modèles de diffusion pour la génération d'actions et représentations latentes du monde, dans la lignée des World Models de type RSSM ou des VLA comme Pi-0 de Physical Intelligence et GR00T N2 de NVIDIA. Sur le plan concurrentiel, des approches comme NoMaD, ViNT ou les stacks Nav2/ROS 2 restent des références opérationnelles sur AMR commerciaux, et WAM-Nav devra être comparé à ces systèmes dans des conditions contrôlées identiques pour confirmer sa supériorité pratique. L'étape suivante naturelle serait une validation sur des plateformes matérielles réelles en conditions industrielles, dont aucun partenariat ni timeline n'est annoncé à ce stade.

RecherchePaper
1 source
RynnVLA-002 : un modèle unifié vision-langage-action (VLA) et du monde
3arXiv cs.RO 

RynnVLA-002 : un modèle unifié vision-langage-action (VLA) et du monde

Une équipe de recherche a publié RynnVLA-002, un modèle unifié combinant Vision-Language-Action (VLA) et world model, présenté en preprint sur arXiv (2511.17502v3). L'architecture couple deux composantes interdépendantes : le world model prédit des états visuels futurs à partir des actions et observations courantes, apprenant ainsi la physique implicite de l'environnement ; le modèle VLA génère en retour les actions suivantes depuis des observations visuelles brutes. Ce couplage bidirectionnel vise un apprentissage conjoint de la dynamique environnementale et de la planification motrice. Sur le benchmark de simulation LIBERO, RynnVLA-002 atteint 97,4 % de taux de succès sans pré-entraînement. En conditions réelles, dans des expériences conduites avec le framework open-source LeRobot de Hugging Face, l'intégration du world model améliore le taux de succès global de 50 % par rapport au modèle VLA seul. L'intérêt de cette architecture tient dans la mutualisation de deux paradigmes historiquement distincts. Les world models ont longtemps servi d'outils de planification offline ou de data augmentation, tandis que les VLA visent la génération d'actions en temps réel depuis des observations brutes. RynnVLA-002 cherche à démontrer leur renforcement mutuel : le world model corrige la génération d'actions en anticipant leurs conséquences visuelles, ce qui réduit la dépendance aux données d'entraînement dans des zones peu couvertes. Le gain de 50 % en real-world est significatif, mais le preprint reste peu disert sur la diversité des tâches testées et les conditions expérimentales précises, ce qui rend une évaluation indépendante prématurée. Pour les équipes confrontées au sim-to-real gap, l'idée d'ancrer une VLA dans une représentation physique anticipatrice constitue néanmoins une direction crédible. Les VLA sont devenus un terrain de compétition dense depuis Pi-0 de Physical Intelligence, OpenVLA, et les approches RoboVLMs, qui exploitent des backbones vision-langage pré-entraînés pour produire des politiques généralisables. Côté world models, des travaux comme Dreamer (DeepMind) et UniSim ont popularisé la prédiction vidéo comme supervision indirecte pour la robotique. RynnVLA-002 cherche à unifier explicitement ces deux lignes, se différenciant ainsi des architectures à modules séparés. À sa troisième version de preprint, le travail est en itération active, mais aucune affiliation institutionnelle claire ni partenariat industriel n'est mentionné dans l'abstract, ce qui limite l'évaluation de sa maturité réelle. Les prochaines étapes logiques incluront une validation sur des benchmarks plus exigeants comme CALVIN ou RLBench, et idéalement une publication des poids du modèle pour permettre une réplication indépendante.

UEL'utilisation de LeRobot (framework open-source de HuggingFace, entreprise française) comme cadre expérimental de référence valide l'écosystème robotique open-source porté par un acteur français, sans impact direct sur le marché ou la R&D en France/UE.

RechercheOpinion
1 source
GRAIL : génération de loco-manipulation pour humanoïdes à partir d'actifs 3D et de vidéos
4arXiv cs.RO 

GRAIL : génération de loco-manipulation pour humanoïdes à partir d'actifs 3D et de vidéos

Une équipe de chercheurs publie GRAIL (Generating Humanoid Loco-Manipulation from 3D Assets and Video Priors, arXiv:2606.05160), un pipeline entièrement virtuel qui génère des données d'entraînement en loco-manipulation humanoïde sans télé-opération ni capture de mouvement physique. La méthode compose des actifs 3D paramétrés, des scènes simulées et des modèles fondamentaux vidéo (VFM) pour reconstruire des trajectoires d'interaction humain-objet (HOI) en 4D à l'échelle métrique, en conditionnant la génération vidéo sur des configurations entièrement spécifiées : géométrie, paramètres caméra, profondeur de scène et personnage aux proportions humanoïdes, ce qui réduit l'ambiguïté de profondeur et le mismatch morphologique habituels. Le pipeline produit plus de 20 000 séquences couvrant ramassage d'objets, manipulation, assise et traversée de terrains variés. Entraîné uniquement sur ces données synthétiques via un pipeline sim-to-real, le système atteint 84 % de succès en préhension d'objets divers et 90 % en montée d'escaliers sur un Unitree G1 en conditions réelles ; l'article, soumis sur arXiv en juin 2026, est une prépublication non encore évaluée par les pairs. Ce travail s'attaque au principal goulot d'étranglement de la robotique humanoïde : générer des données de démonstration diversifiées à grande échelle sans mobiliser de temps-robot ni d'opérateurs spécialisés. La télé-opération et la mocap exigent des configurations physiques dédiées et un robot disponible à chaque session, ce qui plafonne le débit de production de données ; GRAIL déplace intégralement ce coût vers la simulation, rendant possible la composition de données pour des objets, scènes et mouvements corporels inédits. Les résultats de 84 % et 90 % en conditions réelles constituent un signal positif sur la réduction du gap sim-to-real, du moins pour ces classes de tâches. Une réserve s'impose cependant : le résumé ne détaille ni les objets testés ni le protocole de sélection des séquences d'évaluation, ce qui rend toute comparaison indépendante prématurée avant la publication complète. GRAIL s'inscrit dans une course à la donnée synthétique que se livrent les principaux laboratoires de robotique humanoïde, aux côtés des pipelines World Model de Figure AI et 1X Technologies, de RoboVerse (Microsoft Research) et des environnements Genesis pour la simulation physique générative. La distinction de GRAIL réside dans le conditionnement fort sur des actifs 3D préalables, un choix qui améliore la précision de la reconstruction 4D mais suppose la disponibilité d'assets de qualité pour chaque objet cible. Le robot retenu, l'Unitree G1, est commercialisé autour de 16 000 dollars, rendant la reproduction des résultats accessible à de nombreuses équipes académiques, contrairement aux plateformes propriétaires des acteurs industriels. Les affiliations des auteurs ne figurant pas dans le résumé arXiv disponible, les suites naturelles annoncées comprennent les tâches bimanuelles, les environnements dynamiques et l'intégration dans des pipelines VLA (Vision-Language-Action) pour la généralisation à des objets et contextes non vus lors de l'entraînement.

UELes laboratoires académiques européens spécialisés en robotique humanoïde (INRIA, CEA-List) pourraient adopter ce pipeline de génération de données synthétiques pour réduire leur dépendance à la télé-opération et à la mocap, mais aucun acteur FR/UE n'est directement impliqué dans ces travaux.

RecherchePaper
1 source