Aller au contenu principal
LaWAM : des modèles du monde latents pour des politiques robotiques efficaces et dynamiques
RecherchearXiv cs.RO1h

LaWAM : des modèles du monde latents pour des politiques robotiques efficaces et dynamiques

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Des chercheurs ont publié en juin 2026 sur arXiv (réf. 2606.15768) LaWAM, un Latent World Action Model destiné au contrôle robotique. Le système atteint 98,6 % de taux de succès sur le benchmark LIBERO, 91,22 % sur RoboTwin, et maintient des résultats compétitifs sur des tâches de manipulation en environnement réel. Sa latence d'inférence est de 187 ms par chunk d'actions, soit jusqu'à 24 fois inférieure à celle des World Action Models (WAM) opérant dans l'espace pixel.

L'architecture résout un compromis structurel dans les VLA (Vision-Language-Action models) actuels : ces systèmes exploitent le préentraînement vision-langage à grande échelle pour le contrôle sémantique, mais restent aveugles à la dynamique physique de la scène. Les WAM corrigent ce défaut en conditionnant la politique sur une prédiction du futur, mais leur génération vidéo pixel par pixel les rend prohibitifs pour le temps réel. LaWAM substitue à cette vidéo des sous-objectifs visuels latents compacts, calculés dans l'espace de représentation d'un modèle de fondation vision préentraîné. Son composant central, le Latent World Model (LaWM), réutilise un décodeur forward pour prédire les caractéristiques d'observation future, éliminant la redondance au niveau pixel. Le résultat est une planification dynamique compatible avec les contraintes de latence du contrôle robotique industriel.

Ce travail prend place dans la convergence entre grands modèles et robotique, après que pi-0 (Physical Intelligence) et GR00T de NVIDIA ont validé l'approche VLA mais buté sur le demo-to-reality gap et la latence d'inférence. LaWAM propose une voie d'intégration plus réaliste : 187 ms par inférence autorise des boucles de contrôle à environ 5 Hz, suffisantes pour de nombreuses tâches de manipulation structurée. Le préprint ne mentionne ni partenariat industriel ni timeline de déploiement ; il s'agit à ce stade d'une contribution académique sans produit shipé ni pilote annoncé. La prochaine étape naturelle sera de valider la robustesse hors distribution sur des environnements plus variés que LIBERO et RoboTwin, qui restent des benchmarks relativement contrôlés.

À lire aussi

StressDream : piloter des modèles du monde vidéo pour évaluer et améliorer la robustesse des politiques
1arXiv cs.RO 

StressDream : piloter des modèles du monde vidéo pour évaluer et améliorer la robustesse des politiques

StressDream est une méthode proposée par des chercheurs dans un preprint arXiv (2606.00267, juin 2026) pour orienter les modèles du monde vidéo (video world models, WMs) vers des scénarios rares mais plausibles lors de l'évaluation et de l'amélioration de politiques robotiques. Le principe : au lieu de tirer des millions d'échantillons depuis un WM diffusion pour espérer tomber sur un cas d'échec critique, StressDream optimise directement le bruit initial du processus de diffusion à l'inférence, guidé par une consigne textuelle (par exemple "l'agent rate la tâche"). Deux objectifs complémentaires structurent l'optimisation : un objectif sémantique, où un modèle vision-langage (VLM) fournit des gradients en raisonnant sur la vidéo générée, et un objectif de plausibilité qui empêche le bruit optimisé de dériver hors distribution (OOD), évitant ainsi des imaginations irréalistes. La méthode est validée sur des benchmarks en conduite autonome et en manipulation robotique. L'enjeu est de taille pour les équipes de validation pré-déploiement. L'évaluation nominale des politiques, c'est-à-dire simuler ce qui se passe en moyenne, rate systématiquement les événements à fort impact mais faible probabilité : collision, lâcher d'objet, blocage de bras. Or ces cas sont précisément ceux qui bloquent la mise en production. StressDream propose de les cibler chirurgicalement sans explosion combinatoire du budget de simulation. C'est une forme de stress-test automatisé, piloté par langage naturel, applicable à n'importe quel WM diffusion existant, ce qui en fait un outil d'intégration potentiellement direct dans les pipelines d'évaluation de politique comme ceux utilisés par des laboratoires développant des VLAs (Vision-Language-Action models). Les video world models ont connu une montée en puissance rapide depuis 2023, notamment avec des travaux comme DIAMOND (Micheli et al.), UniSim ou DreamerV3, portés en partie par leur utilisation dans la robotique humanoïde et la conduite autonome. La difficulté de trouver des échecs plausibles sans déploiement réel est un frein reconnu à la certification de politiques autonomes. StressDream s'inscrit dans une dynamique plus large visant à combler le gap entre simulation et réel en enrichissant la diversité des scénarios simulés, sans pour autant halluciner des situations impossibles. Les auteurs publient des résultats vidéo sur junwon.me/StressDream, mais aucune intégration industrielle ni partenariat de déploiement n'est annoncé à ce stade.

RechercheOpinion
1 source
Revue complète des modèles du monde pour l'apprentissage robotique
2arXiv cs.RO 

Revue complète des modèles du monde pour l'apprentissage robotique

Un groupe de chercheurs a publié début mai 2026 une revue systématique sur les modèles de monde appliqués à l'apprentissage robotique (arXiv:2605.00080). Ces modèles sont des représentations prédictives qui modélisent l'évolution d'un environnement en réponse aux actions d'un agent. Utilisés dans six fonctions distinctes, policy learning, planification, simulation, évaluation, génération de données et entraînement à l'échelle fondation, ils sont devenus un composant central des architectures robotiques modernes. Le survey couvre les grandes familles d'architectures, leurs rôles fonctionnels et leurs applications dans l'embodied AI, en s'étendant à la navigation mobile et à la conduite autonome. Les auteurs inventorient également les benchmarks et protocoles d'évaluation disponibles dans le domaine, et maintiennent un dépôt GitHub mis à jour en continu pour intégrer les travaux émergents. L'intérêt de cette synthèse réside dans la fragmentation actuelle du domaine : les architectures de modèles de monde se développent en silos, reinforcement learning, génération vidéo, VLA (Vision-Language-Action models), avec peu de recoupement méthodologique. Le survey clarifie comment ces modèles s'articulent avec les politiques robotiques, comment ils servent de simulateurs appris pour le RL, et comment les modèles de monde vidéo ont évolué de la génération par imagination vers des formulations contrôlables à l'échelle fondation. Pour les équipes R&D et les intégrateurs industriels, cette cartographie facilite le choix architectural et réduit le risque de duplication des efforts. L'accélération récente du domaine est en partie portée par la montée en puissance des foundation models et de la génération vidéo large-scale depuis 2023. Les modèles de monde en robotique s'enracinent dans les travaux de Schmidhuber dans les années 1990 et ont connu un regain majeur avec DreamerV3 (Google DeepMind, 2023), UniSim, et les VLA récents intégrant une prédiction d'état futur comme Pi-0 (Physical Intelligence) ou GR00T N2 (NVIDIA). Les acteurs dominants restent américains et chinois, DeepMind, NVIDIA, Physical Intelligence, Figure AI, avec des contributions académiques majeures de Stanford, MIT et Berkeley. En Europe, les contributions restent moins visibles à l'échelle internationale, bien que des acteurs comme Pollen Robotics (France) et l'INRIA travaillent sur des approches connexes. Le principal défi identifié est de combler le sim-to-real gap via des modèles suffisamment fidèles pour substituer partiellement les environnements physiques dans la boucle d'entraînement.

UEPollen Robotics et l'INRIA sont mentionnés comme acteurs connexes mais restent en retrait international ; cette cartographie peut aider les équipes européennes à identifier les lacunes à combler face à la domination américaine et chinoise.

RecherchePaper
1 source
Modèle de diffusion adaptatif pour la manipulation robotique efficace (VADF)
3arXiv cs.RO 

Modèle de diffusion adaptatif pour la manipulation robotique efficace (VADF)

Une équipe de chercheurs a publié sur arXiv (référence 2604.15938) une proposition architecturale baptisée VADF (Vision-Adaptive Diffusion Policy Framework), visant à corriger deux défauts structurels des politiques de diffusion appliquées à la manipulation robotique. Le premier défaut est le déséquilibre de classe dû à l'échantillonnage uniforme lors de l'entraînement : le modèle traite indistinctement les exemples faciles et difficiles, ce qui ralentit la convergence. Le second est le taux d'échec à l'inférence par dépassement de délai, un problème opérationnel concret dès qu'on sort du laboratoire. VADF intègre deux composants : l'ALN (Adaptive Loss Network), un MLP léger qui prédit en temps réel la difficulté de chaque pas d'entraînement et applique un suréchantillonnage des régions à forte perte via du hard negative mining ; et l'HVTS (Hierarchical Vision Task Segmenter), qui décompose une instruction de haut niveau en sous-tâches visuellement guidées, en assignant des schedules de bruit courts aux actions simples et des schedules longs aux actions complexes, réduisant ainsi la charge computationnelle à l'inférence. L'architecture est conçue model-agnostic, c'est-à-dire intégrable à n'importe quelle implémentation existante de politique de diffusion. L'intérêt pour un intégrateur ou un responsable R&D est avant tout pratique : les politiques de diffusion souffrent de coûts d'entraînement élevés et d'une fiabilité insuffisante en déploiement réel, ce qui freine leur adoption industrielle. Si les gains annoncés par VADF se confirment sur des benchmarks indépendants, la réduction des étapes de convergence représenterait un levier significatif sur les coûts GPU, et la diminution des timeouts à l'inférence améliorerait directement la cadence opérationnelle. Il faut toutefois noter que ce travail est un preprint non évalué par des pairs, sans chiffres de performance comparatifs publiés dans l'article lui-même. Les politiques de diffusion ont émergé comme méthode de choix pour l'imitation comportementale en robotique depuis les travaux de Chi et al. en 2023 (Diffusion Policy, Columbia), avant d'être intégrées dans des architectures plus larges comme Pi-0 de Physical Intelligence ou GR00T N2 de NVIDIA. La principale tension du domaine reste le sim-to-real gap et la robustesse à l'inférence en conditions réelles, terrain sur lequel VADF prétend apporter une contribution. Les prochaines étapes logiques seraient une validation sur des benchmarks standard (RLBench, LIBERO) et une comparaison directe avec ACT ou Diffusion Policy de référence.

RecherchePaper
1 source
Modèles du monde pour la manipulation robotique : une synthèse de la littérature
4arXiv cs.RO 

Modèles du monde pour la manipulation robotique : une synthèse de la littérature

Une revue de littérature publiée sur arXiv (2606.00113) cartographie l'état de l'art des modèles du monde (world models) appliqués à la manipulation robotique. Les auteurs recensent cinq familles de représentations prédictives : modèles de dynamique latente, générateurs vidéo conditionnés par l'action, prédicteurs de scène 3D et 4D, simulateurs à contraintes physiques, et modules prédictifs embarqués dans les systèmes vision-langage-action (VLA). La revue couvre 34 jeux de données de manipulation et propose une taxonomie fonctionnelle distinguant les modèles intégrant prédiction et action de ceux servant de planificateurs explicites. Trois axes structurent l'analyse : quelle représentation future est prédite, comment la prédiction se connecte à l'action, et à quel moment du pipeline d'apprentissage robotique elle intervient. Cette synthèse répond à un besoin concret : le terme "world model" recouvre des réalités très hétérogènes, ce qui brouille les comparaisons et ralentit les transferts technologiques entre laboratoires. En posant une définition opérationnelle stricte (un world model est un système prédictif conditionné par l'action, distinct des modules de perception, des politiques ou des fonctions de valeur), les auteurs établissent un cadre commun dont manquait le secteur. La revue confirme que ces systèmes évoluent d'outils de simulation spécialisés vers une infrastructure générique pour l'apprentissage robotique : génération d'expériences synthétiques, filtrage de candidats, vérification de résultats. Ce glissement architectural touche directement les pipelines de pré-entraînement, de post-entraînement et d'adaptation à l'inférence, trois phases critiques pour quiconque industrialise un robot manipulateur. Le domaine a accéléré avec l'essor des VLA comme Pi-0 (Physical Intelligence) et GR00T N2 (NVIDIA), et l'adoption des architectures Transformer en robotique, mais sans convergence méthodologique. La fragmentation reflète une course entre grands labs (Google DeepMind, MIT, Stanford, Berkeley) et startups qui ne partagent ni benchmarks ni protocoles d'évaluation communs. Les défis ouverts identifiés par les auteurs, notamment la modélisation des contacts, le contrôle des hallucinations, l'alignement action-prédiction et le benchmarking en boucle fermée, tracent un agenda de recherche pour les prochaines années. Pour les équipes travaillant sur la manipulation industrielle ou les bras collaboratifs, cette revue constitue une feuille de route pour choisir quelle classe de world model intégrer selon le cas d'usage : data augmentation, planification prédictive ou vérification de trajectoires.

UELes équipes européennes (INRIA, CEA-List, labos collaboratifs) travaillant sur la manipulation robotique peuvent s'appuyer sur cette taxonomie pour structurer leurs choix d'architecture world model, mais aucun acteur ni financement européen n'est impliqué directement.

RecherchePaper
1 source