Aller au contenu principal
Efficient-WAM : un modèle monde-action de 1 milliard de paramètres à faible coût d'anticipation
IA physiquearXiv cs.RO3h

Efficient-WAM : un modèle monde-action de 1 milliard de paramètres à faible coût d'anticipation

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Une équipe de recherche présente Efficient-WAM, un World-Action Model (WAM) d'un milliard de paramètres conçu pour la manipulation robotique en temps réel, dont les résultats sont publiés sur arXiv (2606.10040) en juin 2026. Les WAMs constituent une classe de modèles qui couplent la prédiction visuelle du futur avec la génération d'actions motrices : le robot "imagine" ce que va ressembler la scène dans quelques instants avant de décider quoi faire. Efficient-WAM ramène la latence d'inférence à environ 100 ms par chunk lors du déploiement physique, soit un gain de 30x par rapport aux WAMs existants. Pour y parvenir, trois leviers techniques sont combinés : un expert vidéo compact distillé depuis WAN-2.2-5B (modèle de génération vidéo à 5 milliards de paramètres), des représentations vidéo token-sparse, et un débruitage asymétrique qui alloue moins d'étapes d'échantillonnage à la branche vidéo qu'à la branche action. Les évaluations portent sur le benchmark RoboTwin 2.0 et des tâches de manipulation en conditions réelles.

Le résultat central est contre-intuitif : Efficient-WAM maintient des performances d'action compétitives même si ses prédictions visuelles sont visiblement grossières, ce qui invalide l'hypothèse implicite que la fidélité photorealiste de l'imagination future est nécessaire au contrôle. Pour un intégrateur ou un responsable robotique, cela signifie que le goulot d'étranglement computationnel des WAMs n'est pas une fatalité architecturale mais un problème de design résolu ici par une re-priorisation : la vidéo future n'est plus un objectif visuel mais un signal de guidage compact pour la génération d'actions. À 100 ms par chunk, le modèle entre dans la fenêtre de faisabilité pour des boucles de contrôle sur manipulateurs industriels ou cobots, là où les WAMs précédents restaient confinés à la démonstration labo.

Les WAMs s'inscrivent dans une compétition dense avec les Vision-Language-Action models (VLAs) comme Pi-0 de Physical Intelligence, GR00T N2 de NVIDIA ou OpenVLA, qui traitent directement la génération d'actions sans passer par la prédiction vidéo explicite. L'argument des WAMs est que l'imagination du futur améliore la robustesse en dehors de la distribution d'entraînement, mais leur coût computationnel a jusqu'ici limité leur adoption. Efficient-WAM rééquilibre ce trade-off. La distillation depuis WAN-2.2-5B, un modèle de génération vidéo généraliste, suggère une stratégie de transfer learning inter-domaine qui pourrait s'étendre à d'autres architectures. Les prochaines étapes naturelles sont l'évaluation sur des plateformes humanoïdes complètes et des déploiements en environnements semi-structurés, deux dimensions absentes de ce papier.

À lire aussi

CKT-WAM : transfert de connaissances contextuelles efficient entre modèles d'action du monde
1arXiv cs.RO 

CKT-WAM : transfert de connaissances contextuelles efficient entre modèles d'action du monde

Des chercheurs ont déposé le 8 mai 2026 sur arXiv (2605.06247) CKT-WAM, un cadre de transfert de connaissances paramètre-efficient entre modèles d'action du monde (WAMs, World Action Models). L'approche résout un verrou persistant : faire bénéficier un WAM étudiant des représentations apprises par un WAM enseignant plus capable, sans réentraîner l'ensemble du réseau. Techniquement, CKT-WAM extrait des états cachés intermédiaires de l'enseignant, les compresse via une attention croisée à requêtes apprenables (LQCA), les transforme à travers un adaptateur généralisé toujours actif et des adaptateurs spécialisés à activation parcimonieuse, puis injecte ce contexte compact dans les embeddings textuels de conditionnement de l'étudiant. Sur le benchmark LIBERO-Plus, le système atteint 86,1 % de taux de réussite global en n'entraînant que 1,17 % des paramètres du modèle étudiant, approchant les performances du fine-tuning complet. En conditions réelles, quatre tâches de manipulation longue portée ont été évaluées avec 83,3 % de réussite moyenne, résultat présenté comme meilleur de la catégorie par les auteurs. Le code est disponible sur GitHub (YuhuaJiang2002/CKT-WAM). L'enjeu industriel est direct : affiner un WAM ou un VLA (Vision-Language-Action model) de taille fondationnelle exige des ressources GPU considérables ; descendre à 1,17 % de paramètres entraînables tout en conservant des performances comparables ouvre une voie concrète pour les équipes R&D à ressources limitées. La démonstration d'une généralisation zero-shot suggère que le contexte transféré encode des capacités motrices transposables au-delà des tâches d'entraînement, ce qui valide partiellement l'hypothèse d'une composabilité des modèles robotiques génératifs. Deux réserves s'imposent toutefois : les quatre scénarios réels évalués restent trop peu nombreux pour conclure à une robustesse hors laboratoire, et les conditions d'évaluation (définition du succès, variabilité environnementale, sélection des vidéos) ne sont pas détaillées dans le preprint, ce qui limite la portée des chiffres annoncés. CKT-WAM s'inscrit dans la vague actuelle des modèles robotiques fondationnels interopérables, aux côtés de Pi-0 (Physical Intelligence), GR00T N2 (NVIDIA) et Helix (Figure AI). L'idée de capitaliser sur des modèles enseignants hétérogènes plutôt que de réentraîner from scratch rejoint les travaux de distillation de connaissances explorés en académique comme en industrie, dans un contexte où la course aux WAMs s'accélère significativement depuis 2025. En Europe, Enchanted Tools et Wandercraft développent des architectures de contrôle avancées, bien que moins orientées WAMs dans leurs publications récentes. La suite logique serait une validation sur des benchmarks plus larges comme DROID ou Open-X Embodiment, et des expérimentations terrain pour confirmer la robustesse réelle du transfert en dehors des environnements contrôlés.

UELes équipes R&D européennes travaillant sur des VLAs à ressources GPU limitées (dont Enchanted Tools et Wandercraft) pourraient exploiter ce framework pour réduire drastiquement le coût d'affinage de modèles fondationnels robotiques, dès validation sur des benchmarks plus larges.

💬 1,17 % des paramètres entraînés pour des perfs comparables au fine-tuning complet, c'est le genre de chiffre qui change les plans de roadmap. Les équipes qui rêvaient de WAMs génératifs mais bloquaient sur le budget GPU vont regarder ça de près. Bon, quatre tâches réelles c'est maigre pour crier victoire, mais l'axe est le bon.

IA physiqueOpinion
1 source
FAWAM : modèles d'action du monde sensibles aux forces pour la manipulation en boucle fermée à contacts multiples
2arXiv cs.RO 

FAWAM : modèles d'action du monde sensibles aux forces pour la manipulation en boucle fermée à contacts multiples

Une équipe de chercheurs a publié sur arXiv (référence 2606.08555) FAWAM, un modèle d'action robotique intégrant les signaux de force à trois niveaux distincts du pipeline de manipulation : la perception, la prédiction et l'exécution en boucle fermée. Concrètement, le système encode des signaux force/couple sur six axes (6-DoF wrench) pour moduler la génération d'actions, prédit conjointement les actions futures et les efforts en bout d'effecteur afin de modéliser explicitement l'évolution du contact, puis utilise cette trajectoire de wrench prédite comme référence d'exécution pour corriger les actions en temps réel via un module de correction résiduelle. Sur plusieurs tâches de manipulation nécessitant des contacts riches -- vissage, insertion, assemblage par contrainte -- FAWAM affiche un taux de succès moyen supérieur de 36,25 % aux baselines purement visuelles et de 21,25 % aux baselines force-aware existantes. Il s'agit d'un preprint, sans déploiement industriel annoncé à ce stade. L'apport technique est notable pour les intégrateurs et les équipes R&D en manipulation apprise : la plupart des politiques modernes type Diffusion Policy, ACT ou des VLA (Vision-Language-Action models) traitent la force comme une modalité d'observation annexe, sans lui donner de rôle prédictif dans la dynamique future du contact. FAWAM repositionne le signal force comme variable de première classe dans l'architecture du modèle, ce qui permet une correction online des actions sans nécessiter de replanification complète. C'est précisément ce découplage entre prédiction de wrench et correction résiduelle qui explique le gain de performance : le robot anticipe l'effort attendu avant de l'observer, et ajuste en conséquence dès qu'un écart apparaît. Pour un COO ou un directeur technique envisageant des cellules d'assemblage automatisées, cela représente une réduction significative du gap simulation-réalité sur les tâches à contact fort. La manipulation en contact riche reste l'un des derniers verrous majeurs de la robotique industrielle polyvalente, là où les approches vision-seule échouent dès que les tolérances sont serrées ou les surfaces glissantes. Des travaux récents comme Pi-0 (Physical Intelligence), GR00T N2 (NVIDIA) ou les politiques de manipulation de Google DeepMind intègrent parfois la proprioception mais rarement le couple d'axe complet en boucle de prédiction. FAWAM s'inscrit dans un courant émergent de world action models orientés contact, aux côtés de travaux comme RoboDex ou des approches de manipulation tactile de Berkeley et Carnegie Mellon. La prochaine étape logique serait une validation sur robot humanoïde ou sur bras industriel en environnement semi-structuré, ce que le preprint ne couvre pas encore.

IA physiqueOpinion
1 source
Diffusion à double flux pour un modèle vision-langage-action augmenté par modèle du monde
3arXiv cs.RO 

Diffusion à double flux pour un modèle vision-langage-action augmenté par modèle du monde

Une équipe de chercheurs propose DUST (DUal-STream diffusion), un framework qui augmente les modèles vision-langage-action (VLA) avec un world model pour améliorer l'apprentissage de politiques robotiques. L'architecture repose sur un transformer de diffusion multimodal qui maintient des flux séparés pour chaque modalité (vision et action) tout en permettant un partage de connaissances inter-modal. Techniquement, DUST introduit des perturbations de bruit indépendantes, une perte flow matching découplée pour apprendre les relations causales entre modalités, et une méthode d'échantillonnage asynchrone des tokens action et vision. Sur les benchmarks simulés RoboCasa et GR-1, DUST affiche des gains allant jusqu'à 6 % par rapport aux meilleures références VLA et world-modeling actuelles, avec une amélioration supplémentaire de 2 à 5 % via le scaling à l'inférence. Sur tâches réelles avec le bras Franka Research 3, le système surpasse les baselines de 10 % en taux de succès. Le point critique ici est la gestion du "modality gap" : prédire simultanément des états visuels futurs et des séquences d'actions est un problème ouvert, car les deux modalités ont des structures temporelles et sémantiques très différentes. DUST contourne ce problème en maintenant des flux distincts plutôt qu'en les fusionnant naïvement, ce qui préserve les propriétés propres à chaque modalité. Le gain de 10 % en conditions réelles est notable, mais reste à interpréter avec prudence : les expériences portent sur un seul robot (Franka Research 3) et les tâches réelles ne sont pas détaillées dans l'abstract, ce qui limite la généralisation. La capacité de transfer learning à partir de vidéos sans annotations d'actions ouvre en revanche une voie concrète pour réduire le coût de collecte de données. DUST s'inscrit dans une vague de travaux qui cherchent à doter les VLA d'une forme de "prévoyance" via des world models, en écho à des approches comme GR-1 (Humanoid VLA de Shanghai AI Lab) ou Pi-0 de Physical Intelligence. La tendance lourde est de combiner la puissance des LLM pour le raisonnement avec des modèles prédictifs du monde physique, pour réduire le sim-to-real gap et permettre une généralisation hors distribution. La prochaine étape logique serait de tester DUST sur des morphologies robotiques hétérogènes et des tâches de manipulation longue durée, ce que le joint-training avec des datasets humains et robots suggère comme direction.

IA physiqueOpinion
1 source
Quand faire confiance à l'imagination : exécution adaptative des actions pour les modèles d'action du monde
4arXiv cs.RO 

Quand faire confiance à l'imagination : exécution adaptative des actions pour les modèles d'action du monde

Des chercheurs présentent sur arXiv (2605.06222) une méthode d'exécution adaptative pour les World Action Models (WAMs), une famille d'architectures de manipulation robotique qui prédisent simultanément les observations visuelles futures et les séquences d'actions à exécuter. Le problème structurel de ces systèmes est qu'ils exécutent un nombre fixe d'actions prédites après chaque inférence, sans vérifier si le déroulé physique réel correspond à l'état "imaginé" par le modèle. Pour y remédier, les auteurs proposent FFDC (Future Forward Dynamics Causal Attention), un vérificateur léger qui croise en temps réel les actions prédites, la dynamique visuelle anticipée, les observations caméra actuelles et les instructions en langage naturel, pour décider si le plan reste valide ou s'il faut déclencher une nouvelle inférence plus tôt. Ce module est couplé à une stratégie d'entraînement baptisée Mixture-of-Horizon Training, conçue pour améliorer la couverture des trajectoires longues. Sur le benchmark RoboTwin, FFDC réduit le nombre de passes avant du modèle de 69,10 % et le temps d'exécution de 34,02 %, avec un taux de succès en hausse de 2,54 % par rapport à une baseline à chunk court. En conditions réelles, le gain atteint 35 % de succès supplémentaire, bien que le nombre d'essais et les tâches testées ne soient pas précisés dans ce préprint. L'apport principal est de résoudre un compromis structurel qui freine le déploiement industriel des robots manipulateurs : réinférer fréquemment est réactif mais coûteux en calcul, tandis qu'exécuter de longues séquences prédites est efficace mais aveugle aux imprévus. FFDC introduit une troisième voie, où la taille du chunk d'action devient une variable émergente pilotée par la cohérence entre imagination et réalité. Ce mécanisme est particulièrement critique pour les phases de contact riche, où un décalage millimétrique entre état prédit et état réel suffit à faire échouer une saisie, et représente une avancée concrète vers des WAMs opérationnels hors environnement contrôlé. Les WAMs s'inscrivent dans la dynamique plus large des modèles d'actions visuelles et langagières (VLAs), aux côtés de Pi-0 de Physical Intelligence, GR00T N2 de NVIDIA ou RT-2 et ses successeurs chez Google DeepMind. Leur spécificité est d'intégrer explicitement une prédiction de l'état visuel futur pour planifier à plus long horizon. Ce préprint, sans affiliation industrielle déclarée, n'est pas encore évalué par les pairs. La prochaine étape naturelle serait une validation sur des benchmarks standardisés plus larges et des pilotes en environnement industriel non structuré.

IA physiqueOpinion
1 source