Aller au contenu principal
CKT-WAM : transfert de connaissances contextuelles efficient entre modèles d'action du monde
IA physiquearXiv cs.RO7sem

CKT-WAM : transfert de connaissances contextuelles efficient entre modèles d'action du monde

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UETake éditorial

Des chercheurs ont déposé le 8 mai 2026 sur arXiv (2605.06247) CKT-WAM, un cadre de transfert de connaissances paramètre-efficient entre modèles d'action du monde (WAMs, World Action Models). L'approche résout un verrou persistant : faire bénéficier un WAM étudiant des représentations apprises par un WAM enseignant plus capable, sans réentraîner l'ensemble du réseau. Techniquement, CKT-WAM extrait des états cachés intermédiaires de l'enseignant, les compresse via une attention croisée à requêtes apprenables (LQCA), les transforme à travers un adaptateur généralisé toujours actif et des adaptateurs spécialisés à activation parcimonieuse, puis injecte ce contexte compact dans les embeddings textuels de conditionnement de l'étudiant. Sur le benchmark LIBERO-Plus, le système atteint 86,1 % de taux de réussite global en n'entraînant que 1,17 % des paramètres du modèle étudiant, approchant les performances du fine-tuning complet. En conditions réelles, quatre tâches de manipulation longue portée ont été évaluées avec 83,3 % de réussite moyenne, résultat présenté comme meilleur de la catégorie par les auteurs. Le code est disponible sur GitHub (YuhuaJiang2002/CKT-WAM).

L'enjeu industriel est direct : affiner un WAM ou un VLA (Vision-Language-Action model) de taille fondationnelle exige des ressources GPU considérables ; descendre à 1,17 % de paramètres entraînables tout en conservant des performances comparables ouvre une voie concrète pour les équipes R&D à ressources limitées. La démonstration d'une généralisation zero-shot suggère que le contexte transféré encode des capacités motrices transposables au-delà des tâches d'entraînement, ce qui valide partiellement l'hypothèse d'une composabilité des modèles robotiques génératifs. Deux réserves s'imposent toutefois : les quatre scénarios réels évalués restent trop peu nombreux pour conclure à une robustesse hors laboratoire, et les conditions d'évaluation (définition du succès, variabilité environnementale, sélection des vidéos) ne sont pas détaillées dans le preprint, ce qui limite la portée des chiffres annoncés.

CKT-WAM s'inscrit dans la vague actuelle des modèles robotiques fondationnels interopérables, aux côtés de Pi-0 (Physical Intelligence), GR00T N2 (NVIDIA) et Helix (Figure AI). L'idée de capitaliser sur des modèles enseignants hétérogènes plutôt que de réentraîner from scratch rejoint les travaux de distillation de connaissances explorés en académique comme en industrie, dans un contexte où la course aux WAMs s'accélère significativement depuis 2025. En Europe, Enchanted Tools et Wandercraft développent des architectures de contrôle avancées, bien que moins orientées WAMs dans leurs publications récentes. La suite logique serait une validation sur des benchmarks plus larges comme DROID ou Open-X Embodiment, et des expérimentations terrain pour confirmer la robustesse réelle du transfert en dehors des environnements contrôlés.

Impact France/UE

Les équipes R&D européennes travaillant sur des VLAs à ressources GPU limitées (dont Enchanted Tools et Wandercraft) pourraient exploiter ce framework pour réduire drastiquement le coût d'affinage de modèles fondationnels robotiques, dès validation sur des benchmarks plus larges.

💬 Le point de vue du dev

1,17 % des paramètres entraînés pour des perfs comparables au fine-tuning complet, c'est le genre de chiffre qui change les plans de roadmap. Les équipes qui rêvaient de WAMs génératifs mais bloquaient sur le budget GPU vont regarder ça de près. Bon, quatre tâches réelles c'est maigre pour crier victoire, mais l'axe est le bon.

À lire aussi

Efficient-WAM : un modèle monde-action de 1 milliard de paramètres à faible coût d'anticipation
1arXiv cs.RO 

Efficient-WAM : un modèle monde-action de 1 milliard de paramètres à faible coût d'anticipation

Une équipe de recherche présente Efficient-WAM, un World-Action Model (WAM) d'un milliard de paramètres conçu pour la manipulation robotique en temps réel, dont les résultats sont publiés sur arXiv (2606.10040) en juin 2026. Les WAMs constituent une classe de modèles qui couplent la prédiction visuelle du futur avec la génération d'actions motrices : le robot "imagine" ce que va ressembler la scène dans quelques instants avant de décider quoi faire. Efficient-WAM ramène la latence d'inférence à environ 100 ms par chunk lors du déploiement physique, soit un gain de 30x par rapport aux WAMs existants. Pour y parvenir, trois leviers techniques sont combinés : un expert vidéo compact distillé depuis WAN-2.2-5B (modèle de génération vidéo à 5 milliards de paramètres), des représentations vidéo token-sparse, et un débruitage asymétrique qui alloue moins d'étapes d'échantillonnage à la branche vidéo qu'à la branche action. Les évaluations portent sur le benchmark RoboTwin 2.0 et des tâches de manipulation en conditions réelles. Le résultat central est contre-intuitif : Efficient-WAM maintient des performances d'action compétitives même si ses prédictions visuelles sont visiblement grossières, ce qui invalide l'hypothèse implicite que la fidélité photorealiste de l'imagination future est nécessaire au contrôle. Pour un intégrateur ou un responsable robotique, cela signifie que le goulot d'étranglement computationnel des WAMs n'est pas une fatalité architecturale mais un problème de design résolu ici par une re-priorisation : la vidéo future n'est plus un objectif visuel mais un signal de guidage compact pour la génération d'actions. À 100 ms par chunk, le modèle entre dans la fenêtre de faisabilité pour des boucles de contrôle sur manipulateurs industriels ou cobots, là où les WAMs précédents restaient confinés à la démonstration labo. Les WAMs s'inscrivent dans une compétition dense avec les Vision-Language-Action models (VLAs) comme Pi-0 de Physical Intelligence, GR00T N2 de NVIDIA ou OpenVLA, qui traitent directement la génération d'actions sans passer par la prédiction vidéo explicite. L'argument des WAMs est que l'imagination du futur améliore la robustesse en dehors de la distribution d'entraînement, mais leur coût computationnel a jusqu'ici limité leur adoption. Efficient-WAM rééquilibre ce trade-off. La distillation depuis WAN-2.2-5B, un modèle de génération vidéo généraliste, suggère une stratégie de transfer learning inter-domaine qui pourrait s'étendre à d'autres architectures. Les prochaines étapes naturelles sont l'évaluation sur des plateformes humanoïdes complètes et des déploiements en environnements semi-structurés, deux dimensions absentes de ce papier.

IA physiqueActu
1 source
Transformer la prévoyance en action : réorientation de l'alignement des représentations dans les modèles action-monde
2arXiv cs.RO 

Transformer la prévoyance en action : réorientation de l'alignement des représentations dans les modèles action-monde

Une équipe de chercheurs a publié sur arXiv (2606.12217) une analyse d'une limitation fondamentale des World Action Models (WAMs), architecture émergente pour la manipulation robotique. Les WAMs combinent un modèle de génération vidéo, chargé de prédire l'évolution future de la scène, avec un décodeur d'actions qui traduit ces prédictions en commandes motrices. Les auteurs constatent empiriquement qu'un modèle produisant des séquences visuelles plausibles ne génère pas nécessairement des actions précises. Par des analyses d'attention sur la tête d'action et des interventions causales, ils identifient un "mismatch" de représentations : les états cachés du modèle de diffusion vidéo sont optimisés pour la reconstruction visuelle, pas pour le contrôle moteur à bas niveau. Le décodeur d'actions peine à se focaliser sur les zones d'interaction pertinentes et reste sensible aux perturbations dans les régions non pertinentes de la scène. En réponse, les auteurs proposent AGRA (Action-Grounded Representation Alignment), un objectif de régularisation qui aligne les features intermédiaires de la diffusion vidéo avec des représentations sémantiques spatialement cohérentes issues d'un encodeur visuel de fondation. Les tests sur des tâches de manipulation réelles montrent une meilleure localisation d'objets, une compréhension accrue des affordances, et une robustesse améliorée face aux perturbations hors distribution. Ce résultat pointe un problème structurel rarement formalisé dans la littérature WAM : le gradient d'entraînement de la génération vidéo ne suffit pas à organiser les représentations internes de façon utile pour le contrôle moteur. C'est une distinction critique pour les équipes R&D investissant dans les architectures VLA (Vision-Language-Action) ou world-model-based, car posséder un bon simulateur interne ne garantit pas une bonne politique. AGRA démontre qu'un alignement explicite entre features du monde et sémantique spatiale améliore simultanément les performances en distribution et la généralisation hors distribution, un double bénéfice difficile à obtenir et précieux pour les déploiements industriels où les variations d'environnement sont inévitables. Les WAMs s'inscrivent dans une lignée de recherches incluant Dreamer (DeepMind) et les architectures world-model appliquées à la navigation et la manipulation. AGRA se distingue en ajoutant un objectif de régularisation à l'interface monde-action sans modifier l'architecture de base, ce qui le rend potentiellement applicable à d'autres variantes de WAMs. Dans l'espace de la manipulation robotique, les approches concurrentes comme Pi-0 (Physical Intelligence), RT-2 (Google DeepMind) ou OpenVLA contournent le problème en n'utilisant pas de génération vidéo explicite, ce qui place AGRA comme une réponse directe aux faiblesses spécifiques des architectures à modèle du monde. Il s'agit à ce stade d'une contribution académique arXiv sans déploiement industriel ni code public annoncé.

IA physiqueOpinion
1 source
Le suivi de points améliore les modèles d'action du monde
3arXiv cs.RO 

Le suivi de points améliore les modèles d'action du monde

Des chercheurs ont publié sur arXiv (référence 2605.23856) JOPAT, un modèle monde-action conjoint qui combine prédiction visuelle au niveau pixel, suivi de points 2D avec gestion de la visibilité, et prédiction d'actions, le tout dans un unique transformeur de diffusion par débruitage. L'idée centrale est de ne pas se contenter de prédire l'apparence pixel à pixel, mais d'intégrer explicitement des trajectoires de points dans la scène, ce qui donne au modèle une représentation directe du mouvement plutôt qu'une reconstruction visuelle brute. Les évaluations portent sur deux environnements : le benchmark de simulation LIBERO, largement utilisé dans la communauté manipulation, et des tâches réelles via la plateforme open-source LeRobot d'Hugging Face. Sur ces deux environnements, JOPAT surpasse les baselines pixel-only, avec les gains les plus marqués sur les tâches à horizon long impliquant occlusions, interactions inter-objets, et mouvements partiellement hors cadre. L'apport technique concret est de résoudre un problème bien connu du robot learning : la prédiction pixel-level mélange dynamique du scène avec des facteurs parasites comme l'éclairage, la texture ou les reflets, ce qui rend les représentations apprises fragiles face à des variations visuelles sans lien avec la tâche. En introduisant des tracks 2D comme signal de supervision supplémentaire, JOPAT force le modèle à construire une représentation de mouvement explicite et stable, notamment en cas d'occultation partielle ou de sortie de champ. C'est un résultat notable pour les intégrateurs qui déploient des bras manipulateurs en environnement non contrôlé : si la robustesse aux variations visuelles se confirme hors labo, cela réduit le besoin de contrôle d'éclairage et de marqueurs artificiels, deux contraintes coûteuses en production. Le suivi de points comme signal de supervision intermédiaire s'inscrit dans une tendance plus large qui cherche à doter les politiques robotiques de représentations structurées plutôt que de tout apprendre depuis les pixels bruts. Des travaux récents comme Track2Act, ATM ou RoboTAP ont exploré des approches voisines ; JOPAT se distingue en intégrant cette supervision directement dans le cadre des world-action models diffusifs, un paradigme popularisé par des modèles comme UniSim ou GROOT de NVIDIA. La plateforme LeRobot, maintenue par Hugging Face, constitue ici le pont vers des expériences matérielles reproductibles avec des robots bas coût, ce qui accélère la validation hors simulation. Les prochaines étapes naturelles seront la généralisation à des manipulateurs à degrés de liberté élevés, la tenue à des changements de fond importants, et l'évaluation sur des séquences multi-étapes représentatives des usages industriels réels.

UELe recours à la plateforme LeRobot de Hugging Face (entreprise française) comme banc de test matériel reproductible consolide la position de l'écosystème français dans l'infrastructure de recherche en robot learning.

💬 Ce que j'aime dans l'approche, c'est que plutôt que d'essayer de mieux prédire les pixels (qui mélangent le mouvement utile avec l'éclairage, les reflets, tout le bruit), ils forcent le modèle à suivre des points dans la scène. C'est bête à dire mais c'est souvent une représentation intermédiaire bien choisie qui fait la différence en robotique. Si les gains se reproduisent hors labo, tu te retrouves avec moins de setup rigide, moins de marqueurs artificiels, et c'est pas rien quand tu déploies un bras en environnement réel.

IA physiqueOpinion
1 source
WAM4D : modèle d'action du monde 4D rapide via des tokens de registre spatial
4arXiv cs.RO 

WAM4D : modèle d'action du monde 4D rapide via des tokens de registre spatial

Une équipe de chercheurs a publié fin juin 2026 sur arXiv (arXiv:2606.14048) WAM4D, un modèle d'action mondial (WAM) capable de prédire simultanément vidéo future et actions robotiques en espace 4D (3D plus temps). Sa contribution centrale repose sur des spatial register tokens légers, injectés à l'entraînement dans un transformeur causal de type Mixture-of-Transformers pour y distiller des priors géométriques denses, puis supprimés à l'inférence afin de préserver la vitesse de génération d'actions. L'architecture intègre également une attention causale mixte (causal mixture attention) segmentant la visibilité entre tokens vidéo, action et géométrie. Les résultats sont évalués sur le benchmark RoboTwin 2.0 et sur des tâches de manipulation réelle, avec des gains mesurés en cohérence spatiale et en précision de prédiction d'action. L'intérêt de l'approche tient à un compromis longtemps bloquant en robotique de manipulation: les WAMs opérant en espace 2D ou latent produisent des rollouts visuellement plausibles mais ignorent les contraintes géométriques 3D et la géométrie de contact occludée, deux facteurs critiques pour la préhension précise. À l'inverse, forcer une représentation 4D dense à l'inférence alourdit le décodage géométrique et ralentit la génération d'actions causales. WAM4D dissocie les deux phases en apprenant la géométrie à l'entraînement via les register tokens, sans répercuter ce coût à l'inférence, une stratégie comparable au token pruning dans les Vision Transformers. Ce découplage entraînement/inférence pourrait représenter un levier concret pour les équipes robotiques cherchant à intégrer des priors 3D dans des politiques fonctionnant en temps réel. Les WAMs s'inscrivent dans une tendance plus large visant à doter les robots de politiques génératives capables de simuler leurs propres conséquences avant d'agir, un domaine en concurrence directe avec UniSim et Genie 2 (Google DeepMind), ainsi que les Visual Language Action models comme Pi-0 de Physical Intelligence ou GR00T N2 de NVIDIA. WAM4D se distingue de ces approches par son ancrage explicite en géométrie 4D, là où la majorité des VLAs raisonnent en espace de features visuelles 2D ou latentes. Le paper ne mentionne ni déploiement industriel ni partenariat commercial; il s'agit d'une contribution académique dont les suites naturelles seraient une validation sur des benchmarks standardisés comme Open X-Embodiment ou des tests sur des plateformes commerciales (Franka, UR, xArm).

IA physiqueOpinion
1 source