Aller au contenu principal
NoiseGate : plannings de bruit par pas de temps latent comme filtrage d'information dans les modèles monde-action
IA physiquearXiv cs.RO6sem

NoiseGate : plannings de bruit par pas de temps latent comme filtrage d'information dans les modèles monde-action

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Une équipe de chercheurs publie sur arXiv (2605.07794) NoiseGate, une méthode pour améliorer les World Action Models (WAM), catégorie émergente de politiques robotiques qui couplent génération d'actions et modélisation prédictive d'observations futures. Dans ce paradigme, actions et frames anticipées sont co-générées le long d'une trajectoire de débruitage partagée via une architecture Mixture-of-Transformers (MoT), où tokens vidéo et tokens action interagissent par attention partagée. Le défaut identifié est structurel : les WAM actuels appliquent un unique scalaire de bruit à toutes les frames latentes prédites, supposant implicitement que chaque observation future est également fiable pour décider de l'action. NoiseGate remplace ce scalaire unifié par un schedule appris individuellement pour chaque latent : un réseau léger, le Gating Policy Network, émet des incréments de timestep par frame à chaque étape de débruitage, entraîné par optimisation de récompense de tâche sans prior codé manuellement. Les auteurs rapportent des gains consistants sur les benchmarks de manipulation RoboTwin en scènes aléatoires.

L'apport de NoiseGate dépasse le gain de performance : il remet en question une hypothèse implicite centrale aux politiques robotiques à base de diffusion. Sous l'angle du Diffusion Forcing, le niveau de bruit joue le rôle d'un masque d'information ; assigner le même niveau à toutes les frames prédites revient à accorder une confiance uniforme à des observations qui diffèrent en certitude selon l'horizon temporel ou la variabilité de scène. Rendre ce schedule apprenable et par-latent permet au modèle de down-pondérer dynamiquement les frames incertaines lors de la génération d'action, ce qui est particulièrement pertinent pour des manipulations impliquant des séquences longues ou des environnements stochastiques. Pour les équipes travaillant sur des architectures VLA, cela valide le couplage fin entre qualité de prédiction vidéo et décision motrice.

Les WAM s'inscrivent dans la tendance à unifier modélisation du monde et politique de contrôle dans un seul modèle génératif, approche que poursuivent aussi Physical Intelligence avec π0 et NVIDIA avec GR00T N2. Le concept de Diffusion Forcing, sur lequel NoiseGate s'appuie conceptuellement, permet l'inférence causale et le débruitage séquentiel dans des architectures multi-modales ; l'architecture MoT utilisée comme backbone est au coeur de plusieurs projets de robotique généraliste. L'étape suivante serait de valider l'approche sur des plateformes physiques réelles : les résultats présentés, obtenus en simulation RoboTwin, restent à confirmer en conditions réelles.

À lire aussi

C³ache : accélérer les modèles monde-action par cache de blocs inter-inférences
1arXiv cs.RO 

C³ache : accélérer les modèles monde-action par cache de blocs inter-inférences

Des chercheurs ont publié sur arXiv en juin 2026 (référence 2606.08962) une méthode d'accélération appelée C³ache (Cross Inference Chunk Cache), ciblant les World Action Models (WAM), une classe de modèles robotiques qui génèrent des politiques d'action en modélisant la vidéo plutôt qu'en s'appuyant uniquement sur des démonstrations étiquetées. Contrairement aux politiques VLA (Vision-Language-Action) classiques, les WAM s'entraînent sur de la vidéo non labellisée abondante, ce qui améliore leur généralisation à de nouveaux mouvements et environnements, mais au prix d'un coût d'inférence élevé. Pour exécuter une tâche, un WAM enchaîne plusieurs blocs d'inférence successifs (chunks), chacun nécessitant un processus de débruitage coûteux. Les méthodes existantes réduisent ce coût en mettant en cache les calculs au sein d'un même chunk, mais ignorent une source de redondance plus large : la forte corrélation entre les résidus calculés à un même step de débruitage, d'un chunk au suivant, lorsque le robot exécute un comportement fluide. C³ache exploite cette corrélation en réutilisant ces résidus entre chunks consécutifs, sans aucun réentraînement du modèle. Les expériences sur benchmarks avec un backbone Fast-WAM montrent un gain allant jusqu'à 2,5× sur le temps d'inférence total mesuré en wall-clock, avec une dégradation négligeable du taux de succès aux tâches. Ce résultat a une portée concrète pour les équipes cherchant à déployer des robots autonomes à coût raisonnable. Le principal frein à l'adoption industrielle des WAM n'est pas la qualité des politiques générées, mais leur latence d'inférence : réduire ce coût par 2,5× sans modifier les poids du modèle constitue un levier de déploiement immédiat, sans pipeline de réentraînement ni risque de régression. La méthode valide aussi une hypothèse structurelle utile : les trajectoires robotiques lisses produisent des représentations internes stables d'un pas à l'autre, ce qui ouvre la voie à des stratégies de cache plus agressives au niveau système. Pour les intégrateurs et les équipes MLOps, C³ache se présente comme un composant directement intégrable à tout modèle WAM existant. Les WAM s'inscrivent dans une tendance initiée par des modèles comme pi-0 de Physical Intelligence et GR00T N2 de NVIDIA, qui exploitent tous deux un objectif de génération vidéo pour apprendre à partir de données non étiquetées. La course à la réduction des coûts d'inférence pour ces architectures est intense : Google, Physical Intelligence et plusieurs laboratoires académiques explorent en parallèle la distillation, la quantification et le cache intra-chunk. C³ache se positionne comme une solution orthogonale et combinable avec ces approches. Les auteurs soulignent toutefois une limite importante : la corrélation inter-chunks supposée ne tient que pour des comportements robotiques fluides, et des mouvements brusques ou des transitions rapides pourraient dégrader les performances. Il s'agit pour l'instant d'un preprint non relu par les pairs, et les évaluations restent confinées à des benchmarks simulés ; les prochaines étapes naturelles incluent la validation sur robots physiques et l'intégration dans des pipelines embarqués à contraintes de latence strictes.

IA physiqueActu
1 source
CLAW : apprentissage de modèles du monde à actions latentes continues par régularisation latente adversariale
2arXiv cs.RO 

CLAW : apprentissage de modèles du monde à actions latentes continues par régularisation latente adversariale

Des chercheurs ont publié sur arXiv (2606.04130) un cadre d'apprentissage auto-supervisé baptisé CLAW (Continuous Latent Action World Models via Adversarial Latent Regularization), conçu pour apprendre simultanément un modèle du monde et des représentations d'actions latentes continues à partir de vidéos non annotées. La méthode ne nécessite aucun label d'action : elle s'appuie sur une régularisation adversariale des représentations latentes et sur la génération vidéo par diffusion pour inférer une structure sémantique des actions directement depuis les transitions visuelles observées. Le modèle d'action latente (LAM) et le modèle du monde sont entraînés conjointement en bout en bout, permettant au système de raisonner sur la façon dont les actions inférées induisent des transitions dans l'environnement. CLAW supporte deux modes d'utilisation : le clonage comportemental par imitation depuis l'observation, où les actions latentes extraites de vidéos brutes suffisent à reproduire un comportement, et la planification dirigée par objectif, où le système génère des séquences d'actions latentes puis les mappe vers des actions exécutables. L'enjeu central ici est l'accès aux données. La robotique souffre d'un déficit chronique de données d'entraînement annotées avec des paires (observation, action), car les capteurs proprioceptifs et la capture de mouvement sont coûteux. CLAW ouvre la voie à l'exploitation de vidéos tierces non instrumentées, comme des démonstrations humaines filmées ou des contenus web, pour entraîner des politiques et des planificateurs. Si les résultats se confirment hors laboratoire, cela réduit drastiquement le coût de collecte de données pour les intégrateurs robotiques et les équipes d'ingénierie travaillant sur le transfer sim-to-real. Les auteurs rapportent des performances supérieures aux méthodes existantes sur des tâches variées et plusieurs morphologies robotiques, bien que les benchmarks spécifiques et les métriques quantitatives détaillées ne soient pas accessibles dans l'abstract seul. CLAW s'inscrit dans un courant de recherche actif sur les modèles d'actions latentes (LAM), dont les travaux fondateurs incluent LAPO et des approches basées sur des modèles de dynamique inversale (IDM). Il se distingue en combinant génération par diffusion et régularisation adversariale là où ses prédécesseurs utilisaient souvent des encodeurs déterministes ou des VQ-VAE. Les concurrents directs dans l'espace des world models pour la robotique comprennent UniSim (Google DeepMind), GAIA-1 (Wayve) côté génération vidéo, et des approches VLA comme pi-0 (Physical Intelligence) ou GR00T N2 (NVIDIA) côté politique. CLAW se positionne en amont de ces pipelines, comme brique d'apprentissage de représentation plutôt que comme politique complète. Les prochaines étapes naturelles seront une validation sur des environnements physiques réels et l'intégration dans des boucles de fine-tuning pour des robots humanoïdes ou manipulateurs.

IA physiqueOpinion
1 source
MemoryVLA++ : modélisation temporelle par mémoire et imagination dans les modèles vision-langage-action (VLA)
3arXiv cs.RO 

MemoryVLA++ : modélisation temporelle par mémoire et imagination dans les modèles vision-langage-action (VLA)

Une équipe de chercheurs publie sur arXiv (2606.09827, juin 2026) MemoryVLA++, un framework de modélisation temporelle pour modèles VLA (Vision-Language-Action). L'architecture combine trois composants : une mémoire de travail construite à partir des tokens perceptifs et cognitifs générés par un VLM pré-entraîné sur l'observation courante ; une banque mémoire Perceptual-Cognitive qui indexe contexte sémantique et détails bas niveau des interactions passées via un mécanisme de consolidation sans redondance ; et un modèle du monde simulant des états futurs dans un espace latent de débruitage. Ces latents imaginés, guidés par la mémoire, alimentent un expert d'action à diffusion qui produit des séquences d'actions temporellement cohérentes. Évalué sur cinq benchmarks de simulation (Libero, SimplerEnv, Mikasa-Robo, Calvin, Libero-Plus) et trois catégories de tâches réelles sur trois robots distincts, le système affiche des gains de +9 % sur les tâches générales, +26 % sur les tâches mémoire-dépendantes, et +28 % sur les tâches d'anticipation. Ces résultats adressent une faiblesse structurelle des VLAs actuels (Pi-0 de Physical Intelligence, GR00T N2 de NVIDIA, OpenVLA), tous limités à l'observation instantanée et incapables de maintenir un contexte opérationnel sur plusieurs étapes. Pour des tâches longue-portée (reprendre une manipulation interrompue, enchaîner des gestes interdépendants), cette limitation est rédhibitoire en environnement industriel réel. Le gain de +26 % sur les tâches mémoire-dépendantes, mesuré hors simulation, est le point le plus solide de la publication : il suggère que l'architecture surmonte partiellement le sim-to-real gap qui affaiblit beaucoup de travaux académiques récents. Pour un intégrateur ou un COO industriel, c'est la différence entre un robot qui réinitialise sa compréhension à chaque step et un qui maintient un contexte cohérent sur l'ensemble de la séquence de manipulation. MemoryVLA++ s'inscrit dans une vague de travaux cherchant à injecter du raisonnement temporel dans les fondations robotiques, face aux architectures VLA portées par Physical Intelligence, NVIDIA et Google DeepMind. L'inspiration est explicitement cognitive : mémoire de travail (buffer court terme), système hippocampique (mémoire épisodique des interactions passées) et simulation mentale d'états futurs, trois mécanismes documentés en neurosciences. L'article reste un preprint non relu par les pairs, et les vidéos de démonstration sur la page projet méritent une lecture critique avant toute conclusion définitive. Les suites naturelles seraient une validation sur bras industriels à 6-7 DOF en environnement non contrôlé et une comparaison rigoureuse avec des approches à mémoire externe de type RAG robotique. Aucun acteur européen n'est impliqué dans ces travaux.

IA physiqueOpinion
1 source
Transformer la prévoyance en action : réorientation de l'alignement des représentations dans les modèles action-monde
4arXiv cs.RO 

Transformer la prévoyance en action : réorientation de l'alignement des représentations dans les modèles action-monde

Une équipe de chercheurs a publié sur arXiv (2606.12217) une analyse d'une limitation fondamentale des World Action Models (WAMs), architecture émergente pour la manipulation robotique. Les WAMs combinent un modèle de génération vidéo, chargé de prédire l'évolution future de la scène, avec un décodeur d'actions qui traduit ces prédictions en commandes motrices. Les auteurs constatent empiriquement qu'un modèle produisant des séquences visuelles plausibles ne génère pas nécessairement des actions précises. Par des analyses d'attention sur la tête d'action et des interventions causales, ils identifient un "mismatch" de représentations : les états cachés du modèle de diffusion vidéo sont optimisés pour la reconstruction visuelle, pas pour le contrôle moteur à bas niveau. Le décodeur d'actions peine à se focaliser sur les zones d'interaction pertinentes et reste sensible aux perturbations dans les régions non pertinentes de la scène. En réponse, les auteurs proposent AGRA (Action-Grounded Representation Alignment), un objectif de régularisation qui aligne les features intermédiaires de la diffusion vidéo avec des représentations sémantiques spatialement cohérentes issues d'un encodeur visuel de fondation. Les tests sur des tâches de manipulation réelles montrent une meilleure localisation d'objets, une compréhension accrue des affordances, et une robustesse améliorée face aux perturbations hors distribution. Ce résultat pointe un problème structurel rarement formalisé dans la littérature WAM : le gradient d'entraînement de la génération vidéo ne suffit pas à organiser les représentations internes de façon utile pour le contrôle moteur. C'est une distinction critique pour les équipes R&D investissant dans les architectures VLA (Vision-Language-Action) ou world-model-based, car posséder un bon simulateur interne ne garantit pas une bonne politique. AGRA démontre qu'un alignement explicite entre features du monde et sémantique spatiale améliore simultanément les performances en distribution et la généralisation hors distribution, un double bénéfice difficile à obtenir et précieux pour les déploiements industriels où les variations d'environnement sont inévitables. Les WAMs s'inscrivent dans une lignée de recherches incluant Dreamer (DeepMind) et les architectures world-model appliquées à la navigation et la manipulation. AGRA se distingue en ajoutant un objectif de régularisation à l'interface monde-action sans modifier l'architecture de base, ce qui le rend potentiellement applicable à d'autres variantes de WAMs. Dans l'espace de la manipulation robotique, les approches concurrentes comme Pi-0 (Physical Intelligence), RT-2 (Google DeepMind) ou OpenVLA contournent le problème en n'utilisant pas de génération vidéo explicite, ce qui place AGRA comme une réponse directe aux faiblesses spécifiques des architectures à modèle du monde. Il s'agit à ce stade d'une contribution académique arXiv sans déploiement industriel ni code public annoncé.

IA physiqueOpinion
1 source