Aller au contenu principal
μVLA : mémoire récurrente pour la manipulation partiellement observable dans les modèles VLA
RecherchearXiv cs.RO1j

μVLA : mémoire récurrente pour la manipulation partiellement observable dans les modèles VLA

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Des chercheurs ont publié sur arXiv (arXiv:2606.12497) une étude d'isolation contrôlée baptisée muVLA, une famille de variantes du modèle OpenVLA-OFT augmentées de récurrence minimale. Le principe : injecter un petit ensemble de tokens mémoire apprenables dans le transformer, transportés d'un pas de temps au suivant et mis à jour par auto-attention, sans loss auxiliaire ni modification architecturale. L'entraînement se fait de bout en bout avec rétropropagation tronquée dans le temps (TBPTT), paramétrée par la largeur mémoire m et la longueur de troncature K, avec deux règles de mise à jour comparées -- gradients inter-pas ou EMA détachée. Sur le benchmark MIKASA-Robo, muVLA porte le taux de succès moyen sur cinq tâches d'entraînement de 0,42 à 0,84 dans la configuration la plus forte, et atteint 0,23 sur des tâches hors distribution contre 0,07 pour la baseline sans mémoire. Sur LIBERO, environnement à observabilité complète, la variante récurrente la plus forte atteint 96,2 % de succès moyen -- sans régression par rapport au modèle de base.

Ce travail apporte une contribution méthodologique précise à un champ encombré d'ablations mal contrôlées. La quasi-totalité des VLA à mémoire existants couplent récurrence, retrieval, compression et objectifs hiérarchiques dans un seul système, rendant impossible d'attribuer les gains à un mécanisme isolé. muVLA démontre que la récurrence seule -- sans aucune machinerie additionnelle -- suffit à doubler le taux de succès sur des tâches à observabilité partielle, c'est-à-dire les situations où une partie de l'état pertinent a disparu du champ de vision. Pour les intégrateurs robotiques travaillant sur des cellules avec occlusions ou des séquences d'assemblage multi-étapes, c'est un signal clair : le goulot n'est pas la puissance brute du modèle de base, mais la capacité à maintenir un état latent persistant. Le résultat sur LIBERO indique également que l'ajout de mémoire ne dégrade pas les performances en pleine observabilité, ce qui lève un frein souvent cité à l'adoption de ces architectures en production.

OpenVLA est un modèle open-source lancé fin 2024 par une collaboration Stanford/Berkeley/Toyota Research Institute, positionné comme alternative ouverte aux VLA propriétaires comme RT-2 (Google DeepMind) ou pi0 (Physical Intelligence). OpenVLA-OFT en est une variante fine-tunée pour l'exécution rapide. La question de la mémoire dans les VLA est activement travaillée par plusieurs équipes -- RoboVLMs, SpatialVLA, Helix (Figure AI) -- mais avec des architectures nettement plus lourdes. muVLA se distingue par sa minimalité revendiquée et son protocole d'isolation rigoureux, ce qui en fait un outil de calibration plus qu'un système prêt au déploiement. Les auteurs délimitent explicitement le "régime de suffisance" de la récurrence minimale : elle fonctionne pour les tâches où la structure mémoire requise est homogène entre entraînement et évaluation, et atteint ses limites dès que les tâches hors distribution exigent une structure mémorielle différente. Les prochaines étapes naturelles -- combinaison avec des mécanismes de retrieval ou de compression -- sont implicitement balisées par ces résultats.

À lire aussi

Mémoire spatiale pour la manipulation hors champ de vision dans les modèles VLA
1arXiv cs.RO 

Mémoire spatiale pour la manipulation hors champ de vision dans les modèles VLA

Une équipe de chercheurs a publié en mai 2026 (arXiv:2605.22283) SOMA, un framework de mémoire spatiale conçu pour résoudre un angle mort structurel des modèles Vision-Language-Action (VLA) : leur incapacité à manipuler des objets hors du champ visuel. Le système s'appuie sur une caméra de tête mobile pour acquérir des observations multi-vues, qu'il agrège en une représentation spatiale et sémantique persistante. SOMA repose sur trois modules : une construction de mémoire spatiale par balayage angulaire, un raffinement dynamique pour maintenir la cohérence globale au fil du temps, et une récupération contextuelle qui active les indices spatiaux pertinents à l'instruction en cours d'exécution. Les chercheurs l'ont évalué sur cinq tâches réelles de manipulation hors champ, incluant des scénarios multi-étapes et à deux bras où les objets cibles sont initialement invisibles. Les résultats montrent une amélioration du taux de succès, une localisation plus rapide des cibles, moins de recherche de point de vue, et un comportement proche du "one-shot grasping" en conditions d'observabilité partielle. Des expériences complémentaires sur les benchmarks RoboCasa GR1 et SimplerEnv confirment l'efficacité du design mémoire en contexte pleinement observable. Ce travail s'attaque à un verrou souvent ignoré dans la littérature VLA : l'hypothèse implicite que tous les objets pertinents sont dans le champ de vision au moment de l'action. Cette hypothèse rend les systèmes actuels fragiles dès qu'on sort des configurations de démonstration. Le fait que SOMA induise des comportements qualitativement différents, et non de simples gains de score, est notable : une localisation en quasi-une-passe sous observabilité partielle est un résultat concret pour tout intégrateur robotique travaillant en environnement non structuré. Cela suggère que la mémoire spatiale persistante peut s'ajouter comme couche modulaire à un VLA existant, sans refonte complète de l'architecture, ce qui abaisse le seuil d'adoption. Les VLAs ont émergé comme approche dominante en robotique de manipulation depuis fin 2023, portés par Pi-0 de Physical Intelligence, GR00T N2 de NVIDIA, et OpenVLA issu de Stanford et Berkeley. Ces modèles héritent de l'architecture vision-langage mais restent fondamentalement réactifs : ils traitent un flux visuel instantané sans mémoire de scène. Des travaux parallèles sur la mémoire épisodique existent en navigation mobile (méthodes SLAM-like, NeRF tactique), mais leur intégration dans des pipelines VLA de manipulation reste peu explorée. SOMA comble ce gap sur une plateforme à bras réel. Le code n'est pas encore disponible au moment de la publication, ce qui limite la reproductibilité immédiate ; son déploiement sur d'autres plateformes humanoïdes, au-delà de GR1, constituera l'étape de validation industrielle clé.

RechercheOpinion
1 source
Attaques adversariales par patches partiellement observables sur les modèles VLA en robotique
2arXiv cs.RO 

Attaques adversariales par patches partiellement observables sur les modèles VLA en robotique

Des chercheurs ont publié début juin 2026 une étude (arXiv:2606.03556) démontrant la vulnérabilité des modèles Vision-Language-Action (VLA) à des attaques adversariales par patch dans des conditions partiellement observables. Contrairement aux travaux antérieurs qui supposaient un accès complet à l'intégralité de la trajectoire d'exécution du robot, cette équipe formule un modèle de menace plus réaliste : l'adversaire ne dispose que d'un court préfixe de trajectoire pour générer un patch visuel fixe, ensuite appliqué à toutes les trames suivantes. Leur framework en deux phases consiste d'abord à localiser la zone optimale du patch en exploitant les cartes d'attention du modèle pour identifier les régions visuellement critiques liées à l'instruction en cours, puis à optimiser ce patch pour simultanément perturber l'ancrage sémantique des objets cibles et augmenter la courbure des trajectoires d'action planifiées. Les expériences menées en simulation et en environnements robotiques réels montrent une réduction significative des taux de succès sur des tâches longues. Ce résultat est important car les VLA sont de plus en plus intégrés dans des bras manipulateurs et des robots mobiles déployés en environnements industriels et logistiques, précisément parce qu'ils promettent une généralisation robuste à partir d'instructions en langage naturel. Prouver qu'un patch physique imprimable, placé dans le champ de vision du robot, peut dégrader durablement ses performances de contrôle sans accès complet à son état interne remet en question les hypothèses de sécurité des déploiements actuels. Cela soulève un gap réel entre robustesse en démo contrôlée et résilience en production, particulièrement pour des intégrateurs qui s'appuient sur des modèles comme OpenVLA, pi-0 (Physical Intelligence) ou RT-2 (Google DeepMind) sans auditer leur surface d'attaque perceptive. Les VLA connaissent une montée en puissance depuis 2023 avec RT-2 de Google, suivi de pi-0 de Physical Intelligence et des travaux d'Embodied Intelligence. La sécurité adversariale de ces modèles reste un angle quasi-inexploré dans la littérature par rapport à leur homologues LLM ou vision-langage purs. Cette publication s'inscrit dans un effort émergent pour caractériser les vecteurs d'attaque physiques sur les systèmes robotiques autonomes, un enjeu croissant alors que Figure AI, Agility Robotics et 1X Technologies accélèrent leurs déploiements en entrepôt. Les prochaines étapes probables incluent des défenses basées sur l'augmentation adversariale à l'entraînement et des mécanismes de détection d'anomalie sur les cartes d'attention, domaine dans lequel des équipes européennes comme celles du LAAS-CNRS et du DLR commencent également à publier.

UELes équipes du LAAS-CNRS et du DLR commencent à publier sur la défense adversariale des VLA, positionnant l'Europe comme contributrice émergente à la sécurisation des déploiements robotiques industriels.

RechercheOpinion
1 source
Les modèles du monde latents comprennent-ils les contraintes de sécurité partiellement observables ?
3arXiv cs.RO 

Les modèles du monde latents comprennent-ils les contraintes de sécurité partiellement observables ?

Une équipe de chercheurs publie sur arXiv (2510.06492v2) une étude systématique des défaillances des modèles du monde latents face à des contraintes de sécurité partiellement observables. Appliquée à un bras manipulateur Franka Research 3 sur des tâches de cuisine, la recherche identifie deux modes de défaillance distincts. Le premier, appelé "estimation gap", survient quand l'observation courante ne révèle pas une grandeur critique pour la sécurité : la température d'une surface de cuisson, invisible en RGB seul, en est l'exemple central. Le second, le "prediction gap", désigne les situations où la défaillance devient observable dès qu'elle se produit, mais ne peut être anticipée à partir des observations disponibles. Les auteurs proposent deux diagnostics quantitatifs associés : une mesure d'observabilité de sécurité basée sur l'information mutuelle, et une mesure de prédictibilité future fondée sur des rollouts simulés. Deux stratégies de mitigation sont ensuite validées en hardware : la supervision multimodale privilégiée (ajout de capteurs thermiques ou tactiles au flux RGB) pour combler les estimation gaps, et la calibration de risque conforme (conformal risk calibration) pour les prediction gaps, avec des résultats mesurés sur le robot réel. Ces résultats posent une question structurante pour le secteur : les représentations latentes produites par un world model entraîné sur observations RGB sont-elles suffisantes pour garantir un contrôle fiable en environnement industriel ? La réponse empirique ici est non, et ce constat a des implications directes pour les intégrateurs qui déploient des bras robotisés sur des lignes de production où des variables non-visuelles (température, force de contact, couple) conditionnent la sécurité. La calibration conforme, issue de la théorie statistique de la prédiction, permet de borner le risque de violation de contrainte sans retrainer le modèle, ce qui représente un avantage pratique pour les déploiements existants. La contrepartie documentée est une conservatisme accru du contrôleur, se traduisant par une réduction du taux de complétion des tâches : la sécurité est améliorée, mais au prix d'une productivité moindre, un arbitrage classique que les COO devront quantifier pour leur contexte. Le travail s'inscrit dans la lignée des world models de type Dreamer et RSSM (Recurrent State Space Model), popularisés par DeepMind, qui apprennent une représentation compressée de l'état du monde pour planifier en espace latent. Cette approche gagne du terrain face aux politiques purement réactives, notamment dans les architectures VLA (Vision-Language-Action) portées par des équipes comme Physical Intelligence (Pi-0), Google DeepMind (GR00T) ou Figure AI. La plupart de ces modèles s'appuient sur des flux RGB ou RGBD, ignorant les modalités thermiques ou haptiques, ce que cette étude remet en cause sur des tâches à risque. Le Franka Research 3 est le banc d'essai standard de la communauté, ce qui facilite la reproductibilité. Les prochaines étapes probables incluent l'extension à des configurations multi-bras, l'intégration dans des pipelines VLA de production, et la question ouverte de savoir comment sélectionner automatiquement les modalités nécessaires à la sécurité pour une tâche donnée.

RechercheActu
1 source
AnchorRefine : manipulation synergique par ancrage de trajectoire et raffinement résiduel pour les modèles VLA
4arXiv cs.RO 

AnchorRefine : manipulation synergique par ancrage de trajectoire et raffinement résiduel pour les modèles VLA

Une équipe de chercheurs a publié sur arXiv (arXiv:2604.17787) AnchorRefine, un framework hiérarchique conçu pour améliorer les modèles vision-langage-action (VLA) dans les tâches de manipulation robotique de précision. Le principe central repose sur une décomposition en deux niveaux : un planificateur d'ancres de trajectoire (anchor planner) qui génère un squelette de mouvement grossier, et un module de raffinement résiduel qui corrige les déviations en phase d'exécution pour améliorer la précision géométrique et de contact. Le système intègre également un mécanisme de raffinement de pince sensible aux transitions discrètes (decision-aware gripper refinement), conçu pour mieux capturer le caractère binaire et critique aux frontières du contrôle de préhension. Évalué sur les benchmarks LIBERO et CALVIN, ainsi que sur des tâches en robot réel, AnchorRefine affiche des gains allant jusqu'à 7,8 points de pourcentage en taux de succès en simulation et 18 points en conditions réelles, sur des backbones VLA à base de régression comme de diffusion. Le problème que cette architecture cherche à résoudre est structurel dans la conception actuelle des politiques VLA : lorsqu'une politique génère toutes les actions dans un espace unifié, les grands mouvements de transport dominent l'optimisation et noient les signaux correctifs de faible amplitude, pourtant critiques pour les tâches de précision comme l'assemblage, l'insertion ou la manipulation d'objets fragiles. En séparant explicitement la planification macroscopique de l'ajustement microscopique, AnchorRefine reproduit une structure proche de la motricité humaine, où la trajectoire globale et la correction locale sont des processus distincts. Le gain de 18 % en conditions réelles est significatif car il suggère une réduction effective du sim-to-real gap sur les tâches de contact, un verrou majeur pour la commercialisation des manipulateurs polyvalents. Ce travail s'inscrit dans une tendance de fond en robotique académique : l'hybridation entre planification à haut niveau (souvent guidée par le langage ou la vision) et contrôle fin en boucle fermée. Des approches comme pi0 (Physical Intelligence) ou GR00T N2 (NVIDIA) intègrent déjà des mécanismes proches, tandis que des labos comme celui de Chelsea Finn (Stanford) ou Sergey Levine (Berkeley) explorent la hiérarchie action depuis plusieurs années. AnchorRefine se distingue en proposant une solution modulaire compatible avec des backbones existants sans réentraîner l'ensemble du modèle, ce qui facilite potentiellement son intégration dans des pipelines VLA déjà déployés. Les auteurs ne mentionnent pas de partenariat industriel ni de timeline de déploiement, et les évaluations restent cantonnées à des benchmarks académiques, ce qui tempère les conclusions sur la robustesse en environnement non contrôlé.

RechercheOpinion
1 source