Aller au contenu principal
Premover : contrôle VLA rapide en agissant avant la fin des instructions
RecherchearXiv cs.RO6sem

Premover : contrôle VLA rapide en agissant avant la fin des instructions

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Une équipe de chercheurs publie sur arXiv (référence 2605.12160) un module baptisé Premover, conçu pour réduire la latence des politiques Vision-Language-Action (VLA) en exploitant le temps d'inactivité pendant lequel l'utilisateur formule sa commande. Sur le benchmark LIBERO, Premover ramène le temps d'exécution moyen de 34,0 à 29,4 secondes, soit une réduction de 13,6%, tout en maintenant un taux de réussite de 95,1% contre 95,0% pour la baseline avec instruction complète. Techniquement, le module gèle le backbone VLA existant et y greffe deux têtes de projection légères, l'une pour les patches d'image, l'autre pour les tokens de langage, qui projettent une couche intermédiaire du réseau dans un espace commun. La carte d'attention résultante (focus map), supervisée par des masques de segmentation de l'objet cible générés en simulateur, sert à réépondérer les tokens d'image de l'étape suivante. Un seuil scalaire de prédisposition, entraîné sur des préfixes d'instruction en streaming, décide du moment où la politique peut commencer à agir.

L'enjeu dépasse la simple optimisation de latence. Dans un déploiement réel, l'utilisateur met plusieurs secondes à formuler sa requête, vocalement ou par clavier, laissant la politique en veille pendant une fraction significative de l'interaction. Premover transforme cette fenêtre creuse en précomputation utile sans toucher au backbone, ce qui en fait une amélioration drop-in compatible avec les VLA existants. Le contraste avec le "naive premoving" est révélateur : agir prématurément sans le mécanisme de focus fait chuter le taux de réussite à 66,4%, ce qui démontre que l'anticipation non conditionnée est destructrice et que la focus map est bien le coeur de la contribution. Pour un intégrateur industriel, une réduction de 13,6% du temps de cycle sur des tâches de manipulation représente un gain opérationnel cumulable à l'échelle d'un déploiement.

Les VLA ont connu une accélération marquée depuis 2023, avec pi-0 de Physical Intelligence, GR00T N2 de NVIDIA et OpenVLA de Stanford University comme jalons principaux. Le problème de latence qu'attaque Premover est structurel : plus les modèles sous-jacents grossissent, plus l'inférence est lente, rendant critiques les optimisations sans régression de performance. Ce travail reste pour l'instant un preprint, sans déploiement annoncé ni validation sur matériel réel mentionnée dans l'abstract, et sa robustesse hors du benchmark LIBERO, un environnement de simulation contrôlé à portée limitée, reste à établir. Les prochaines étapes naturelles incluront une validation sim-to-real sur des plateformes comme Franka ou UR5, et une extension aux instructions vocales continues où la fenêtre d'inactivité est structurellement plus longue.

À lire aussi

DISC : découplage instruction-contrôle conditionné par l'état via la génération de politique
1arXiv cs.RO 

DISC : découplage instruction-contrôle conditionné par l'état via la génération de politique

Des chercheurs ont publié DISC (Decoupling Instruction from State-Conditioned Control via Policy Generation), une architecture de politique de manipulation robotique conditionnée par le langage, déposée sur arXiv (2605.20856) en mai 2026. L'approche repose sur un hyperréseau qui génère l'intégralité des paramètres d'une politique visuomotrice spécifique à la tâche à partir de la seule instruction textuelle. La politique générée n'accède jamais directement au langage : sa compréhension de la tâche provient exclusivement des poids produits par l'hyperréseau. Sur les benchmarks LIBERO-90 et Meta-World, DISC surpasse l'ensemble des architectures couplées évaluées, et dépasse pi-0 (Physical Intelligence) malgré l'absence de tout préentraînement sur données externes. Le code est disponible publiquement sur GitHub. Ce résultat touche à un problème structurel bien documenté dans le domaine des VLA (Vision-Language-Action models) : l'"observation leakage", c'est-à-dire la tendance des réseaux couplés à apprendre des raccourcis scène-à-action qui contournent le grounding linguistique. En pratique, cela signifie qu'un modèle peut réussir une tâche en exploitant des corrélations visuelles parasites plutôt qu'en comprenant l'instruction. DISC élimine ce chemin de fuite par construction, et non par régularisation post-hoc. Le fait de surpasser pi-0 sans préentraînement est notable : pi-0 est entraîné sur des volumes de données multi-robots à grande échelle, ce qui rend la comparaison significative pour les équipes qui cherchent à calibrer le retour sur investissement du préentraînement massif versus des architectures mieux conçues. L'hyperréseau apprend également un manifold de paramètres structuré sémantiquement, ce qui permet une adaptation few-shot à partir de très peu de démonstrations et une robustesse aux reformulations d'instructions. Les architectures de politiques conditionnées par le langage sont au coeur de la course aux robots généralistes depuis 2023, avec des travaux fondateurs comme RT-2 (Google DeepMind), OpenVLA, et pi-0 de Physical Intelligence qui ont structuré le débat autour du préentraînement à grande échelle. DISC propose une alternative architecturale plutôt que scalaire : résoudre le problème de couplage instruction-état en amont, plutôt que de le noyer dans des données. Côté concurrents directs, les approches hyperréseau pour la génération de politiques restent peu explorées en robotique de manipulation, ce qui laisse DISC dans un espace relativement dégagé pour l'instant. Les prochaines étapes naturelles seraient une validation sur hardware physique à plus grande échelle (les expériences réelles mentionnées dans le papier restent limitées à un benchmark à contexte visuel partagé) et une évaluation de la latence de génération des paramètres en conditions de déploiement industriel, deux points que le papier ne documente pas encore précisément.

RechercheOpinion
1 source
Co-VLA : modélisation structurée des actions intégrant la coordination pour systèmes VLA bi-bras
2arXiv cs.RO 

Co-VLA : modélisation structurée des actions intégrant la coordination pour systèmes VLA bi-bras

Des chercheurs ont publié Co-VLA (arXiv:2606.20285), un framework de manipulation bimanurale qui intègre des priors structurels explicites dans les modèles VLA (Vision-Language-Action). L'architecture remplace la tête d'action monolithique habituelle par un Structured Action Expert (SAE) couplé à un Latent-Aware Controller (LAC) opérant au niveau des commandes articulaires. Le SAE décompose la représentation latente en une composante partagée encodant l'intent de coordination au niveau de la tâche, et des résidus par bras capturant les ajustements d'exécution propres à chaque effecteur. Les résultats expérimentaux, en simulation et sur banc réel, montrent un gain de 27 points de taux de succès sur les tâches à coordination serrée, un doublement des performances hors-distribution (de 13 % à 27 %), et une réduction du temps d'exécution allant jusqu'à 25 % face aux baselines monolithiques. L'enjeu central est de rendre fiable et interprétable la coordination bimanurale dans des scénarios industriellement contraints : assemblage à force symétrique, manipulation d'objets déformables, chaînes de montage à deux bras. Les VLA actuels comme Pi-0 ou GR00T N2 montrent que la coordination émergente fonctionne sur des tâches simples, mais échoue à garantir la stabilité quand les contraintes d'exécution sont critiques. Co-VLA répond à cette limite sans requérir de contrôle en force ni en impédance : le LAC module en temps réel la synchronisation, l'asymétrie et les contraintes de sécurité tout en restant compatible avec les pipelines de contrôle standard, ce qui abaisse la barrière d'intégration pour les équipementiers. Le doublement des performances OOD est l'indicateur le plus stratégique, suggérant que la structure explicite améliore la robustesse hors-distribution, un critère décisif pour les déploiements industriels réels. Le domaine des VLA pour la manipulation s'est accéléré depuis 2023, porté par des modèles comme Pi-0 (Physical Intelligence), GR00T N2 (NVIDIA) et OpenVLA, qui ont repoussé les limites de la généralisation en manipulation mono et bimanurale. Co-VLA s'inscrit dans une tendance qui réintroduit de la structure explicite dans l'apprentissage end-to-end, une tension classique entre approches connexionnistes et symboliques qui refait surface à l'ère des grands modèles de fondation. Aucun partenaire industriel ni timeline de commercialisation n'est mentionné dans l'abstract : il s'agit d'un preprint de recherche académique, sans robot identifié ni déploiement annoncé à ce stade.

RechercheOpinion
1 source
APT : le pré-entraînement par expertise d'action améliore la généralisation des politiques VLA aux nouvelles instructions
3arXiv cs.RO 

APT : le pré-entraînement par expertise d'action améliore la généralisation des politiques VLA aux nouvelles instructions

Une équipe de chercheurs a publié le 11 juin 2026 sur arXiv (identifiant 2606.12366) APT (Action expert PreTraining), une méthode d'entraînement en deux étapes conçue pour améliorer la généralisation des politiques robotiques Vision-Langage-Action (VLA) face à des instructions en langage naturel hors distribution. Le problème ciblé : les modèles VLA actuels, qui couplent un grand modèle de vision-langage (VLM) préentraîné à un expert d'action continu, peinent à exécuter des consignes qu'ils n'ont pas vues pendant l'entraînement. La méthode s'applique aux architectures mainstream du domaine, notamment les architectures de style pi (Physical Intelligence) et GR00T (NVIDIA), et démontre des gains cohérents sur des instructions inédites et des tâches compositionnelles selon les expériences rapportées dans l'article. Le problème fondamental identifié par les auteurs est un déséquilibre structurel dans les données VLA : la diversité linguistique y est bien plus faible que la diversité visuelle ou motrice, ce qui pousse les politiques à s'appuyer sur des raccourcis visuels plutôt que sur les instructions textuelles. Les méthodes à actions discrètes, comme OpenVLA, atténuent ce biais via un co-entraînement vision-langage, mais les experts d'action continus, initialisés aléatoirement, génèrent des gradients bruités qui corrompent le VLM et n'exploitent pas sa capacité de compréhension linguistique. APT résout cela par une factorisation bayésienne : l'expert d'action est d'abord préentraîné comme un prior vision-action sans supervision linguistique, sur un VLM gelé (étape 1), puis les tokens de langage sont injectés via un mécanisme de fusion à porte (gated fusion) qui intègre les représentations du VLM tout en préservant le prior visuomoteur appris (étape 2). Cette séparation empêche l'imbalance linguistique de polluer l'apprentissage moteur initial. Le domaine des VLA robotiques connaît depuis 2024 une accélération notable avec pi0 de Physical Intelligence, GR00T N2 de NVIDIA, et Helix de Figure AI, tous construits autour du paradigme VLM couplé à un expert d'action continu. La généralisation aux instructions non vues reste l'un des défis non résolus du secteur : les démos en laboratoire reposent souvent sur des jeux de consignes étroits, loin de la variabilité d'un déploiement industriel réel, ce qui constitue un frein concret à la commercialisation. APT propose une réponse méthodologique à ce gap sans modifier les architectures cibles, en réordonnant uniquement leur processus d'entraînement. Les prochaines étapes naturelles incluront des validations indépendantes sur des benchmarks standardisés comme LIBERO ou RoboSuite, ainsi que des tests à l'échelle sur robots physiques en environnement non structuré.

RechercheActu
1 source
CAST : les étiquettes contrefactuelles améliorent le suivi d'instructions dans les modèles VLA
4arXiv cs.RO 

CAST : les étiquettes contrefactuelles améliorent le suivi d'instructions dans les modèles VLA

Des chercheurs ont publié sur arXiv (réf. 2508.13446, juin 2025) une méthode appelée CAST, Counterfactual Augmentation for Semantic Tracking, qui cible l'un des angles morts majeurs des modèles VLA (Vision-Language-Action) : leur incapacité à suivre des instructions linguistiques fines. L'approche ne nécessite aucune collecte de nouvelles données robot. Elle s'appuie sur des modèles de vision-langage (VLM) pour reannoter automatiquement les trajectoires existantes avec des labels contrefactuels, c'est-à-dire des descriptions alternatives de ce qui aurait pu se passer si l'instruction avait été différente. Les modèles entraînés sur ces données augmentées sont évalués sur des tâches de navigation visuo-linguistique dans trois environnements distincts (intérieur et extérieur) ainsi que sur des tâches de manipulation avec distracteurs. Le résultat clé : doublement du taux de succès par rapport aux VLAs entraînés sur les données brutes non augmentées, avec des performances dépassant les méthodes de l'état de l'art sur des commandes référentielles complexes. Ce résultat est significatif parce qu'il attaque directement le problème du language grounding dans les datasets robotiques actuels, jugé pauvre en diversité sémantique pour des observations similaires. Le fait d'obtenir ces gains sans collecte additionnelle réduit drastiquement le coût d'amélioration des politiques robot, un levier critique pour les équipes qui opèrent avec des budgets de téléopération limités. Plus structurellement, CAST valide l'hypothèse que la qualité du signal de supervision linguistique pèse autant que le volume de données brutes, une nuance souvent sous-estimée dans la course au scaling des VLAs. Les VLAs de type généraliste ont émergé comme paradigme dominant depuis 2023-2024, portés par des systèmes comme OpenVLA (Stanford), pi0 (Physical Intelligence), GR00T N2 (NVIDIA) ou RT-2 (Google DeepMind). Tous partagent la même tension : un corpus de démonstrations robot coûteux à collecter, annotées en langage naturel souvent trop homogène. CAST s'inscrit dans un courant de recherche sur l'augmentation synthétique des annotations, concurrent des approches basées sur la simulation procédurale ou le re-labeling par LLM pur. Il s'agit d'un preprint arXiv, pas encore d'un système déployé, les résultats restent à confirmer sur des robots physiques à grande échelle.

RechercheOpinion
1 source