EquiVLA : un cadre général pour les modèles VLA…

IA généralisable par ancrage de représentation et alignement langage-action pour les modèles VLA

46

1arXiv cs.RO

IA généralisable par ancrage de représentation et alignement langage-action pour les modèles VLA

Le laboratoire à l'origine de ce travail publie Anchor-Align, une méthode de finetuning pour les politiques vision-langage-action (VLA), décrite dans un article arXiv (2607.13429, juillet 2026, projet en ligne sur anchoralignvla.github.io). Le problème ciblé est concret : quand un modèle vision-langage préentraîné est affiné sur des démonstrations robotiques par clonage comportemental (behavior cloning), il perd progressivement les représentations qui lui permettaient de généraliser visuellement et sémantiquement. Le co-entraînement sur des données web texte-image, remède habituel, ne corrige pas le vrai défaut : les pertes de langage et d'action portent sur des observations différentes, ce qui laisse un désalignement langage-action invisible aux benchmarks de manipulation classiques. Anchor-Align ajoute deux objectifs d'entraînement, l'un qui distille les représentations couche par couche d'une copie figée du VLM d'origine, l'autre qui convertit chaque action cible en étiquette discrète de direction de mouvement pour entraîner conjointement langage et action sur la même observation robotique. Sur un bras robotique physique xArm7, avec deux architectures VLA largement utilisées, les taux de réussite passent de 28% à 54% pour l'une et de 37% à 60% pour l'autre. L'enjeu dépasse la seule courbe de performance : c'est une remise en cause d'un présupposé du secteur des VLA, celui du "plus de données de co-entraînement suffit" pour éviter l'oubli catastrophique. En montrant qu'il existe un désalignement structurel que les benchmarks de manipulation standards ne détectent pas, les auteurs pointent un angle mort méthodologique qui concerne tous les laboratoires construisant des politiques de type RT-2, OpenVLA, Pi-0 ou GR00T. Pour les équipes qui finetunent des VLA pour des tâches industrielles, le message est que préserver les représentations préentraînées et apprendre correctement l'action ne sont pas des objectifs contradictoires, contrairement à l'hypothèse implicite du compromis généralisation-performance. Il faut toutefois noter que la majorité des gains rapportés (LIBERO-PRO, LIBERO-Plus, CALVIN) proviennent de simulation, avec seulement deux architectures testées en conditions réelles sur un unique bras robotique, ce qui limite la portée immédiate pour un déploiement industriel à grande échelle. Le contexte est celui d'une course intense autour des modèles VLA depuis l'émergence de RT-2 puis des systèmes open source comme OpenVLA, où le clonage comportemental sur démonstrations téléopérées est devenu la recette standard malgré ses limites connues de généralisation. Anchor-Align se positionne comme une brique méthodologique plutôt qu'un produit ou un robot, sans annonce de partenariat industriel ni de calendrier de déploiement pour l'instant. La suite logique serait une validation sur davantage d'architectures et de plateformes physiques, ainsi qu'une comparaison directe avec les techniques de co-entraînement existantes utilisées par les acteurs commerciaux du secteur, pour voir si le gain se maintient à l'échelle des flottes industrielles réelles.

IA physiqueActu

1 source

GEAR-VLA : un modèle VLA intégrant la géométrie pour une manipulation robotique généralisable

45

2arXiv cs.RO

GEAR-VLA : un modèle VLA intégrant la géométrie pour une manipulation robotique généralisable

Des chercheurs ont publié sur arXiv en juin 2026 (réf. 2606.08530) GEAR-VLA, un framework Vision-Language-Action (VLA) conçu pour généraliser la manipulation robotique à des objets inconnus, des décors visuels changeants et des morphologies hétérogènes. Sur le benchmark LIBERO, le modèle atteint les meilleures performances publiées à ce jour, ainsi que des résultats de pointe sur RoboTwin 2.0 et LIBERO-Plus en zero-shot. Sur un bras AgileX, GEAR-VLA affiche 85,9% de réussite ; sur le LDT-01, une morphologie absente de la phase d'entraînement, il obtient 81,0%. Le test le plus contraignant reste un benchmark de préhension universelle de 6 360 essais impliquant 212 objets inédits, où le modèle atteint 90,1% de succès. Le code et les poids seront mis en open source sur GitHub. Ce résultat s'attaque directement au problème qui freine le déploiement industriel des VLAs : la généralisation cross-embodiment et cross-catégorie d'objets. GEAR-VLA repose sur trois mécanismes distincts : un apprentissage coarse-to-fine avec préentraînement multi-sources, une intégration 3D sémantiquement alignée (backbone spatial 3D entraînable couplé à une voie visuelle VLM gelée), et une canonicalisation d'embodiment qui isole les différences morphologiques à l'interface bas niveau via un expert d'action continu de type DiT découplé en gradient. Les 90,1% obtenus sur 212 objets inédits en conditions réelles constituent une réponse partielle à l'hypothèse selon laquelle les VLAs exigent un fine-tuning spécifique à chaque nouvelle catégorie, même si l'absence d'évaluations sur des tâches longues et multi-étapes laisse la question ouverte pour les intégrateurs industriels. Les VLAs dominent la recherche en manipulation depuis RT-2 de Google DeepMind en 2023, avec des jalons successifs que sont OpenVLA (Berkeley), Pi-0 de Physical Intelligence et GR00T N2 de NVIDIA en 2025. La compétition se joue aujourd'hui précisément sur la généralisation zéro-shot et le transfert cross-embodiment, deux axes sur lesquels GEAR-VLA revendique un avantage différenciant. Les benchmarks retenus, LIBERO et RoboTwin 2.0, sont désormais des références standard du domaine, ce qui rend les comparaisons directement lisibles pour la communauté. Il s'agit d'une publication académique sans partenaire industriel annoncé ni déploiement hors laboratoire confirmé. La mise en open source des poids permettra de valider ces résultats sur des plateformes plus complexes, notamment des configurations multi-bras ou à forte variabilité environnementale.

UELa mise en open source imminente des poids permettra aux laboratoires de robotique européens (INRIA, CEA-List, universités techniques) de benchmarker GEAR-VLA sur leurs propres plateformes sans dépendre d'un fine-tuning propriétaire, réduisant potentiellement la barrière à l'adoption industrielle des VLAs en Europe.

IA physiqueOpinion

1 source

La simplicité avant tout : génération d'actions en une étape pour les modèles vision-langage-action (VLA)

45

3arXiv cs.RO

La simplicité avant tout : génération d'actions en une étape pour les modèles vision-langage-action (VLA)

Une équipe de chercheurs publie sur arXiv (2606.05737, juin 2026) une méthode simplifiée pour accélérer la génération d'actions dans les modèles VLA (vision-language-action) à base de diffusion. L'observation centrale: là où les pipelines diffusion classiques requièrent dix étapes de débruitage itératif pour produire un chunk d'actions, un simple biais de la distribution d'entraînement vers les états à bruit élevé suffit à obtenir des politiques efficaces en une seule étape, sans modèle enseignant, sans distillation et sans objectif auxiliaire. Sur les benchmarks LIBERO, LIBERO-Plus et LIBERO-Pro devenus quasi-standards pour la manipulation dextre simulée, les politiques one-step entraînées avec ce calendrier biaisé égalent ou dépassent des politiques à décodage dix-étapes entraînées avec une distribution uniforme. Sur LIBERO-Long spécifiquement, un modèle combinant un LVM de 1,4 milliard de paramètres et une tête d'action de 30 millions de paramètres atteint 95,6 % de taux de succès en une seule étape. Une validation croisée sur robot bimanual réel (plateforme YAM, dans le cadre d'une évaluation RSS) confirme la tendance, sur un échantillon limité. L'enjeu opérationnel est direct: réduire le décodage d'un facteur dix libère de la latence critique pour les applications temps-réel. Mais l'argument de fond est plus structurel. Les auteurs identifient une asymétrie fondamentale entre génération d'images et génération d'actions robotiques: un espace d'action (quelques degrés de liberté, un chunk de positions articulaires) est incomparablement plus compact qu'une image de millions de pixels. Cette différence implique que les méthodes one-step avancées développées pour la synthèse d'images (distillation de consistency models, score distillation, flow matching accéléré) ne sont pas nécessairement requises ici. Pour un intégrateur ou un décideur industriel, cela simplifie significativement le pipeline d'entraînement: pas de phase de distillation en deux étapes, pas de teacher freezing, et donc moins de complexité opérationnelle pour déployer un VLA performant. Les VLA à base de diffusion ont connu une montée en puissance rapide depuis mi-2024, portée par pi0 de Physical Intelligence, GR00T N2 de NVIDIA et Helix de Figure AI, tous construits autour d'architectures à flux diffusion ou flow-matching pour la génération d'actions. Ce travail s'inscrit dans un mouvement de simplification qui cherche à réduire la friction entre recherche et déploiement industriel. Les benchmarks LIBERO restent cantonnés à la manipulation de petits objets en environnement simulé, et la validation sur robot réel présentée ici reste préliminaire. Les prochaines étapes naturelles seront de tester cette approche à plus grande échelle sur des architectures de référence comme pi0 ou GR00T, dans des contextes d'assemblage ou de logistique où la latence d'inférence est un critère de déploiement direct.

IA physiqueOpinion

1 source

Event-VLA : fusion d'événements conditionnée par l'action pour un modèle VLA robuste

45

4arXiv cs.RO

Event-VLA : fusion d'événements conditionnée par l'action pour un modèle VLA robuste

Des chercheurs ont publié sur arXiv (référence 2606.29384) Event-VLA, un framework combinant des caméras événementielles avec des modèles Vision-Language-Action (VLA) pour rendre la manipulation robotique robuste dans des conditions d'éclairage dégradées. L'approche repose sur l'intégration de flux d'événements, une modalité de capteur neuromorphique qui encode les variations de luminosité pixel par pixel avec une résolution temporelle de l'ordre de la microseconde, contrairement aux caméras RGB classiques qui acquièrent des images complètes à fréquence fixe. L'architecture introduit un mécanisme de routage par requêtes d'action : des requêtes apprenantes extraient la sémantique pertinente à la tâche depuis le raisonnement VLA, puis agrègent sélectivement les tokens événementiels via une cross-attention à portes (gated cross-attention), produisant des représentations d'action sensibles aux conditions lumineuses. Les expériences couvrent des scénarios de simulation et de déploiement réel en faible luminosité, voire en quasi-obscurité. Ce travail s'attaque à une faille structurelle des VLA actuels, Pi-0, OpenVLA, GR00T N2 ou Helix inclus, qui sont entraînés et évalués quasi-exclusivement dans des environnements d'intérieur bien éclairés et stables. Le sim-to-real gap se double ici d'un lighting-to-real gap rarement quantifié dans les benchmarks publiés. Event-VLA démontre qu'on peut greffer une modalité événementielle sans détruire les priors sémantiques RGB-langage préentraînés, ce qui est non trivial : la plupart des fusions multimodales naïves dégradent la performance en conditions normales pour gagner en robustesse marginale. Le fait que le gain soit mesuré sans régression sur éclairage standard constitue le résultat le plus solide à retenir pour les intégrateurs industriels envisageant des déploiements en entrepôt, en extérieur ou en environnement à éclairage variable. Les caméras événementielles (Prophesee, inivation, Sony IMX636) restent onéreuses et peu présentes dans les pipelines robotiques commerciaux, ce qui limite la portée immédiate du framework. Le travail s'inscrit dans un mouvement plus large d'hybridation sensorielle pour les VLA, en parallèle d'approches tactiles (GelSight) ou proprioceptives. Côté concurrent, Boston Dynamics, Figure et Agility travaillent sur la robustesse des politiques en conditions réelles mais publient peu sur la gestion de l'éclairage. Aucun acteur européen n'est mentionné dans ce papier. Les auteurs ne précisent pas de pipeline de déploiement à l'échelle ni de timeline industrielle : il s'agit d'un résultat de recherche, pas d'un produit shipé.

UEProphesee, fabricant français de caméras événementielles, est explicitement cité comme fournisseur matériel clé, ce qui positionne l'écosystème européen du capteur neuromorphique comme brique potentielle des futurs pipelines VLA industriels robustes.

IA physiqueActu

1 source

EquiVLA : un cadre général pour les modèles VLA équivariants par rotation

À lire aussi

IA généralisable par ancrage de représentation et alignement langage-action pour les modèles VLA

GEAR-VLA : un modèle VLA intégrant la géométrie pour une manipulation robotique généralisable

La simplicité avant tout : génération d'actions en une étape pour les modèles vision-langage-action (VLA)

Event-VLA : fusion d'événements conditionnée par l'action pour un modèle VLA robuste