Aller au contenu principal
EquiVLA : un cadre général pour les modèles VLA équivariants par rotation
IA physiquearXiv cs.RO2h

EquiVLA : un cadre général pour les modèles VLA équivariants par rotation

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Des chercheurs ont publié EquiVLA (arXiv:2606.19784), le premier cadre général pour rendre les modèles Vision-Langage-Action (VLA) équivariants par rotation SO(2) de bout en bout. Le système introduit deux composants modulaires : EquiPerceptor, qui extrait des représentations visuelles approximativement SO(2)-équivariantes à partir de features ViT gelées, et EquiActor, une tête d'action exactement SO(2)-équivariante basée sur un Diffusion Transformer à flow-matching. Instancié sur GR00T N1.5 (le modèle de manipulation généraliste de NVIDIA), EquiVLA atteint 92,6 % de succès moyen sur les quatre suites de benchmarks LIBERO contre 78,1 % pour la baseline, une longueur de séquence de 4,03 sur CALVIN ABCD→D contre 3,45, et améliore le taux de succès sur cinq tâches réelles avec le robot Mobile ALOHA de 54 % à 72 %.

Le problème central qu'adresse EquiVLA est structurel : les VLA actuels manquent de biais inductifs géométriques, ce qui signifie qu'une politique entraînée dans une orientation donnée nécessite substantiellement plus de données pour généraliser à d'autres configurations rotationnelles. En imposant l'équivariance SO(2) de la caméra jusqu'aux séquences d'actions prédites, le framework réduit la dépendance aux données d'orientation. Pour un intégrateur ou un COO industriel, l'implication concrète est une meilleure robustesse opérationnelle sans retraining coûteux lorsqu'un poste de travail est réorganisé. Le gain de 18 points absolus sur LIBERO et le passage de 54 % à 72 % sur robot réel sont significatifs, même si ces résultats restent obtenus en conditions de laboratoire contrôlé et ne constituent pas encore un déploiement industriel.

Les VLA sont devenus le paradigme dominant de la manipulation généraliste depuis RT-2 et PaLM-E, avec des modèles concurrents comme Pi-0 (Physical Intelligence), OpenVLA et GR00T N1.5 de NVIDIA, publié début 2025 comme modèle de référence pour la manipulation humanoïde. L'approche modulaire d'EquiVLA - les backbones vision-langage gelés restent intacts - facilite l'adoption sur des architectures existantes sans repartir de zéro. Ce papier est une contribution académique sans partenariat commercial annoncé ; les suites naturelles seraient d'étendre l'équivariance à SO(3) pour les manipulateurs à 6 DOF, et de valider la robustesse à grande échelle dans des environnements industriels moins structurés.

À lire aussi

GEAR-VLA : un modèle VLA intégrant la géométrie pour une manipulation robotique généralisable
1arXiv cs.RO 

GEAR-VLA : un modèle VLA intégrant la géométrie pour une manipulation robotique généralisable

Des chercheurs ont publié sur arXiv en juin 2026 (réf. 2606.08530) GEAR-VLA, un framework Vision-Language-Action (VLA) conçu pour généraliser la manipulation robotique à des objets inconnus, des décors visuels changeants et des morphologies hétérogènes. Sur le benchmark LIBERO, le modèle atteint les meilleures performances publiées à ce jour, ainsi que des résultats de pointe sur RoboTwin 2.0 et LIBERO-Plus en zero-shot. Sur un bras AgileX, GEAR-VLA affiche 85,9% de réussite ; sur le LDT-01, une morphologie absente de la phase d'entraînement, il obtient 81,0%. Le test le plus contraignant reste un benchmark de préhension universelle de 6 360 essais impliquant 212 objets inédits, où le modèle atteint 90,1% de succès. Le code et les poids seront mis en open source sur GitHub. Ce résultat s'attaque directement au problème qui freine le déploiement industriel des VLAs : la généralisation cross-embodiment et cross-catégorie d'objets. GEAR-VLA repose sur trois mécanismes distincts : un apprentissage coarse-to-fine avec préentraînement multi-sources, une intégration 3D sémantiquement alignée (backbone spatial 3D entraînable couplé à une voie visuelle VLM gelée), et une canonicalisation d'embodiment qui isole les différences morphologiques à l'interface bas niveau via un expert d'action continu de type DiT découplé en gradient. Les 90,1% obtenus sur 212 objets inédits en conditions réelles constituent une réponse partielle à l'hypothèse selon laquelle les VLAs exigent un fine-tuning spécifique à chaque nouvelle catégorie, même si l'absence d'évaluations sur des tâches longues et multi-étapes laisse la question ouverte pour les intégrateurs industriels. Les VLAs dominent la recherche en manipulation depuis RT-2 de Google DeepMind en 2023, avec des jalons successifs que sont OpenVLA (Berkeley), Pi-0 de Physical Intelligence et GR00T N2 de NVIDIA en 2025. La compétition se joue aujourd'hui précisément sur la généralisation zéro-shot et le transfert cross-embodiment, deux axes sur lesquels GEAR-VLA revendique un avantage différenciant. Les benchmarks retenus, LIBERO et RoboTwin 2.0, sont désormais des références standard du domaine, ce qui rend les comparaisons directement lisibles pour la communauté. Il s'agit d'une publication académique sans partenaire industriel annoncé ni déploiement hors laboratoire confirmé. La mise en open source des poids permettra de valider ces résultats sur des plateformes plus complexes, notamment des configurations multi-bras ou à forte variabilité environnementale.

UELa mise en open source imminente des poids permettra aux laboratoires de robotique européens (INRIA, CEA-List, universités techniques) de benchmarker GEAR-VLA sur leurs propres plateformes sans dépendre d'un fine-tuning propriétaire, réduisant potentiellement la barrière à l'adoption industrielle des VLAs en Europe.

IA physiqueOpinion
1 source
La simplicité avant tout : génération d'actions en une étape pour les modèles vision-langage-action (VLA)
2arXiv cs.RO 

La simplicité avant tout : génération d'actions en une étape pour les modèles vision-langage-action (VLA)

Une équipe de chercheurs publie sur arXiv (2606.05737, juin 2026) une méthode simplifiée pour accélérer la génération d'actions dans les modèles VLA (vision-language-action) à base de diffusion. L'observation centrale: là où les pipelines diffusion classiques requièrent dix étapes de débruitage itératif pour produire un chunk d'actions, un simple biais de la distribution d'entraînement vers les états à bruit élevé suffit à obtenir des politiques efficaces en une seule étape, sans modèle enseignant, sans distillation et sans objectif auxiliaire. Sur les benchmarks LIBERO, LIBERO-Plus et LIBERO-Pro devenus quasi-standards pour la manipulation dextre simulée, les politiques one-step entraînées avec ce calendrier biaisé égalent ou dépassent des politiques à décodage dix-étapes entraînées avec une distribution uniforme. Sur LIBERO-Long spécifiquement, un modèle combinant un LVM de 1,4 milliard de paramètres et une tête d'action de 30 millions de paramètres atteint 95,6 % de taux de succès en une seule étape. Une validation croisée sur robot bimanual réel (plateforme YAM, dans le cadre d'une évaluation RSS) confirme la tendance, sur un échantillon limité. L'enjeu opérationnel est direct: réduire le décodage d'un facteur dix libère de la latence critique pour les applications temps-réel. Mais l'argument de fond est plus structurel. Les auteurs identifient une asymétrie fondamentale entre génération d'images et génération d'actions robotiques: un espace d'action (quelques degrés de liberté, un chunk de positions articulaires) est incomparablement plus compact qu'une image de millions de pixels. Cette différence implique que les méthodes one-step avancées développées pour la synthèse d'images (distillation de consistency models, score distillation, flow matching accéléré) ne sont pas nécessairement requises ici. Pour un intégrateur ou un décideur industriel, cela simplifie significativement le pipeline d'entraînement: pas de phase de distillation en deux étapes, pas de teacher freezing, et donc moins de complexité opérationnelle pour déployer un VLA performant. Les VLA à base de diffusion ont connu une montée en puissance rapide depuis mi-2024, portée par pi0 de Physical Intelligence, GR00T N2 de NVIDIA et Helix de Figure AI, tous construits autour d'architectures à flux diffusion ou flow-matching pour la génération d'actions. Ce travail s'inscrit dans un mouvement de simplification qui cherche à réduire la friction entre recherche et déploiement industriel. Les benchmarks LIBERO restent cantonnés à la manipulation de petits objets en environnement simulé, et la validation sur robot réel présentée ici reste préliminaire. Les prochaines étapes naturelles seront de tester cette approche à plus grande échelle sur des architectures de référence comme pi0 ou GR00T, dans des contextes d'assemblage ou de logistique où la latence d'inférence est un critère de déploiement direct.

IA physiqueOpinion
1 source
Pilotage unifié du bruit pour l'adaptation guidée par l'humain des modèles VLA
3arXiv cs.RO 

Pilotage unifié du bruit pour l'adaptation guidée par l'humain des modèles VLA

Des chercheurs ont publié sur arXiv (référence 2605.10821, mai 2026) UniSteer, un framework d'adaptation des modèles VLA (vision-language-action) basés sur la diffusion pour la manipulation robotique en conditions réelles. L'approche combine deux mécanismes jusqu'ici incompatibles : l'apprentissage par renforcement dans l'espace du bruit (noise-space RL), qui optimise un acteur léger sans toucher au modèle VLA préentraîné gelé, et les interventions correctives humaines fournies en espace d'action. La clé technique est une inversion approximative action-vers-bruit (action-to-noise inversion) appliquée au décodeur flow-matching gelé, ce qui permet de convertir chaque correction humaine en cible de supervision directement exploitable par le même acteur bruit que le RL optimise en parallèle. Sur quatre tâches de manipulation réelles et distinctes, UniSteer fait passer le taux de succès de 20 % à 90 % en 66 minutes d'adaptation en moyenne, surpassant les baselines noise-space RL autonomes et les approches human-in-the-loop en espace d'action. Ce résultat est significatif parce que l'adaptation on-robot reste le goulot d'étranglement majeur entre les VLA préentraînés et le déploiement industriel. Les modèles comme pi-0 (Physical Intelligence) ou GR00T N2 (NVIDIA) montrent de fortes capacités en simulation et sur des distributions de données larges, mais se dégradent rapidement face aux distributions réelles spécifiques à un site ou à une tâche. UniSteer démontre qu'il est possible d'atteindre une adaptation efficace en moins d'une heure de temps robot, un budget crédible pour un intégrateur industriel. La précision à nuancer : les 66 minutes sont une moyenne sur quatre tâches contrôlées en laboratoire, et les conditions expérimentales exactes (complexité des tâches, variabilité de l'environnement, fréquence des interventions humaines) ne sont pas encore pleinement documentées dans le preprint. Ce travail s'inscrit dans une dynamique de recherche intense sur le fine-tuning des VLA post-déploiement, aux côtés d'approches comme RLIF (reinforcement learning from interventions) et DAgger. Le noise-space RL avait été proposé comme alternative moins coûteuse au fine-tuning complet, mais souffrait d'une exploration autonome inefficace. UniSteer comble ce déficit en injectant du signal humain sans nécessiter de réentraîner l'architecture de dénoising. Les suites logiques incluent des validations sur des VLA commerciaux (pi-0, GR00T N2, Helix d'Agility Robotics) et des tâches à plus longue chaîne d'actions, où la composante humaine pourrait devenir prohibitivement coûteuse. Aucun partenaire industriel ni calendrier de transfert n'est annoncé : il s'agit d'un preprint académique, pas d'un produit.

IA physiqueOpinion
1 source
VLA Foundry : un cadre unifié pour l'entraînement des modèles vision-langage-action
4arXiv cs.RO 

VLA Foundry : un cadre unifié pour l'entraînement des modèles vision-langage-action

Le laboratoire TRI-ML (Toyota Research Institute Machine Learning) publie VLA Foundry, un framework open-source qui unifie dans une seule base de code l'entraînement des modèles LLM, VLM et VLA (Vision-Language-Action). Jusqu'ici, la majorité des pipelines open-source de robotique apprenante se concentraient exclusivement sur l'étape d'entraînement à l'action, assemblant à la hâte des briques de préentraînement incompatibles entre elles. VLA Foundry propose à la place un continuum de bout en bout: du préentraînement linguistique jusqu'au fine-tuning spécialisé pour le contrôle moteur. Deux familles de modèles sont publiées simultanément: la première entraînée intégralement depuis zéro via le pipeline LLM→VLM→VLA, la seconde construite sur le backbone Qwen3-VL d'Alibaba. Les deux sont évalués en boucle fermée sur LBM Eval, un simulateur open-source et open-data de manipulation sur table. Sur les tâches multi-objets, le modèle fondé sur Qwen3-VL dépasse la baseline de façon significative, sans que TRI-ML ne quantifie précisément l'écart dans le résumé publié. Le code est disponible sur GitHub (TRI-ML/vla_foundry) et les poids sont libérés sur HuggingFace. Ce que VLA Foundry prouve concrètement, c'est que le choix du backbone VLM est un levier critique: partir d'un modèle vision-langage préentraîné et performant comme Qwen3-VL, plutôt que de construire une architecture robotique ad hoc, améliore substantiellement la politique de contrôle multi-tâches. Pour les équipes d'intégration et les chercheurs, cela valide une stratégie de transfert: exploiter les représentations génériques des grands VLMs commerciaux ou open-weights plutôt que de repartir de zéro. Par ailleurs, le fait que le modèle from-scratch atteigne les performances des travaux closed-source antérieurs de TRI-ML constitue un signal positif pour la reproductibilité de cette classe de modèles, souvent opaque dans la littérature. TRI-ML est l'un des laboratoires de robotique académique les plus actifs, avec une longue historique en apprentissage par renforcement et en manipulation. Dans la course aux VLA, il affronte désormais Physical Intelligence et son modèle pi0, Figure AI avec Helix, Google DeepMind (RT-2, et ses successeurs), ainsi que plusieurs startups émergentes. L'appui sur Qwen3-VL, un modèle produit par l'équipe Qwen d'Alibaba, illustre la tendance croissante à hybrider les avancées du monde NLP avec les contraintes du monde physique. Les prochaines étapes mentionnées incluent des améliorations d'outillage pour le simulateur LBM Eval et l'outil d'analyse STEP, deux contributions qui pourraient aider la communauté à standardiser l'évaluation des politiques robotiques en boucle fermée.

IA physiqueOpinion
1 source