Aller au contenu principal
Voir ce qui compte : élagage différentiable par grille pour un modèle VLA généralisable
IA physiquearXiv cs.RO6sem

Voir ce qui compte : élagage différentiable par grille pour un modèle VLA généralisable

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Des chercheurs ont publié en mai 2026 (arXiv:2605.11817) un module baptisé GridS (Differentiable Grid Sampler), conçu pour accélérer les modèles Vision-Language-Action (VLA) sans sacrifier leur précision en manipulation robotique. Le problème ciblé est concret : les VLA actuels, qui fusionnent perception visuelle, compréhension linguistique et planification d'action, sont trop coûteux en calcul pour un déploiement temps réel sur des plateformes embarquées. GridS s'insère dans l'encodeur visuel d'un VLA existant comme un module plug-and-play. Il prédit dynamiquement un ensemble minimal de coordonnées saillantes, puis ré-échantillonne les tokens visuels par interpolation différentiable, permettant de retenir moins de 10 % des tokens originaux. Sur le benchmark LIBERO et une plateforme robotique réelle non précisée dans l'article, les auteurs rapportent une réduction de 76 % des FLOPs sans dégradation du taux de succès, et revendiquent le nombre de tokens visuels actifs le plus bas jamais documenté dans la littérature VLA.

Ce résultat, s'il se confirme hors simulation, adresse un verrou pratique majeur : la tension entre richesse de la représentation visuelle et vitesse d'inférence. Les méthodes de pruning par seuillage d'attention suppriment souvent des informations géométriques critiques comme les points de contact ou les bords d'objet, dégradant la précision des saisies. GridS opère différemment via un ré-échantillonnage continu orienté par la tâche, censé préserver la géométrie essentielle même à fort taux de compression. Pour un intégrateur industriel, une réduction de 76 % des FLOPs peut permettre de basculer d'un GPU haut de gamme vers un compute embarqué standard, ou d'augmenter significativement la fréquence de commande d'un bras manipulateur. Réserve importante : les tests portent sur LIBERO, un benchmark de manipulation tabletop majoritairement en simulation, et sur un robot non identifié, ce qui laisse ouverte la question du gap sim-to-real en environnement industriel réel.

La recherche s'inscrit dans une course à l'efficacité des VLA où Pi-0 (Physical Intelligence), OpenVLA (UC Berkeley) et GR00T N2 (NVIDIA) se heurtent au même goulot d'étranglement computationnel lors du passage à l'échelle. GridS se distingue des approches de pruning classiques par sa continuité différentiable, argument clé pour préserver la géométrie fine lors de saisies précises. Le code est publié en open source sur GitHub (Fediory/Grid-Sampler), ce qui facilite l'intégration dans des pipelines VLA existants. La prochaine validation attendue par la communauté concerne des benchmarks plus exigeants, notamment la manipulation d'objets déformables et les environnements encombrés, ainsi que des mesures de latence réelle sur hardware embarqué pour confirmer que la réduction de FLOPs se traduit bien par un gain de vitesse exploitable en production.

À lire aussi

EquiVLA : un cadre général pour les modèles VLA équivariants par rotation
1arXiv cs.RO 

EquiVLA : un cadre général pour les modèles VLA équivariants par rotation

Des chercheurs ont publié EquiVLA (arXiv:2606.19784), le premier cadre général pour rendre les modèles Vision-Langage-Action (VLA) équivariants par rotation SO(2) de bout en bout. Le système introduit deux composants modulaires : EquiPerceptor, qui extrait des représentations visuelles approximativement SO(2)-équivariantes à partir de features ViT gelées, et EquiActor, une tête d'action exactement SO(2)-équivariante basée sur un Diffusion Transformer à flow-matching. Instancié sur GR00T N1.5 (le modèle de manipulation généraliste de NVIDIA), EquiVLA atteint 92,6 % de succès moyen sur les quatre suites de benchmarks LIBERO contre 78,1 % pour la baseline, une longueur de séquence de 4,03 sur CALVIN ABCD→D contre 3,45, et améliore le taux de succès sur cinq tâches réelles avec le robot Mobile ALOHA de 54 % à 72 %. Le problème central qu'adresse EquiVLA est structurel : les VLA actuels manquent de biais inductifs géométriques, ce qui signifie qu'une politique entraînée dans une orientation donnée nécessite substantiellement plus de données pour généraliser à d'autres configurations rotationnelles. En imposant l'équivariance SO(2) de la caméra jusqu'aux séquences d'actions prédites, le framework réduit la dépendance aux données d'orientation. Pour un intégrateur ou un COO industriel, l'implication concrète est une meilleure robustesse opérationnelle sans retraining coûteux lorsqu'un poste de travail est réorganisé. Le gain de 18 points absolus sur LIBERO et le passage de 54 % à 72 % sur robot réel sont significatifs, même si ces résultats restent obtenus en conditions de laboratoire contrôlé et ne constituent pas encore un déploiement industriel. Les VLA sont devenus le paradigme dominant de la manipulation généraliste depuis RT-2 et PaLM-E, avec des modèles concurrents comme Pi-0 (Physical Intelligence), OpenVLA et GR00T N1.5 de NVIDIA, publié début 2025 comme modèle de référence pour la manipulation humanoïde. L'approche modulaire d'EquiVLA - les backbones vision-langage gelés restent intacts - facilite l'adoption sur des architectures existantes sans repartir de zéro. Ce papier est une contribution académique sans partenariat commercial annoncé ; les suites naturelles seraient d'étendre l'équivariance à SO(3) pour les manipulateurs à 6 DOF, et de valider la robustesse à grande échelle dans des environnements industriels moins structurés.

💬 Le vrai sujet ici, c'est pas le benchmark : c'est que si tu déplaces ton poste de travail de 90°, tu n'as plus à réentraîner ton robot. C'est précisément le genre de friction silencieuse qui rendait les déploiements industriels galères, et là ils y répondent de façon architecturale, sans toucher aux backbones existants. 72% sur robot réel c'est encore du labo, mais la direction est la bonne.

IA physiqueOpinion
1 source
GEAR-VLA : un modèle VLA intégrant la géométrie pour une manipulation robotique généralisable
2arXiv cs.RO 

GEAR-VLA : un modèle VLA intégrant la géométrie pour une manipulation robotique généralisable

Des chercheurs ont publié sur arXiv en juin 2026 (réf. 2606.08530) GEAR-VLA, un framework Vision-Language-Action (VLA) conçu pour généraliser la manipulation robotique à des objets inconnus, des décors visuels changeants et des morphologies hétérogènes. Sur le benchmark LIBERO, le modèle atteint les meilleures performances publiées à ce jour, ainsi que des résultats de pointe sur RoboTwin 2.0 et LIBERO-Plus en zero-shot. Sur un bras AgileX, GEAR-VLA affiche 85,9% de réussite ; sur le LDT-01, une morphologie absente de la phase d'entraînement, il obtient 81,0%. Le test le plus contraignant reste un benchmark de préhension universelle de 6 360 essais impliquant 212 objets inédits, où le modèle atteint 90,1% de succès. Le code et les poids seront mis en open source sur GitHub. Ce résultat s'attaque directement au problème qui freine le déploiement industriel des VLAs : la généralisation cross-embodiment et cross-catégorie d'objets. GEAR-VLA repose sur trois mécanismes distincts : un apprentissage coarse-to-fine avec préentraînement multi-sources, une intégration 3D sémantiquement alignée (backbone spatial 3D entraînable couplé à une voie visuelle VLM gelée), et une canonicalisation d'embodiment qui isole les différences morphologiques à l'interface bas niveau via un expert d'action continu de type DiT découplé en gradient. Les 90,1% obtenus sur 212 objets inédits en conditions réelles constituent une réponse partielle à l'hypothèse selon laquelle les VLAs exigent un fine-tuning spécifique à chaque nouvelle catégorie, même si l'absence d'évaluations sur des tâches longues et multi-étapes laisse la question ouverte pour les intégrateurs industriels. Les VLAs dominent la recherche en manipulation depuis RT-2 de Google DeepMind en 2023, avec des jalons successifs que sont OpenVLA (Berkeley), Pi-0 de Physical Intelligence et GR00T N2 de NVIDIA en 2025. La compétition se joue aujourd'hui précisément sur la généralisation zéro-shot et le transfert cross-embodiment, deux axes sur lesquels GEAR-VLA revendique un avantage différenciant. Les benchmarks retenus, LIBERO et RoboTwin 2.0, sont désormais des références standard du domaine, ce qui rend les comparaisons directement lisibles pour la communauté. Il s'agit d'une publication académique sans partenaire industriel annoncé ni déploiement hors laboratoire confirmé. La mise en open source des poids permettra de valider ces résultats sur des plateformes plus complexes, notamment des configurations multi-bras ou à forte variabilité environnementale.

UELa mise en open source imminente des poids permettra aux laboratoires de robotique européens (INRIA, CEA-List, universités techniques) de benchmarker GEAR-VLA sur leurs propres plateformes sans dépendre d'un fine-tuning propriétaire, réduisant potentiellement la barrière à l'adoption industrielle des VLAs en Europe.

IA physiqueOpinion
1 source
AffordanceVLA : un modèle VLA qui améliore la génération d'actions grâce à la compréhension des affordances
3arXiv cs.RO 

AffordanceVLA : un modèle VLA qui améliore la génération d'actions grâce à la compréhension des affordances

Des chercheurs ont publié le 6 juin 2026 sur arXiv (réf. 2606.06155) un nouveau framework baptisé AffordanceVLA, conçu pour améliorer la manipulation robotique pilotée par des modèles vision-langage-action (VLA). Le coeur du système repose sur l'introduction de l'affordance comme représentation intermédiaire structurée entre la compréhension sémantique et la génération de commandes motrices. Concrètement, trois modules complémentaires décomposent la tâche : Which2Act identifie l'objet pertinent via une prédiction dans l'espace latent visuel pour filtrer les distracteurs ; Where2Act localise en 2D le point d'interaction via une carte d'affordance estimée ; How2Act raisonne en 3D sur la géométrie de la scène pour guider la politique de manipulation. Ces modules sont intégrés dans une architecture Mixture-of-Transformer (MoT) avec des experts spécialisés, entraînée selon un curriculum progressif en trois étapes. Pour pallier le manque de labels d'affordance denses dans les jeux de données robotiques existants, les auteurs ont développé un pipeline automatisé d'augmentation de données. Les résultats sont validés sur bancs de simulation et en conditions réelles, sans que les métriques quantitatives précises soient encore publiées à ce stade de preprint. Le problème que cible AffordanceVLA est bien documenté dans la communauté VLA : les modèles vision-langage préentraînés encodent une sémantique riche mais abstraite, structurellement incompatible avec les espaces de contrôle moteur continu. Combler ce fossé directement, sans représentation intermédiaire, produit des politiques fragiles face aux variations de scène. L'approche par affordance offre une solution élégante car elle reste géométriquement ancrée tout en restant conditionnée sémantiquement, ce qui facilite la généralisation sim-to-real. Pour les intégrateurs qui déploient des bras manipulateurs en environnement non structuré, ce type de robustesse perceptuelle est un critère clé souvent sacrifié dans les démos labo. Le paysage des VLA pour la manipulation est désormais très concurrentiel : Pi-0 de Physical Intelligence, GR00T N2 de NVIDIA, OpenVLA issu de Stanford et Berkeley, ou encore RT-2 de Google DeepMind incarnent différentes approches du même défi. AffordanceVLA se distingue en positionnant explicitement l'affordance comme pont structurel, une direction également explorée par des travaux comme RoboAfford ou UniPI. Ce preprint reste une contribution de recherche, pas un produit commercialisé ; aucun déploiement industriel ni partenariat n'est annoncé. Les prochaines étapes naturelles seront une évaluation sur benchmarks standardisés comme LIBERO ou RLBench, et une confrontation aux modèles de référence avec métriques comparatives publiées.

IA physiqueOpinion
1 source
Guidance stable par le langage pour les modèles vision-langage-action (VLA)
4arXiv cs.RO 

Guidance stable par le langage pour les modèles vision-langage-action (VLA)

Des chercheurs ont publié sur arXiv (réf. 2601.04052v2) une méthode baptisée Residual Semantic Steering (RSS), conçue pour corriger un défaut structurel des modèles Vision-Language-Action (VLA) utilisés en robotique manipulation : leur fragilité face aux variations de formulation des instructions textuelles. Le problème identifié, nommé "effondrement de modalité" (modality collapse), survient lorsque les signaux visuels, très denses, écrasent les signaux linguistiques, plus rares, forçant le modèle à mémoriser des tournures de phrases spécifiques plutôt qu'à comprendre l'intention sous-jacente. RSS propose deux mécanismes complémentaires : la Monte Carlo Syntactic Integration, qui génère un ensemble distribué de reformulations d'une même instruction via un LLM afin d'approximer le vrai postérieur sémantique, et le Residual Affordance Steering, un décodage à double flux qui isole explicitement la contribution causale du langage en soustrayant l'a priori visuel des affordances physiques. Les résultats publiés indiquent des performances state-of-the-art en robustesse sur plusieurs benchmarks de manipulation, y compris sous perturbations linguistiques adversariales. Le code est disponible en open source. Ce travail pointe un angle mort concret du pipeline VLA : un robot entraîné avec π0 (Physical Intelligence), OpenVLA ou GR00T N2 (NVIDIA) peut échouer à exécuter une tâche simplement parce que l'opérateur reformule l'ordre différemment, ce qui est rédhibitoire pour tout déploiement industriel réel. RSS apporte une réponse architecturale sans nécessiter de réentraînement complet du modèle de base, ce qui le rend potentiellement compatible avec les VLA existants. La démonstration sur benchmarks adversariaux est un signal positif, même si les benchmarks de manipulation académiques restent éloignés des conditions d'atelier réelles : cycles courts, éclairage variable, instructions opérateur non normalisées. Les VLA ont émergé comme paradigme dominant depuis les travaux de RT-2 (Google DeepMind, 2023), suivis par OpenVLA, π0 de Physical Intelligence et GR00T N2 de NVIDIA, tous confrontés au même sim-to-real gap linguistique. RSS s'inscrit dans une vague de travaux tentant de rendre ces modèles plus robustes sans sacrifier leur généralité. L'approche concurrente la plus proche est le data augmentation sémantique (paraphrase augmentation), moins élégante théoriquement mais déjà intégrée dans certains pipelines de fine-tuning. Les prochaines étapes logiques seraient une validation sur robot physique en environnement non contrôlé et une intégration dans un framework VLA open source comme OpenVLA, ce que les auteurs n'ont pas encore annoncé.

IA physiqueOpinion
1 source