
EquiVLA : un cadre général pour les modèles VLA équivariants par rotation
Des chercheurs ont publié EquiVLA (arXiv:2606.19784), le premier cadre général pour rendre les modèles Vision-Langage-Action (VLA) équivariants par rotation SO(2) de bout en bout. Le système introduit deux composants modulaires : EquiPerceptor, qui extrait des représentations visuelles approximativement SO(2)-équivariantes à partir de features ViT gelées, et EquiActor, une tête d'action exactement SO(2)-équivariante basée sur un Diffusion Transformer à flow-matching. Instancié sur GR00T N1.5 (le modèle de manipulation généraliste de NVIDIA), EquiVLA atteint 92,6 % de succès moyen sur les quatre suites de benchmarks LIBERO contre 78,1 % pour la baseline, une longueur de séquence de 4,03 sur CALVIN ABCD→D contre 3,45, et améliore le taux de succès sur cinq tâches réelles avec le robot Mobile ALOHA de 54 % à 72 %.
Le problème central qu'adresse EquiVLA est structurel : les VLA actuels manquent de biais inductifs géométriques, ce qui signifie qu'une politique entraînée dans une orientation donnée nécessite substantiellement plus de données pour généraliser à d'autres configurations rotationnelles. En imposant l'équivariance SO(2) de la caméra jusqu'aux séquences d'actions prédites, le framework réduit la dépendance aux données d'orientation. Pour un intégrateur ou un COO industriel, l'implication concrète est une meilleure robustesse opérationnelle sans retraining coûteux lorsqu'un poste de travail est réorganisé. Le gain de 18 points absolus sur LIBERO et le passage de 54 % à 72 % sur robot réel sont significatifs, même si ces résultats restent obtenus en conditions de laboratoire contrôlé et ne constituent pas encore un déploiement industriel.
Les VLA sont devenus le paradigme dominant de la manipulation généraliste depuis RT-2 et PaLM-E, avec des modèles concurrents comme Pi-0 (Physical Intelligence), OpenVLA et GR00T N1.5 de NVIDIA, publié début 2025 comme modèle de référence pour la manipulation humanoïde. L'approche modulaire d'EquiVLA - les backbones vision-langage gelés restent intacts - facilite l'adoption sur des architectures existantes sans repartir de zéro. Ce papier est une contribution académique sans partenariat commercial annoncé ; les suites naturelles seraient d'étendre l'équivariance à SO(3) pour les manipulateurs à 6 DOF, et de valider la robustesse à grande échelle dans des environnements industriels moins structurés.




