
Évaluation des modèles vision-langage-action (VLA) sur SO-101 : analyse des échecs et de la récupération
Une équipe de chercheurs a publié le 10 juin 2026 (arXiv:2606.08881) un benchmark standardisé pour évaluer des modèles Vision-Language-Action (VLA) sur le robot SO-101, une plateforme manipulatrice à faible coût issue de la communauté open-source. Quatre politiques ont été comparées sur quatre tâches de manipulation représentatives avec des protocoles d'évaluation unifiés : Pi-0.5 (Physical Intelligence), SmolVLA (HuggingFace), Wall-X et ACT (Action Chunking with Transformers, référence en imitation learning). Toutes ont été fine-tunées directement sur le matériel physique à partir de démonstrations télé-opérées en conditions réelles, sans passer par la simulation. Au-delà du simple taux de succès binaire, l'étude introduit une taxonomie structurée des échecs, une décomposition sémantique et d'exécution, ainsi que des métriques de récupération (recovery-aware metrics) pour qualifier la robustesse de chaque architecture.
Les résultats confirment que les VLA pré-entraînés sur de larges corpus surpassent globalement la baseline en imitation learning pure, mais cette supériorité reste fortement dépendante de la tâche. Ce point est crucial pour les intégrateurs : l'instabilité d'exécution, et non les erreurs de compréhension sémantique, constitue la source d'échec dominante. La capacité de récupération varie significativement selon les architectures, ce qui suggère que les benchmarks centrés uniquement sur le taux de succès final masquent des différences opérationnelles importantes. Pour un COO industriel, cela signifie que le choix d'un modèle VLA ne peut pas se faire sur des métriques agrégées sans analyser le comportement en cas d'échec partiel.
Le SO-101 s'est imposé comme plateforme de référence communautaire grâce à son coût accessible, là où la plupart des évaluations VLA existantes reposent sur des robots industriels onéreux (Franka, UR, Boston Dynamics Spot) ou restent cantonnées à la simulation. Ce travail s'inscrit dans un effort plus large de démocratisation des benchmarks robotiques, face à des acteurs comme Figure AI, Agility Robotics ou 1X Technologies qui évaluent leurs systèmes en environnements propriétaires non reproductibles. Les auteurs positionnent explicitement le SO-101 comme socle pratique pour l'évaluation de l'IA incarnée dans des conditions de déploiement réalistes à faible coût. La prochaine étape naturelle serait d'étendre ce protocole à des scénarios de manipulation plus complexes et à davantage d'architectures VLA émergentes, notamment celles intégrant des retours haptiques.
SmolVLA de HuggingFace (entreprise française) est directement comparé à Pi-0.5, Wall-X et ACT dans ce benchmark standardisé, offrant une visibilité internationale sur les forces et faiblesses du modèle français face aux architectures VLA concurrentes.
Dans nos dossiers




