
EBench : diagnostic élémentaire des politiques de manipulation mobile généralistes
Une équipe de chercheurs a publié EBench (arXiv:2606.18239), un benchmark de simulation conçu pour évaluer les politiques de manipulation mobile généralistes au-delà d'un simple taux de succès global. Le système comprend 26 tâches variées, annotées selon 5 dimensions de capacités et 4 dimensions de généralisation. Quatre modèles de référence ont été soumis à l'évaluation : π₀ et π₀.₅ (Physical Intelligence), XVLA, et InternVLA-A1. Les résultats montrent que π₀.₅ obtient le meilleur taux de succès en test ainsi que la meilleure rétention train-test, InternVLA-A1 domine sur les tâches de manipulation mobile mais s'effondre sur les tâches dextérieuses, tandis que XVLA montre des forces sur un ensemble de compétences atomiques disjointes des autres modèles.
L'apport principal d'EBench est de démontrer qu'un score agrégé unique masque des profils de compétences radicalement différents entre modèles affichant des performances globales similaires. Pour un intégrateur ou un responsable industriel qui choisit une politique VLA (Vision-Language-Action) pour une ligne de production, cela signifie qu'un modèle "généraliste" peut être inadapté selon le type de tâche visé. La distinction entre manipulation mobile (déplacement + interaction) et manipulation dextérieuse (précision digitale, assemblage fin) est particulièrement pertinente : aucun modèle actuel ne domine sur les deux axes simultanément. EBench fournit ainsi des signaux diagnostiques granulaires qui guident les itérations de développement, là où les benchmarks existants ne donnaient qu'une illusion de comparabilité.
Ce travail s'inscrit dans un effort plus large de la communauté robotique pour combler le fossé entre démonstrations sélectionnées et évaluation systématique - un problème chronique dans les publications sur les politiques généralistes, où les vidéos filtrées ont souvent précédé les métriques rigoureuses. Côté paysage concurrentiel, les quatre modèles évalués représentent l'état de l'art en VLA pour la manipulation généraliste fin 2025-début 2026, avec Physical Intelligence (Pi) en position dominante sur l'axe généralisation. Aucun acteur européen n'apparaît dans cette évaluation. La publication du benchmark en accès ouvert vise à standardiser les comparaisons futures, mais ses limites restent celles de toute évaluation en simulation : le transfert sim-to-real n'est pas adressé dans cette version initiale.
Dans nos dossiers




