
ERQA-Plus : un benchmark de diagnostic pour le raisonnement en IA incarnée
Des chercheurs du LUNAProject22 ont publié le 17 juin 2026 ERQA-Plus, un benchmark de diagnostic conçu pour évaluer les capacités de raisonnement des agents robotiques incarnés (embodied AI). Le jeu de données comprend 1 766 paires question-réponse ancrées dans 711 images prises depuis le point de vue d'un robot, organisées selon une taxonomie en cinq catégories : raisonnement perceptuel, centré sur l'action, interaction sociale, navigation environnementale, et inférence de sens commun contextuel. La construction du dataset repose sur un pipeline en plusieurs étapes combinant génération guidée par la taxonomie, validation automatique par juge LLM, révision itérative et évaluation humaine. Six modèles vision-langage ont été benchmarkés : LLaVA-NeXT-8B, Prismatic-7B, MiniCPM-V-4.5-8B, Qwen3-VL (7B et 32B), RoboRefer-8B et RoboBrain2.5-8B. Le meilleur score global est atteint par Qwen3-VL-32B avec 83,4 % de précision et un score SBERT de 61,4, ce dernier mesurant la similarité sémantique des réponses générées.
Le chiffre de 83,4 % masque des déficiences structurelles que l'analyse par catégorie révèle clairement : les modèles testés échouent de manière persistante sur le raisonnement spatial, le raisonnement procédural, la prédiction d'événements et l'inférence d'intentions. C'est précisément le problème que ce benchmark cherche à exposer : les évaluations globales permettent à des modèles d'obtenir des scores élevés en exploitant des raccourcis statistiques visuels ou linguistiques, sans raisonnement incarné réel. Pour les équipes qui développent des VLA (vision-language-action models) destinés à des robots industriels ou de service, ERQA-Plus fournit un outil de diagnostic granulaire qui distingue ce qu'un modèle sait réellement faire dans un environnement situé de ce qu'il devine correctement par coïncidence de distribution.
Les benchmarks existants pour l'embodied AI comme ScanQA, EQA ou OpenEQA souffrent d'un contrôle insuffisant sur les dépendances de raisonnement testées, ce qui rend difficile l'attribution des performances à des capacités spécifiques. ERQA-Plus s'inscrit dans un effort de structuration plus rigoureux de l'évaluation, comparable à ce que BIG-Bench a représenté pour les LLM textuels. Dans le paysage concurrentiel, les modèles spécialisés robotique comme RoboRefer et RoboBrain2.5 n'ont pas surpassé les modèles généralistes comme Qwen3-VL, ce qui soulève des questions sur la valeur ajoutée du fine-tuning robotique pour le raisonnement de haut niveau. Le dataset est disponible sur HuggingFace (huggingdas/erqa-plus) et le projet sur GitHub ; aucun déploiement industriel n'est annoncé, il s'agit d'une contribution de recherche sous forme de preprint arXiv.
Dans nos dossiers




