Aller au contenu principal
ERQA-Plus : un benchmark de diagnostic pour le raisonnement en IA incarnée
RecherchearXiv cs.RO1h

ERQA-Plus : un benchmark de diagnostic pour le raisonnement en IA incarnée

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Des chercheurs du LUNAProject22 ont publié le 17 juin 2026 ERQA-Plus, un benchmark de diagnostic conçu pour évaluer les capacités de raisonnement des agents robotiques incarnés (embodied AI). Le jeu de données comprend 1 766 paires question-réponse ancrées dans 711 images prises depuis le point de vue d'un robot, organisées selon une taxonomie en cinq catégories : raisonnement perceptuel, centré sur l'action, interaction sociale, navigation environnementale, et inférence de sens commun contextuel. La construction du dataset repose sur un pipeline en plusieurs étapes combinant génération guidée par la taxonomie, validation automatique par juge LLM, révision itérative et évaluation humaine. Six modèles vision-langage ont été benchmarkés : LLaVA-NeXT-8B, Prismatic-7B, MiniCPM-V-4.5-8B, Qwen3-VL (7B et 32B), RoboRefer-8B et RoboBrain2.5-8B. Le meilleur score global est atteint par Qwen3-VL-32B avec 83,4 % de précision et un score SBERT de 61,4, ce dernier mesurant la similarité sémantique des réponses générées.

Le chiffre de 83,4 % masque des déficiences structurelles que l'analyse par catégorie révèle clairement : les modèles testés échouent de manière persistante sur le raisonnement spatial, le raisonnement procédural, la prédiction d'événements et l'inférence d'intentions. C'est précisément le problème que ce benchmark cherche à exposer : les évaluations globales permettent à des modèles d'obtenir des scores élevés en exploitant des raccourcis statistiques visuels ou linguistiques, sans raisonnement incarné réel. Pour les équipes qui développent des VLA (vision-language-action models) destinés à des robots industriels ou de service, ERQA-Plus fournit un outil de diagnostic granulaire qui distingue ce qu'un modèle sait réellement faire dans un environnement situé de ce qu'il devine correctement par coïncidence de distribution.

Les benchmarks existants pour l'embodied AI comme ScanQA, EQA ou OpenEQA souffrent d'un contrôle insuffisant sur les dépendances de raisonnement testées, ce qui rend difficile l'attribution des performances à des capacités spécifiques. ERQA-Plus s'inscrit dans un effort de structuration plus rigoureux de l'évaluation, comparable à ce que BIG-Bench a représenté pour les LLM textuels. Dans le paysage concurrentiel, les modèles spécialisés robotique comme RoboRefer et RoboBrain2.5 n'ont pas surpassé les modèles généralistes comme Qwen3-VL, ce qui soulève des questions sur la valeur ajoutée du fine-tuning robotique pour le raisonnement de haut niveau. Le dataset est disponible sur HuggingFace (huggingdas/erqa-plus) et le projet sur GitHub ; aucun déploiement industriel n'est annoncé, il s'agit d'une contribution de recherche sous forme de preprint arXiv.

À lire aussi

AssemLM : un modèle de langage multimodal pour le raisonnement spatial en assemblage robotique
1arXiv cs.RO 

AssemLM : un modèle de langage multimodal pour le raisonnement spatial en assemblage robotique

Des chercheurs ont publié AssemLM (arXiv:2604.08983), un modèle multimodal de raisonnement spatial pour la robotique d'assemblage. Le système fusionne trois sources (manuels d'assemblage, nuages de points 3D, instructions textuelles) pour prédire des poses 6D, c'est-à-dire la position et l'orientation complètes d'une pièce dans l'espace tridimensionnel. Un encodeur de nuages de points spécialisé extrait des caractéristiques géométriques et rotationnelles fines, transmises ensuite à un LLM multimodal pour le raisonnement spatial de haut niveau. Les auteurs publient également AssemBench, un benchmark de plus de 900 000 échantillons multimodaux avec annotations de poses 6D précises, étendant l'évaluation classique du grounding 2D à l'inférence géométrique 3D complète. Des tests sur robot réel valident des performances à l'état de l'art sur des tâches d'assemblage multi-étapes en conditions réelles. Le verrou ciblé est central en manipulation fine industrielle: les VLMs courants opèrent sur des images 2D et peinent à raisonner sur la géométrie précise qu'exigent le vissage, l'emboîtement ou l'alignement de composants au sous-millimètre. En intégrant les nuages de points comme modalité native, AssemLM raisonne sur l'orientation exacte d'une pièce, pas seulement sur sa présence dans le champ visuel. Pour un intégrateur ou une équipe R&D en automatisation industrielle, prédire des poses 6D depuis un manuel PDF et une capture 3D ouvre la voie à des cellules d'assemblage reconfigurables sans reprogrammation manuelle entre chaque référence produit. AssemBench, avec ses 900 000 échantillons annotés, comble par ailleurs un manque d'infrastructure de comparaison rigoureuse dans ce sous-domaine. Le raisonnement spatial est un défi persistant pour les modèles de vision-langage, majoritairement entraînés sur des tâches 2D (captioning, grounding d'objets, VQA). Les modèles VLA (Vision-Language-Action) récents, comme pi0 de Physical Intelligence, OpenVLA ou les travaux de Google DeepMind sur RoboVLMs, progressent sur la manipulation généraliste, mais l'assemblage industriel structuré avec ses contraintes de précision sub-millimétrique reste peu adressé par ces approches. AssemLM se positionne dans cette niche en ciblant explicitement les tâches avec documentation formalisée (manuels, nomenclatures). Les auteurs annoncent la mise à disposition publique du code, des modèles et du dataset AssemBench, point d'entrée potentiel pour la communauté académique et les industriels souhaitant affiner le modèle sur leurs propres composants. Aucun partenaire industriel ni déploiement commercial n'est mentionné: il s'agit à ce stade d'une publication de recherche, sans produit ni pilote planifié.

UELa publication en open-source d'AssemBench (900 000 échantillons annotés 6D) constitue une ressource d'entraînement et d'évaluation directement exploitable par les labos européens travaillant sur la manipulation industrielle précise, sans acteur FR/EU impliqué à ce stade.

RechercheOpinion
1 source
Au-delà de l'isolement : un benchmark unifié pour la navigation polyvalente
2arXiv cs.RO 

Au-delà de l'isolement : un benchmark unifié pour la navigation polyvalente

Une équipe de chercheurs vient de publier OmniNavBench (arXiv:2505.09441), un nouveau benchmark conçu pour évaluer la navigation des agents incarnés dans des conditions proches du réel. Contrairement aux protocoles existants qui testent une compétence à la fois sur un seul type de robot, OmniNavBench impose des instructions composites enchaînant six catégories de sous-tâches au sein d'un même épisode : navigation vers un point cible (PointNav), navigation guidée par le langage (VLN), recherche d'objets (ObjectNav), navigation sociale (SocialNav), suivi de personne (Human Following) et question-réponse incarnée (EQA). La plateforme de simulation propose 170 environnements combinant assets synthétiques et scans de lieux réels, et couvre trois morphologies robotiques : humanoïdes, quadrupèdes et robots à roues. Le dataset comprend 1 779 trajectoires expertes collectées par télé-opération humaine, capturant des nuances comportementales comme les regards exploratoires et les évitements anticipatoires, au lieu des classiques plus courts chemins algorithmiques. L'intérêt de ce travail est de révéler une faille systémique dans l'évaluation actuelle des agents navigants. Les méthodes publiées, même celles se réclamant d'une conception unifiée, peinent dès lors qu'on leur demande d'enchaîner des comportements hétérogènes dans un seul épisode continu. Ce résultat contredit implicitement les affirmations de généralité de plusieurs architectures récentes et met en évidence un écart réel entre les performances en benchmark isolé et les exigences d'un déploiement terrain. Pour un intégrateur ou un décideur industriel, cela signifie que les métriques publiées sur des benchmarks mono-tâche ne sont pas transposables à des scénarios opérationnels où un robot doit simultanément localiser un objet, éviter un humain et répondre à une consigne en langage naturel. OmniNavBench s'inscrit dans une dynamique plus large d'unification des évaluations en robotique incarnée, un domaine où les benchmarks fragmentés ont longtemps permis aux équipes de revendiquer des SOTA partiels sans comparabilité réelle. Les benchmarks dominants comme R2R (Vision-and-Language Navigation) ou HM3D (Habitat) restent mono-morphologie et mono-tâche. La plateforme est disponible en open access avec dataset, code et leaderboard, ce qui facilitera l'adoption par la communauté. Les suites logiques incluent l'intégration de modèles VLA récents comme pi0 ou GR00T N2 dans le leaderboard, et potentiellement des évaluations en simulation-to-real pour tester si les scores obtenus se transfèrent sur hardware réel.

RecherchePaper
1 source
PRISM : planification et raisonnement intentionnel dans des environnements simulés à IA incarnée
3arXiv cs.RO 

PRISM : planification et raisonnement intentionnel dans des environnements simulés à IA incarnée

Des chercheurs ont publié PRISM (Planning and Reasoning with Intent in Simulated Embodied Environments) sur arXiv en mai 2026, un benchmark de diagnostic pour agents incarnés basés sur des LLM. Là où les benchmarks actuels se limitent à un taux de succès global, PRISM identifie quel module cognitif est responsable d'un échec. Le dispositif repose sur cinq appartements multi-pièces photoréalistes (4 à 8 pièces chacun) et 300 tâches validées par des humains, organisées en trois niveaux de capacité : Basic Ability (ancrage perception-action), Reasoning Ability (résolution d'intentions implicites) et Long-horizon Ability (coordination multi-étapes soutenue). L'API d'évaluation est agnostique au type d'agent, couvrant LLM, VLM, planificateurs symboliques, politiques RL et systèmes hybrides dans le même protocole. Des expériences sur sept LLM contemporains montrent que les modèles légers s'effondrent à 20 % de succès sur les tâches long-horizon tout en consommant davantage de tokens que les modèles frontier, un phénomène que les auteurs nomment sur-raisonnement compensatoire. Ce résultat contredit une hypothèse dominante dans l'IA incarnée : en conditions de perception oracle (sans erreur de détection), l'ancrage spatial n'est pas le principal facteur limitant. C'est la résolution d'intentions implicites qui constitue le goulot d'étranglement commun à toutes les familles de modèles testées, y compris les plus puissantes. Pour les intégrateurs et décideurs B2B, la découverte du sur-raisonnement compensatoire est un signal d'alerte concret : un modèle léger déployé en edge peut afficher une activité de raisonnement apparente (volume de tokens élevé) tout en échouant massivement sur des tâches complexes. PRISM offre ainsi un protocole de qualification plus fin que le simple taux de complétion, permettant de cibler les investissements entre perception, mémoire et planification. PRISM s'inscrit dans un mouvement de benchmarking plus rigoureux des agents incarnés, aux côtés de référentiels comme ALFRED ou ScienceWorld qui agrègent les résultats sans en décomposer les causes. La publication intervient alors que DeepMind, Google, Meta et des startups comme Physical Intelligence (auteure de pi0) investissent massivement dans les architectures VLA (Vision-Language-Action) pour la robotique domestique et industrielle. L'API publique et agnostique à l'agent est conçue pour une adoption communautaire large. Il s'agit cependant d'un preprint académique : aucun pilote industriel ni timeline de déploiement ne sont annoncés à ce stade.

RecherchePaper
1 source
PhysGraph : un graphe de scène 3D intégrant la physique pour la perception et le raisonnement
4arXiv cs.RO 

PhysGraph : un graphe de scène 3D intégrant la physique pour la perception et le raisonnement

Une équipe de recherche a publié PhysGraph en juin 2026 sur arXiv (référence 2606.08655), un cadre algorithmique qui construit des graphes de scène 3D physiquement ancrés à partir d'images RGB-D, caméras couleur couplées à un capteur de profondeur. Là où la plupart des systèmes de perception 3D se limitent à identifier sémantiquement les objets (reconnaissance, segmentation, récupération), PhysGraph modélise simultanément leurs propriétés physiques et cinématiques : masse, matériaux, et articulations (degrés de liberté, points de pivot). Le pipeline décompose chaque objet en parties fonctionnelles distinctes, associe les instances d'objets entre plusieurs prises de vue, puis infère via un raisonnement visuel les propriétés mécaniques de chaque composant. Évalué sur des jeux de données synthétiques et réels, le système revendique des résultats state-of-the-art en segmentation sémantique, en estimation de masse multi-objet, et en prédiction d'articulations. L'enjeu dépasse la taxonomie académique. Pour la manipulation robotique en environnement industriel ou domestique, savoir qu'un objet est « un tiroir » n'est pas suffisant, le robot doit connaître son axe de rotation, la force nécessaire à son ouverture, et la localisation des poignées préhensibles. PhysGraph cible précisément ce gap en produisant des représentations exploitables pour la planification de tâches et la prédiction d'affordances sous contraintes physiques. L'application de transfert réel-vers-simulation (real-to-sim) est stratégiquement critique : convertir automatiquement une scène réelle en environnement simulé fidèle réduit le coût de génération de données d'entraînement pour les robots apprenants. Il convient cependant de nuancer : l'abstract ne précise ni les latences de traitement ni les conditions opérationnelles testées, ce qui rend difficile l'évaluation de la viabilité temps-réel. Ce travail s'inscrit dans un espace de recherche dense autour des graphes de scène 3D ouverts, ConceptGraphs, OpenMask3D, et les travaux sur la manipulation d'objets articulés alimentés par les datasets PartNet et SAPIEN font figure de références directes. La prédiction d'articulations reste l'un des problèmes les plus ouverts de la robotique incarnée, aux côtés du fossé sim-to-real. Aucun partenaire industriel ni déploiement pilote n'est mentionné : PhysGraph en est au stade de contribution de recherche, sans timeline de productisation annoncée. Les prochaines étapes naturelles seraient la validation sur des manipulateurs réels en boucle fermée et la publication du code.

RecherchePaper
1 source