RecherchearXiv cs.RO 17 juin 2026

ERQA-Plus : un benchmark de diagnostic pour le raisonnement en IA incarnée

1 source couvre ce sujet·Source originale ↗·

Résumé IASource uniqueImpact UE

Des chercheurs du LUNAProject22 ont publié le 17 juin 2026 ERQA-Plus, un benchmark de diagnostic conçu pour évaluer les capacités de raisonnement des agents robotiques incarnés (embodied AI). Le jeu de données comprend 1 766 paires question-réponse ancrées dans 711 images prises depuis le point de vue d'un robot, organisées selon une taxonomie en cinq catégories : raisonnement perceptuel, centré sur l'action, interaction sociale, navigation environnementale, et inférence de sens commun contextuel. La construction du dataset repose sur un pipeline en plusieurs étapes combinant génération guidée par la taxonomie, validation automatique par juge LLM, révision itérative et évaluation humaine. Six modèles vision-langage ont été benchmarkés : LLaVA-NeXT-8B, Prismatic-7B, MiniCPM-V-4.5-8B, Qwen3-VL (7B et 32B), RoboRefer-8B et RoboBrain2.5-8B. Le meilleur score global est atteint par Qwen3-VL-32B avec 83,4 % de précision et un score SBERT de 61,4, ce dernier mesurant la similarité sémantique des réponses générées.

Le chiffre de 83,4 % masque des déficiences structurelles que l'analyse par catégorie révèle clairement : les modèles testés échouent de manière persistante sur le raisonnement spatial, le raisonnement procédural, la prédiction d'événements et l'inférence d'intentions. C'est précisément le problème que ce benchmark cherche à exposer : les évaluations globales permettent à des modèles d'obtenir des scores élevés en exploitant des raccourcis statistiques visuels ou linguistiques, sans raisonnement incarné réel. Pour les équipes qui développent des VLA (vision-language-action models) destinés à des robots industriels ou de service, ERQA-Plus fournit un outil de diagnostic granulaire qui distingue ce qu'un modèle sait réellement faire dans un environnement situé de ce qu'il devine correctement par coïncidence de distribution.

Les benchmarks existants pour l'embodied AI comme ScanQA, EQA ou OpenEQA souffrent d'un contrôle insuffisant sur les dépendances de raisonnement testées, ce qui rend difficile l'attribution des performances à des capacités spécifiques. ERQA-Plus s'inscrit dans un effort de structuration plus rigoureux de l'évaluation, comparable à ce que BIG-Bench a représenté pour les LLM textuels. Dans le paysage concurrentiel, les modèles spécialisés robotique comme RoboRefer et RoboBrain2.5 n'ont pas surpassé les modèles généralistes comme Qwen3-VL, ce qui soulève des questions sur la valeur ajoutée du fine-tuning robotique pour le raisonnement de haut niveau. Le dataset est disponible sur HuggingFace (huggingdas/erqa-plus) et le projet sur GitHub ; aucun déploiement industriel n'est annoncé, il s'agit d'une contribution de recherche sous forme de preprint arXiv.

Dans nos dossiers

IA physique & VLA arXiv cs.RO

À lire aussi

1arXiv cs.RO

Plan bien pensé, puis plan précis : RL symbolique pour un raisonnement incarné efficace

Un article de recherche publié sur arXiv (n°2606.31260) présente une nouvelle méthode d'apprentissage par renforcement symbolique pour la planification de tâches robotiques incarnées, c'est-à-dire la conversion d'instructions en langage naturel en séquences d'actions exécutables dans un environnement physique. Le système repose sur une spécification unique au format BDDL, générée automatiquement soit à partir de vidéos capturées en conditions réelles, soit à partir de tâches curées, qui sert simultanément à construire les données d'entraînement, vérifier la validité des plans et calculer la récompense du modèle. Trois composants la mettent en œuvre : un analyseur vidéo-vers-BDDL, un vérificateur basé sur un LLM, et un moteur symbolique léger capable de fournir un retour en quelques millisecondes. Les chercheurs introduisent également GroupAdapt, un mécanisme qui ajuste dynamiquement la tolérance de longueur des réponses selon le taux de réussite du groupe de prompts, resserrant la contrainte au fur et à mesure que le modèle progresse. Résultat : un modèle de 8 milliards de paramètres atteint un score Strict-Pass de 97,3 sur le benchmark BEHAVIOR-1000, soit une amélioration relative de 25,9% par rapport à la base Qwen3-8B, et dépasse de 3,5% le meilleur modèle de grande taille testé, tout en réduisant de 79% la longueur des réponses générées (207 tokens en moyenne). L'apport principal tient à la vérification déterministe et peu coûteuse des plans, un maillon manquant chez les approches actuelles qui s'appuient soit sur du prompting produisant du texte fluide mais non vérifié, soit sur une simulation haute-fidélité trop lente pour servir de signal d'entraînement en boucle interne. Pour l'industrie de la robotique de service et d'assistance, ce travail illustre qu'un modèle relativement petit, correctement supervisé et vérifié, peut surpasser des modèles plus volumineux tout en étant nettement plus économe en tokens, donc en latence et en coût d'inférence, un critère décisif pour du déploiement embarqué. Le choix de BEHAVIOR-1000 comme banc d'essai ancre cette étude dans la lignée des benchmarks de planification domestique à grande échelle, et l'usage de Qwen3-8B comme référence de base confirme que les progrès s'appuient sur des modèles ouverts plutôt que propriétaires. L'article ne précise pas d'affiliation industrielle ni de calendrier de déploiement : il s'agit à ce stade d'une contribution méthodologique en phase de recherche, dont la prochaine étape logique serait une validation sur robots physiques plutôt qu'en simulation pure.

RecherchePaper

1 source

2arXiv cs.RO

Adaptation de modalité en test, un cadre causal d'inférence-diagnostic-raffinement pour les modèles VLA

Une équipe de chercheurs publie sur arXiv un nouveau cadre baptisé infer-diagnose-refine (IDR), conçu pour améliorer les modèles vision-langage-action (VLA) qui pilotent des bras ou des robots humanoïdes à partir d'instructions en langage naturel, d'images et de l'état proprioceptif du robot. Le problème ciblé: dans une tâche de manipulation, l'importance de la vision varie selon la phase, un déplacement longue distance dépendant surtout de la caméra tandis qu'une prise fine dépend davantage du retour proprioceptif, et les VLA actuels fusionnent ces modalités de façon statique. IDR corrige cela au moment du test, sans réentraînement: le modèle infère d'abord une action factuelle avec l'image réelle, puis une action contrefactuelle en neutralisant l'image via une intervention de type "zero-padding", avant qu'un module ne quantifie l'écart entre les deux par une mesure de norme pour estimer l'importance causale de la vision à cet instant précis, puis qu'une fusion résiduelle à gate ajustable ne recombine les deux prédictions. Les auteurs rapportent des gains de performance sur plusieurs benchmarks de simulation et sur des tâches réelles, avec plusieurs architectures VLA testées comme backbones. Pour l'industrie robotique, l'intérêt tient au fait que ce travail s'attaque à une limite bien identifiée mais rarement corrigée des VLA: leur incapacité à pondérer dynamiquement les modalités selon le contexte, ce qui pèse sur la robustesse en conditions réelles (occlusions, éclairage variable, phases de contact). Le caractère "model-agnostic" et "training-free" est ce qui retient le plus l'attention des intégrateurs: si la méthode tient ses promesses hors cadre académique, elle pourrait s'appliquer en post-traitement à des VLA déjà déployés, sans le coût d'un réentraînement complet, rare parmi les correctifs proposés dans la littérature. Il s'agit toutefois d'une publication de recherche évaluée sur des benchmarks propres aux auteurs, pas d'un produit ni d'un déploiement industriel, et le gain réel dépendra d'une reproduction indépendante sur des tâches de manipulation hors laboratoire. Ce travail s'inscrit dans une vague de recherche plus large autour des VLA, catégorie qui regroupe aujourd'hui des systèmes comme RT-2, OpenVLA, pi-0 de Physical Intelligence ou GR00T de Nvidia, tous confrontés au même arbitrage entre richesse perceptuelle et robustesse d'exécution. Chercher des gains de fiabilité au moment de l'inférence, plutôt que via un réentraînement massif, reflète une tendance récente à vouloir corriger à moindre coût des modèles déjà volumineux. Les auteurs ne précisent ni calendrier d'intégration industrielle ni partenariat avec un fabricant de robots; la suite logique serait une validation sur des plateformes commerciales et une comparaison directe avec les méthodes de fusion de modalités déjà employées par les principaux acteurs du secteur.

RechercheActu

1 source

3arXiv cs.RO

AssemLM : un modèle de langage multimodal pour le raisonnement spatial en assemblage robotique

Des chercheurs ont publié AssemLM (arXiv:2604.08983), un modèle multimodal de raisonnement spatial pour la robotique d'assemblage. Le système fusionne trois sources (manuels d'assemblage, nuages de points 3D, instructions textuelles) pour prédire des poses 6D, c'est-à-dire la position et l'orientation complètes d'une pièce dans l'espace tridimensionnel. Un encodeur de nuages de points spécialisé extrait des caractéristiques géométriques et rotationnelles fines, transmises ensuite à un LLM multimodal pour le raisonnement spatial de haut niveau. Les auteurs publient également AssemBench, un benchmark de plus de 900 000 échantillons multimodaux avec annotations de poses 6D précises, étendant l'évaluation classique du grounding 2D à l'inférence géométrique 3D complète. Des tests sur robot réel valident des performances à l'état de l'art sur des tâches d'assemblage multi-étapes en conditions réelles. Le verrou ciblé est central en manipulation fine industrielle: les VLMs courants opèrent sur des images 2D et peinent à raisonner sur la géométrie précise qu'exigent le vissage, l'emboîtement ou l'alignement de composants au sous-millimètre. En intégrant les nuages de points comme modalité native, AssemLM raisonne sur l'orientation exacte d'une pièce, pas seulement sur sa présence dans le champ visuel. Pour un intégrateur ou une équipe R&D en automatisation industrielle, prédire des poses 6D depuis un manuel PDF et une capture 3D ouvre la voie à des cellules d'assemblage reconfigurables sans reprogrammation manuelle entre chaque référence produit. AssemBench, avec ses 900 000 échantillons annotés, comble par ailleurs un manque d'infrastructure de comparaison rigoureuse dans ce sous-domaine. Le raisonnement spatial est un défi persistant pour les modèles de vision-langage, majoritairement entraînés sur des tâches 2D (captioning, grounding d'objets, VQA). Les modèles VLA (Vision-Language-Action) récents, comme pi0 de Physical Intelligence, OpenVLA ou les travaux de Google DeepMind sur RoboVLMs, progressent sur la manipulation généraliste, mais l'assemblage industriel structuré avec ses contraintes de précision sub-millimétrique reste peu adressé par ces approches. AssemLM se positionne dans cette niche en ciblant explicitement les tâches avec documentation formalisée (manuels, nomenclatures). Les auteurs annoncent la mise à disposition publique du code, des modèles et du dataset AssemBench, point d'entrée potentiel pour la communauté académique et les industriels souhaitant affiner le modèle sur leurs propres composants. Aucun partenaire industriel ni déploiement commercial n'est mentionné: il s'agit à ce stade d'une publication de recherche, sans produit ni pilote planifié.

UELa publication en open-source d'AssemBench (900 000 échantillons annotés 6D) constitue une ressource d'entraînement et d'évaluation directement exploitable par les labos européens travaillant sur la manipulation industrielle précise, sans acteur FR/EU impliqué à ce stade.

RechercheOpinion

1 source

4arXiv cs.RO

Au-delà de l'isolement : un benchmark unifié pour la navigation polyvalente

Une équipe de chercheurs vient de publier OmniNavBench (arXiv:2505.09441), un nouveau benchmark conçu pour évaluer la navigation des agents incarnés dans des conditions proches du réel. Contrairement aux protocoles existants qui testent une compétence à la fois sur un seul type de robot, OmniNavBench impose des instructions composites enchaînant six catégories de sous-tâches au sein d'un même épisode : navigation vers un point cible (PointNav), navigation guidée par le langage (VLN), recherche d'objets (ObjectNav), navigation sociale (SocialNav), suivi de personne (Human Following) et question-réponse incarnée (EQA). La plateforme de simulation propose 170 environnements combinant assets synthétiques et scans de lieux réels, et couvre trois morphologies robotiques : humanoïdes, quadrupèdes et robots à roues. Le dataset comprend 1 779 trajectoires expertes collectées par télé-opération humaine, capturant des nuances comportementales comme les regards exploratoires et les évitements anticipatoires, au lieu des classiques plus courts chemins algorithmiques. L'intérêt de ce travail est de révéler une faille systémique dans l'évaluation actuelle des agents navigants. Les méthodes publiées, même celles se réclamant d'une conception unifiée, peinent dès lors qu'on leur demande d'enchaîner des comportements hétérogènes dans un seul épisode continu. Ce résultat contredit implicitement les affirmations de généralité de plusieurs architectures récentes et met en évidence un écart réel entre les performances en benchmark isolé et les exigences d'un déploiement terrain. Pour un intégrateur ou un décideur industriel, cela signifie que les métriques publiées sur des benchmarks mono-tâche ne sont pas transposables à des scénarios opérationnels où un robot doit simultanément localiser un objet, éviter un humain et répondre à une consigne en langage naturel. OmniNavBench s'inscrit dans une dynamique plus large d'unification des évaluations en robotique incarnée, un domaine où les benchmarks fragmentés ont longtemps permis aux équipes de revendiquer des SOTA partiels sans comparabilité réelle. Les benchmarks dominants comme R2R (Vision-and-Language Navigation) ou HM3D (Habitat) restent mono-morphologie et mono-tâche. La plateforme est disponible en open access avec dataset, code et leaderboard, ce qui facilitera l'adoption par la communauté. Les suites logiques incluent l'intégration de modèles VLA récents comme pi0 ou GR00T N2 dans le leaderboard, et potentiellement des évaluations en simulation-to-real pour tester si les scores obtenus se transfèrent sur hardware réel.

RecherchePaper

1 source