IA incarnée : le corps influence le comportement…

IA incarnée : une méthode multimodale intégrant la perception de profondeur pour la compréhension référentielle

37

1arXiv cs.RO

IA incarnée : une méthode multimodale intégrant la perception de profondeur pour la compréhension référentielle

Des chercheurs ont publié sur arXiv (référence 2510.08278, troisième révision) un framework baptisé ERU (Embodied Reference Understanding) conçu pour qu'un robot identifie avec précision un objet cible dans une scène visuelle, en combinant deux types d'instructions : des commandes en langage naturel et des gestes de pointage humain. Le système repose sur trois composants intégrés : une augmentation de données pilotée par LLM, une modalité de carte de profondeur (depth map), et un module de décision depth-aware. Les évaluations sur deux jeux de données distincts montrent des performances supérieures aux baselines existantes sur la tâche de détection de référent, sans que les auteurs publient de métriques chiffrées précises dans le résumé accessible. Le problème que cette recherche cible est concret et bien documenté dans l'industrie : lorsqu'un opérateur pointe du doigt "ce carton" dans un entrepôt encombré où plusieurs cartons similaires sont présents, les systèmes actuels de détection open-vocabulary échouent fréquemment à désambiguïser la cible. Intégrer la profondeur comme modalité supplémentaire permet de différencier des objets coplanaires ou superposés que la seule vision 2D confond. Pour les intégrateurs développant des interfaces homme-robot (HRI) en environnement industriel ou logistique, c'est une brique utile : réduire le taux d'erreur de saisie sur instruction mixte gestuelle/verbale diminue directement les interventions humaines correctives sur les lignes de picking. Sur le plan académique, ce travail s'inscrit dans la continuité des VLA (Vision-Language-Action models) et des architectures open-vocabulary comme GLIP, GDINO ou OWL-ViT, en y ajoutant l'ancrage spatial via depth sensing. Aucun acteur industriel nommé n'est associé à cette publication, qui reste une contribution de recherche fondamentale sans déploiement annoncé. Les concurrents directs sur la tâche ERU incluent des travaux issus de Stanford, CMU et des laboratoires chinois actifs sur la manipulation guidée par langage. Les prochaines étapes naturelles seraient une validation sur robot physique et une intégration dans des pipelines de manipulation temps réel, domaine où des acteurs comme Physical Intelligence (pi) ou 1X Technologies testent déjà des approches VLA proches.

RecherchePaper

1 source

RoboBench : un benchmark d'évaluation complet pour les grands modèles multimodaux comme cerveau incarné

41

2arXiv cs.RO

RoboBench : un benchmark d'évaluation complet pour les grands modèles multimodaux comme cerveau incarné

La robotique humanoïde et manipulatrice s'appuie de plus en plus sur une architecture a deux niveaux: un "System 1" qui gère le contrôle moteur bas niveau et un "System 2", le cerveau incarne, charge du raisonnement et de la prise de décision. Un article mis a jour sur arXiv présente RoboBench, un benchmark conçu pour évaluer spécifiquement ce cerveau incarne lorsqu'il est implémenté par un modèle multimodal de grande taille (MLLM). Le benchmark couvre cinq dimensions: compréhension des instructions, raisonnement perceptif, planification généralisée, prédiction d'affordances et analyse d'échecs, reparties en 14 capacités, 25 taches et 6 092 paires question réponse. Les données combinent des jeux de données robotiques réels a grande échelle et des collectes internes couvrant plusieurs types de robots, des objets aux attributs varies, des scenes multi vues et des taches de navigation dépendantes de la mémoire. Dix huit MLLMs de pointe ont été testes sur ce benchmark. L'enjeu dépasse la simple mesure de performance: la plupart des benchmarks existants évaluent surtout le succès final d'exécution, sans isoler la qualité du raisonnement de haut niveau qui précède l'action, ni la réalité des taches proposées. RoboBench cherche a combler cet écart en testant directement si un modèle comprend une consigne implicite, raisonne correctement sur l'espace et le temps, ou diagnostique un échec, indépendamment de la couche de contrôle moteur. Les résultats montrent des limites persistantes sur la compréhension d'instructions implicites, le raisonnement spatio-temporel, la planification inter scenarios, la compréhension fine des affordances et le diagnostic d'échecs, ce qui questionne la maturité réelle des MLLMs actuels comme cerveaux de robots, au delà des démonstrations souvent mises en avant par les laboratoires. Pour l'évaluation de la planification, les auteurs introduisent un cadre inédit dit "MLLM comme simulateur du monde", qui vérifie si un plan prédit peut effectivement produire les changements d'état critiques d'un objet sous contraintes physiques et visuelles, plutôt que de se contenter d'un simple appariement symbolique avec un plan de référence. Cette approche vise une évaluation plus fidèle du raisonnement a long horizon. Les chercheurs analysent également le lien entre ces capacités cognitives incarnées et la performance réelle en contrôle robotique, positionnant RoboBench comme un outil de référence pour orienter la prochaine génération de MLLMs vers une intelligence robotique plus robuste.

RecherchePaper

1 source

Analyse des capacités incarnées dans les modèles de langage multimodaux par évaluation et diagnostic par compétences

45

3arXiv cs.RO

Analyse des capacités incarnées dans les modèles de langage multimodaux par évaluation et diagnostic par compétences

Une équipe de chercheurs a publié BEAR (Benchmark for Embodied Abilities and Reasoning), un cadre d'évaluation qui décompose les tâches robotiques en 14 compétences atomiques pour diagnostiquer les failles des grands modèles de langage multimodaux (MLLMs) embarqués. Le benchmark regroupe 4 469 échantillons entrelacés image-vidéo-texte couvrant 6 catégories, de la perception bas niveau jusqu'à la planification de haut niveau. Soumis à 20 MLLMs dont GPT-5, il révèle deux résultats principaux : les capacités perceptuelles constituent le principal goulot d'étranglement derrière les échecs de raisonnement, et les modèles présentent une modélisation spatiotemporelle instable qui restait invisible dans les benchmarks précédents. En réponse, les auteurs proposent BEAR-Agent, un agent multimodal augmenté d'outils de raisonnement visuel et spatial, qui obtient une amélioration relative de 17,5 % sur GPT-5 par rapport au modèle de base, avec des gains confirmés en simulation et en robotique réelle. L'intérêt de ce travail tient à la granularité du diagnostic. Les benchmarks existants mesurent si un agent réussit une tâche sans expliquer pourquoi. BEAR révèle que les modèles n'échouent pas d'abord sur le raisonnement abstrait, mais sur la perception : identifier des objets dans une scène, interpréter une séquence vidéo, localiser un élément dans l'espace. Ce résultat contredit l'hypothèse répandue selon laquelle les LLMs auraient comblé le déficit de compréhension scénique grâce à leur préentraînement massif. La découverte sur l'instabilité spatiotemporelle est particulièrement significative pour les intégrateurs déployant des VLA (Vision-Language-Action models) en environnement industriel : elle suggère que les performances observées en démonstration vidéo curatée ne reflètent pas la fiabilité opérationnelle réelle. Ce preprint arXiv (version 2, 2025) s'inscrit dans un effort plus large pour structurer l'évaluation des agents embarqués, là où des benchmarks comme EgoSchema ou OpenEQA traitent la compréhension incarnée sans diagnostiquer les sous-compétences. BEAR se distingue par ses expériences en environnements robotiques réels, contrairement aux approches purement simulées comme EmbodiedScan. Aucun acteur français ou européen n'est directement impliqué dans cette publication académique, qui émane vraisemblablement d'équipes universitaires asiatiques ou nord-américaines au vu de la page projet associée. La prochaine étape logique serait l'adoption de BEAR comme protocole standard dans les pipelines d'évaluation VLA avant tout déploiement physique.

RecherchePaper

1 source

AssemLM : un modèle de langage multimodal pour le raisonnement spatial en assemblage robotique

44

4arXiv cs.RO

AssemLM : un modèle de langage multimodal pour le raisonnement spatial en assemblage robotique

Des chercheurs ont publié AssemLM (arXiv:2604.08983), un modèle multimodal de raisonnement spatial pour la robotique d'assemblage. Le système fusionne trois sources (manuels d'assemblage, nuages de points 3D, instructions textuelles) pour prédire des poses 6D, c'est-à-dire la position et l'orientation complètes d'une pièce dans l'espace tridimensionnel. Un encodeur de nuages de points spécialisé extrait des caractéristiques géométriques et rotationnelles fines, transmises ensuite à un LLM multimodal pour le raisonnement spatial de haut niveau. Les auteurs publient également AssemBench, un benchmark de plus de 900 000 échantillons multimodaux avec annotations de poses 6D précises, étendant l'évaluation classique du grounding 2D à l'inférence géométrique 3D complète. Des tests sur robot réel valident des performances à l'état de l'art sur des tâches d'assemblage multi-étapes en conditions réelles. Le verrou ciblé est central en manipulation fine industrielle: les VLMs courants opèrent sur des images 2D et peinent à raisonner sur la géométrie précise qu'exigent le vissage, l'emboîtement ou l'alignement de composants au sous-millimètre. En intégrant les nuages de points comme modalité native, AssemLM raisonne sur l'orientation exacte d'une pièce, pas seulement sur sa présence dans le champ visuel. Pour un intégrateur ou une équipe R&D en automatisation industrielle, prédire des poses 6D depuis un manuel PDF et une capture 3D ouvre la voie à des cellules d'assemblage reconfigurables sans reprogrammation manuelle entre chaque référence produit. AssemBench, avec ses 900 000 échantillons annotés, comble par ailleurs un manque d'infrastructure de comparaison rigoureuse dans ce sous-domaine. Le raisonnement spatial est un défi persistant pour les modèles de vision-langage, majoritairement entraînés sur des tâches 2D (captioning, grounding d'objets, VQA). Les modèles VLA (Vision-Language-Action) récents, comme pi0 de Physical Intelligence, OpenVLA ou les travaux de Google DeepMind sur RoboVLMs, progressent sur la manipulation généraliste, mais l'assemblage industriel structuré avec ses contraintes de précision sub-millimétrique reste peu adressé par ces approches. AssemLM se positionne dans cette niche en ciblant explicitement les tâches avec documentation formalisée (manuels, nomenclatures). Les auteurs annoncent la mise à disposition publique du code, des modèles et du dataset AssemBench, point d'entrée potentiel pour la communauté académique et les industriels souhaitant affiner le modèle sur leurs propres composants. Aucun partenaire industriel ni déploiement commercial n'est mentionné: il s'agit à ce stade d'une publication de recherche, sans produit ni pilote planifié.

UELa publication en open-source d'AssemBench (900 000 échantillons annotés 6D) constitue une ressource d'entraînement et d'évaluation directement exploitable par les labos européens travaillant sur la manipulation industrielle précise, sans acteur FR/EU impliqué à ce stade.

RechercheOpinion

1 source

IA incarnée : le corps influence le comportement de roulade dans un modèle multimodal de nourrisson

À lire aussi

IA incarnée : une méthode multimodale intégrant la perception de profondeur pour la compréhension référentielle

RoboBench : un benchmark d'évaluation complet pour les grands modèles multimodaux comme cerveau incarné

Analyse des capacités incarnées dans les modèles de langage multimodaux par évaluation et diagnostic par compétences

AssemLM : un modèle de langage multimodal pour le raisonnement spatial en assemblage robotique