Aller au contenu principal
Évaluation de l'inférence d'affordance sémantique par VLM pour des morphologies robotiques non humanoïdes
RecherchearXiv cs.RO6sem

Évaluation de l'inférence d'affordance sémantique par VLM pour des morphologies robotiques non humanoïdes

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Une équipe de chercheurs publie sur arXiv (2604.19509) une évaluation empirique des modèles vision-langage (VLM) pour l'inférence d'affordances sur des robots à morphologie non humanoïde. L'"affordance" désigne ici la capacité d'un modèle à déterminer quelles actions sont physiquement réalisables par un robot donné face à un objet spécifique. Les auteurs ont constitué un jeu de données hybride combinant des annotations réelles de relations affordance-objet et des scénarios synthétiques générés par VLM, couvrant plusieurs catégories d'objets et plusieurs types de morphologies robotiques. Les résultats montrent une généralisation prometteuse aux formes non humanoïdes, mais des performances très variables selon les domaines d'objets. Le constat central est un schéma systématique de faible taux de faux positifs associé à un fort taux de faux négatifs, révélant que les VLM adoptent des prédictions trop conservatrices. Ce biais est particulièrement prononcé pour les outils inédits et les manipulations non conventionnelles.

Pour les intégrateurs qui envisagent d'utiliser les VLM comme couche de planification sémantique, ce résultat est structurellement important. Le biais conservateur offre un avantage de sécurité intrinsèque, les robots n'entreprenant pas d'actions impossibles ou dangereuses, mais le taux élevé de faux négatifs freine l'exploitation réelle : le système refuse des tâches qu'il pourrait pourtant accomplir. Pour un architecte de système ou un COO industriel, cela confirme qu'un VLM seul ne peut pas servir de module d'affordance universel pour des cobots ou des AMR (robots mobiles autonomes) aux morphologies spécifiques. Des couches complémentaires, simulation physique ou vérification cinématique, restent nécessaires pour corriger ce défaut sans sacrifier la sécurité.

La recherche sur les affordances VLM s'est construite massivement sur des corpus centrés sur l'interaction humain-objet, laissant les robots non humanoïdes structurellement sous-représentés. Des architectures VLA (Vision-Language-Action) comme pi-zero de Physical Intelligence ou GR00T N2 de NVIDIA ont été évaluées principalement sur des tâches de manipulation humain-like. Cette étude pointe un enjeu distinct pour des plateformes comme Spot de Boston Dynamics ou ANYmal d'ANYbotics, dont les effecteurs et degrés de liberté (DOF) diffèrent fondamentalement de la main humaine. Les auteurs proposent des architectures hybrides et des jeux de données morpho-spécifiques comme prochaines étapes pour réduire le biais conservateur tout en préservant les faibles taux de faux positifs, seul acquis de sécurité clairement démontré.

Impact France/UE

Les intégrateurs européens déployant des AMR ou cobots non humanoïdes (ANYmal d'ANYbotics, Spot) doivent anticiper des couches de vérification cinématique complémentaires aux VLM avant tout déploiement autonome en planification sémantique.

À lire aussi

RoboSemanticBench : évaluer l'ancrage sémantique dans la prédiction d'actions des modèles VLA
1arXiv cs.RO 

RoboSemanticBench : évaluer l'ancrage sémantique dans la prédiction d'actions des modèles VLA

Un article pré-publié sur arXiv (2606.02277, juin 2026) introduit RoboSemanticBench (RSB), un benchmark conçu pour tester si les modèles vision-langage-action (VLA) exploitent réellement la compréhension sémantique dans leurs prédictions de mouvement. Le protocole est délibérément simple : un robot reçoit une question à choix multiples, arithmétique ou de culture générale, observe des blocs physiques correspondant aux réponses candidates, et doit saisir le bloc associé à la bonne réponse. RSB propose deux configurations, à quatre et dix choix, couvrant l'arithmétique contrôlée, la compréhension mathématique de niveau primaire, ainsi que le raisonnement de bon sens et factuel. Les résultats obtenus sur plusieurs modèles VLA représentatifs sont sévères : si la majorité des politiques testées parviennent à saisir des blocs de manière fiable, le taux de sélection du bloc sémantiquement correct se situe, après correction du succès de préhension, à des niveaux proches du hasard, voire inférieurs. Ce résultat remet en question une hypothèse fondatrice de l'architecture VLA : l'idée que la compréhension sémantique acquise lors du pré-entraînement du backbone (modèle de langage ou vision-langage) se transfère naturellement vers la prédiction d'action. Ce que RSB révèle, c'est que le fine-tuning par imitation sur des distributions d'actions spécifiques à une tâche suffit à masquer ce transfert : les modèles apprennent des raccourcis visuels ou des associations instruction-action sans ancrer leurs gestes dans la signification réelle des instructions. Pour les intégrateurs et industriels qui déploient des systèmes VLA dans des environnements à haute variabilité sémantique (picking, tri, assemblage configurable), ce diagnostic a des implications directes : la performance en évaluation standard ne garantit pas une généralisation sémantique robuste en conditions réelles. Les modèles VLA ont connu une montée en puissance rapide depuis RT-2 (Google DeepMind, 2023), avec des successeurs comme OpenVLA, Pi-0 (Physical Intelligence), GR00T N2 (NVIDIA) ou Helix (Figure AI), tous reposant sur l'hypothèse que des backbones vision-langage pré-entraînés fournissent une compréhension du monde directement exploitable pour la manipulation robotique. RSB constitue le premier benchmark structuré autour de la dissociation entre compétence sémantique au niveau du backbone et compétence sémantique au niveau de l'action, une distinction que les évaluations classiques par taux de succès en manipulation ne capturent pas. Les auteurs ne proposent pas de correctif immédiat, mais leur protocole ouvre la voie à des méthodes de fine-tuning ou d'évaluation capables de préserver, voire de restaurer, la capacité sémantique dans la chaîne décision-action.

UELes équipes R&D et intégrateurs européens déployant des systèmes VLA en picking, tri ou assemblage configurable doivent réévaluer leurs métriques de validation : RSB démontre que le taux de succès en manipulation ne garantit pas la généralisation sémantique en conditions réelles.

RechercheActu
1 source
Raisonnement guidé par ontologie pour des explications fondées sur les affordances en navigation robotique
2arXiv cs.RO 

Raisonnement guidé par ontologie pour des explications fondées sur les affordances en navigation robotique

Des chercheurs ont publié en juin 2026 sur arXiv (2606.00117) une méthode d'explication de la navigation robotique fondée sur le raisonnement ontologique et la théorie des affordances. L'approche construit, en temps réel, une ontologie locale représentant les entités proches du robot avec leurs affordances (ce qu'elles permettent de faire), leurs états possibles, et leurs relations spatiales qualitatives. Face à un obstacle, le système ne se contente pas de détecter le blocage : il évalue des hypothèses de changement d'état -- une porte peut-elle être ouverte, une chaise déplacée -- afin de générer des explications actionnables sur la manière de poursuivre la navigation. L'approche est validée sur un benchmark centré sur un scénario de robot bibliothécaire, avec des cas de navigation générés de manière procédurale. Les résultats montrent que le raisonnement ontologique identifie les facteurs d'explication pertinents avec une précision supérieure à une approche purement sémantique (semantic-only baseline), et reste robuste lorsque la densité d'objets non pertinents augmente -- ce qu'on appelle le semantic clutter, l'un des talons d'Achille des systèmes de navigation en environnement humain réel. Pour un intégrateur déployant des robots dans des espaces partagés (entrepôts mixtes, hôpitaux, bureaux), la capacité à expliquer les décisions de navigation répond à une exigence opérationnelle et réglementaire croissante, notamment sous l'AI Act européen. L'explication n'est pas ici cosmétique : elle est structurellement liée au raisonnement, ce qui la rend vérifiable et auditable par un opérateur humain. L'approche s'inscrit dans le courant de l'IA explicable (XAI) appliquée à la robotique. La théorie des affordances, conceptualisée par le psychologue James Gibson dans les années 1970, connaît un regain d'intérêt depuis l'émergence des vision-language models (VLMs) et des LLMs. Les approches concurrentes incluent les scene graphs sémantiques utilisés par Boston Dynamics et Sanctuary AI, ainsi que les planificateurs fondés sur LLM comme SayCan (Google DeepMind). Par rapport à ces méthodes, l'ontologie locale proposée ici est plus légère et plus explicite formellement, mais reste évaluée sur un benchmark synthétique limité -- le passage à des environnements réels non contrôlés reste à démontrer. Aucun partenariat industriel ni timeline de déploiement n'est mentionné : ce travail est une contribution académique de fond, pas un produit en voie de commercialisation.

UEL'approche répond structurellement aux exigences de l'AI Act pour les systèmes autonomes navigant en environnement humain, en fournissant des explications auditables sur les décisions de navigation, pertinent pour les intégrateurs européens déployant des robots en espaces partagés.

RecherchePaper
1 source
Modèle VLA GazeVLA : apprendre l'intention humaine pour la manipulation robotique
3arXiv cs.RO 

Modèle VLA GazeVLA : apprendre l'intention humaine pour la manipulation robotique

Une équipe de recherche a publié fin avril 2026 (arXiv:2604.22615) GazeVLA, un framework de manipulation robotique qui exploite le regard humain comme représentation intermédiaire de l'intention. L'approche repose sur un préentraînement du modèle sur un large corpus de vidéos égocentrées humaines, puis un fine-tuning sur un ensemble réduit de données robotiques et humaines combinées. Lors de l'inférence, le modèle adopte un raisonnement en chaîne (Chain-of-Thought) : il prédit d'abord la cible de fixation oculaire, c'est-à-dire l'intention, avant d'exécuter l'action motrice. Les évaluations couvrent des tâches longues-horizon et de manipulation fine-grained, en simulation et en conditions réelles, avec des benchmarks few-shot et de robustesse. Le modèle surpasse les baselines comparées sur l'ensemble des scénarios testés et atteint l'état de l'art annoncé, bien que le papier reste un preprint sans validation industrielle tierce. Le vrai enjeu de GazeVLA est économique autant que technique : collecter des démonstrations robotiques à grande échelle coûte cher et ralentit le déploiement des VLA (Vision-Language-Action models) dans des environnements industriels variés. L'abondance de vidéos égocentrées humaines, corpus comme Ego4D ou EPIC-Kitchens comptent des milliers d'heures, offre une source de données bon marché, mais le "embodiment gap" rendait leur transfert direct peu fiable. En intercalant la prédiction de gaze comme signal d'intention universel, le framework réduit ce gap sans exiger de grands volumes de démonstrations robot-spécifiques. La capacité few-shot est particulièrement pertinente pour des intégrateurs industriels qui ne peuvent pas se permettre des campagnes de collecte coûteuses pour chaque nouvelle tâche ou ligne de production. GazeVLA s'inscrit dans une compétition dense autour des architectures VLA généralisables : Physical Intelligence (pi-0), OpenVLA (UC Berkeley), Octo, et plus récemment GR00T N2 de NVIDIA cherchent tous à réduire la dépendance aux données robotiques propriétaires. L'angle "intention via gaze" n'est pas entièrement nouveau, des travaux antérieurs comme R3M ou DINObot ayant déjà exploré le préentraînement sur vidéos humaines, mais l'explicitation de la fixation oculaire comme étape de raisonnement séquentiel est une contribution distincte. Aucun déploiement commercial ni partenariat industriel n'est annoncé à ce stade, et les auteurs ne mentionnent pas d'affiliations avec des acteurs européens. Les prochaines étapes logiques seraient un test à plus grande échelle sur des robots commerciaux (Franka, UR) et une validation sur des tâches industrielles standardisées.

RechercheOpinion
1 source
AffordSim : un générateur de données évolutif et un benchmark pour la manipulation robotique guidée par les affordances
4arXiv cs.RO 

AffordSim : un générateur de données évolutif et un benchmark pour la manipulation robotique guidée par les affordances

AffordSim est un générateur de données simulées et benchmark pour la manipulation robotique consciente des affordances, publié en preprint sur arXiv en mai 2026 (référence 2604.11674). Le système répond à un problème structurel : les estimateurs de préhension génériques optimisent la stabilité sans logique de tâche et sélectionnent souvent la mauvaise zone fonctionnelle de l'objet, tandis que les annotations manuelles de contact doivent être réécrites pour chaque nouvel objet et chaque nouvelle tâche. AffordSim intègre la prédiction d'affordances 3D à vocabulaire ouvert dans un pipeline de simulation : à partir d'une instruction en langage naturel, il synthétise la scène, localise les régions fonctionnelles pertinentes sur les surfaces d'objets (la poignée d'une casserole, le bouton d'un tiroir), échantillonne des prises conditionnées à ces régions, puis sélectionne les trajectoires exécutables par planification de mouvement. La randomisation de pose, texture, éclairage et bruit d'image est intégrée pour favoriser le transfert sim-to-real. Le benchmark couvre 50 tâches, cinq embodiments robotiques distincts et plus de 500 objets rigides et articulés. Les politiques VLA (Vision-Language-Action) entraînées sur ces données transfèrent zéro-shot vers un Franka FR3 réel avec 24 % de succès moyen, sans aucun fine-tuning sur données physiques. La zone fonctionnelle d'un objet, l'affordance, est précisément le point de défaillance ignoré par les benchmarks de manipulation génériques : saisir le mauvais endroit rend l'action aval impossible quel que soit le planificateur. AffordSim atteint 93 % du taux de succès des annotations manuelles sur les tâches critiques d'affordance, et 89 % sur les tâches composites difficiles, ce qui valide l'annotation automatisée comme substitut crédible à l'annotation humaine à grande échelle. Pour les équipes développant des modèles de fondation robotique ou des politiques VLA, cela réduit drastiquement le coût de génération de données diversifiées. Le score de 24 % en zero-shot reste modeste, mais il constitue une preuve de principe importante : un pipeline entièrement simulé peut produire des politiques opérationnelles sur matériel réel, condition nécessaire à un déploiement industriel scalable. AffordSim s'inscrit dans la vague des générateurs de données synthétiques pour la manipulation, aux côtés de RoboGen, GenSim et des pipelines Nvidia Isaac. Le Franka FR3, bras académique de référence vendu autour de 15 000 euros, est l'unique plateforme réelle testée, ce qui limite la portée des conclusions hors de ce contexte de laboratoire. Les modèles de fondation robotique comme pi0 (Physical Intelligence) ou OpenVLA constituent le terrain applicatif naturel de cet outil. En Europe, des équipes comme le LAAS-CNRS à Toulouse et des startups comme Enchanted Tools (Paris, robots manipulateurs expressifs) pourraient exploiter ce type de générateur pour réduire leur dépendance aux plateformes de données propriétaires américaines. Ce travail restant un preprint non encore évalué par les pairs, les métriques avancées devront être confirmées lors d'une soumission en conférence (CoRL, RSS ou ICRA).

UELes équipes européennes comme le LAAS-CNRS (Toulouse) et Enchanted Tools (Paris) pourraient exploiter AffordSim pour réduire leur dépendance aux plateformes de données propriétaires américaines dans le développement de politiques VLA.

RechercheOpinion
1 source