Aller au contenu principal
RecherchearXiv cs.RO1h

Raisonnement guidé par ontologie pour des explications fondées sur les affordances en navigation robotique

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Des chercheurs ont publié en juin 2026 sur arXiv (2606.00117) une méthode d'explication de la navigation robotique fondée sur le raisonnement ontologique et la théorie des affordances. L'approche construit, en temps réel, une ontologie locale représentant les entités proches du robot avec leurs affordances (ce qu'elles permettent de faire), leurs états possibles, et leurs relations spatiales qualitatives. Face à un obstacle, le système ne se contente pas de détecter le blocage : il évalue des hypothèses de changement d'état -- une porte peut-elle être ouverte, une chaise déplacée -- afin de générer des explications actionnables sur la manière de poursuivre la navigation. L'approche est validée sur un benchmark centré sur un scénario de robot bibliothécaire, avec des cas de navigation générés de manière procédurale.

Les résultats montrent que le raisonnement ontologique identifie les facteurs d'explication pertinents avec une précision supérieure à une approche purement sémantique (semantic-only baseline), et reste robuste lorsque la densité d'objets non pertinents augmente -- ce qu'on appelle le semantic clutter, l'un des talons d'Achille des systèmes de navigation en environnement humain réel. Pour un intégrateur déployant des robots dans des espaces partagés (entrepôts mixtes, hôpitaux, bureaux), la capacité à expliquer les décisions de navigation répond à une exigence opérationnelle et réglementaire croissante, notamment sous l'AI Act européen. L'explication n'est pas ici cosmétique : elle est structurellement liée au raisonnement, ce qui la rend vérifiable et auditable par un opérateur humain.

L'approche s'inscrit dans le courant de l'IA explicable (XAI) appliquée à la robotique. La théorie des affordances, conceptualisée par le psychologue James Gibson dans les années 1970, connaît un regain d'intérêt depuis l'émergence des vision-language models (VLMs) et des LLMs. Les approches concurrentes incluent les scene graphs sémantiques utilisés par Boston Dynamics et Sanctuary AI, ainsi que les planificateurs fondés sur LLM comme SayCan (Google DeepMind). Par rapport à ces méthodes, l'ontologie locale proposée ici est plus légère et plus explicite formellement, mais reste évaluée sur un benchmark synthétique limité -- le passage à des environnements réels non contrôlés reste à démontrer. Aucun partenariat industriel ni timeline de déploiement n'est mentionné : ce travail est une contribution académique de fond, pas un produit en voie de commercialisation.

Impact France/UE

L'approche répond structurellement aux exigences de l'AI Act pour les systèmes autonomes navigant en environnement humain, en fournissant des explications auditables sur les décisions de navigation, pertinent pour les intégrateurs européens déployant des robots en espaces partagés.

À lire aussi

Modèle du monde pour la navigation sociale de robots guidée par la logique
1arXiv cs.RO 

Modèle du monde pour la navigation sociale de robots guidée par la logique

Des chercheurs ont publié NaviWM (Navigation World Model), un système de navigation robotique socialement consciente qui couple un grand modèle de langage (LLM) avec un modèle de monde structuré et un module de raisonnement logique déductif. Le système repose sur deux composants principaux : un modèle spatio-temporel qui capture en temps réel les positions, vitesses et activités des agents présents dans l'environnement, et un module de raisonnement par chaîne-de-pensée (chain-of-thought) guidé par des règles formelles. La nouveauté centrale est l'encodage des normes sociales en logique du premier ordre (first-order logic), ce qui rend le raisonnement du robot vérifiable et interprétable, contrairement aux approches par prompt engineering ou fine-tuning. Les expériences menées montrent une amélioration du taux de succès de navigation et une réduction des violations sociales dans les environnements encombrés. L'article, disponible en version 2 sur arXiv (référence 2510.23509), est accompagné de vidéos de démonstration publiées par les auteurs. Ce travail s'attaque à une faille bien documentée des LLM appliqués à la planification de trajectoires en robotique mobile : le manque d'ancrage physique et de cohérence logique lorsqu'ils opèrent seuls. En environnements dynamiques peuplés d'humains, les LLM purs produisent des comportements imprévisibles, voire dangereux. En ajoutant une couche de raisonnement formel en aval du LLM sous des contraintes explicites (espace personnel, évitement de collision, gestion du timing), NaviWM propose une solution plus robuste. Pour un intégrateur travaillant sur des robots de service en intérieur, livraison hospitalière ou navigation en entrepôt mixte humain-robot, cela représente un levier concret pour réduire le gap entre démonstration en laboratoire et déploiement opérationnel. Le caractère interprétable du raisonnement constitue également un atout pour les exigences de traçabilité et de certification en milieu industriel ou médical. La navigation sociale pour robots mobiles est un champ en forte effervescence, où coexistent des approches classiques comme ORCA (Optimal Reciprocal Collision Avoidance), des prédicteurs à base de réseaux LSTM sociaux, et plus récemment des systèmes intégrant des VLA (Vision-Language-Action models) comme Pi-0 ou les architectures embarquées de Boston Dynamics et Figure. NaviWM se positionne dans un segment distinct : il ne cherche pas à remplacer le LLM mais à le contraindre via un modèle du monde explicite et des règles formelles, une approche hybride neuro-symbolique proche des travaux du MIT CSAIL sur la planification task-and-motion. Les prochaines étapes naturelles seront de valider l'architecture sur des plateformes physiques hors simulation et de tester la robustesse des règles logiques face à des scénarios sociaux non anticipés lors de leur encodage initial.

RecherchePaper
1 source
Amélioration de la reconstruction de surfaces en verre par estimation de profondeur pour la navigation robotique
2arXiv cs.RO 

Amélioration de la reconstruction de surfaces en verre par estimation de profondeur pour la navigation robotique

Des chercheurs ont publié le 25 avril 2026 sur arXiv (arXiv:2604.18336) un framework de reconstruction de surfaces vitrées destiné à améliorer la navigation autonome en intérieur. Le problème visé est concret : les capteurs de profondeur (LiDAR, RGB-D) échouent systématiquement face aux surfaces transparentes ou réfléchissantes comme le verre, qui génèrent des mesures erronées ou absentes. L'approche proposée exploite Depth Anything 3, un modèle fondationnel de vision monoculaire, comme prior géométrique, puis aligne ce prior sur les données brutes du capteur via un algorithme RANSAC local. Ce mécanisme permet d'éviter que les mesures corrompues par le verre ne contaminent la reconstruction finale, tout en récupérant une échelle métrique absolue que le modèle de fondation seul ne fournit pas. L'équipe publie également GlassRecon, un dataset RGB-D inédit avec vérité terrain dérivée géométriquement pour les régions vitrées, et annonce la mise à disposition du code et des données sur GitHub. Ce travail adresse un angle mort réel de la navigation robotique en milieu tertiaire. Les bureaux, centres commerciaux, aéroports et hôpitaux sont truffés de cloisons vitrées, de vitrines et de portes transparentes qui font échouer les AMR (Autonomous Mobile Robots) commerciaux en production. Le fait que le framework soit training-free est un avantage pratique direct pour les intégrateurs : il ne nécessite pas de retrainer un modèle sur des données propriétaires, et peut s'insérer dans un pipeline de navigation existant sans modification majeure. Les expériences montrent des gains consistants par rapport aux baselines de l'état de l'art, particulièrement dans les cas de corruption sévère du capteur, ce qui suggère une robustesse utile en conditions réelles plutôt qu'en environnement de laboratoire contrôlé. La détection et la reconstruction de surfaces transparentes est un problème ouvert depuis plusieurs années dans la communauté robotique. Des travaux antérieurs comme GlassNet ou Trans10K avaient abordé la segmentation du verre en RGB pur, mais la fusion avec des données de profondeur restait peu explorée de manière training-free. Du côté concurrentiel, des approches de completion de profondeur par deep learning (IP-Basic, PENet) ou de slam robuste aux occultations existent, mais elles requièrent typiquement un entraînement spécialisé. La contribution de ce papier est de positionner les modèles de fondation non pas comme remplaçants du capteur, mais comme régularisateurs géométriques. Les prochaines étapes annoncées sont la publication du dataset GlassRecon et du code, ce qui permettra à la communauté d'évaluer la reproductibilité des résultats. Aucun déploiement terrain ni partenaire industriel n'est mentionné à ce stade : il s'agit d'une contribution de recherche, pas d'un produit.

RecherchePaper
1 source
AffordSim : un générateur de données évolutif et un benchmark pour la manipulation robotique guidée par les affordances
3arXiv cs.RO 

AffordSim : un générateur de données évolutif et un benchmark pour la manipulation robotique guidée par les affordances

AffordSim est un générateur de données simulées et benchmark pour la manipulation robotique consciente des affordances, publié en preprint sur arXiv en mai 2026 (référence 2604.11674). Le système répond à un problème structurel : les estimateurs de préhension génériques optimisent la stabilité sans logique de tâche et sélectionnent souvent la mauvaise zone fonctionnelle de l'objet, tandis que les annotations manuelles de contact doivent être réécrites pour chaque nouvel objet et chaque nouvelle tâche. AffordSim intègre la prédiction d'affordances 3D à vocabulaire ouvert dans un pipeline de simulation : à partir d'une instruction en langage naturel, il synthétise la scène, localise les régions fonctionnelles pertinentes sur les surfaces d'objets (la poignée d'une casserole, le bouton d'un tiroir), échantillonne des prises conditionnées à ces régions, puis sélectionne les trajectoires exécutables par planification de mouvement. La randomisation de pose, texture, éclairage et bruit d'image est intégrée pour favoriser le transfert sim-to-real. Le benchmark couvre 50 tâches, cinq embodiments robotiques distincts et plus de 500 objets rigides et articulés. Les politiques VLA (Vision-Language-Action) entraînées sur ces données transfèrent zéro-shot vers un Franka FR3 réel avec 24 % de succès moyen, sans aucun fine-tuning sur données physiques. La zone fonctionnelle d'un objet, l'affordance, est précisément le point de défaillance ignoré par les benchmarks de manipulation génériques : saisir le mauvais endroit rend l'action aval impossible quel que soit le planificateur. AffordSim atteint 93 % du taux de succès des annotations manuelles sur les tâches critiques d'affordance, et 89 % sur les tâches composites difficiles, ce qui valide l'annotation automatisée comme substitut crédible à l'annotation humaine à grande échelle. Pour les équipes développant des modèles de fondation robotique ou des politiques VLA, cela réduit drastiquement le coût de génération de données diversifiées. Le score de 24 % en zero-shot reste modeste, mais il constitue une preuve de principe importante : un pipeline entièrement simulé peut produire des politiques opérationnelles sur matériel réel, condition nécessaire à un déploiement industriel scalable. AffordSim s'inscrit dans la vague des générateurs de données synthétiques pour la manipulation, aux côtés de RoboGen, GenSim et des pipelines Nvidia Isaac. Le Franka FR3, bras académique de référence vendu autour de 15 000 euros, est l'unique plateforme réelle testée, ce qui limite la portée des conclusions hors de ce contexte de laboratoire. Les modèles de fondation robotique comme pi0 (Physical Intelligence) ou OpenVLA constituent le terrain applicatif naturel de cet outil. En Europe, des équipes comme le LAAS-CNRS à Toulouse et des startups comme Enchanted Tools (Paris, robots manipulateurs expressifs) pourraient exploiter ce type de générateur pour réduire leur dépendance aux plateformes de données propriétaires américaines. Ce travail restant un preprint non encore évalué par les pairs, les métriques avancées devront être confirmées lors d'une soumission en conférence (CoRL, RSS ou ICRA).

UELes équipes européennes comme le LAAS-CNRS (Toulouse) et Enchanted Tools (Paris) pourraient exploiter AffordSim pour réduire leur dépendance aux plateformes de données propriétaires américaines dans le développement de politiques VLA.

RechercheOpinion
1 source
Évaluation de l'inférence d'affordance sémantique par VLM pour des morphologies robotiques non humanoïdes
4arXiv cs.RO 

Évaluation de l'inférence d'affordance sémantique par VLM pour des morphologies robotiques non humanoïdes

Une équipe de chercheurs publie sur arXiv (2604.19509) une évaluation empirique des modèles vision-langage (VLM) pour l'inférence d'affordances sur des robots à morphologie non humanoïde. L'"affordance" désigne ici la capacité d'un modèle à déterminer quelles actions sont physiquement réalisables par un robot donné face à un objet spécifique. Les auteurs ont constitué un jeu de données hybride combinant des annotations réelles de relations affordance-objet et des scénarios synthétiques générés par VLM, couvrant plusieurs catégories d'objets et plusieurs types de morphologies robotiques. Les résultats montrent une généralisation prometteuse aux formes non humanoïdes, mais des performances très variables selon les domaines d'objets. Le constat central est un schéma systématique de faible taux de faux positifs associé à un fort taux de faux négatifs, révélant que les VLM adoptent des prédictions trop conservatrices. Ce biais est particulièrement prononcé pour les outils inédits et les manipulations non conventionnelles. Pour les intégrateurs qui envisagent d'utiliser les VLM comme couche de planification sémantique, ce résultat est structurellement important. Le biais conservateur offre un avantage de sécurité intrinsèque, les robots n'entreprenant pas d'actions impossibles ou dangereuses, mais le taux élevé de faux négatifs freine l'exploitation réelle : le système refuse des tâches qu'il pourrait pourtant accomplir. Pour un architecte de système ou un COO industriel, cela confirme qu'un VLM seul ne peut pas servir de module d'affordance universel pour des cobots ou des AMR (robots mobiles autonomes) aux morphologies spécifiques. Des couches complémentaires, simulation physique ou vérification cinématique, restent nécessaires pour corriger ce défaut sans sacrifier la sécurité. La recherche sur les affordances VLM s'est construite massivement sur des corpus centrés sur l'interaction humain-objet, laissant les robots non humanoïdes structurellement sous-représentés. Des architectures VLA (Vision-Language-Action) comme pi-zero de Physical Intelligence ou GR00T N2 de NVIDIA ont été évaluées principalement sur des tâches de manipulation humain-like. Cette étude pointe un enjeu distinct pour des plateformes comme Spot de Boston Dynamics ou ANYmal d'ANYbotics, dont les effecteurs et degrés de liberté (DOF) diffèrent fondamentalement de la main humaine. Les auteurs proposent des architectures hybrides et des jeux de données morpho-spécifiques comme prochaines étapes pour réduire le biais conservateur tout en préservant les faibles taux de faux positifs, seul acquis de sécurité clairement démontré.

UELes intégrateurs européens déployant des AMR ou cobots non humanoïdes (ANYmal d'ANYbotics, Spot) doivent anticiper des couches de vérification cinématique complémentaires aux VLM avant tout déploiement autonome en planification sémantique.

RechercheOpinion
1 source