Aller au contenu principal
RecherchearXiv cs.RO3h

CoReLIN : raisonnement basé sur des contraintes pour la navigation interactive à vie sans exemples préalables

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Des chercheurs présentent CoReLIN, un système de navigation robotique capable de déplacer des objets pour se frayer un chemin lorsque l'environnement est trop encombré pour laisser un passage libre. La plupart des planificateurs de navigation actuels supposent qu'un chemin sans obstacle existe toujours entre le point de départ et l'objectif, une hypothèse qui ne tient pas dans des environnements réels chargés de mobilier ou d'objets épars. Les auteurs formalisent une nouvelle tâche baptisée Lifelong Interactive Navigation, où un robot mobile doté de capacités de manipulation doit réorganiser la scène pour accomplir des séquences de tâches de placement d'objets, sachant que chaque modification de l'environnement a des répercussions durables sur la navigabilité future. CoReLIN s'appuie sur un modèle de langage qui raisonne sur un graphe de scène structuré pour décider quels objets déplacer, où les repositionner et quelles zones explorer ensuite, tandis qu'un planificateur de mouvement classique exécute les primitives de navigation et de manipulation. Sur le simulateur ProcTHOR-10k, le système dépasse la meilleure référence de 16% selon les métriques standards, et se transfère avec succès sur du matériel réel.

L'enjeu dépasse la simple prouesse académique: la plupart des robots de service et de logistique évoluent aujourd'hui dans des environnements dynamiques et encombrés, entrepôts, domiciles, hôpitaux, où l'absence de chemin dégagé est la norme plutôt que l'exception. En couplant raisonnement sémantique par LLM et perception active, CoReLIN illustre une tendance de fond du secteur: remplacer la planification purement géométrique par un raisonnement de plus haut niveau capable de décider quand agir sur l'environnement plutôt que de le contourner.

Pour évaluer ce comportement à long terme, les auteurs introduisent deux métriques inédites, le Long-term Efficiency Score et le Price of Clutter, qui capturent le taux de réussite, l'efficacité d'exécution et le coût d'optimalité de l'environnement laissé par le robot. Cette approche s'inscrit dans la lignée des travaux récents combinant graphes de scène et modèles de langage pour la planification robotique zero-shot, et ouvre la voie à des tests sur des tâches plus longues et des scènes réelles plus variées.

À lire aussi

HCSG : raisonnement sémantique-géométrique centré sur l'humain pour la navigation vision-langage
1arXiv cs.RO 

HCSG : raisonnement sémantique-géométrique centré sur l'humain pour la navigation vision-langage

Des chercheurs ont publié en mai 2026 HCSG (Human-Centric Semantic-Geometric Reasoning), un cadre de navigation en langage naturel (VLN) conçu pour les environnements intérieurs dynamiques peuplés de piétons, déposé sur arXiv sous la référence 2605.13321. Contrairement aux approches existantes qui traitent les humains comme de simples obstacles mobiles détectés par indices visuels, HCSG introduit un module unifié de compréhension humaine combinant deux capacités complémentaires : la prévision géométrique, qui anticipe poses et trajectoires futures des personnes, et l'interprétation sémantique, qui exploite un modèle vision-langage (VLM) pour générer des descriptions textuelles des actions et intentions perçues. Ces représentations sont fusionnées dans une carte topologique sur laquelle l'agent planifie ses déplacements en fonction des instructions reçues. Une fonction de perte de distance sociale (social distance loss) contraint le robot à maintenir des distances d'interaction socialement acceptables. Sur le benchmark HA-VLNCE, le framework affiche un gain de 14 % sur le taux de succès et une réduction de 34 % du taux de collision face à l'état de l'art, des chiffres à interpréter avec la prudence habituelle réservée aux préprints non encore évalués en pair-à-pair. Ces résultats pointent un changement de paradigme pertinent pour la robotique de service en espace ouvert. La distinction clé de HCSG est de passer d'un évitement passif (détecter puis contourner) à une compréhension active des comportements : le robot infère si un piéton s'apprête à changer de direction, à s'arrêter ou à interagir, ce qui permet une planification plus fluide. L'intégration d'un VLM est cohérente avec la montée en puissance des architectures vision-langage-action (VLA), mais l'article valide ici leur utilité spécifique pour la navigation sociale, pas seulement la manipulation. Pour les intégrateurs de robots de livraison intérieure ou de guidage hospitalier, c'est un signal que les approches purement géométriques atteignent leurs limites dans des environnements non contrôlés. La navigation VLN a progressé rapidement depuis les benchmarks R2R et REVERIE, portée par les transformers de vision et des modèles comme CLIP. HA-VLNCE, sur lequel HCSG est évalué, est une extension de VLN-CE intégrant des agents humains dynamiques, le rapprochant davantage des conditions de déploiement réelles. Les approches concurrentes en navigation sociale incluent des travaux issus de Stanford, CMU ou MIT, et des frameworks comme NaviSTAR. Côté industriel, les robots de Keenon, Aethon ou Savioke opèrent encore largement dans des couloirs semi-contrôlés précisément pour éviter ces problèmes de cohabitation. HCSG reste une contribution académique sans validation industrielle annoncée, mais une page de projet dédiée laisse entrevoir des travaux futurs sur robot physique.

RechercheOpinion
1 source
Raisonnement sémantique relationnel sur des graphes de scènes 3D pour la recherche interactive d'objets en monde ouvert
2arXiv cs.RO 

Raisonnement sémantique relationnel sur des graphes de scènes 3D pour la recherche interactive d'objets en monde ouvert

Des chercheurs présentent SCOUT (Scene Graph-Based Exploration with Learned Utility), un système permettant à un robot domestique de retrouver un objet inconnu dans un environnement ouvert, sans carte préalable ni liste d'objets fixe. Publié sur arXiv (2603.05642v2), le travail propose de représenter l'environnement sous forme de graphes de scène 3D, où chaque pièce, chaque frontière inexplor ée et chaque objet reçoit un score d'utilité calculé à partir d'heuristiques relationnelles : la probabilité qu'un objet cible se trouve dans telle pièce (containment), ou qu'il soit co-localisé avec d'autres objets connus (co-occurrence). Le robot explore ainsi en priorité les zones les plus prometteuses, sans interroger un LLM à chaque étape. Pour conserver la généralisation en vocabulaire ouvert, les auteurs introduisent un cadre de distillation procédurale hors ligne : les connaissances relationnelles sont extraites d'un grand modèle de langage une fois, puis compressées dans des modèles légers exécutables directement sur le robot. Un benchmark symbolique baptisé SymSearch est également proposé pour évaluer le raisonnement sémantique dans ce type de tâches. L'enjeu central est l'équilibre entre pertinence sémantique et faisabilité temps réel, un point de friction majeur pour les intégrateurs en robotique de service. Les méthodes fondées sur la similarité d'embeddings vision-langage (type CLIP) sont rapides mais échouent sur les relations contextuelles : un robot cherchant un médicament ne déduit pas spontanément "salle de bain" depuis un embedding. Les LLMs résolvent cela mais sont trop lents et trop coûteux pour un déploiement embarqué. SCOUT, selon les évaluations menées en simulation et dans des environnements physiques réels, égale les performances des LLMs tout en restant computationnellement léger, ce qui ouvre la voie à une navigation sémantique réactive sur du matériel standard. La démonstration en environnement réel, avec des contraintes de capteurs et de navigation authentiques, atténue en partie le reproche habituel de sim-to-real gap, même si aucune métrique quantitative de transfert n'est détaillée dans le résumé. Ce travail s'inscrit dans un champ actif depuis les approches de navigation sémantique par graphes de scène (ScanQA, SceneGraph-Fusion, 3DSG), face auxquelles SCOUT se distingue par la distillation offline plutôt que par l'appel LLM en ligne. Les concurrents directs incluent les méthodes basées sur ESC, CoNaV ou L3MVN, qui exploitent des embeddings ou des LLMs pour guider l'exploration. Aucune intégration industrielle ni partenariat commercial n'est annoncé à ce stade : il s'agit d'une contribution académique avec benchmark et expériences réelles, dont la prochaine étape naturelle serait une évaluation sur des plateformes robotiques standards comme Spot ou Hello Robot Stretch.

RecherchePaper
1 source
TAGA : une approche réactive basée sur les tangentes pour la navigation socialement acceptable des robots autour des groupes humains
3arXiv cs.RO 

TAGA : une approche réactive basée sur les tangentes pour la navigation socialement acceptable des robots autour des groupes humains

Des chercheurs ont publié sur arXiv (réf. 2503.21168) TAGA (Tangent Action for Group Avoidance), une couche de navigation modulaire conçue pour que les robots mobiles contournent non seulement les individus, mais aussi les groupes sociaux constitués dans les espaces publics. L'algorithme détecte les limites implicites d'un groupe humain via des manœuvres tangentielles et les transmet à un contrôleur hiérarchique qui coordonne l'évitement de groupe avec la prévention classique des collisions individuelles, sans modifier la politique de navigation sous-jacente. Pour évaluer la conformité sociale au-delà des métriques terminales binaires (succès/échec), les auteurs introduisent le Group Crossing Rate (GCR), une métrique continue mesurant la fraction de pas de temps pendant lesquels le robot se trouve à l'intérieur du hull convexe d'un groupe. Les tests se basent sur un benchmark de simulation reproduisant cinq comportements empiriquement documentés : hétérogénéité des vitesses individuelles, couplage de vitesse intra-groupe, formations en F statiques, dynamiques leader-suiveur, et limites de hulls convexes, le tout évalué sous les modèles piétons ORCA et Social Force. Les résultats révèlent une asymétrie entre approches réactives classiques et politiques apprises : TAGA apporte jusqu'à 8 points de pourcentage de gain en taux de succès et divise par deux le GCR pour les baselines réactives type ORCA et Social Force, avec un surcoût quasi nul pour les politiques apprises comme DS-RNN ou Intention-RL. Ce résultat est actionnable pour les intégrateurs : il indique précisément quand ajouter un module de conscience de groupe par-dessus un planificateur existant est rentable, versus quand un entraînement end-to-end intégrant les groupes dès le départ est préférable. Pour les déploiements en milieu hospitalier, aéroportuaire ou retail, où la perception de la robotique par les usagers pèse autant que la performance brute, réduire les intrusions dans les bulles sociales représente un levier opérationnel concret. La navigation socialement conforme (socially-aware navigation) est un axe de recherche actif depuis les travaux fondateurs sur le Social Force Model de Helbing et Molnár (1995) et les travaux ORCA de Van Den Berg. TAGA s'inscrit dans une tendance récente qui vise à séparer les préoccupations sociales et cinématiques plutôt qu'à tout fusionner dans un unique réseau de bout en bout. Des approches concurrentes incluent les travaux de Crowd-Nav, SARL, et les politiques RLSS. L'absence de validation sur robot réel reste la limite principale de cette publication académique. Les prochaines étapes logiques seront un test sur plateforme physique (AMR de type Clearpath ou Boston Dynamics Spot) et une intégration avec des stacks ROS2 standard.

RecherchePaper
1 source
Exploration des goulots d'étranglement dans la navigation VLM-LLM : l'impact de la compréhension de scènes 3D sur la navigation sans apprentissage préalable
4arXiv cs.RO 

Exploration des goulots d'étranglement dans la navigation VLM-LLM : l'impact de la compréhension de scènes 3D sur la navigation sans apprentissage préalable

Des chercheurs ont publié le 20 mai 2026 sur arXiv (arXiv:2605.14801) une étude quantifiant un goulet d'étranglement structurel dans les systèmes de navigation zéro-shot pilotés par VLM-LLM (Vision-Language Model couplé à un Large Language Model). Le paradigme analysé repose sur une architecture à deux étages : un VLM construit des graphes de scène 3D en extrayant objets, relations spatiales et sémantique de l'environnement, tandis qu'un LLM prend les décisions de haut niveau (planification topologique) et pilote un navigateur réactif rapide via coordonnées spatiales et boîtes englobantes. Les auteurs ont modélisé des bornes supérieures statistiques du taux de succès pour ces deux sous-systèmes, les ont validées sur les modèles 3D de l'état de l'art, et ont identifié un phénomène de saturation perceptive : au-delà d'un certain seuil de précision 3D, les gains de navigation deviennent marginaux, voire nuls. Ce résultat remet en cause une hypothèse implicite du secteur : que progresser en perception 3D se traduit mécaniquement en meilleure navigation incarnée. L'étude montre que les modèles de perception actuels optimisent la précision au niveau pixel, ce qui entre directement en conflit avec les contraintes temps-réel d'un robot naviguant dans un environnement dynamique. Pour les intégrateurs et les équipes de R&D robotique, cela signifie que sur-investir en qualité de segmentation ou de reconstruction 3D fine ne se justifie pas pour la navigation autonome : la ressource limitante n'est pas la résolution perceptive, mais la pertinence sémantique des objets détectés et la fiabilité des boîtes englobantes pour l'exécution motrice. C'est un signal fort pour réorienter les efforts vers des vocabulaires visuels navigation-centrés plutôt que vers la précision géométrique exhaustive. La navigation zéro-shot par VLM-LLM est un axe de recherche actif depuis 2022, porté notamment par des travaux sur les agents incarnés dans des simulateurs comme Habitat ou R2R (Room-to-Room). Cette approche vise à s'affranchir des coûts massifs de collecte de données supervisées qui pèsent sur les architectures imitation-learning classiques. Dans le paysage concurrent, des équipes chez Google DeepMind, Meta AI et des laboratoires universitaires (Stanford, CMU) explorent des variantes similaires, certaines intégrant des modèles VLA (Vision-Language-Action) de bout en bout comme Pi-0 ou GR00T N2. Cette étude ne présente pas de déploiement terrain, mais ses bornes analytiques pourraient guider la conception de benchmarks plus pertinents et orienter l'entraînement des prochaines générations de modèles de perception 3D spécialisés navigation.

RechercheOpinion
1 source