Aller au contenu principal
Navigation sociale à long terme pour l'assistance extérieure centrée sur l'humain
RecherchearXiv cs.RO6sem

Navigation sociale à long terme pour l'assistance extérieure centrée sur l'humain

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Des chercheurs ont publié sur arXiv (référence 2604.26839) un cadre de navigation sociale en extérieur baptisé "Walk with Me", conçu pour assister des humains dans des environnements ouverts à partir d'instructions en langage naturel. Le système fonctionne sans carte préétablie (map-free) : il s'appuie uniquement sur le GPS et des points d'intérêt légers issus d'une API cartographique publique pour identifier les destinations sémantiques et proposer des waypoints. L'architecture est hiérarchique à deux niveaux : un modèle vision-langage (VLM) de haut niveau traduit les intentions abstraites en séquences de waypoints, tandis qu'un modèle vision-langage-action (VLA) de bas niveau exécute la navigation au sol en temps réel. Lorsque des situations complexes surgissent, comme des traversées bondées ou des zones à risque, le système bascule automatiquement vers le raisonnement de sécurité du VLM, pouvant imposer un comportement "stop-and-wait" explicite.

L'apport principal est l'élimination de la dépendance aux cartes HD préconstruites, qui représentent un coût d'infrastructure significatif pour tout déploiement de robots d'assistance en milieu urbain ou semi-public. Les approches classiques basées sur l'apprentissage restent majoritairement confinées aux intérieurs et aux trajets courts ; "Walk with Me" vise explicitement à combler ce fossé pour des scénarios extérieurs à longue portée. Le mécanisme de routage adaptatif, qui distingue les segments routiniers délégués au VLA des situations complexes renvoyées au VLM, constitue une piste crédible pour économiser les ressources de calcul tout en maintenant la conformité sociale. À noter cependant : le papier ne publie pas de métriques quantifiées sur des scénarios réels, ce qui rend difficile l'évaluation du reality gap et de la robustesse hors laboratoire.

Cette recherche s'inscrit dans une effervescence autour des VLA pour la navigation sociale, aux côtés de travaux comme NaviLLM ou les systèmes piétons de Boston Dynamics Research. La navigation extérieure à longue portée reste un verrou non résolu pour les robots humanoïdes commerciaux actuels, Figure AI (Figure 03), Agility Robotics (Digit), Sanctuary AI, qui opèrent encore majoritairement dans des environnements contrôlés et cartographiés. En Europe, Enchanted Tools et Wandercraft travaillent sur des assistants mobiles, mais dans des contextes d'intérieur structuré. Aucun partenaire industriel ni calendrier de déploiement n'est mentionné dans cette publication arXiv, la classant fermement dans la catégorie recherche académique. Les prochaines étapes attendues incluent une validation sur des benchmarks standardisés de navigation sociale et des tests urbains documentés en conditions non contrôlées.

À lire aussi

Assistance sans interruption : un benchmark et un cadre basé sur les LLM pour l'aide humain-robot non intrusive
1arXiv cs.RO 

Assistance sans interruption : un benchmark et un cadre basé sur les LLM pour l'aide humain-robot non intrusive

Une équipe de chercheurs a publié en mai 2026 sur arXiv (arXiv:2605.01368) un cadre formel et un benchmark dédié à l'assistance robotique non intrusive, qu'ils nomment NIABench. Le problème étudié est précis : comment un robot peut-il soutenir un humain en train d'exécuter une séquence d'actions complexes, sans jamais l'interrompre ni attendre une commande explicite ? Les chercheurs proposent également une architecture hybride combinant un grand modèle de langage (LLM) et un modèle de scoring à deux étages : une première couche de récupération sémantique réduit l'espace des actions candidates, puis un module de ranking évalue les paires (étape humaine, action robot) pour arbitrer sur le moment et la nature de l'intervention. Les expériences sont conduites sur NIABench et validées sur des scénarios réels, avec des métriques inédites adaptées à ce paradigme. Ce travail est significatif parce qu'il déplace le curseur de la robotique collaborative vers un mode opératoire radicalement différent : le plan humain devient le processus principal, et le robot se positionne en assistant discret plutôt qu'en agent concurrent. Pour les intégrateurs de robots de service ou de cobots industriels, cela ouvre une voie concrète vers des déploiements où le robot n'exige ni formation de l'opérateur, ni protocole de communication explicite. La formalisation du problème joint, décider simultanément du quand et du quoi, est également un apport méthodologique, car la littérature HRI traitait jusqu'ici ces deux dimensions séparément. La présence d'un benchmark public avec métriques standardisées facilite la comparaison future entre approches. Ce travail s'inscrit dans un courant de recherche HRI qui cherche à dépasser les modèles maître-esclave ou les systèmes à déclenchement explicite. Des approches concurrentes, notamment dans les travaux sur les VLA (Vision-Language-Action models) de DeepMind ou Stanford, adressent la réactivité contextuelle mais sans formaliser explicitement la contrainte de non-intrusion. NIABench pourrait devenir un point de référence pour évaluer ces modèles sur cette dimension précise. Les prochaines étapes naturelles incluent le transfert vers des plateformes embarquées et des tests en environnements industriels réels, bien qu'aucun partenariat ou calendrier de déploiement ne soit mentionné dans cette publication.

RecherchePaper
1 source
HCSG : raisonnement sémantique-géométrique centré sur l'humain pour la navigation vision-langage
2arXiv cs.RO 

HCSG : raisonnement sémantique-géométrique centré sur l'humain pour la navigation vision-langage

Des chercheurs ont publié en mai 2026 HCSG (Human-Centric Semantic-Geometric Reasoning), un cadre de navigation en langage naturel (VLN) conçu pour les environnements intérieurs dynamiques peuplés de piétons, déposé sur arXiv sous la référence 2605.13321. Contrairement aux approches existantes qui traitent les humains comme de simples obstacles mobiles détectés par indices visuels, HCSG introduit un module unifié de compréhension humaine combinant deux capacités complémentaires : la prévision géométrique, qui anticipe poses et trajectoires futures des personnes, et l'interprétation sémantique, qui exploite un modèle vision-langage (VLM) pour générer des descriptions textuelles des actions et intentions perçues. Ces représentations sont fusionnées dans une carte topologique sur laquelle l'agent planifie ses déplacements en fonction des instructions reçues. Une fonction de perte de distance sociale (social distance loss) contraint le robot à maintenir des distances d'interaction socialement acceptables. Sur le benchmark HA-VLNCE, le framework affiche un gain de 14 % sur le taux de succès et une réduction de 34 % du taux de collision face à l'état de l'art, des chiffres à interpréter avec la prudence habituelle réservée aux préprints non encore évalués en pair-à-pair. Ces résultats pointent un changement de paradigme pertinent pour la robotique de service en espace ouvert. La distinction clé de HCSG est de passer d'un évitement passif (détecter puis contourner) à une compréhension active des comportements : le robot infère si un piéton s'apprête à changer de direction, à s'arrêter ou à interagir, ce qui permet une planification plus fluide. L'intégration d'un VLM est cohérente avec la montée en puissance des architectures vision-langage-action (VLA), mais l'article valide ici leur utilité spécifique pour la navigation sociale, pas seulement la manipulation. Pour les intégrateurs de robots de livraison intérieure ou de guidage hospitalier, c'est un signal que les approches purement géométriques atteignent leurs limites dans des environnements non contrôlés. La navigation VLN a progressé rapidement depuis les benchmarks R2R et REVERIE, portée par les transformers de vision et des modèles comme CLIP. HA-VLNCE, sur lequel HCSG est évalué, est une extension de VLN-CE intégrant des agents humains dynamiques, le rapprochant davantage des conditions de déploiement réelles. Les approches concurrentes en navigation sociale incluent des travaux issus de Stanford, CMU ou MIT, et des frameworks comme NaviSTAR. Côté industriel, les robots de Keenon, Aethon ou Savioke opèrent encore largement dans des couloirs semi-contrôlés précisément pour éviter ces problèmes de cohabitation. HCSG reste une contribution académique sans validation industrielle annoncée, mais une page de projet dédiée laisse entrevoir des travaux futurs sur robot physique.

RechercheOpinion
1 source
PACT : une approche proactive pour l'assistance continue aux tâches en collaboration humain-robot
3arXiv cs.RO 

PACT : une approche proactive pour l'assistance continue aux tâches en collaboration humain-robot

Des chercheurs ont publié PACT (Proactive Asking for Continual Task Assistance), un framework de collaboration humain-robot sur la durée, soumis sur arXiv en mai 2026 (arXiv:2605.24350). Le problème posé est concret : un assistant robotique déployé sur plusieurs jours ignore initialement les habitudes et préférences de son utilisateur, rendant l'inférence passive peu fiable dès les premières interactions. PACT propose une logique "ask-or-act" : plutôt que d'agir sans certitude, le robot décide à chaque instant s'il doit demander une clarification ou exécuter directement la tâche. Le système combine les observations courantes avec un historique d'interactions multi-jours pour évaluer la suffisance contextuelle avant d'agir. L'implémentation principale repose sur du reinforcement learning, et les auteurs introduisent une nouvelle métrique, la "clarification utility", qui mesure le compromis entre précision de l'assistance et fréquence des interruptions imposées à l'utilisateur. Ce framework répond à un déficit structurel des robots d'assistance actuels : en inférant silencieusement, un robot avec un modèle utilisateur incomplet accumule les erreurs et dégrade rapidement la confiance opérationnelle. PACT inverse la logique -- le robot reconnaît son incertitude et l'exprime plutôt que de la masquer. Pour les intégrateurs envisageant des robots en assistance à domicile, en co-robotique de bureau ou en environnement industriel léger, cette approche réduit la nécessité d'une modélisation préalable exhaustive des préférences utilisateur. Les expériences en scénarios multi-jours montrent des gains consistants en précision et en utilité des clarifications face aux baselines d'inférence passive, bien que la validation sur plateforme matérielle réelle reste à démontrer. Le défi de l'adaptation continue en collaboration humain-robot est partagé par plusieurs axes de recherche actifs, dont les benchmarks domestiques ALFRED et les travaux de personnalisation menés chez Figure, 1X ou Boston Dynamics pour leurs robots humanoïdes. Des équipes européennes -- INRIA, TU Delft -- explorent également ces mécanismes d'apprentissage en contexte prolongé. PACT se distingue en traitant l'incertitude épistémique par le dialogue explicite plutôt que par des mécanismes d'inférence silencieux, une approche complémentaire aux méthodes VLA (Vision-Language-Action) actuellement dominantes. La publication reste un preprint sans validation industrielle annoncée ; l'étape critique sera de quantifier le coût cognitif réel des clarifications répétées pour l'utilisateur dans des contextes de travail prolongés.

UEDes équipes européennes dont l'INRIA (France) et TU Delft (Pays-Bas) travaillent sur des mécanismes similaires d'apprentissage contextuel prolongé, ce qui positionne PACT comme référence pertinente pour la communauté HRI européenne, sans impact industriel direct à ce stade.

RecherchePaper
1 source
TAGA : une approche réactive basée sur les tangentes pour la navigation socialement acceptable des robots autour des groupes humains
4arXiv cs.RO 

TAGA : une approche réactive basée sur les tangentes pour la navigation socialement acceptable des robots autour des groupes humains

Des chercheurs ont publié sur arXiv (réf. 2503.21168) TAGA (Tangent Action for Group Avoidance), une couche de navigation modulaire conçue pour que les robots mobiles contournent non seulement les individus, mais aussi les groupes sociaux constitués dans les espaces publics. L'algorithme détecte les limites implicites d'un groupe humain via des manœuvres tangentielles et les transmet à un contrôleur hiérarchique qui coordonne l'évitement de groupe avec la prévention classique des collisions individuelles, sans modifier la politique de navigation sous-jacente. Pour évaluer la conformité sociale au-delà des métriques terminales binaires (succès/échec), les auteurs introduisent le Group Crossing Rate (GCR), une métrique continue mesurant la fraction de pas de temps pendant lesquels le robot se trouve à l'intérieur du hull convexe d'un groupe. Les tests se basent sur un benchmark de simulation reproduisant cinq comportements empiriquement documentés : hétérogénéité des vitesses individuelles, couplage de vitesse intra-groupe, formations en F statiques, dynamiques leader-suiveur, et limites de hulls convexes, le tout évalué sous les modèles piétons ORCA et Social Force. Les résultats révèlent une asymétrie entre approches réactives classiques et politiques apprises : TAGA apporte jusqu'à 8 points de pourcentage de gain en taux de succès et divise par deux le GCR pour les baselines réactives type ORCA et Social Force, avec un surcoût quasi nul pour les politiques apprises comme DS-RNN ou Intention-RL. Ce résultat est actionnable pour les intégrateurs : il indique précisément quand ajouter un module de conscience de groupe par-dessus un planificateur existant est rentable, versus quand un entraînement end-to-end intégrant les groupes dès le départ est préférable. Pour les déploiements en milieu hospitalier, aéroportuaire ou retail, où la perception de la robotique par les usagers pèse autant que la performance brute, réduire les intrusions dans les bulles sociales représente un levier opérationnel concret. La navigation socialement conforme (socially-aware navigation) est un axe de recherche actif depuis les travaux fondateurs sur le Social Force Model de Helbing et Molnár (1995) et les travaux ORCA de Van Den Berg. TAGA s'inscrit dans une tendance récente qui vise à séparer les préoccupations sociales et cinématiques plutôt qu'à tout fusionner dans un unique réseau de bout en bout. Des approches concurrentes incluent les travaux de Crowd-Nav, SARL, et les politiques RLSS. L'absence de validation sur robot réel reste la limite principale de cette publication académique. Les prochaines étapes logiques seront un test sur plateforme physique (AMR de type Clearpath ou Boston Dynamics Spot) et une intégration avec des stacks ROS2 standard.

RecherchePaper
1 source