RecherchearXiv cs.RO2h

Robots demandent leur chemin : la navigation sociale à base de communication

1 source couvre ce sujet·Source originale ↗·

Résumé IASource uniqueImpact UE

Des chercheurs ont présenté CommNav (Communication-enabled Social Navigation), une nouvelle tâche pour robots assistants évoluant en environnement multi-agents, décrite dans un article publié sur arXiv (2607.01044v1). Plutôt que de se contenter d'éviter les obstacles humains de façon réactive, comme le font les méthodes actuelles de navigation sociale, le robot cherche activement de l'aide en interrogeant les résidents sur les déplacements récents d'une personne cible : où elle se trouve, où elle a été vue, dans quelle direction elle s'est dirigée. Pour évaluer cette approche, l'équipe a créé Habitat 3.0c, une extension du simulateur Habitat 3.0 intégrant des protocoles d'échange d'informations en environnement multi-humains. En ajoutant leur module de communication, baptisé COMM, à un modèle de navigation sociale de référence, les chercheurs obtiennent un gain de 10 points de pourcentage sur le taux de succès des épisodes de navigation. Ils ont aussi comparé un entraînement sur instructions générées par un LLM à un entraînement sur formulations familières, collectées lors d'une étude auprès d'humains.

Ce travail répond à un angle mort réel des systèmes de navigation sociale existants, focalisés sur l'évitement de collision et l'adaptation de trajectoire mais incapables de solliciter proactivement de l'information humaine. Pour les intégrateurs travaillant sur des robots d'assistance en environnement résidentiel, hospitalier ou logistique (recherche d'une personne dans un bâtiment, livraison ciblée en présence de plusieurs occupants), la capacité d'un robot à poser une question simple et à exploiter la réponse change la donne par rapport à une exploration purement géométrique de l'espace. Le résultat le plus notable pour la robustesse en conditions réelles est la troisième conclusion des auteurs : la politique de navigation reste performante face à un langage naturel et familier, avec un taux de succès statistiquement comparable à celui obtenu avec des données structurées parfaites, ce qui limite le risque que le système échoue simplement parce qu'un humain formule sa réponse maladroitement.

CommNav s'inscrit dans la lignée des travaux sur la navigation sociale embarquée dans Habitat, plateforme de simulation largement utilisée en recherche robotique pour entraîner des agents en environnement intérieur peuplé d'humains virtuels. L'apport spécifique ici est le pré-entraînement du module COMM sur une tâche annexe de communication, une astuce présentée par les auteurs comme le moyen de gérer le caractère rare et irrégulier des signaux d'interaction avec les résidents. L'article ne mentionne pas de déploiement sur robot physique ni de partenaire industriel ; il s'agit à ce stade d'un travail de recherche en simulation, dont la prochaine étape logique serait un transfert vers un robot réel et une évaluation face à des locuteurs non scriptés en conditions non contrôlées.

Dans nos dossiers

arXiv cs.RO

À lire aussi

1arXiv cs.RO

Modèle du monde pour la navigation sociale de robots guidée par la logique

Des chercheurs ont publié NaviWM (Navigation World Model), un système de navigation robotique socialement consciente qui couple un grand modèle de langage (LLM) avec un modèle de monde structuré et un module de raisonnement logique déductif. Le système repose sur deux composants principaux : un modèle spatio-temporel qui capture en temps réel les positions, vitesses et activités des agents présents dans l'environnement, et un module de raisonnement par chaîne-de-pensée (chain-of-thought) guidé par des règles formelles. La nouveauté centrale est l'encodage des normes sociales en logique du premier ordre (first-order logic), ce qui rend le raisonnement du robot vérifiable et interprétable, contrairement aux approches par prompt engineering ou fine-tuning. Les expériences menées montrent une amélioration du taux de succès de navigation et une réduction des violations sociales dans les environnements encombrés. L'article, disponible en version 2 sur arXiv (référence 2510.23509), est accompagné de vidéos de démonstration publiées par les auteurs. Ce travail s'attaque à une faille bien documentée des LLM appliqués à la planification de trajectoires en robotique mobile : le manque d'ancrage physique et de cohérence logique lorsqu'ils opèrent seuls. En environnements dynamiques peuplés d'humains, les LLM purs produisent des comportements imprévisibles, voire dangereux. En ajoutant une couche de raisonnement formel en aval du LLM sous des contraintes explicites (espace personnel, évitement de collision, gestion du timing), NaviWM propose une solution plus robuste. Pour un intégrateur travaillant sur des robots de service en intérieur, livraison hospitalière ou navigation en entrepôt mixte humain-robot, cela représente un levier concret pour réduire le gap entre démonstration en laboratoire et déploiement opérationnel. Le caractère interprétable du raisonnement constitue également un atout pour les exigences de traçabilité et de certification en milieu industriel ou médical. La navigation sociale pour robots mobiles est un champ en forte effervescence, où coexistent des approches classiques comme ORCA (Optimal Reciprocal Collision Avoidance), des prédicteurs à base de réseaux LSTM sociaux, et plus récemment des systèmes intégrant des VLA (Vision-Language-Action models) comme Pi-0 ou les architectures embarquées de Boston Dynamics et Figure. NaviWM se positionne dans un segment distinct : il ne cherche pas à remplacer le LLM mais à le contraindre via un modèle du monde explicite et des règles formelles, une approche hybride neuro-symbolique proche des travaux du MIT CSAIL sur la planification task-and-motion. Les prochaines étapes naturelles seront de valider l'architecture sur des plateformes physiques hors simulation et de tester la robustesse des règles logiques face à des scénarios sociaux non anticipés lors de leur encodage initial.

RecherchePaper

1 source

2arXiv cs.RO

GROVE : simulation de piétons fondée sur le langage naturel pour la navigation sociale interactive de robots

GROVE (Grounded Robot-Oriented Vehicle Environment), présenté dans un preprint arXiv (2606.25504) déposé fin juin 2026, est un framework de simulation de piétons piloté par langage naturel, conçu pour entraîner et évaluer des robots de navigation sociale. Le système accepte des instructions textuelles pour générer des scénarios de simulation: trois presets préconfigurés couvrent les situations d'urgence, de file d'attente et de déplacement ordinaire, mais l'utilisateur peut aussi saisir un prompt libre pour obtenir un scénario entièrement personnalisé. Trois modules distincts gèrent respectivement le comportement humain à long horizon (trajectoires et intentions globales), la navigation piétonne à moyen horizon (évitement, flots de foule), et les interactions sociales à court horizon entre robot et individus. GROVE s'intègre nativement dans Isaac Sim (NVIDIA), Gazebo et RViz. Les scènes de validation couvrent des environnements résidentiels, hospitaliers et de bureau. Le principal verrou que GROVE cherche à lever est le coût de génération manuelle de données de simulation: aujourd'hui, produire un scénario crédible (couloir d'hôpital en heure de pointe, évacuation d'urgence) exige un travail de paramétrage fastidieux, répété à chaque variante. Déléguer cette configuration au langage naturel réduit la friction pour les équipes non-spécialistes et accélère la diversification des données d'entraînement. La sélection dynamique des algorithmes de l'état de l'art par module vise explicitement à comprimer le sim-to-real gap, défaillance structurelle qui pénalise le transfert des politiques apprises en simulation vers des robots déployés en milieu réel. Sur le papier, l'architecture modulaire permet aussi de mettre à jour chaque couche indépendamment quand un nouvel algorithme de navigation ou de prédiction de trajectoire devient disponible. La navigation sociale robotique est un champ actif depuis plus d'une décennie, avec des modèles fondateurs comme le Social Force Model et des outils de simulation existants (PedSim, pedsim\_ros, SEAN) qui imposaient des paramétrages rigides et manuels. GROVE s'inscrit dans une tendance plus large d'utilisation des LLM comme interface de configuration pour les pipelines de simulation, une direction explorée parallèlement dans la génération procédurale de scènes 3D. Important à noter: la validation présentée est uniquement qualitative, sans benchmark quantitatif sur des métriques standardisées comme celles de trajnet++ ou BARN. Les affirmations sur la "haute fidélité" de simulation restent donc à vérifier sur robot réel. Le preprint ne mentionne ni déploiement en production ni partenariat industriel.

RecherchePaper

1 source

3arXiv cs.RO

Seq-DeepIPC : captation séquentielle pour le contrôle de bout en bout dans la navigation de robots à pattes

Des chercheurs présentent Seq-DeepIPC (arXiv:2510.23057v2), un modèle de navigation bout-en-bout pour robots à pattes reposant sur une fusion multi-modale RGB-D et GNSS. Contrairement aux approches classiques qui séparent perception et contrôle, le système prédit conjointement la segmentation sémantique et l'estimation de profondeur à partir d'entrées séquentielles, puis génère directement les commandes moteur. L'estimation du cap global est assurée non pas par une centrale inertielle (IMU), jugée trop bruitée, mais par une analyse différentielle de coordonnées GNSS successives. Pour le déploiement embarqué, un encodeur léger réduit la charge de calcul sans dégradation significative de précision. Le système a été validé sur un robot quadrupède sur deux types de terrain, route et gazon, à partir d'un jeu de données collecté spécifiquement pour couvrir cette diversité. Le code sera mis en accès libre sur GitHub (github.com/oskarnatan/Seq-DeepIPC). L'apport principal réside dans l'extension de la navigation end-to-end, jusqu'ici dominée par les robots à roues, aux systèmes à pattes, beaucoup plus complexes cinématiquement. Les études ablatives confirment que les entrées séquentielles améliorent à la fois la perception et le contrôle dans Seq-DeepIPC, alors que les baselines testées n'en bénéficient pas, ce qui suggère une dépendance forte à la temporalité propre à la démarche quadrupède. La suppression de l'IMU est un choix architectural audacieux: elle simplifie l'intégration matérielle et évite la dérive gyroscopique, mais le papier reconnaît une fiabilité moindre du cap GNSS-seul en environnement urbain dense. Pour un intégrateur, cela signifie que le système est crédible en extérieur ouvert, mais nécessiterait une fusion sensorielle supplémentaire en milieu confiné ou bâti. La navigation end-to-end pour robots à pattes s'inscrit dans un effort de recherche plus large visant à réduire le gap de spécialisation entre planification et locomotion. Des travaux comme DeepIPC (dont Seq-DeepIPC est la suite directe) ou les architectures VLA (Vision-Language-Action) de Boston Dynamics, Unitree et ANYbotics explorent des pipelines similaires, avec des approches différentes sur la représentation de l'espace et la gestion de la mémoire temporelle. Seq-DeepIPC se distingue par sa sobriété sensorielle et sa cible embarquée, mais reste un prototype de laboratoire validé en conditions semi-contrôlées. La prochaine étape logique serait un test en environnements plus adversariaux, notamment urbains, pour quantifier les limites réelles du cap GNSS différentiel annoncées dans le papier.

RecherchePaper

1 source

4arXiv cs.RO

COLSON : navigation sociale contrôlable par apprentissage par renforcement basé sur la diffusion

Des chercheurs proposent COLSON (Controllable Learning-based Social Navigation), une méthode de navigation sociale pour robots mobiles autonomes (AMR) en milieux piétons, fondée sur l'apprentissage par renforcement couplé à des modèles de diffusion. Publiée sur arXiv (2503.13934v2), cette étude traite d'un verrou persistant pour les robots de service : naviguer de façon fluide et socialement cohérente parmi des piétons dynamiques, sans violer leurs espaces de proximité ni générer de comportements erratiques. Les approches à base de règles telles qu'ORCA ou DWA montrent leurs limites dans les environnements denses, tandis que les méthodes de deep RL conventionnelles reposent sur des distributions gaussiennes qui contraignent la variété des trajectoires produites. COLSON contourne cette limitation en exploitant les distributions d'actions plus riches offertes par les modèles de diffusion appliqués au RL, capables de représenter des comportements multimodaux (hésiter, contourner à gauche ou à droite) que les politiques gaussiennes tendent à lisser. L'apport central de la méthode est sa capacité de généralisation à des scénarios inédits sans ré-entraînement. Dans les démonstrations présentées, le robot adapte son comportement à des obstacles statiques absents du jeu d'entraînement, ou change d'objectif pour accompagner un piéton cible tout en évitant les autres passants. Pour les intégrateurs d'AMR en milieux hospitaliers, aéroportuaires ou logistiques, cette propriété de contrôlabilité zero-shot est stratégiquement importante : elle réduit le coût de re-paramétrage à chaque nouveau site de déploiement. Elle valide aussi partiellement l'hypothèse que les diffusion models peuvent atténuer le sim-to-real gap en navigation sociale, en générant des distributions d'actions plus robustes face à l'imprévu. Le champ de la social navigation par deep RL est actif depuis une décennie, avec des travaux fondateurs comme CADRL (2017), SARL et CrowdNav. L'application des modèles de diffusion au RL dans la robotique est plus récente, s'appuyant notamment sur Diffusion Policy (Columbia/MIT, 2023) dans le domaine de la manipulation. COLSON transfère cette logique vers la planification de mouvement en espace ouvert. Il s'agit à ce stade d'un preprint académique avec validation uniquement en simulation ; aucun déploiement sur robot réel ni partenariat industriel n'est mentionné, ce qui invite à tempérer les conclusions. Les éditeurs actifs sur la navigation sociale autonome incluent Boston Dynamics, ANYbotics et Clearpath Robotics, et côté européen Enchanted Tools (France) ou PAL Robotics (Espagne) pour les robots de service. Les prochaines étapes naturelles seraient une validation en environnement réel et un benchmarking sur les datasets standardisés ETH/UCY.

UELes intégrateurs AMR européens (dont Enchanted Tools en France, PAL Robotics en Espagne) pourraient à terme bénéficier de la contrôlabilité zero-shot de COLSON pour réduire les coûts de redéploiement multi-sites, mais la méthode reste validée uniquement en simulation sans partenariat industriel déclaré.

RecherchePaper

1 source