RecherchearXiv cs.RO6sem

HAVEN : navigation hiérarchique sensible aux adversaires, visibilité et couverts par réseaux Q à transformeurs profonds

1 source couvre ce sujet·Source originale ↗·

Résumé IASource uniqueImpact UE

Des chercheurs ont publié sur arXiv (arXiv:2512.00592v2) un framework de navigation autonome baptisé HAVEN, Hierarchical Adversary-aware Visibility-Enabled Navigation, conçu pour faire évoluer des agents robotiques dans des environnements partiellement observables, c'est-à-dire là où les capteurs ne voient pas tout et où des obstacles occultent une partie de la scène. L'architecture combine un réseau de neurones de type Deep Transformer Q-Network (DTQN) pour la sélection de sous-objectifs à haut niveau, et un contrôleur bas niveau à champs de potentiel pour l'exécution des waypoints. Le DTQN ingère des historiques courts de features contextuelles, odométrie, direction de l'objectif, proximité des obstacles, indices de visibilité, et produit des Q-values qui classent les sous-objectifs candidats. Une génération de candidats dite "visibility-aware" introduit des pénalités d'exposition et récompense l'utilisation des couverts, favorisant un comportement anticipatoire plutôt que réactif. Le système a été validé en simulation 2D puis transféré sans modification architecturale vers un environnement 3D Unity-ROS, en projetant la perception point-cloud dans le même schéma de features.

Ce travail s'attaque à un problème concret dans les déploiements robotiques réels : les planificateurs classiques (A*, RRT) et les politiques de reinforcement learning sans mémoire peinent dès que le champ de vision est limité, générant des manœuvres sous-optimales ou dangereuses dans des espaces encombrés. L'apport du Transformer réside dans sa capacité à exploiter l'historique temporel pour inférer l'état caché de l'environnement, là où un réseau feedforward réagirait à l'instant présent. Les résultats montrent des améliorations mesurées sur le taux de succès, les marges de sécurité et le temps jusqu'à l'objectif par rapport aux baselines RL et aux planificateurs classiques, bien que les expériences restent en simulation, sans banc d'essai sur hardware réel, ce qui laisse ouverte la question du sim-to-real gap.

HAVEN s'inscrit dans une tendance de recherche qui applique les architectures Transformer, initialement conçues pour le NLP, au contrôle séquentiel de robots en environnements incertains. Le champ de l'autonomie sous occlusion est particulièrement actif : des travaux comme Decision Transformer ou GTrXL ont posé les bases de l'usage de la mémoire contextuelle en RL. Les domaines d'application cités par les auteurs couvrent la logistique entrepôt (AMR en environnement dynamique), la conduite urbaine et la surveillance, un positionnement qui rejoint les problématiques des acteurs de la navigation indoor comme Exotec ou Balyo côté français. La prochaine étape naturelle serait une validation sur plateforme physique et des benchmarks en environnements réels avec adversaires mobiles, conditions non encore adressées dans cette version.

Impact France/UE

Les acteurs français de la navigation indoor comme Exotec et Balyo pourraient être concernés par cette approche de planification sous occlusion, mais le travail reste entièrement en simulation sans validation matérielle.

Dans nos dossiers

Exotec arXiv cs.RO

À lire aussi

1arXiv cs.RO

Navigation hiérarchique augmentée par la sémantique : transport optimal et raisonnement par graphes pour la navigation vision-langage

Une équipe de chercheurs a publié le 2 juin 2026 sur arXiv (identifiant 2606.01565) le cadre HSAN (Hierarchical Semantic-Augmented Navigation), une architecture de navigation pour agents autonomes en environnements 3D intérieurs non contraints, dit VLN-CE (Vision-Language Navigation in Continuous Environments). Le principe : un agent reçoit des instructions en langage naturel ("va jusqu'à la cuisine et tourne à gauche avant la porte") et doit naviguer dans un espace réel sans carte préétablie. HSAN propose trois composants imbriqués : d'abord, un graphe de scène sémantique hiérarchique et dynamique, construit en temps réel à partir de modèles vision-langage, qui représente l'environnement sur trois niveaux (objets, régions, zones) ; ensuite, un planificateur topologique basé sur le transport optimal (dualité de Kantorovich) qui sélectionne des sous-objectifs à long terme en pondérant pertinence sémantique et accessibilité spatiale, avec garanties théoriques d'optimalité ; enfin, une politique de contrôle bas niveau entraînée par apprentissage par renforcement et sensible à la structure du graphe, chargée de la navigation fine et de l'évitement d'obstacles. Les auteurs rapportent des résultats état de l'art sur plusieurs benchmarks VLN-CE standards, sans préciser les métriques exactes dans le résumé disponible. L'intérêt de cette approche tient à la façon dont elle traite le problème des tâches à horizon long, un point de friction majeur des systèmes VLN existants qui perdent le contexte spatial sur des trajectoires de plusieurs dizaines de mètres. En structurant la représentation de l'environnement en graphe multi-niveaux plutôt qu'en carte voxel statique, HSAN permet à l'agent de raisonner sur des concepts spatiaux ("la pièce d'à côté", "le couloir du fond") plutôt que sur des coordonnées brutes. Le planificateur par transport optimal est notable : il évite les heuristiques ad hoc (distance euclidienne, A* classique) en reformulant la sélection de sous-objectifs comme un problème de couplage optimal entre distributions sémantiques, ce qui est théoriquement plus robuste. Pour les intégrateurs de robots de service ou de livraison intérieure, ce type d'architecture facilite potentiellement l'instruction en langage naturel sans cartographie préalable, à condition que le sim-to-real gap soit résolu, ce que le papier n'aborde pas explicitement. La navigation guidée par langage en environnement continu est un champ actif depuis les benchmarks R2R (Room-to-Room, 2018) et VLN-CE (2021, basé sur Matterport3D). Les approches antérieures dominantes combinent généralement des cartes topologiques statiques avec des politiques Transformer (CWP, DUET, GridMM). HSAN s'en distingue en rendant le graphe de scène dynamique et en y couplant le transport optimal, une technique rare dans ce domaine mais bien établie en vision par ordinateur (alignement de nuages de points, correspondance d'images). Aucun acteur industriel ni laboratoire nommé n'est associé à la publication dans le résumé disponible, et il s'agit d'un preprint non encore évalué par les pairs. Les prochaines étapes attendues dans ce type de travaux incluent des expériences sur robots physiques (Boston Dynamics Spot, Fetch, TIAGo) pour valider le transfert simulation-réel.

RechercheOpinion

1 source

2arXiv cs.RO

Planification par scénarios conjecturaux sensibles au risque pour la navigation robotique dynamique et sûre

Des chercheurs ont publié sur arXiv (preprint 2605.26348, mai 2026) une nouvelle couche de planification baptisée RCSP (Risk-Sensitive Conjectural Scenario Planning), conçue pour les robots mobiles évoluant dans des environnements à obstacles dynamiques. L'algorithme s'attaque à un problème précis, peu formalisé jusqu'ici : un robot peut se trouver dans une trajectoire localement sûre tout en s'engageant irrévocablement vers une configuration où des obstacles mobiles fermeront le passage avant qu'il ne puisse réagir. RCSP maintient une distribution probabiliste sur des conjectures de mouvements locaux, échantillonne des futurs d'interaction à horizon court, pénalise les queues de distribution à risque élevé, puis délègue l'exécution à une couche de sécurité locale. Les tests ont été conduits dans trois environnements : des goulots d'étranglement simulés sous MuJoCo, un empilement ROS2/Gazebo avec la pile Nav2 standard, et le benchmark DynaBARN sur la plateforme Jackal. Dans MuJoCo, RCSP atteint l'objectif sans collision et améliore les métriques de sécurité secondaire et de qualité de trajectoire par rapport à un prédicteur non adaptatif, mais au prix d'une latence accrue. Dans le setup Nav2, la couche RCSP réduit les quasi-collisions dynamiques. Sur le benchmark officiel DynaBARN, en revanche, les planificateurs classiques optimisés DWA (Dynamic Window Approach) et TEB (Timed Elastic Band) conservent un avantage net en taux de succès strict. Ce travail aborde un angle mort réel de la navigation en environnement industriel dynamique : la plupart des architectures de planification réactives raisonnent sur la sécurité instantanée, sans modéliser l'engagement dans le futur. Pour les intégrateurs d'AMR en entrepôt ou en usine, où des opérateurs humains ou d'autres robots traversent des couloirs étroits, ce "problème de quasi-collision prédicative" se traduit par des arrêts d'urgence non planifiés ou des collisions lentes. L'architecture modulaire de RCSP, greffable sur une pile Nav2 existante sans remplacer le planificateur de base, réduit le coût d'intégration. Les résultats mitigés sur DynaBARN sont significatifs : ils indiquent que l'approche probabiliste apporte une valeur dans des régimes de goulot d'étranglement dynamique spécifiques, mais ne surpasse pas encore des planificateurs classiques bien calibrés sur des benchmarks génériques, ce qui délimite honnêtement le domaine d'application. La navigation dynamique pour robots mobiles est un espace de recherche dense, où s'affrontent des méthodes classiques comme DWA et TEB, des approches par apprentissage par renforcement, et des planificateurs à base de champs de potentiel. RCSP se positionne explicitement comme un module complémentaire plutôt qu'un remplacement, ce qui facilite son adoption potentielle dans l'écosystème ROS2/Nav2 utilisé par la majorité des intégrateurs. Les résultats restent à ce stade entièrement simulés, sans validation sur hardware réel ni déploiement en production annoncé. Les prochaines étapes naturelles incluent des tests sur plateforme physique dans des environnements non contrôlés et une évaluation des performances en latence sur hardware embarqué contraint.

UELes intégrateurs européens d'AMR utilisant la pile Nav2/ROS2 pourraient à terme bénéficier de ce module pour réduire les quasi-collisions en environnements dynamiques, mais aucun acteur FR/EU n'est impliqué et les résultats restent entièrement simulés.

RecherchePaper

1 source

3arXiv cs.RO

Navigation semi-autonome en rotation par passivité pour réseaux de corps rigides : stabilité et passivité humaine

Une équipe de chercheurs a déposé sur arXiv (réf. 2605.24731) un framework de contrôle d'attitude semi-autonome basé sur la passivité, conçu pour des réseaux de robots rigides opérant en formation. Le cadre mathématique repose sur le groupe orthogonal spécial SO(3), qui représente l'espace de toutes les rotations tridimensionnelles, une variété non euclidienne où les garanties de stabilité classiques ne se transposent pas directement. L'architecture proposée introduit deux mécanismes distincts : un "stealthy control" (contrôle furtif) qui préserve l'invariance de l'information moyenne renvoyée à l'opérateur humain, et un "virtual leader" servant d'intermédiaire entre l'humain et les robots, couplé à ces derniers via une loi de synchronisation d'attitude basée sur la passivité. Les auteurs démontrent formellement la stabilité en boucle fermée du système complet sous l'hypothèse que l'opérateur se comporte comme un système passif, et valident cette hypothèse par des simulations d'identification du modèle dynamique de l'opérateur. L'intérêt principal réside dans l'absence de solutions rigoureuses existantes pour les systèmes human-in-the-loop opérant sur SO(3). La plupart des architectures de téléopération garantissent la stabilité en espace euclidien, mais dès qu'on introduit des rotations non commutatives, cas typique des drones en essaim, des satellites en formation ou des bras robotiques multiaxiaux, les preuves de stabilité s'effondrent. Le concept de stealthy control est particulièrement notable : il permet de filtrer ou corriger discrètement les commandes humaines sans que l'opérateur perçoive de divergence entre ce qu'il commande et ce que le système exécute, préservant l'expérience de téléopération tout en maintenant la cohérence du réseau multi-robots. Ce travail s'inscrit dans un courant actif de recherche en autonomie partagée et en contrôle basé sur la passivité, outil théorique qui garantit la dissipation d'énergie dans les systèmes interconnectés. Des travaux antérieurs avaient traité la synchronisation d'attitude pour des robots purement autonomes ; l'intégration de l'humain comme composant du système de contrôle constitue une extension non triviale. Les applications visées incluent les essaims de drones téléopérés, les constellations de nanosatellites et la chirurgie robotique assistée. Aucun déploiement industriel ni partenariat commercial n'est mentionné dans le preprint : il s'agit d'une contribution théorique avec validation par simulation, sans horizon de transfert annoncé.

RecherchePaper

1 source

4arXiv cs.RO

TravExplorer : exploration incarnée inter-niveaux par planification 3D sensible à la traversabilité

Des chercheurs proposent TravExplorer, un framework de navigation autonome multi-étages publié en mai 2026 sur arXiv (arXiv:2605.19958). Le système s'attaque à la navigation zero-shot par objets (ZSON, Zero-Shot Object Navigation), soit la capacité à localiser une cible désignée en langage naturel dans un environnement inconnu, sans carte préalable. Validé sur 4 195 épisodes simulés dans les benchmarks HM3D (Habitat-Matterport 3D) et Matterport3D (MP3D), puis sur 50 essais réels avec un robot quadrupède Unitree Go2, TravExplorer opère sur escaliers, paliers et espaces à chevauchements verticaux. Le système maintient une carte volumétrique unifiée distinguant structures occupées et surfaces accessibles au robot, extrait des frontières traversables sur sols, escaliers et paliers, et s'appuie sur un planificateur hiérarchique couplant une recherche 3D guidée par points d'appui (foothold-guided) à une optimisation de trajectoire localement contrainte en vertical. Presque tous les systèmes ZSON existants supposent un environnement mono-étage et une représentation plane, une hypothèse qui casse dans tout bâtiment réel comportant escaliers ou mezzanines. TravExplorer comble ce fossé avec deux apports concrets : un module sémantique allégé qui aligne une carte d'instances probabiliste (segmentation open-vocabulary en ligne) avec une carte de valeur spatiale via image-to-text rapide, réduisant la latence de raisonnement ; et une stratégie de perception active FOV-aware pour résoudre les zones partiellement observées lors des transitions d'étages. Les résultats sur HM3D et MP3D sont supérieurs aux baselines ObjectNav de référence, et les 50 essais sur Go2 sans carte ni intervention humaine constituent une validation sim-to-real concrète, même si elle reste limitée à une seule plateforme et à des intérieurs contraints. Le champ du ZSON multi-étages émerge dans un contexte plus large d'ambition robotique pour les environnements non structurés. HM3D (Meta) et MP3D sont les benchmarks standards du domaine ; y surpasser les méthodes ObjectNav actuelles est un signal de maturité technique. Le Unitree Go2, quadrupède de recherche commercialisé autour de 8 700 euros, est devenu une plateforme de référence en navigation académique. Le code source sera mis à disposition sur GitHub. Les extensions logiques incluent des bâtiments plus complexes, des espaces semi-ouverts et l'intégration sur robots humanoïdes ou à roues. Aucun acteur européen n'est impliqué dans cette publication.

RecherchePaper

1 source