DM³-Nav : navigation sémantique décentralisée…

Navigation multimodale par apprentissage par renforcement multi-agents

34

1arXiv cs.RO

Navigation multimodale par apprentissage par renforcement multi-agents

Des chercheurs ont publié CRONA (Cross-Modal Navigation), un framework basé sur l'apprentissage par renforcement multi-agent (MARL), disponible en préprint sur arXiv (identifiant 2605.06595). Plutôt que d'entraîner un modèle monolithique fusionnant simultanément plusieurs flux sensoriels, ce qui génère des espaces de représentation complexes et élargit considérablement l'espace de politiques à explorer, CRONA déploie des agents légers spécialisés par modalité, coordonnés par un critique centralisé multi-modal disposant d'un état global partagé et de représentations auxiliaires orientées contrôle. Les expériences portent sur des tâches de navigation visuo-acoustique : CRONA surpasse les baselines à agent unique en performance et en efficacité. Les auteurs identifient trois régimes distincts : la collaboration homogène (agents de même modalité) suffit pour la navigation courte portée avec indices saillants ; la collaboration hétérogène (modalités complémentaires) est généralement efficace ; les grands environnements complexes réclament une perception plus riche et une capacité modèle accrue. L'enjeu industriel est la modularité. Fusionner vision, audio et autres capteurs dans un seul réseau reste un obstacle majeur pour les robots incarnés opérant en milieux non contrôlés, entrepôts, espaces publics, bâtiments industriels. En découplant les modalités en agents parallèles indépendants, CRONA simplifie l'acquisition de données (chaque modalité peut être entraînée séparément) et permet de remplacer ou affiner un capteur sans réentraîner l'ensemble du système. Pour les intégrateurs B2B, la taxonomie des trois régimes de navigation constitue une heuristique pratique pour dimensionner les architectures embarquées selon la complexité des scénarios cibles. La navigation audio-visuelle incarnée s'appuie sur des environnements de référence établis comme SoundSpaces et Matterport3D. L'originalité de CRONA réside dans l'application du MARL à ce problème, là où la littérature récente privilégie les architectures Transformer multi-modales de type VLA (Vision-Language-Action). Aucun partenariat industriel ni calendrier de déploiement n'est mentionné : il s'agit d'un preprint sans validation sur hardware réel, ce qui laisse ouverte la question du sim-to-real gap, particulièrement critique pour les signaux acoustiques en environnement non contrôlé. La prochaine étape logique serait une validation sur plateforme robotique physique.

RecherchePaper

1 source

Optimisation riemannienne décentralisée sur graphe de poses pour le SLAM multi-robots basé objets

34

2arXiv cs.RO

Optimisation riemannienne décentralisée sur graphe de poses pour le SLAM multi-robots basé objets

Des chercheurs publient sur arXiv (réf. 2606.24489) un cadre d'optimisation entièrement décentralisé pour le SLAM multi-robots basé sur des objets. Le PGO (Pose Graph Optimization) est le composant d'estimation d'état central des flottes robotiques en réseau : chaque agent doit estimer simultanément sa propre trajectoire et les poses d'objets persistants observés par plusieurs robots. L'algorithme proposé travaille sur la variété SE(d) via l'optimisation riemannienne, couplé à un mécanisme de consensus pour découpler les estimations conjointes. Il intègre également un schéma Newton approché distribué exploitant des informations de second ordre locales afin d'améliorer la convergence sous budgets de communication limités. Les évaluations couvrent des benchmarks publics, des simulations à grande échelle et des expériences multi-robots réelles, avec des gains annoncés en précision, temps d'exécution et passage à l'échelle. Le verrou adressé est directement pertinent en déploiement industriel : les solutions décentralisées existantes supposent que le graphe de communication coïncide avec la topologie physique d'interaction des robots, une hypothèse irréaliste lorsque la communication est intermittente, éparse ou variable dans le temps. En découplant ces deux topologies, le framework devient applicable aux entrepôts avec AMR, aux flottes de drones ou aux convois de véhicules autonomes. L'apport théorique -- convergence prouvée vers des points stationnaires riemanniens de premier ordre et analyse du nombre de conditionnement local justifiant l'avantage du second ordre sur la descente de gradient pure -- distingue ce travail des approches heuristiques. La réduction du nombre d'itérations et de la charge de communication sans perte de précision est le bénéfice opérationnel central, même si la distance entre preuves formelles et performances terrain reste un écart classique dans le domaine. Le SLAM multi-robots décentralisé est un champ actif depuis une décennie, avec des contributions majeures comme SE-Sync (Rosen et al., Brown University), KIMERA-Multi (MIT SPARK Lab) ou DOOR-SLAM. Cette méthode s'inscrit dans leur continuité en ajoutant la gestion explicite des objets partagés entre agents et la robustesse aux pannes de communication. Ce préprint arXiv n'a pas encore été évalué par les pairs et ne correspond à aucun produit ni déploiement commercial annoncé : c'est une contribution algorithmique pure. Les suites naturelles seraient une soumission à ICRA 2027 ou IROS, et des tests de validation sur des flottes denses en environnement réel non contrôlé. Aucun acteur français ou européen n'est mentionné dans les travaux.

RecherchePaper

1 source

ZONDA : navigation vers un objet sans apprentissage préalable avec évitement dynamique en environnements multi-étages

45

3arXiv cs.RO

ZONDA : navigation vers un objet sans apprentissage préalable avec évitement dynamique en environnements multi-étages

Voici le résumé en français : Une équipe de recherche présente ZONDA, un nouveau framework de navigation robotique "zero-shot" vers un objet désigné (Object Goal Navigation), conçu pour fonctionner dans des environnements multi-étages et en présence de piétons en mouvement. Le système repose sur trois composants : une planification heuristique multi-étages qui exploite des cartes de différences de hauteur pour permettre à un robot de gravir des escaliers et de changer d'étage sans contrôleur spécifique à la plateforme ; une vérification multi-vues de la cible, qui croise des observations à différentes échelles avec un modèle vision-langage (VLM) pour réduire les faux positifs de détection ; et un module d'évitement dynamique des piétons, qui suit et anticipe leurs déplacements pour générer des trajectoires préventives. Le système a été testé sur un robot bipède TITA du fabricant chinois Direct Drive Tech, ainsi que sur des simulations extensives utilisant les jeux de données HM3D et MP3D, deux benchmarks de référence pour la navigation en environnement intérieur photoréaliste. Les auteurs annoncent des résultats "significativement améliorés" par rapport aux méthodes existantes, ainsi qu'une robustesse maintenue sur HM3D-DYNA, une variante dynamique du benchmark incluant des agents mobiles. Cette publication s'attaque à une limite concrète et rarement traitée des systèmes de navigation robotique actuels : la quasi-totalité des méthodes de pointe supposent un environnement statique et confiné à un seul étage, une hypothèse commode en laboratoire mais irréaliste pour un déploiement réel en entrepôt, hôpital ou bâtiment de bureaux à plusieurs niveaux. En combinant franchissement d'escaliers sans apprentissage spécifique au robot et anticipation des piétons, ZONDA vise directement l'écart entre démonstration en simulation et usage industriel, un problème central pour les intégrateurs qui cherchent à déployer des robots mobiles ou humanoïdes au-delà d'un seul plateau. À noter que l'abstract ne fournit pas de chiffres précis de performance (taux de succès, distance parcourue, temps de cycle) permettant de comparer objectivement l'ampleur du gain revendiqué face aux méthodes concurrentes, une réserve à garder en tête avant de considérer le résultat comme acquis. Le champ de l'Object Goal Navigation s'est largement construit sur des benchmarks comme HM3D et MP3D, où les méthodes récentes intègrent de plus en plus des modèles vision-langage pour améliorer la reconnaissance sémantique des cibles, dans la lignée de travaux comme les architectures VLA utilisées en manipulation robotique. Le choix du robot bipède TITA de Direct Drive Tech comme plateforme de test réel, plutôt qu'un robot à roues plus classique en recherche de navigation, souligne l'ambition de valider l'approche sur une morphologie capable physiquement de franchir des escaliers, condition nécessaire à toute navigation multi-étages. L'article, publié sur arXiv le 24 juillet 2026, ne mentionne pas de partenariat industriel ni de calendrier de déploiement commercial ; il s'agit à ce stade d'une contribution académique, dont la prochaine étape logique serait une validation sur davantage de plateformes robotiques et dans des environnements réels plus variés que le cadre expérimental actuel.

RecherchePaper

1 source

FloVerse : navigation multimodale guidée par plan d'étage

41

4arXiv cs.RO

FloVerse : navigation multimodale guidée par plan d'étage

Une équipe de chercheurs a publié FloVerse, un cadre unifié de navigation incarnée guidée par plans d'étage, accompagné d'un jeu de données à grande échelle et d'une nouvelle politique d'apprentissage. Présenté sous forme de preprint arXiv (2606.14267) en juin 2026, ce travail rassemble sous un même protocole trois variantes classiques de navigation autonome en intérieur : PointNav (atteindre des coordonnées cibles), ObjectNav (trouver une instance d'objet précis) et ImageNav (rejoindre un lieu identifié par une image de référence). Pour soutenir ces expériences, les auteurs ont constitué FloVerse-1.6K, un jeu de données de 1 600 scènes issues des environnements HM3D et Gibson 4+, couplé aux plans d'étage correspondants, comprenant 240 000 trajectoires expertes et 12 millions de frames RGBD. Ils proposent également ThreeDiff, une politique d'imitation en deux étapes : un planificateur basé sur la diffusion entraîné par masked-modality modeling (masquage aléatoire des modalités en entrée pour forcer la robustesse multimodale), et un raffineur qui ajuste les trajectoires à l'exécution à partir de données de profondeur pour éviter les collisions. L'apport principal réside dans la démonstration que les plans d'étage constituent des priors spatiaux efficaces et généralisables : les résultats montrent une amélioration des performances sur l'ensemble des trois modalités de tâches, y compris en généralisation à des scènes non vues durant l'entraînement. Pour un intégrateur déployant des robots mobiles en environnement structuré (entrepôts, hôpitaux, hôtels), ce résultat ouvre une voie pragmatique : exploiter les plans existants issus du BIM ou de simples blueprints sans nécessiter de cartographie préalable par le robot. ThreeDiff montre de surcroît que ce prior spatial peut être capturé implicitement par le modèle, sans supervision explicite sur la structure géométrique du plan. Ce travail s'inscrit dans un courant de recherche actif où plusieurs approches concurrentes telles que VLN-BERT, NavGPT ou EmbodiedGPT s'appuient sur des modèles de langage visuels ou des cartes sémantiques. La spécificité de FloVerse est d'intégrer le plan d'étage comme modalité de guidage explicite et portable, là où la majorité des travaux antérieurs se limitaient à PointNav sur des environnements restreints comme AI2-THOR ou Matterport3D. En tant que preprint non encore soumis à évaluation par les pairs, les benchmarks restent en simulation ; le gap sim-to-real n'est pas évalué, ce qui constitue la limite principale avant toute application industrielle.

RecherchePaper

1 source

DM³-Nav : navigation sémantique décentralisée multi-agents, multimodale et multi-objets

À lire aussi

Navigation multimodale par apprentissage par renforcement multi-agents

Optimisation riemannienne décentralisée sur graphe de poses pour le SLAM multi-robots basé objets

ZONDA : navigation vers un objet sans apprentissage préalable avec évitement dynamique en environnements multi-étages

FloVerse : navigation multimodale guidée par plan d'étage