Aller au contenu principal
MapNav : une nouvelle représentation mémoire par cartes sémantiques annotées pour la navigation vision-langage
IA physiquearXiv cs.RO6sem

MapNav : une nouvelle représentation mémoire par cartes sémantiques annotées pour la navigation vision-langage

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

MapNav est un modèle de navigation guidée par le langage naturel (Vision-and-Language Navigation, VLN) publié sur arXiv (identifiant 2502.13451, version 5). L'idée centrale est de remplacer la mémoire par images historiques, habituellement conservée par les agents VLN pour contextualiser leurs décisions, par une carte sémantique annotée (Annotated Semantic Map, ASM). À chaque épisode de navigation, le système construit une vue de dessus (top-down) de l'environnement, la met à jour à chaque pas de temps, puis y appose des étiquettes textuelles explicites sur les objets et régions clés. Ce flux structuré est ensuite interprété par un modèle vision-langage (VLM) de grande taille dans une architecture end-to-end. Les auteurs annoncent des performances état de l'art sur benchmarks simulés et en environnement réel, et prévoient de publier code source et jeu de données associés.

L'apport principal est architectural : substituer les trames brutes par une carte compacte et annotée réduit la charge mémoire et le coût de calcul, deux obstacles concrets à l'embarquement sur plateformes robotiques à ressources limitées. Les étiquettes textuelles directement inscrites sur la carte transforment une représentation abstraite en signal interprétable par un VLM sans reformater les données brutes, ce qui permet d'exploiter le raisonnement des grands modèles de façon plus directe. La validation en environnement réel, si elle est confirmée par des reproductions indépendantes, représenterait un progrès tangible dans la réduction du sim-to-real gap qui pénalise encore la majorité des agents VLN. Pour les intégrateurs de robots de service (logistique, hospitalier, résidentiel), une représentation aussi compacte facilite l'interfaçage avec des systèmes d'instruction en langage naturel.

La navigation par instruction verbale en environnement inconnu est un problème de référence depuis le benchmark R2R (Room-to-Room, 2018). Les approches récentes (ETPNav, BEVBert, NavGPT) ont progressivement intégré des cartes métriques et des LLM, mais maintiennent souvent une fenêtre d'historique visuel coûteuse. MapNav s'inscrit dans la lignée des méthodes map-centric tout en capitalisant sur les VLM modernes. Cette publication est un preprint arXiv en cinquième révision, sans affiliation industrielle identifiée, et ses revendications SOTA devront être validées sur benchmarks standardisés par des équipes tierces, étape non négligeable dans une littérature VLN où les comparaisons sont souvent contestées.

Dans nos dossiers

À lire aussi

Combler le fossé 2D-3D : une carte sémantique-géométrique hiérarchique pour la navigation vision-langage
1arXiv cs.RO 

Combler le fossé 2D-3D : une carte sémantique-géométrique hiérarchique pour la navigation vision-langage

Des chercheurs ont publié le 31 mai 2026 sur arXiv un article (référence 2606.00095) décrivant HSGM, une carte hiérarchique sémantique-géométrique conçue pour améliorer la navigation d'agents robotiques guidés par instructions en langage naturel. Le système repose sur une représentation top-down multi-couches organisée en trois niveaux : un niveau géométrique qui encode les zones navigables et les obstacles, un niveau sémantique qui modélise les objets et leurs relations spatiales, et un niveau décisionnel qui supporte le raisonnement de haut niveau pour la sélection des objectifs. Durant la navigation, le modèle de vision-langage (VLM) joue le rôle de planificateur sémantique : il interprète la carte HSGM pour sélectionner des points de passage géométriquement cohérents, tandis qu'un algorithme de planification de trajectoire classique prend en charge les déplacements locaux sans collision. Pour les instructions longues, le système les décompose en sous-tâches afin d'éviter l'oubli de progression ou les hallucinations sur des horizons temporels étendus. Les expériences sur les benchmarks R2R-CE et RxR-CE montrent que le framework en mode zero-shot atteint des performances à l'état de l'art et surpasse même plusieurs méthodes supervisées. Ce résultat est notable parce qu'il attaque un verrou bien identifié de la robotique embodied : les VLMs comprennent le langage et l'image 2D avec compétence, mais peinent à raisonner en 3D et à modéliser la causalité entre actions et transitions spatiales. En convertissant la géométrie 3D en une représentation structurée lisible par les VLMs, HSGM découple proprement le raisonnement sémantique de l'exécution motrice, une architecture qui pourrait simplifier l'intégration de LLMs généralistes dans des chaînes de contrôle robotique existantes sans retraining complet. La performance zero-shot supérieure à certaines méthodes supervisées suggère une généralisation robuste à des environnements inconnus, ce qui est directement pertinent pour des déploiements en entrepôt, bâtiment tertiaire ou environnement hospitalier où l'annotation préalable est coûteuse. Ce travail s'inscrit dans un champ de recherche actif sur la navigation embodied guidée par langage, avec des benchmarks de référence établis notamment par Anderson et al. (R2R, 2018) et leurs extensions continues (R2R-CE pour les environnements continus, RxR-CE multilingue). La tendance de fond est à l'utilisation de VLMs pré-entraînés comme raisonneurs généraux plutôt que de former des architectures dédiées depuis zéro, une approche défendue aussi par des équipes comme CMU, Oxford ou Google DeepMind sur des problèmes adjacents. La prochaine étape naturelle pour ce type de système est l'intégration sur des plateformes physiques réelles, domaine où le sim-to-real gap reste un défi ouvert que les benchmarks en simulation ne mesurent pas. Le code est disponible publiquement sur GitHub (Teacher-Tom/HSGM\_public), ce qui facilite la reproduction et l'adaptation par des équipes tierces.

IA physiqueOpinion
1 source
GesVLA : représentations gestuelles intégrées pour un modèle vision-langage-action
2arXiv cs.RO 

GesVLA : représentations gestuelles intégrées pour un modèle vision-langage-action

Des chercheurs ont publié GesVLA, un modèle Vision-Language-Action augmenté d'une modalité gestuelle, dans un preprint arXiv soumis en mai 2026 (arXiv:2605.22812). L'architecture repose sur un double VLM (Vision-Language Model) qui encode les features gestuelles directement dans l'espace latent, permettant aux gestes pointés de la main de participer à la fois au raisonnement de haut niveau et à la génération d'actions motrices. Pour l'entraînement, l'équipe a construit un pipeline de génération de données synthétiques en rendant des modèles 3D de mains sur des images de scènes réelles, produisant des annotations de pointage variées tout en réduisant le sim-to-real gap visuel. Le modèle a été évalué sur plusieurs tâches physiques réelles : manipulation contrôlée de blocs et sélection de produits dans des environnements encombrés. Les expériences montrent une amélioration mesurée de la précision de grounding cible et de l'efficacité de l'interaction humain-robot, particulièrement dans des scènes complexes avec objets similaires. L'apport principal de GesVLA est d'adresser une faiblesse connue des VLA actuels : l'ambiguïté spatiale. Quand plusieurs objets similaires sont présents dans la scène, une instruction textuelle seule (type "prends la bouteille") reste ambiguë. Intégrer le geste de pointage comme modalité parallèle au texte offre un ancrage spatial explicite sans modifier l'interface verbale. L'architecture dual-VLM représente un choix architectural non trivial par rapport aux approches qui traitent les modalités de façon séquentielle. Ce n'est pas la première tentative d'incorporer des signaux humains dans les VLA, mais la formalisation du geste comme modalité de premier rang dans l'espace latent, plutôt qu'en post-processing, est une contribution d'architecture à surveiller pour les intégrateurs qui déploient des cobots en environnements de picking désordonnés. GesVLA s'inscrit dans la vague de recherche post-RT-2 et pi-0 qui cherche à rendre les VLA robustes au-delà du régime de laboratoire. Les modèles concurrents comme OpenVLA (Berkeley), Octo ou RoboFlamingo travaillent essentiellement avec du texte et de la vision, sans modalité gestuelle native. Physical Intelligence (pi) avec pi-0 et Google DeepMind avec RT-2/RT-X restent les références industrielles sur la généralisation des VLA à grande échelle. Le preprint ne mentionne pas de partenariat industriel ni de timeline de déploiement commercial. Les prochaines étapes naturelles seraient une évaluation sur des benchmarks standardisés (LIBERO, Calvin) pour permettre des comparaisons directes, et une intégration sur des plateformes comme Franka ou UR5 au-delà des configurations de démonstration présentées.

IA physiqueOpinion
1 source
Raisonnement par modèle vision-langage pour la cartographie sémantique contextuelle en intralogistique
3arXiv cs.RO 

Raisonnement par modèle vision-langage pour la cartographie sémantique contextuelle en intralogistique

Des chercheurs ont publié le 24 juin 2026 (arXiv:2606.24814v1) un pipeline de cartographie sémantique contextuelle destiné aux robots mobiles autonomes (AMR) opérant en environnements intralogistiques. Le système enchaîne quatre briques : cartographie géométrique par SLAM, segmentation d'instances via SAM (Segment Anything Model de Meta), clustering d'instances multi-vues, puis raisonnement contextuel par un modèle vision-langage (VLM) interrogé en mode zero-shot à vocabulaire ouvert. L'application démontrée porte sur l'estimation de la mobilité des objets -- distinguer ce qui peut être déplacé de ce qui est fixe. Sur les benchmarks rapportés, le pipeline atteint 98,93 % de mIoU en classification sémantique et 89,17 % de précision (mAcc) pour l'estimation de mobilité. Trois VLMs distincts ont été évalués selon deux stratégies de prompting, et une analyse composant par composant complète les résultats. L'enjeu industriel est direct : les AMR en entrepôt naviguent aujourd'hui sur des cartes purement géométriques -- ils localisent les obstacles mais ignorent leur nature et leur statut. Un robot ne distingue pas une palette temporaire d'un rayonnage fixe, ni une cage de manutention mobile d'une infrastructure permanente. Ce travail démontre qu'un VLM généraliste, sans entraînement supervisé ni ontologie prédéfinie, peut inférer ces propriétés contextuelles à partir d'observations multi-vues agrégées. Pour un intégrateur ou un COO d'entrepôt, cela signifie potentiellement une planification de trajectoire et une gestion des obstacles plus robuste face aux environnements dynamiques -- sans reconfiguration manuelle de la carte à chaque réorganisation du sol. Il faut noter que le 89 % de précision sur la mobilité reste perfectible, et que les chercheurs eux-mêmes identifient le raisonnement VLM comme le goulot principal, non la perception bas niveau. Le secteur de l'intralogistique autonome regroupe des acteurs comme Exotec (FR, systèmes Skypod), Mobile Industrial Robots (MiR, groupe Teradyne), Geek+ ou Boston Dynamics (Stretch). La cartographie sémantique y est un problème ouvert depuis plusieurs années : les approches antérieures exigeaient des ontologies d'objets prédéfinies ou un fine-tuning supervisé coûteux pour chaque nouvel environnement. L'utilisation de SAM et de VLMs généralistes en zero-shot s'inscrit dans une tendance plus large -- portée aussi par des travaux comme SayPlan ou ConceptGraphs -- qui cherche à rendre les robots industriels reconfigurables sans réentraînement. Les auteurs ne mentionnent pas de déploiement réel ni de partenaire industriel associé ; il s'agit à ce stade d'un résultat de laboratoire, validé en simulation ou environnement contrôlé, dont la robustesse en entrepôt opérationnel reste à démontrer.

UEExotec (FR) et les intégrateurs AMR européens sont directement concernés : cette approche zero-shot pourrait rendre leurs flottes reconfigurables sans réentraînement coûteux à chaque réorganisation d'entrepôt, sous réserve de validation en environnement opérationnel réel.

💬 Un robot qui distingue une palette temporaire d'un rayonnage fixe sans entraînement supervisé, c'est le chaînon manquant pour que les flottes AMR s'adaptent enfin à l'entrepôt réel, pas à l'entrepôt figé du jour de la mise en service. Le 89 % de précision sur la mobilité, c'est encore loin du prod. Mais zéro ontologie prédéfinie, zéro fine-tuning, ça change le calcul pour un intégrateur comme Exotec qui reconfigurait ses déploiements à la main.

IA physiquePaper
1 source
ReSiReg : vers une sémantique spatialement cohérente pour les tâches robotiques guidées par le langage
4arXiv cs.RO 

ReSiReg : vers une sémantique spatialement cohérente pour les tâches robotiques guidées par le langage

Des chercheurs ont déposé sur arXiv (2606.19088) ReSiReg, une méthode de reconstruction de features visant à corriger l'incohérence spatiale des embeddings denses produits par les Vision-Language Models (VLM) utilisés en robotique. Le constat de départ est documenté : les VLM de type ViT-B produisent des représentations sémantiques bruitées et spatialement incohérentes, ce qui compromet la localisation d'objets dans un espace 3D à partir d'instructions en langage naturel. ReSiReg regroupe les activations intermédiaires en prototypes visuels, dérive pour chacun des descripteurs linguistiques, puis reconstruit chaque patch comme un mélange pondéré de ces embeddings prototype. L'évaluation porte sur des benchmarks de segmentation sémantique ouverte (OVSS) et de cartographie 3D sur plusieurs backbones, complétée par des tests qualitatifs sur des scènes de manipulation réelle ; les auteurs proposent également un modèle compact à 25 millions de paramètres, contre 86M pour un ViT-B standard, avec des performances déclarées compétitives. Ce problème d'incohérence spatiale est un frein concret pour les intégrateurs : les pipelines VLA (Vision-Language-Action) doivent actuellement empiler des composants supplémentaires comme SAM, des filtres de profondeur et des post-traitements pour stabiliser les activations avant de les transmettre au contrôleur. Corriger le problème au niveau du feature lui-même simplifie cette chaîne, et le modèle 25M constitue un argument direct pour le déploiement embarqué sur hardware contraint. Nuance importante : les résultats qualitatifs illustrent des "activations plus cohérentes spatialement", mais sans métriques systématiques chiffrées permettant une comparaison directe avec l'existant. ReSiReg s'inscrit dans un effort plus large d'adaptation des VLM généralistes au contexte robotique, après des travaux comme LERF ou CLIP-Fields qui ancrent les embeddings linguistiques dans des représentations 3D. La méthode opère en amont, sur la représentation 2D dense, et se veut agnostique au backbone, à la différence de solutions comme OpenMask3D ou les approches Distilled Feature Fields. L'article est à l'état de preprint non révisé par les pairs ; le code est annoncé sur resireg.github.io. Les suites naturelles incluent une évaluation sur des benchmarks de manipulation de référence (RLBench, LIBERO) et une intégration dans des architectures VLA de bout en bout telles que Pi-0 ou OpenVLA.

IA physiqueOpinion
1 source