MapNav : une nouvelle représentation mémoire par cartes…

Combler le fossé 2D-3D : une carte sémantique-géométrique hiérarchique pour la navigation vision-langage

44

1arXiv cs.RO

Combler le fossé 2D-3D : une carte sémantique-géométrique hiérarchique pour la navigation vision-langage

Des chercheurs ont publié le 31 mai 2026 sur arXiv un article (référence 2606.00095) décrivant HSGM, une carte hiérarchique sémantique-géométrique conçue pour améliorer la navigation d'agents robotiques guidés par instructions en langage naturel. Le système repose sur une représentation top-down multi-couches organisée en trois niveaux : un niveau géométrique qui encode les zones navigables et les obstacles, un niveau sémantique qui modélise les objets et leurs relations spatiales, et un niveau décisionnel qui supporte le raisonnement de haut niveau pour la sélection des objectifs. Durant la navigation, le modèle de vision-langage (VLM) joue le rôle de planificateur sémantique : il interprète la carte HSGM pour sélectionner des points de passage géométriquement cohérents, tandis qu'un algorithme de planification de trajectoire classique prend en charge les déplacements locaux sans collision. Pour les instructions longues, le système les décompose en sous-tâches afin d'éviter l'oubli de progression ou les hallucinations sur des horizons temporels étendus. Les expériences sur les benchmarks R2R-CE et RxR-CE montrent que le framework en mode zero-shot atteint des performances à l'état de l'art et surpasse même plusieurs méthodes supervisées. Ce résultat est notable parce qu'il attaque un verrou bien identifié de la robotique embodied : les VLMs comprennent le langage et l'image 2D avec compétence, mais peinent à raisonner en 3D et à modéliser la causalité entre actions et transitions spatiales. En convertissant la géométrie 3D en une représentation structurée lisible par les VLMs, HSGM découple proprement le raisonnement sémantique de l'exécution motrice, une architecture qui pourrait simplifier l'intégration de LLMs généralistes dans des chaînes de contrôle robotique existantes sans retraining complet. La performance zero-shot supérieure à certaines méthodes supervisées suggère une généralisation robuste à des environnements inconnus, ce qui est directement pertinent pour des déploiements en entrepôt, bâtiment tertiaire ou environnement hospitalier où l'annotation préalable est coûteuse. Ce travail s'inscrit dans un champ de recherche actif sur la navigation embodied guidée par langage, avec des benchmarks de référence établis notamment par Anderson et al. (R2R, 2018) et leurs extensions continues (R2R-CE pour les environnements continus, RxR-CE multilingue). La tendance de fond est à l'utilisation de VLMs pré-entraînés comme raisonneurs généraux plutôt que de former des architectures dédiées depuis zéro, une approche défendue aussi par des équipes comme CMU, Oxford ou Google DeepMind sur des problèmes adjacents. La prochaine étape naturelle pour ce type de système est l'intégration sur des plateformes physiques réelles, domaine où le sim-to-real gap reste un défi ouvert que les benchmarks en simulation ne mesurent pas. Le code est disponible publiquement sur GitHub (Teacher-Tom/HSGM\_public), ce qui facilite la reproduction et l'adaptation par des équipes tierces.

IA physiqueOpinion

1 source

GesVLA : représentations gestuelles intégrées pour un modèle vision-langage-action

38

2arXiv cs.RO

GesVLA : représentations gestuelles intégrées pour un modèle vision-langage-action

Des chercheurs ont publié GesVLA, un modèle Vision-Language-Action augmenté d'une modalité gestuelle, dans un preprint arXiv soumis en mai 2026 (arXiv:2605.22812). L'architecture repose sur un double VLM (Vision-Language Model) qui encode les features gestuelles directement dans l'espace latent, permettant aux gestes pointés de la main de participer à la fois au raisonnement de haut niveau et à la génération d'actions motrices. Pour l'entraînement, l'équipe a construit un pipeline de génération de données synthétiques en rendant des modèles 3D de mains sur des images de scènes réelles, produisant des annotations de pointage variées tout en réduisant le sim-to-real gap visuel. Le modèle a été évalué sur plusieurs tâches physiques réelles : manipulation contrôlée de blocs et sélection de produits dans des environnements encombrés. Les expériences montrent une amélioration mesurée de la précision de grounding cible et de l'efficacité de l'interaction humain-robot, particulièrement dans des scènes complexes avec objets similaires. L'apport principal de GesVLA est d'adresser une faiblesse connue des VLA actuels : l'ambiguïté spatiale. Quand plusieurs objets similaires sont présents dans la scène, une instruction textuelle seule (type "prends la bouteille") reste ambiguë. Intégrer le geste de pointage comme modalité parallèle au texte offre un ancrage spatial explicite sans modifier l'interface verbale. L'architecture dual-VLM représente un choix architectural non trivial par rapport aux approches qui traitent les modalités de façon séquentielle. Ce n'est pas la première tentative d'incorporer des signaux humains dans les VLA, mais la formalisation du geste comme modalité de premier rang dans l'espace latent, plutôt qu'en post-processing, est une contribution d'architecture à surveiller pour les intégrateurs qui déploient des cobots en environnements de picking désordonnés. GesVLA s'inscrit dans la vague de recherche post-RT-2 et pi-0 qui cherche à rendre les VLA robustes au-delà du régime de laboratoire. Les modèles concurrents comme OpenVLA (Berkeley), Octo ou RoboFlamingo travaillent essentiellement avec du texte et de la vision, sans modalité gestuelle native. Physical Intelligence (pi) avec pi-0 et Google DeepMind avec RT-2/RT-X restent les références industrielles sur la généralisation des VLA à grande échelle. Le preprint ne mentionne pas de partenariat industriel ni de timeline de déploiement commercial. Les prochaines étapes naturelles seraient une évaluation sur des benchmarks standardisés (LIBERO, Calvin) pour permettre des comparaisons directes, et une intégration sur des plateformes comme Franka ou UR5 au-delà des configurations de démonstration présentées.

IA physiqueOpinion

1 source

Raisonnement par modèle vision-langage pour la cartographie sémantique contextuelle en intralogistique

54

3arXiv cs.RO

Raisonnement par modèle vision-langage pour la cartographie sémantique contextuelle en intralogistique

Des chercheurs ont publié le 24 juin 2026 (arXiv:2606.24814v1) un pipeline de cartographie sémantique contextuelle destiné aux robots mobiles autonomes (AMR) opérant en environnements intralogistiques. Le système enchaîne quatre briques : cartographie géométrique par SLAM, segmentation d'instances via SAM (Segment Anything Model de Meta), clustering d'instances multi-vues, puis raisonnement contextuel par un modèle vision-langage (VLM) interrogé en mode zero-shot à vocabulaire ouvert. L'application démontrée porte sur l'estimation de la mobilité des objets -- distinguer ce qui peut être déplacé de ce qui est fixe. Sur les benchmarks rapportés, le pipeline atteint 98,93 % de mIoU en classification sémantique et 89,17 % de précision (mAcc) pour l'estimation de mobilité. Trois VLMs distincts ont été évalués selon deux stratégies de prompting, et une analyse composant par composant complète les résultats. L'enjeu industriel est direct : les AMR en entrepôt naviguent aujourd'hui sur des cartes purement géométriques -- ils localisent les obstacles mais ignorent leur nature et leur statut. Un robot ne distingue pas une palette temporaire d'un rayonnage fixe, ni une cage de manutention mobile d'une infrastructure permanente. Ce travail démontre qu'un VLM généraliste, sans entraînement supervisé ni ontologie prédéfinie, peut inférer ces propriétés contextuelles à partir d'observations multi-vues agrégées. Pour un intégrateur ou un COO d'entrepôt, cela signifie potentiellement une planification de trajectoire et une gestion des obstacles plus robuste face aux environnements dynamiques -- sans reconfiguration manuelle de la carte à chaque réorganisation du sol. Il faut noter que le 89 % de précision sur la mobilité reste perfectible, et que les chercheurs eux-mêmes identifient le raisonnement VLM comme le goulot principal, non la perception bas niveau. Le secteur de l'intralogistique autonome regroupe des acteurs comme Exotec (FR, systèmes Skypod), Mobile Industrial Robots (MiR, groupe Teradyne), Geek+ ou Boston Dynamics (Stretch). La cartographie sémantique y est un problème ouvert depuis plusieurs années : les approches antérieures exigeaient des ontologies d'objets prédéfinies ou un fine-tuning supervisé coûteux pour chaque nouvel environnement. L'utilisation de SAM et de VLMs généralistes en zero-shot s'inscrit dans une tendance plus large -- portée aussi par des travaux comme SayPlan ou ConceptGraphs -- qui cherche à rendre les robots industriels reconfigurables sans réentraînement. Les auteurs ne mentionnent pas de déploiement réel ni de partenaire industriel associé ; il s'agit à ce stade d'un résultat de laboratoire, validé en simulation ou environnement contrôlé, dont la robustesse en entrepôt opérationnel reste à démontrer.

UEExotec (FR) et les intégrateurs AMR européens sont directement concernés : cette approche zero-shot pourrait rendre leurs flottes reconfigurables sans réentraînement coûteux à chaque réorganisation d'entrepôt, sous réserve de validation en environnement opérationnel réel.

💬 Un robot qui distingue une palette temporaire d'un rayonnage fixe sans entraînement supervisé, c'est le chaînon manquant pour que les flottes AMR s'adaptent enfin à l'entrepôt réel, pas à l'entrepôt figé du jour de la mise en service. Le 89 % de précision sur la mobilité, c'est encore loin du prod. Mais zéro ontologie prédéfinie, zéro fine-tuning, ça change le calcul pour un intégrateur comme Exotec qui reconfigurait ses déploiements à la main.

IA physiquePaper

1 source

ReSiReg : vers une sémantique spatialement cohérente pour les tâches robotiques guidées par le langage

37

4arXiv cs.RO

ReSiReg : vers une sémantique spatialement cohérente pour les tâches robotiques guidées par le langage

Des chercheurs ont déposé sur arXiv (2606.19088) ReSiReg, une méthode de reconstruction de features visant à corriger l'incohérence spatiale des embeddings denses produits par les Vision-Language Models (VLM) utilisés en robotique. Le constat de départ est documenté : les VLM de type ViT-B produisent des représentations sémantiques bruitées et spatialement incohérentes, ce qui compromet la localisation d'objets dans un espace 3D à partir d'instructions en langage naturel. ReSiReg regroupe les activations intermédiaires en prototypes visuels, dérive pour chacun des descripteurs linguistiques, puis reconstruit chaque patch comme un mélange pondéré de ces embeddings prototype. L'évaluation porte sur des benchmarks de segmentation sémantique ouverte (OVSS) et de cartographie 3D sur plusieurs backbones, complétée par des tests qualitatifs sur des scènes de manipulation réelle ; les auteurs proposent également un modèle compact à 25 millions de paramètres, contre 86M pour un ViT-B standard, avec des performances déclarées compétitives. Ce problème d'incohérence spatiale est un frein concret pour les intégrateurs : les pipelines VLA (Vision-Language-Action) doivent actuellement empiler des composants supplémentaires comme SAM, des filtres de profondeur et des post-traitements pour stabiliser les activations avant de les transmettre au contrôleur. Corriger le problème au niveau du feature lui-même simplifie cette chaîne, et le modèle 25M constitue un argument direct pour le déploiement embarqué sur hardware contraint. Nuance importante : les résultats qualitatifs illustrent des "activations plus cohérentes spatialement", mais sans métriques systématiques chiffrées permettant une comparaison directe avec l'existant. ReSiReg s'inscrit dans un effort plus large d'adaptation des VLM généralistes au contexte robotique, après des travaux comme LERF ou CLIP-Fields qui ancrent les embeddings linguistiques dans des représentations 3D. La méthode opère en amont, sur la représentation 2D dense, et se veut agnostique au backbone, à la différence de solutions comme OpenMask3D ou les approches Distilled Feature Fields. L'article est à l'état de preprint non révisé par les pairs ; le code est annoncé sur resireg.github.io. Les suites naturelles incluent une évaluation sur des benchmarks de manipulation de référence (RLBench, LIBERO) et une intégration dans des architectures VLA de bout en bout telles que Pi-0 ou OpenVLA.

IA physiqueOpinion

1 source

MapNav : une nouvelle représentation mémoire par cartes sémantiques annotées pour la navigation vision-langage

À lire aussi

Combler le fossé 2D-3D : une carte sémantique-géométrique hiérarchique pour la navigation vision-langage

GesVLA : représentations gestuelles intégrées pour un modèle vision-langage-action

Raisonnement par modèle vision-langage pour la cartographie sémantique contextuelle en intralogistique

ReSiReg : vers une sémantique spatialement cohérente pour les tâches robotiques guidées par le langage