RecherchearXiv cs.RO 11 juin 2026

PIGEON : navigation vers des objets guidée par un modèle vision-langage via la sélection de points d'intérêt

1 source couvre ce sujet·Source originale ↗·

Résumé IASource uniqueImpact UE

Des chercheurs ont publié PIGEON (Point of Interest Guided Exploration for Object Navigation), un cadre de navigation robotique pour localiser des objets dans des espaces intérieurs inconnus. L'approche repose sur des modèles vision-langage (VLM), mais résout leur principal obstacle opérationnel : l'inférence dense image par image est trop coûteuse pour un usage embarqué temps réel. PIGEON introduit des Points d'Intérêt (PoI), unités de décision visuelles couplant waypoints géométriques et observations égocentriques brutes, que le VLM utilise pour sélectionner parmi des destinations candidates : frontières d'exploration, objets suspectés, escaliers franchissables, résumés de niveau sol. Un planificateur bas niveau exécute les trajectoires continues entre ces points. Le système intègre un pipeline RLVR (Reinforcement Learning with Verifiable Rewards) permettant d'affiner des VLM locaux sans annotations Chain-of-Thought manuelles. Sur le benchmark Habitat ObjectNav, référence standard en navigation simulée, PIGEON affiche les meilleures performances zero-shot publiées à ce jour et se transfère à la tâche Active Embodied Question Answering par simple modification du prompt. Des déploiements sur robots physiques sont documentés dans le papier (arXiv 2511.13207).

L'enjeu central est l'efficacité computationnelle des VLM dans des boucles de contrôle robotique. Les approches concurrentes utilisent soit les VLM comme contrôleurs denses (coûteux), soit pour un simple ranking de frontières d'exploration (sémantiquement appauvri). PIGEON propose un compromis : décisions rares mais ancrées dans les observations brutes, rendant chaque choix vérifiable et compatible avec l'apprentissage par renforcement sans supervision humaine. La réduction de la dépendance aux données annotées est un avantage concret pour des équipes robotiques sans large budget d'annotation. La progression des performances avec la taille du modèle de fondation (scaling) indique une architecture alignée avec les tendances génératives actuelles.

La navigation d'objets en environnement inconnu est un benchmark actif en robotique cognitive, avec des systèmes concurrents comme ESC, SG-Nav ou OpenFMNav exploitant également des LLM pour la planification sémantique. PIGEON se différencie par son mode zero-shot strict, sans réentraînement spécifique à l'environnement cible. Habitat, le simulateur d'intérieur de Meta AI Research, reste la plateforme d'évaluation de référence pour ce type de tâche. Ce résultat est académique : aucun partenariat commercial ni déploiement industriel n'est mentionné, et la robustesse en environnements réels dynamiques non contrôlés reste à valider à plus grande échelle. Les prochaines étapes naturelles incluent des tests en milieux variés et l'adaptation à des VLM embarqués contraints en ressources.

Dans nos dossiers

arXiv cs.RO

À lire aussi

1arXiv cs.RO

EffiNav : fusion de la profondeur et du modèle vision-langage pour une navigation efficace vers des objets

Une équipe de chercheurs a publié EffiNav, un framework de navigation robotique orientée-objet (Object Goal Navigation, ObjNav) qui fusionne perception de profondeur et modèles vision-langage pour améliorer l'efficacité des trajectoires d'exploration en environnement inconnu. La contribution, déposée en preprint sur arXiv (2606.18634) en juin 2026, évalue le système sur deux simulateurs de référence du domaine, HM3D (Habitat Matterport 3D) et OVON (Open-Vocabulary Object goal Navigation), puis le valide sur robots physiques en conditions réelles. Les auteurs l'étendent également à GOAT-BENCH, un benchmark de navigation avec mémoire augmentée, pour démontrer la généralisation du framework au-delà du protocole ObjNav standard. Sur les deux métriques habituelles du domaine, taux de succès (SR) et succès pondéré par longueur de chemin (SPL), EffiNav égale ou dépasse les baselines récentes, sans que le preprint ne communique de valeurs numériques absolues permettant une comparaison chiffrée directe. L'apport principal porte moins sur le taux de réussite brut que sur le SPL, qui pénalise les trajets inutilement longs. C'est précisément là que les approches actuelles divergent : les modèles entraînés end-to-end, y compris certains VLA (Vision-Language-Action), peinent à généraliser à de nouveaux environnements, tandis que les frameworks modulaires sans apprentissage accumulent des allers-retours redondants et revisitent des zones déjà explorées. EffiNav prétend adresser ces deux pathologies simultanément en combinant une estimation de la profondeur pour la représentation géométrique de l'espace et un modèle vision-langage pour l'interprétation sémantique. Pour les intégrateurs de robots de service ou les décideurs B2B, l'efficacité de trajectoire est directement liée au temps disponible pour les tâches secondaires, donc à la rentabilité opérationnelle d'un déploiement en entrepôt ou en environnement indoor. Le champ ObjNav s'est structuré autour de l'écosystème Habitat de Meta AI Research, qui fournit les simulateurs HM3D et OVON utilisés ici. Les approches concurrentes incluent des pipelines modulaires à cartographie explicite comme SemExp ou OpenFMNav, et des VLA appliqués à la navigation. EffiNav se positionne comme un framework hybride ne nécessitant ni encodeurs supplémentaires lourds ni réentraînement complet par domaine. Aucune timeline commerciale ni partenariat industriel n'est mentionné dans le preprint ; la prochaine étape naturelle serait une validation sur des plateformes AMR variées pour confirmer le transfert sim-to-real sur des morphologies autres que celles testées.

RecherchePaper

1 source

2arXiv cs.RO

ViTL : navigation en langage naturel zéro-shot guidée par logique temporelle via modèles vision-langage

Des chercheurs présentent ViTL (Vision-Language Temporal Logic), un système de navigation robotique capable d'exécuter des commandes en langage naturel impliquant plusieurs cibles et des contraintes temporelles, sans entraînement spécifique à l'environnement testé. Publié sur arXiv le 30 juin 2026, le framework s'attaque à un cas concret : une instruction comme "Nettoie la chaise ou le canapé, puis allume la télé" implique un ordre logique et un choix entre deux objets, ce qu'aucun système zero-shot existant ne gérait jusqu'ici. ViTL agit à deux niveaux. Au niveau tâche, un grand modèle de langage traduit la commande en formule de logique temporelle linéaire (LTL), convertie ensuite en automate fini déterministe (DFA) qui coordonne des cartes de valeur multi-canaux et déclenche une replanification dynamique dès qu'un nouvel objet pertinent est détecté. Au niveau navigation, les auteurs introduisent un "score directionnel" : plutôt qu'une valeur unique et indifférenciée sur tout le champ de vision, chaque direction de frontière est étiquetée sur l'image d'observation et notée séparément par le modèle vision-langage. Les tests ont été menés sur le simulateur Habitat-Matterport 3D (HM3D). L'enjeu dépasse la démonstration académique. Les méthodes actuelles de navigation zero-shot vers un objet, qui s'appuient sur des VLM pour guider une exploration par frontières dans un environnement inconnu, restent cantonnées à une seule cible à la fois. En prouvant qu'un pipeline LLM-vers-logique-vers-automate peut orchestrer plusieurs sous-tâches ordonnées sans réentraînement, ViTL déplace la limite de ce qu'un robot peut comprendre d'une instruction humaine complexe, un enjeu direct pour les intégrateurs qui déploient des robots domestiques ou logistiques devant suivre des consignes composites. Le score directionnel améliore aussi, selon les auteurs, la précision et l'efficacité sur les tâches à cible unique par rapport à leur référence de base, signe que le gain ne se limite pas aux scénarios multi-cibles. Ce travail s'inscrit dans la lignée des approches récentes combinant VLM et exploration frontalière pour la navigation sémantique zero-shot, une piste active depuis l'essor des modèles vision-langage capables de raisonner sur des scènes inconnues sans carte préexistante. La contribution spécifique de ViTL, la formalisation en logique temporelle plutôt qu'en heuristique ad hoc, ouvre la voie à des commandes encore plus complexes (conditions, boucles, contraintes de sécurité) dans de futurs travaux, même si le passage du simulateur HM3D à un robot réel reste l'étape non résolue par cette publication.

RecherchePaper

1 source

3arXiv cs.RO

Vers des objectifs de navigation par le langage : une approche vision-langage pour la navigation sémantique de robots mobiles par perception RGB-D

Une équipe de recherche présente un framework open source de navigation sémantique piloté par le langage naturel pour robots mobiles, publié sur arXiv (2607.13624v1). Le système, bâti sur des composants modulaires ROS 2, traduit des requêtes en langage naturel comme "va vers la boîte aux lettres" en objectifs de navigation exécutables. Concrètement, le pipeline identifie l'objet cible mentionné dans la phrase, estime sa position dans l'espace à partir de données RGB-D, puis génère un point de navigation transmis à la pile Nav2 de ROS 2 pour l'exécution autonome. Les auteurs ont validé l'approche à la fois en simulation et en conditions réelles, sur deux plateformes distinctes : un TurtleBot3 Waffle et un Unitree Go2 équipé d'une caméra RealSense. Le code sera publié en open source après acceptation de l'article. Cette architecture illustre une tendance de fond dans la robotique mobile : le passage d'une navigation pilotée par coordonnées ou par carte à une navigation pilotée par l'intention exprimée en langage naturel, sans expertise technique requise de l'utilisateur. Pour les intégrateurs, l'intérêt réside moins dans la performance brute que dans la portabilité : en s'appuyant sur ROS 2 et sur des topics et services standardisés, le framework promet une adaptation à différentes plateformes robotiques via une simple reconfiguration plutôt qu'un développement spécifique par robot. Le système va au-delà des commandes directes en interprétant aussi des requêtes contextuelles et en générant du feedback en langage naturel, deux capacités clés pour une interaction homme-robot fluide dans des environnements domestiques ou logistiques où les utilisateurs finaux ne sont pas des opérateurs formés. Ce travail s'inscrit dans la vague plus large des architectures vision-langage-action qui traversent la robotique depuis l'essor de modèles comme Pi-0 ou GR00T N2, même si ceux-ci ciblent surtout la manipulation plutôt que la navigation pure. Plutôt qu'une approche end-to-end déléguant tout le raisonnement à un modèle unique, les auteurs optent pour une architecture modulaire combinant perception RGB-D, compréhension du langage et planification via Nav2, une pile de navigation déjà largement adoptée dans l'écosystème ROS 2 académique et industriel. L'ambition de portabilité multi-plateforme et la publication annoncée du code positionnent ce travail comme une brique réutilisable plutôt qu'une démonstration isolée, même si, à ce stade, rien n'indique un calendrier de diffusion précis ni des tests en environnements plus complexes ou à grande échelle.

RecherchePaper

1 source

4arXiv cs.RO

IntentionNav : un benchmark pour la navigation vers des objets guidée par des intentions humaines implicites

Un groupe de chercheurs a publié fin mai 2026 IntentionNav, un benchmark diagnostique conçu pour évaluer la navigation d'agents incarnés à partir d'instructions humaines implicites. Contrairement aux benchmarks classiques d'ObjectNav (MP3D, HM3D), qui fournissent à l'agent une catégorie cible explicite ("trouve un micro-ondes"), IntentionNav formule des intents en langage naturel non directif : "j'ai besoin de quelque chose pour réchauffer ce plat" ou "la pièce me semble étouffante". Le benchmark couvre 500 épisodes distribués sur 176 scènes Isaac Sim et 64 catégories d'objets cibles. Chaque intent est reformulé en quatre styles linguistiques contrôlés et annoté selon quatre modes sémantiques distincts (script d'événement, état physique, affordance, usage contextuel), ce qui permet d'isoler les erreurs de reformulation linguistique des erreurs d'inférence sémantique. Trois modèles VLM (Vision-Language Models) ont été évalués avec un agent de navigation fixe. Les résultats sont sans ambiguïté : les modèles identifient correctement l'objet cible dans 48,3 % des épisodes, atteignent son voisinage à 2 mètres dans 68,7 % des cas, mais ne terminent avec succès que dans 24,9 % des épisodes et n'atteignent un succès ancré à 1 mètre que dans 5,5 % des cas. Ces chiffres révèlent que le bottleneck principal dans la navigation incarnée réelle n'est pas la navigation proprement dite, mais l'inférence d'intention, la vérification visuelle de l'instance correcte, et la décision de terminaison. Les intents de type "script d'événement" (ex : préparer le dîner) obtiennent les meilleurs scores (28,7 % de succès terminal), tandis que les intents fondés sur l'état physique (19,2 %) ou l'affordance (18,5 %) restent en deçà. Pour un COO industriel ou un intégrateur robotique, ce résultat est critique : un robot opérant en environnement humain doit recevoir des instructions naturelles, rarement formulées en termes de catégories d'objets précises. Les VLMs actuels échouent précisément sur ce que l'interaction humaine génère le plus souvent. Le benchmark s'inscrit dans la continuité des travaux sur l'embodied AI et le grounding langage-perception (SQA3D, EQA, R2R), mais comble un angle mort : la déconnexion entre succès agrégé et succès ancré dans la géométrie réelle. L'utilisation d'Isaac Sim comme environnement de simulation soulève la question du sim-to-real gap, non adressée dans cette publication. Aucun acteur industriel (Boston Dynamics, Figure, Agility, ni d'acteurs FR/EU comme Enchanted Tools ou Wandercraft) n'est impliqué dans cette étude académique. Les suites naturelles incluent l'extension à des scènes réelles captées en RGB-D, l'évaluation de modèles VLA (Vision-Language-Action) de bout en bout, et l'intégration de mécanismes de clarification active quand l'intent est ambigu, une direction encore peu explorée dans la littérature.

RecherchePaper

1 source