Aller au contenu principal
DRIVE-Nav : raisonnement directionnel, inspection et vérification pour une navigation efficace à vocabulaire ouvert
RecherchearXiv cs.RO6h

DRIVE-Nav : raisonnement directionnel, inspection et vérification pour une navigation efficace à vocabulaire ouvert

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Des chercheurs ont publié DRIVE-Nav, un framework pour la navigation en vocabulaire ouvert (OVON, Open-Vocabulary Object Navigation), qui permet à un agent robotique de localiser un objet désigné en langage naturel dans un environnement inconnu. La méthode structure l'exploration autour de "directions persistantes" plutôt que de frontières brutes classiques, en restreignant les décisions à un champ de vue frontal de 240 degrés. Les candidats directionnels sont extraits via une méthode Fast Marching Method (FMM) pondérée, combinée à un enrichissement de prompts vision-langage et une vérification inter-frames pour améliorer la fiabilité du grounding sémantique. Sur le benchmark HM3D-OVON, DRIVE-Nav atteint 50,2 % de taux de succès (SR) et 32,6 % de SPL (Success weighted by Path Length, mesure d'efficacité du chemin), surpassant la meilleure méthode précédente de 1,9 points SR et 5,6 points SPL. Le système obtient également le meilleur SPL sur trois autres benchmarks standard : HM3Dv1, HM3Dv2 et MP3D. Une validation sur robot humanoïde physique est mentionnée.

Le gain de 5,6 points de SPL est le résultat le plus structurellement significatif : il indique que l'agent atteint ses cibles non seulement avec succès, mais via des chemins plus courts, ce qui est directement pertinent pour les applications industrielles où le temps de cycle est un critère opérationnel. L'approche s'attaque à un problème récurrent des méthodes zero-shot : la redondance des candidats frontières et les re-visites coûteuses. En maintenant un registre de directions déjà inspectées, DRIVE-Nav réduit l'overhead panoramique que l'on reproche aux méthodes topology-aware. Le déploiement sur humanoïde, bien que brièvement mentionné sans détails de conditions ni métriques, suggère une transférabilité sim-to-real partielle.

La navigation OVON est un sous-domaine de l'embodied AI en croissance rapide depuis 2022, porté par les progrès des modèles vision-langage de type CLIP et LLaVA. Les méthodes concurrentes incluent ESC, OpenFMNav et diverses approches zéro-shot basées sur LLM. DRIVE-Nav s'inscrit comme une amélioration incrémentale mais solide de cette famille, sans rupture architecturale majeure. Les benchmarks HM3D et MP3D sont les standards de facto du domaine, développés par Meta Research. Ce travail est une preprint arXiv (2603.28691v2, version révisée), non encore peer-reviewed au moment de la publication. Aucun laboratoire ou industriel européen n'est impliqué.

À lire aussi

EffiNav : fusion de la profondeur et du modèle vision-langage pour une navigation efficace vers des objets
1arXiv cs.RO 

EffiNav : fusion de la profondeur et du modèle vision-langage pour une navigation efficace vers des objets

Une équipe de chercheurs a publié EffiNav, un framework de navigation robotique orientée-objet (Object Goal Navigation, ObjNav) qui fusionne perception de profondeur et modèles vision-langage pour améliorer l'efficacité des trajectoires d'exploration en environnement inconnu. La contribution, déposée en preprint sur arXiv (2606.18634) en juin 2026, évalue le système sur deux simulateurs de référence du domaine, HM3D (Habitat Matterport 3D) et OVON (Open-Vocabulary Object goal Navigation), puis le valide sur robots physiques en conditions réelles. Les auteurs l'étendent également à GOAT-BENCH, un benchmark de navigation avec mémoire augmentée, pour démontrer la généralisation du framework au-delà du protocole ObjNav standard. Sur les deux métriques habituelles du domaine, taux de succès (SR) et succès pondéré par longueur de chemin (SPL), EffiNav égale ou dépasse les baselines récentes, sans que le preprint ne communique de valeurs numériques absolues permettant une comparaison chiffrée directe. L'apport principal porte moins sur le taux de réussite brut que sur le SPL, qui pénalise les trajets inutilement longs. C'est précisément là que les approches actuelles divergent : les modèles entraînés end-to-end, y compris certains VLA (Vision-Language-Action), peinent à généraliser à de nouveaux environnements, tandis que les frameworks modulaires sans apprentissage accumulent des allers-retours redondants et revisitent des zones déjà explorées. EffiNav prétend adresser ces deux pathologies simultanément en combinant une estimation de la profondeur pour la représentation géométrique de l'espace et un modèle vision-langage pour l'interprétation sémantique. Pour les intégrateurs de robots de service ou les décideurs B2B, l'efficacité de trajectoire est directement liée au temps disponible pour les tâches secondaires, donc à la rentabilité opérationnelle d'un déploiement en entrepôt ou en environnement indoor. Le champ ObjNav s'est structuré autour de l'écosystème Habitat de Meta AI Research, qui fournit les simulateurs HM3D et OVON utilisés ici. Les approches concurrentes incluent des pipelines modulaires à cartographie explicite comme SemExp ou OpenFMNav, et des VLA appliqués à la navigation. EffiNav se positionne comme un framework hybride ne nécessitant ni encodeurs supplémentaires lourds ni réentraînement complet par domaine. Aucune timeline commerciale ni partenariat industriel n'est mentionné dans le preprint ; la prochaine étape naturelle serait une validation sur des plateformes AMR variées pour confirmer le transfert sim-to-real sur des morphologies autres que celles testées.

RecherchePaper
1 source
Graphes de scène 3D fonctionnels, hiérarchiques et holistiques, à vocabulaire ouvert pour espaces intérieurs
2arXiv cs.RO 

Graphes de scène 3D fonctionnels, hiérarchiques et holistiques, à vocabulaire ouvert pour espaces intérieurs

Des chercheurs ont publié en mai 2026 sur arXiv (référence 2605.15753) une méthode pour construire des graphes de scènes 3D fonctionnels et hiérarchiques dans des espaces intérieurs, à vocabulaire ouvert. Ces graphes représentent l'environnement sous forme de noeuds objets, d'éléments interactifs et d'arêtes de relations fonctionnelles, permettant à un robot de comprendre non seulement ce qui est présent dans une pièce, mais comment les objets peuvent interagir entre eux. La contribution principale est l'extension des benchmarks existants en y intégrant des objets denses posés sur des surfaces planes (tabletop), ainsi que des relations fonctionnelles multi-niveaux explicites. Le pipeline proposé repose sur un ancrage visuel 2D (visual grounding) couplé à une optimisation de graphes 3D, combinant accumulation d'évidence, régularisation par entropie et lissage temporel pour résoudre l'association entre instances et déterminer les connexions fonctionnelles de chaque noeud. Une étape finale de structuration hiérarchique globale permet de récupérer la structure en niveaux du graphe complet. L'intérêt de cette approche pour la manipulation robotique est concret. Les travaux antérieurs sur les graphes de scènes se concentraient sur les meubles de grande taille, laissant de côté la granularité fine nécessaire pour les tâches impliquant des objets de bureau ou de cuisine. Introduire des objets petits, denses et visuellement similaires (tasses, stylos, boîtes) crée trois défis techniques distincts: confusion entre instances lors de la fusion inter-images, incertitude d'attribution sous des points de vue dynamiques, et absence d'ancrage visuel dans le raisonnement relationnel. Le pipeline open-vocabulary présenté aborde ces trois points sans catégories prédéfinies, ce qui représente un avantage pratique pour des déploiements en environnements variés. Les expériences reportées montrent une inférence fiable sur des scènes réelles exigeantes, bien que le résumé soumis ne détaille pas de métriques quantitatives précises, ce qui rend difficile toute comparaison directe avec l'état de l'art. Les graphes de scènes sémantiques pour la robotique sont étudiés depuis une dizaine d'années, mais leur adoption pratique a été freinée par des benchmarks limités aux grandes structures, peu représentatifs des scénarios de manipulation réelle. Ce travail s'inscrit dans une tendance plus large vers la perception embodied à vocabulaire ouvert, en concurrence directe avec les approches basées sur les champs de radiance neuronaux (NeRF, 3DGS) ou la segmentation 3D ouverte comme OpenMask3D et ConceptFusion. Ce type de représentation est fondamental pour les systèmes de planification de tâches et les robots de service opérant en environnement non structuré. Aucune timeline de déploiement industriel n'est mentionnée: il s'agit d'un preprint de recherche académique, pas d'un produit commercialisé ni d'un partenariat industriel annoncé.

RecherchePaper
1 source
G-DRAGON : raisonnement géospatial et planification dynamique pour la navigation extérieure augmentée par récupération
3arXiv cs.RO 

G-DRAGON : raisonnement géospatial et planification dynamique pour la navigation extérieure augmentée par récupération

G-DRAGON (Geospatial Reasoning and Dynamic Planning for Retrieval-Augmented Outdoor Navigation) est un framework de navigation présenté dans un preprint arXiv (mai 2026) pour robots terrestres autonomes en extérieur à grande échelle. Le système associe un LLM léger exécuté localement à OpenStreetMap pour convertir des instructions en langage naturel en coordonnées géospatiales précises, servant à la planification de routes topologiques. Un module de haut niveau relie ces itinéraires au SLAM embarqué du robot, tandis qu'en fin de parcours G-DRAGON bascule vers une exploration à base de frontières couplée à une cartographie sémantique voxel en vocabulaire ouvert, pour localiser des cibles décrites librement. En simulation, le système surpasse les baselines de l'état de l'art. Sur un UGV réel en milieu urbain non préparé, il a complété des missions de recherche de personnes avec des trajectoires atteignant 500 mètres. Ce travail comble un angle mort structurel des approches VLN (Visual-Language Navigation) actuelles, efficaces à courte portée mais dépourvues d'ancrage géospatial pour des missions longue distance. Les méthodes OSM couplées à des LLMs cloud pallient partiellement ce déficit, mais souffrent d'hallucinations factuelles et d'une incapacité à gérer le "dernier kilomètre" en vocabulaire ouvert. En substituant un modèle local et léger, G-DRAGON réduit la dépendance aux API distantes et améliore la fiabilité terrain, une propriété critique pour l'inspection industrielle, la livraison autonome ou les missions de sécurité. La validation en environnement urbain réel, même limitée à 500m et à un seul type de mission, distingue ce travail de la majorité des publications cantonnées à la simulation. G-DRAGON s'inscrit dans une trajectoire de recherche ouverte par NavGPT, LM-Nav et ViNT, qui ont progressivement intégré les LLMs dans la planification de trajectoires robots. La substitution d'un modèle edge à un LLM cloud s'aligne sur une tendance plus large d'inférence locale dans la robotique de service et industrielle. Les concurrents directs sont les frameworks académiques de navigation guidée par le langage ainsi que les pipelines LLM multimodaux couplés à des robots commerciaux. Aucun acteur européen n'est cité dans le papier, bien que des laboratoires comme le LAAS-CNRS travaillent sur des problématiques adjacentes de navigation autonome en environnements complexes. Le papier n'étant pas encore soumis à une relecture par les pairs, les métriques de performance en simulation restent à confirmer sur des environnements plus diversifiés et des missions multi-étapes.

UELe LAAS-CNRS travaille sur des problématiques adjacentes de navigation autonome en environnements complexes, et la tendance à l'inférence locale illustrée par G-DRAGON est directement pertinente pour les équipes R&D robotique françaises et européennes cherchant à réduire leur dépendance aux API cloud.

RecherchePaper
1 source
FreeOcc : prédiction d'occupation en vocabulaire ouvert sans entraînement pour l'IA incarnée
4arXiv cs.RO 

FreeOcc : prédiction d'occupation en vocabulaire ouvert sans entraînement pour l'IA incarnée

Une équipe de chercheurs a publié début 2026 FreeOcc (arXiv:2604.28115), un framework de prédiction d'occupance 3D à vocabulaire ouvert fonctionnant sans aucune phase d'entraînement. Le système traite des séquences d'images monoculaires ou RGB-D et produit une carte voxelisée dense sans annotations 3D, sans poses caméra de référence et sans supervision au niveau du voxel. Son pipeline en quatre étapes enchaîne un backbone SLAM pour l'estimation des poses, une représentation 3D par Gaussian splatting géométriquement cohérent, l'association de sémantiques à vocabulaire ouvert via des modèles vision-langage (VLM) off-the-shelf, puis une projection probabiliste gaussiennes-vers-voxels. Sur le benchmark EmbodiedOcc-ScanNet, FreeOcc dépasse de plus du double les scores IoU et mIoU des meilleures méthodes auto-supervisées existantes, et transfère en zéro-shot vers des environnements inconnus sur le nouveau benchmark ReplicaOcc publié par les mêmes auteurs, surpassant à la fois les baselines supervisées et auto-supervisées. La prédiction d'occupance sémantique 3D est un prérequis fondamental pour la navigation, la manipulation et la planification dans les systèmes robotiques incarnés. La principale friction jusqu'ici était le coût prohibitif des annotations 3D : des jeux de données comme ScanNet exigent des dizaines de milliers de labels voxel par scène, rendant la généralisation hors domaine structurellement difficile. En s'appuyant intégralement sur des VLMs pré-entraînés (de type CLIP) pour la sémantique et sur le SLAM pour la géométrie, FreeOcc supprime ce goulot d'étranglement et ouvre la voie à des systèmes de perception adaptables sans pipeline de labeling continu. Le transfert zéro-shot est particulièrement stratégique pour les intégrateurs : un robot déployé dans un nouvel environnement n'a besoin ni de cycle d'annotation ni de fine-tuning. Les métriques restent néanmoins mesurées en conditions benchmark contrôlées, sans validation terrain annoncée à ce stade. FreeOcc s'inscrit dans la convergence entre Gaussian splatting, popularisé par 3DGS en 2023, et les grands modèles vision-langage pour produire des cartes sémantiques 3D sans supervision dédiée. Les méthodes supervisées concurrentes, parmi lesquelles OccNet, SurroundOcc et MonoScene, nécessitent des milliers d'heures d'annotation et généralisent mal hors de leur domaine d'entraînement. Il s'agit ici d'un preprint de recherche sans partenariat industriel déclaré ni timeline produit ; la prochaine étape naturelle serait une validation sur des plateformes mobiles réelles (AMR, bras manipulateurs) dans des conditions d'éclairage et de dynamisme non contrôlées.

RecherchePaper
1 source