
DRIVE-Nav : raisonnement directionnel, inspection et vérification pour une navigation efficace à vocabulaire ouvert
Des chercheurs ont publié DRIVE-Nav, un framework pour la navigation en vocabulaire ouvert (OVON, Open-Vocabulary Object Navigation), qui permet à un agent robotique de localiser un objet désigné en langage naturel dans un environnement inconnu. La méthode structure l'exploration autour de "directions persistantes" plutôt que de frontières brutes classiques, en restreignant les décisions à un champ de vue frontal de 240 degrés. Les candidats directionnels sont extraits via une méthode Fast Marching Method (FMM) pondérée, combinée à un enrichissement de prompts vision-langage et une vérification inter-frames pour améliorer la fiabilité du grounding sémantique. Sur le benchmark HM3D-OVON, DRIVE-Nav atteint 50,2 % de taux de succès (SR) et 32,6 % de SPL (Success weighted by Path Length, mesure d'efficacité du chemin), surpassant la meilleure méthode précédente de 1,9 points SR et 5,6 points SPL. Le système obtient également le meilleur SPL sur trois autres benchmarks standard : HM3Dv1, HM3Dv2 et MP3D. Une validation sur robot humanoïde physique est mentionnée.
Le gain de 5,6 points de SPL est le résultat le plus structurellement significatif : il indique que l'agent atteint ses cibles non seulement avec succès, mais via des chemins plus courts, ce qui est directement pertinent pour les applications industrielles où le temps de cycle est un critère opérationnel. L'approche s'attaque à un problème récurrent des méthodes zero-shot : la redondance des candidats frontières et les re-visites coûteuses. En maintenant un registre de directions déjà inspectées, DRIVE-Nav réduit l'overhead panoramique que l'on reproche aux méthodes topology-aware. Le déploiement sur humanoïde, bien que brièvement mentionné sans détails de conditions ni métriques, suggère une transférabilité sim-to-real partielle.
La navigation OVON est un sous-domaine de l'embodied AI en croissance rapide depuis 2022, porté par les progrès des modèles vision-langage de type CLIP et LLaVA. Les méthodes concurrentes incluent ESC, OpenFMNav et diverses approches zéro-shot basées sur LLM. DRIVE-Nav s'inscrit comme une amélioration incrémentale mais solide de cette famille, sans rupture architecturale majeure. Les benchmarks HM3D et MP3D sont les standards de facto du domaine, développés par Meta Research. Ce travail est une preprint arXiv (2603.28691v2, version révisée), non encore peer-reviewed au moment de la publication. Aucun laboratoire ou industriel européen n'est impliqué.
Dans nos dossiers




