
MVP-Nav : navigateur planificateur avec carte de valeur multicouche
Une équipe de recherche présente MVP-Nav, un système de navigation qui permet à un robot de trouver un objet cible dans un environnement inconnu en utilisant uniquement une caméra RGB, sans capteur de profondeur dédié (lidar ou caméra stéréo). Le problème visé est le "Zero-shot Object Goal Navigation" : un agent doit localiser un objet qu'il n'a jamais rencontré, dans un lieu qu'il découvre en temps réel. Sans mesure directe de la profondeur, les méthodes existantes souffrent soit d'un raisonnement sémantique de haut niveau déconnecté de la géométrie réelle, soit de politiques de bout en bout sans contrainte physique explicite, ce qui produit des trajectoires plausibles sur le papier mais dangereuses en pratique (collisions, chemins irréalisables). MVP-Nav répond à ce problème en reconstruisant une occupation physique explicite à partir d'images monoculaires : des modèles de fondation 3D projettent les instances sémantiques détectées en 2D vers des boîtes englobantes orientées en 3D, formant une carte spatiale globale. Une "Multi-layer Value Map" combine ensuite ces priorités sémantiques avec la géométrie reconstruite dans un espace de coût unique, permettant une planification à la fois sémantiquement pertinente et physiquement viable.
L'intérêt pour le secteur de la robotique mobile et des agents embarqués (embodied AI) est direct : la dépendance à des capteurs de profondeur coûteux (lidar, stéréo, temps de vol) reste un frein majeur au déploiement à grande échelle de robots autonomes, notamment mobiles ou humanoïdes évoluant dans des environnements non cartographiés. Un système capable d'atteindre l'état de l'art sur les benchmarks de navigation zero-shot avec une simple caméra RGB représenterait une réduction significative du coût matériel et de la complexité d'intégration, tout en comblant l'écart classique entre "démo qui a l'air de marcher" et comportement réellement sûr sur le terrain, un problème récurrent dans les approches purement sémantiques ou apprises de bout en bout.
Ces travaux s'inscrivent dans la lignée des approches combinant modèles de fondation visuels et planification robotique, où l'essor des modèles 3D pré-entraînés (reconstruction monoculaire, détection d'objets orientés) ouvre la voie à des architectures hybrides entre perception sémantique et contraintes physiques classiques. Il est important de noter que ce travail, publié sur arXiv, reste à ce stade une contribution de recherche validée sur des benchmarks de simulation standards pour la navigation d'objectif, sans mention de déploiement sur robot physique réel ni de partenaire industriel. Les prochaines étapes attendues pour ce type d'approche seraient sa validation en conditions réelles, hors simulateur, et son intégration éventuelle dans des piles de navigation de robots mobiles commerciaux.
Dans nos dossiers




