
Navigation omnidirectionnelle par vision : apprentissage par distillation enseignant-élève avec estimation de profondeur monoculaire
Des chercheurs ont publié sur arXiv (2603.01999) un système de navigation omnidirectionnelle pour robots mobiles industriels fonctionnant sans LiDAR, en s'appuyant sur quatre caméras RGB et un modèle de profondeur monoculaire. L'architecture dite "enseignant-étudiant" entraîne d'abord une politique "enseignant" par renforcement (PPO) dans NVIDIA Isaac Lab, avec des observations LiDAR 2D privilégiées couvrant l'empreinte complète du robot. Cette politique distille ensuite son comportement vers une politique "étudiant" qui ne perçoit l'environnement qu'à travers des cartes de profondeur générées par une version fine-tunée de Depth Anything V2. L'ensemble du pipeline (estimation de profondeur, exécution de la politique, contrôle moteur) tourne entièrement sur un NVIDIA Jetson Orin AGX embarqué sur un DJI RoboMaster, sans aucun calcul externe. En simulation, l'étudiant atteint 82 à 96,5 % de taux de succès, contre 50 à 89 % pour l'enseignant LiDAR. Sur terrain réel, il le surpasse également face à des obstacles à géométrie complexe : structures en surplomb et objets ras-du-sol qui échappent au plan de balayage unique d'un capteur 2D.
Ce résultat remet en cause un postulat industriel courant : que la navigation robuste en entrepôt ou en atelier nécessite obligatoirement un LiDAR 3D ou une caméra de profondeur dédiée. Le LiDAR 2D, standard des AMR déployés aujourd'hui chez MiR, Fetch ou Locus Robotics, ne capture qu'une tranche horizontale de l'environnement et ignore les rebords en surplomb, les jambes de table et les obstacles ras du sol. En montrant qu'une politique visuelle apprise surpasse son propre enseignant LiDAR sur ces cas critiques, les auteurs valident un transfert sim-to-real fonctionnel et ouvrent la voie à des plateformes AMR significativement moins coûteuses. L'inférence entièrement embarquée supprime par ailleurs toute dépendance cloud, point critique pour les intégrateurs industriels soumis à des contraintes de latence ou de connectivité.
L'approche s'appuie sur Depth Anything V2, modèle fondational d'estimation de profondeur monoculaire publié en 2024 par ByteDance Research, et sur NVIDIA Isaac Lab, lancé la même année comme successeur d'Isaac Gym. La plateforme DJI RoboMaster, initialement conçue pour la compétition étudiante, sert ici de banc de test de recherche pour sa robustesse mécanique. Les travaux s'inscrivent dans la tendance de policy distillation explorée notamment par ETH Zurich (projet ANYmal) pour la locomotion quadrupède. Le gap entre ces résultats expérimentaux et un déploiement industriel certifié reste à combler : les expériences réelles présentées restent limitées en durée et en diversité d'environnements, et aucun pilote en conditions de production n'est annoncé à ce stade.
Les intégrateurs AMR européens s'appuyant sur des plateformes LiDAR 2D, dont MiR (danois), peuvent anticiper une réduction potentielle des coûts capteurs grâce à cette approche vision-only embarquée, mais aucun déploiement en conditions industrielles réelles n'est encore annoncé.
Dans nos dossiers




