RecherchearXiv cs.RO3h

MVP-Nav : navigateur planificateur avec carte de valeur multicouche

1 source couvre ce sujet·Source originale ↗·

Résumé IASource uniqueImpact UE

Une équipe de recherche présente MVP-Nav, un système de navigation qui permet à un robot de trouver un objet cible dans un environnement inconnu en utilisant uniquement une caméra RGB, sans capteur de profondeur dédié (lidar ou caméra stéréo). Le problème visé est le "Zero-shot Object Goal Navigation" : un agent doit localiser un objet qu'il n'a jamais rencontré, dans un lieu qu'il découvre en temps réel. Sans mesure directe de la profondeur, les méthodes existantes souffrent soit d'un raisonnement sémantique de haut niveau déconnecté de la géométrie réelle, soit de politiques de bout en bout sans contrainte physique explicite, ce qui produit des trajectoires plausibles sur le papier mais dangereuses en pratique (collisions, chemins irréalisables). MVP-Nav répond à ce problème en reconstruisant une occupation physique explicite à partir d'images monoculaires : des modèles de fondation 3D projettent les instances sémantiques détectées en 2D vers des boîtes englobantes orientées en 3D, formant une carte spatiale globale. Une "Multi-layer Value Map" combine ensuite ces priorités sémantiques avec la géométrie reconstruite dans un espace de coût unique, permettant une planification à la fois sémantiquement pertinente et physiquement viable.

L'intérêt pour le secteur de la robotique mobile et des agents embarqués (embodied AI) est direct : la dépendance à des capteurs de profondeur coûteux (lidar, stéréo, temps de vol) reste un frein majeur au déploiement à grande échelle de robots autonomes, notamment mobiles ou humanoïdes évoluant dans des environnements non cartographiés. Un système capable d'atteindre l'état de l'art sur les benchmarks de navigation zero-shot avec une simple caméra RGB représenterait une réduction significative du coût matériel et de la complexité d'intégration, tout en comblant l'écart classique entre "démo qui a l'air de marcher" et comportement réellement sûr sur le terrain, un problème récurrent dans les approches purement sémantiques ou apprises de bout en bout.

Ces travaux s'inscrivent dans la lignée des approches combinant modèles de fondation visuels et planification robotique, où l'essor des modèles 3D pré-entraînés (reconstruction monoculaire, détection d'objets orientés) ouvre la voie à des architectures hybrides entre perception sémantique et contraintes physiques classiques. Il est important de noter que ce travail, publié sur arXiv, reste à ce stade une contribution de recherche validée sur des benchmarks de simulation standards pour la navigation d'objectif, sans mention de déploiement sur robot physique réel ni de partenaire industriel. Les prochaines étapes attendues pour ce type d'approche seraient sa validation en conditions réelles, hors simulateur, et son intégration éventuelle dans des piles de navigation de robots mobiles commerciaux.

Dans nos dossiers

IA physique & VLA arXiv cs.RO

À lire aussi

1arXiv cs.RO

Cerveau lent, planificateur rapide : navigation urbaine résiliente à la latence avec VLM

Des chercheurs ont publié en juin 2026 sur arXiv (arXiv:2506.20458) une architecture hybride pour améliorer la navigation piétonne de robots mobiles en milieu urbain, intitulée "Slow Brain, Fast Planner". Le problème central est ce qu'ils nomment le "trajectory scoring gap" : même lorsqu'une bonne trajectoire existe dans l'ensemble des candidats générés par le planificateur, sa fonction de score choisit souvent une option sous-optimale, poussant le robot sur la pelouse, vers des piétons, ou dans la mauvaise direction. Pour y remédier, les auteurs proposent une interface VLM-Planificateur où un modèle de langage et de vision (VLM) sélectionne le meilleur candidat parmi les propositions du planificateur, avec une latence de 1 à 3 secondes, incompatible avec une boucle de contrôle à 5-20 Hz. La solution est une couche de fusion sans entraînement supplémentaire (training-free), basée sur la similarité géométrique avec décroissance exponentielle, qui convertit la sélection "périmée" du VLM en score temps réel. Sur environ 2 000 scénarios réels difficiles (intersections, croisements piétons), l'approche réduit l'erreur de déplacement moyen (ADE) de 30 % par rapport au meilleur choix du planificateur seul, et maintient un taux de succès supérieur à 80 % en simulation avec des délais allant jusqu'à 5 secondes. Ce résultat intéresse directement les intégrateurs de robots de livraison ou de surveillance extérieure, car il montre qu'un VLM généraliste peut corriger les erreurs de compréhension de scène d'un planificateur local sans nécessiter une refonte en architecture VLA (Vision-Language-Action) bout-en-bout, dont l'entraînement reste coûteux et rigide. La fusion géométrique à décroissance exponentielle contourne deux obstacles classiques du déploiement terrain : la dépendance réseau et le sim-to-real gap. Prudence toutefois sur les chiffres : les 2 000 scénarios "difficiles" ont été sélectionnés par les auteurs sur un campus académique, loin d'un environnement commercial dense. La navigation piétonne extérieure est un segment sous pression, notamment pour le dernier kilomètre, avec des acteurs comme Kiwibot, Starship Technologies et Cartken qui butent sur les intersections non signalisées et la densité piétonne. L'approche "deux vitesses" (fast pour le contrôle, slow pour la planification sémantique) suit une tendance portée par des laboratoires comme Berkeley et des entreprises comme Physical Intelligence (Pi-0). En France, des acteurs comme Enchanted Tools et les spin-offs CEA explorent des architectures comparables pour la navigation indoor. Les prochaines étapes naturelles pour cette équipe sont la validation en environnement urbain dense et l'intégration de VLMs embarqués à faible latence (LLaVA, Phi-3 Vision) pour réduire la dépendance réseau en conditions terrain.

UELes équipes R&D d'Enchanted Tools et des spin-offs du CEA explorant la navigation indoor pourraient intégrer directement cette fusion géométrique sans réentraînement pour améliorer leurs planificateurs locaux existants.

RechercheOpinion

1 source

2arXiv cs.RO

AgniNav : planification locale multi-plateforme pilotée par configuration pour la navigation robotique

Une équipe de recherche a publié en juin 2026 sur arXiv (référence 2606.10903) un framework de navigation locale appelé AgniNav, conçu pour permettre à des robots de morphologies radicalement différentes de naviguer en autonomie à partir d'une unique caméra RGB, sans recourir à un capteur de profondeur actif et sans réentraînement du modèle. Le système repose sur une enveloppe de sécurité définie par quatre paramètres mesurables : hauteur critique pour la détection de collisions, longueur avant, longueur arrière, demi-largeur. Ces paramètres conditionnent simultanément un réseau image-vers-scan qui prédit un pseudo-laserscan 1D à partir d'une image couleur monoculaire, et un planificateur local qui adapte la vérification de collisions au gabarit du robot. Les expérimentations ont été conduites sur trois plateformes réelles : le Turtlebot2 (base à roues), l'Unitree Go2 (quadrupède), et l'Accelerated Evolution K1 (humanoïde). Les taux de succès sont respectivement de 39/40, 18/20 et 18/20, avec 0, 1 et 2 collisions sur l'ensemble des essais, le tout tournant à 30 Hz sur un Jetson Orin. Ce qui distingue AgniNav des travaux existants est précisément l'absence de retraining par plateforme. La quasi-totalité des politiques de navigation visuelle actuelles sont entraînées pour un couple caméra/gabarit fixe, ce qui rend leur transfert d'un robot à un autre coûteux en données et en temps. Ici, le même réseau, entraîné une fois sur des paires couleur-profondeur supervisées par des labels de scan générés à la volée, se déploie sans adaptation sur des morphologies aussi différentes qu'un rover plat et un humanoïde. Pour un intégrateur gérant une flotte hétérogène, ou pour un OEM souhaitant embarquer la navigation sur plusieurs SKUs avec un seul modèle, c'est un changement d'économie non négligeable. La navigation cross-embodiment est un problème ouvert depuis plusieurs années dans la communauté robotique : les approches concurrentes, comme celles mobilisant des politiques VLA (vision-language-action) ou des pipelines basés sur la simulation, exigent généralement soit du matériel dédié (LiDAR, caméra de profondeur RGB-D), soit des cycles de fine-tuning par plateforme. AgniNav s'inscrit dans un courant de travaux cherchant à normaliser la couche de perception au niveau de l'enveloppe physique plutôt que du modèle de robot complet. Le résultat présenté reste à ce stade une contribution de recherche, pas un produit ou un SDK distribué. Les prochaines étapes naturelles incluent la validation sur des environnements dynamiques et des densités d'obstacles plus élevées, ainsi que l'extension à des architectures d'enveloppe plus complexes pour les humanoïdes à forte variation de posture.

RecherchePaper

1 source

3arXiv cs.RO

RoboEvolve : co-évolution planificateur-simulateur pour la manipulation robotique avec peu de données

RoboEvolve est un framework de recherche publié en preprint arXiv (réf. 2605.13775, mai 2025) dont l'objectif est de résoudre la rareté des données d'interaction physique alignées sur les tâches de manipulation robotique. Le système couple un planificateur basé sur un modèle vision-langage (VLM) et un simulateur basé sur un modèle de génération vidéo (VGM) dans une boucle co-évolutive auto-renforçante, opérant à partir de seulement 500 images non annotées, soit une réduction de 50x par rapport aux baselines entièrement supervisées. Le mécanisme alterne une phase d'exploration diurne, qui génère des trajectoires ancrées physiquement via une récompense multi-granulaire à contrôle sémantique, et une phase de consolidation nocturne, qui exploite les échecs "near-miss" pour stabiliser l'optimisation de politique. Les résultats publiés indiquent une amélioration de 30 points absolus sur les planificateurs de base, une hausse de 48 % du taux de succès des simulateurs, et un apprentissage continu robuste sans oubli catastrophique. Ces chiffres adressent directement le principal verrou économique des pipelines de manipulation à grande échelle : la collecte de données téléopérées, qui freine aujourd'hui des systèmes commerciaux comme Pi-0 (Physical Intelligence), GR00T N2 (NVIDIA) ou Helix (Figure AI). La co-évolution VLM-VGM contourne deux limitations bien documentées : les VLM seuls souffrent d'un désalignement sémantique-spatial (compréhension correcte de la tâche mais imprécision dans le positionnement 3D), tandis que les VGM seuls produisent des hallucinations physiques (vidéos synthétiques qui violent les contraintes physiques réelles). Un curriculum progressif automatique fait évoluer le système d'actions atomiques simples vers des tâches composites complexes, approche concrète au problème de généralisation hiérarchique encore non résolu à l'échelle commerciale. Ce travail s'inscrit dans une tendance émergente visant à substituer la génération synthétique de données à la collecte terrain coûteuse, tendance accélérée depuis Diffusion Policy (2023) et l'essor des modèles VLA (vision-language-action). Le résumé disponible ne précise ni affiliation institutionnelle des auteurs ni plateforme matérielle de validation, une limite importante avant tout transfert industriel. Aucun déploiement physique ni partenariat constructeur n'est annoncé : RoboEvolve reste à ce stade une contribution académique dont la transposition sim-to-real sur hardware réel reste entièrement à démontrer.

RechercheOpinion

1 source

4arXiv cs.RO

Navigating l'encombrement : planification bi-niveau par points de passage pour systèmes multi-robots

Des chercheurs de l'Université de Californie à Santa Barbara (UCSB, laboratoire NLP-Chang) ont publié sur arXiv (référence 2604.21138) un framework hybride de contrôle multi-robots capable de planifier simultanément à deux niveaux : la planification de tâches à haut niveau (quel robot fait quoi, dans quel ordre) et la planification de trajectoires à bas niveau (comment éviter les collisions). Le système repose sur une représentation compacte appelée "waypoints", des points de passage intermédiaires qui paramétrisent les trajectoires motrices de façon plus légère qu'une optimisation de trajectoire continue. Pour entraîner le tout, l'équipe utilise un algorithme RLVR (Reinforcement Learning with Verifiable Rewards) modifié, combiné à une stratégie de curriculum progressif qui remonte les retours de faisabilité physique du planificateur bas niveau vers le planificateur haut niveau. Les expériences sont conduites sur BoxNet3D-OBS, un benchmark multi-robots 3D à obstacles denses, avec des configurations allant jusqu'à neuf robots simultanément. Sur ce benchmark, l'approche surpasse de manière consistante les baselines "motion-agnostic" (qui ignorent les contraintes physiques) et les baselines fondées sur des VLA (Vision-Language-Action models). Ce résultat pointe un problème structurel souvent minimisé dans la littérature : l'affectation du crédit entre les deux niveaux de planification. Quand un système multi-robots échoue, est-ce que la tâche était mal assignée ou la trajectoire physiquement infaisable ? Cette ambiguïté rend les approches séquentielles (planifier les tâches, puis les trajectoires) fragiles dès que l'environnement est encombré. Le fait que les modèles VLA, pourtant en vogue depuis les travaux pi-0, GR00T N2 et Helix, sous-performent sur ce benchmark suggère que leur capacité de généralisation atteint ses limites dès qu'on ajoute des contraintes de collision à grande échelle : bonne nouvelle pour les approches d'optimisation hybride, mauvaise nouvelle pour ceux qui misent sur les VLA comme solution universelle en entrepôt. Ce travail s'inscrit dans une tendance de fond : appliquer les techniques de raisonnement par renforcement issues du traitement du langage naturel (notamment la famille DeepSeek-R1 et RLVR) à la robotique multi-agents. Les systèmes concurrents dans cet espace incluent les travaux sur TAMP (Task and Motion Planning) de MIT CSAIL et CMU, ainsi que les approches de planification décentralisée type MAPF (Multi-Agent Path Finding). Le code est disponible sur GitHub (UCSB-NLP-Chang/navigate-cluster). Les prochaines étapes probables incluent une validation sur robots physiques et une montée en charge au-delà de neuf agents, terrain où les questions de latence de planification deviendront critiques pour des déploiements industriels réels.

RecherchePaper

1 source