Aller au contenu principal
IA physiquearXiv cs.RO2h

LocalNav : distillation de VLMs frontière et RL incarné pour la navigation embarquée vers un objet cible

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Une équipe de chercheurs a publié LocalNav (arXiv 2506.27871), une méthode de distillation permettant d'exécuter des modèles de vision-langage (VLM) directement sur robots embarqués, sans recourir au cloud. Le pipeline de référence s'appuie sur Claude Sonnet 4.6 couplé à un graphe de scène et atteint un taux de succès (SR) de 39,7% sur le benchmark HM3D OVON, qui évalue la navigation vers des objets désignés en langage naturel dans des environnements intérieurs simulés (tâche ObjectNav). Qwen3.5-4B, un modèle de 4 milliards de paramètres, est ensuite fine-tuné sur seulement 500 traces de raisonnement issues de ce pipeline frontier : il obtient un SR de 34,5%, réduisant significativement l'écart avec le modèle cloud de référence. Pour le déploiement physique sur Jetson Orin (NVIDIA), les auteurs introduisent E-RLVR avec régularisation Token Generation (TG), qui comprime les séquences de sortie. Combinée à la quantification, cette optimisation réduit la latence globale d'inférence de 82,8% (71,8% sur la latence brute, 72,1% sur la génération de tokens), sans perte de performance jugée significative par les auteurs.

L'enjeu industriel est direct : la dépendance au cloud représente un frein opérationnel réel pour les robots mobiles déployés en entrepôt, en usine ou en extérieur, où la connectivité est intermittente et où chaque dizaine de millisecondes pèse sur les décisions de navigation. Le fait que 500 traces de distillation suffisent à approcher les performances d'un grand modèle frontier valide une hypothèse clé du domaine : la supervision synthétique depuis des LLMs propriétaires peut compenser l'absence de larges jeux de données annotés manuellement. La réduction de 82,8% de latence franchit un seuil opérationnel critique pour un déploiement synchrone avec le mouvement physique du robot, ce que les architectures cloud ne peuvent pas garantir en conditions réelles.

Ce travail s'inscrit dans une tendance de compression des VLMs pour la robotique edge, aux côtés de Pi-0 (Physical Intelligence), GR00T N2 (NVIDIA) et OpenVLA, qui cherchent tous à réduire leur empreinte computationnelle pour le déploiement à grande échelle. La distillation depuis Claude vers Qwen positionne ce pipeline à l'intersection de deux écosystèmes : modèles frontier propriétaires comme source de supervision, modèles open-weights comme cible d'optimisation. À noter que l'ensemble des résultats présentés reste pour l'instant simulé sur HM3D ; les prochaines étapes naturelles incluent une validation sur déploiement physique réel et un passage à l'échelle des traces de distillation au-delà des 500 exemples actuels, pour cartographier la courbe d'amélioration.

À lire aussi

NavWAM : modèle du monde et d'action pour la navigation visuelle guidée par objectif
1arXiv cs.RO 

NavWAM : modèle du monde et d'action pour la navigation visuelle guidée par objectif

Des chercheurs présentent NavWAM (Navigation World Action Model), une architecture diffusion-transformer publiée en préprint sur arXiv (identifiant 2606.13494, juin 2026), conçue pour la navigation visuelle conditionnée par un objectif. Le problème posé est classique en robotique mobile : un robot doit naviguer vers une cible image sous observabilité partielle, en anticipant uniquement depuis sa caméra embarquée comment ses déplacements vont modifier son champ de vision. NavWAM fusionne dans une séquence latente partagée trois composantes distinctes : les observations visuelles futures prédites, les valeurs de progression vers l'objectif, et les blocs d'actions (action chunks). L'entraînement combine un préentraînement en simulation suivi d'une adaptation sur robot réel, avec une évaluation en boucle fermée sur des tâches de navigation image-à-image. Ce travail répond à une limitation bien identifiée des modèles de monde pour la navigation : ces modèles prédisent correctement l'évolution visuelle future, mais restent des modules passifs qui exigent un planificateur externe pour convertir leurs prédictions en commandes effectives. NavWAM élimine ce découplage en apprenant conjointement la prédiction visuelle, les valeurs d'objectif et la politique d'action. Concrètement, la clairvoyance visuelle du modèle de monde devient directement exploitable pour le contrôle moteur, sans recourir à une recherche d'actions de type CEM (Cross-Entropy Method). Sur les benchmarks offline et en déploiement réel en boucle fermée, NavWAM surpasse les baselines world-model à planification externe reportées par les auteurs. Comme pour tout préprint non encore revu par les pairs, ces résultats restent à valider sur une diversité d'environnements plus large. L'approche s'inscrit dans une tendance qui cherche à unifier modèles génératifs et politiques de contrôle, direction explorée notamment par les modèles VLA (Vision-Language-Action) tels que Pi-0 de Physical Intelligence ou GR00T N2 de NVIDIA, qui opèrent eux aussi sur des espaces latents partagés multi-modalités. La différence ici est la focalisation stricte sur la navigation monoculaire, sans instruction sémantique en langage naturel. Le passage sim-to-real est traité par fine-tuning sur données réelles, méthode désormais standard mais dont la robustesse dépend fortement de la diversité des scènes d'entraînement, non précisée dans l'abstract. Aucun code ni dataset n'est encore annoncé ; une page projet avec démonstrations vidéo est disponible à l'adresse fournie par les auteurs.

IA physiqueOpinion
1 source
Ordonnancement sensorimoteur inter-étapes et encodage de cartes éparses pour la navigation incarnée en périphérie
2arXiv cs.RO 

Ordonnancement sensorimoteur inter-étapes et encodage de cartes éparses pour la navigation incarnée en périphérie

Des chercheurs ont publié sur arXiv (réf. 2405.14154, version 5) une étude sur le déploiement d'agents robotiques autonomes sur matériel embarqué contraint. La tâche centrale est l'ObjectNav (navigation orientée-objet) : l'agent doit localiser et atteindre un objet cible dans un environnement intérieur inconnu. Le profilage d'un pipeline modulaire existant révèle deux goulots distincts : la construction de la carte sémantique domine la latence par étape, tandis que la prédiction de destination domine la mémoire de pointe. Les auteurs proposent deux optimisations orthogonales : SKIP, un ordonnanceur adaptatif qui détermine à chaque pas de navigation si la mise à jour de la carte peut être omise sans dégrader la performance, et SCOUT, un encodeur appliquant des convolutions parcimonieuses (submanifold sparse convolutions) sur les seules régions actives de la carte. Sur le benchmark HM3D, testé sur serveur et sur plateformes embarquées, SKIP+SCOUT atteint 1,7x d'accélération globale, 50,5 % de réduction de la mémoire de pointe, et +7,1 % en SPL (Success weighted by Path Length) par rapport à la baseline dense. Ce dernier chiffre est le plus contre-intuitif : réduire la complexité perceptive améliore non seulement l'efficacité mais aussi la qualité de navigation, suggérant que la sélectivité perceptive affine la carte plutôt qu'elle ne la dégrade. Pour les intégrateurs cherchant à déployer de la navigation autonome sur des SoC Nvidia Orin ou des robots AMR sous contrainte de coût, une réduction de 50,5 % de la mémoire de pointe est directement décisive. SKIP se transfère à un second pipeline modulaire (PONI) avec des pertes quasi nulles et reste robuste au bruit de capteur de profondeur, deux signaux positifs pour la généralisation au-delà du pipeline initial. L'article s'inscrit dans la vague de travaux sur l'IA physique embarquée portée par Meta AI Research (Habitat), CMU et plusieurs équipes universitaires. Le benchmark HM3D reste un environnement simulé et les auteurs ne présentent pas de résultats sur robot physique, laissant entière la question du sim-to-real gap dans ce contexte précis. Les prochaines étapes logiques seraient une validation sur plateformes commerciales réelles et une extension aux agents de type VLA (Vision-Language-Action), où la pression sur l'inférence embarquée est encore plus forte.

UELes intégrateurs européens d'AMR sous contrainte matérielle embarquée pourraient exploiter ces optimisations mémoire/latence, mais aucun acteur ou déploiement européen n'est impliqué dans l'étude.

💬 Le truc contre-intuitif ici, c'est que faire moins de perception améliore la navigation (+7,1% SPL en prime de la réduction mémoire). Ça valide une intuition qu'on avait depuis un moment : les pipelines actuels calculent trop, pas trop peu, et l'overhead perceptif pollue autant qu'il guide. Reste le sim-to-real, qui est toujours l'éléphant dans la pièce de ce genre de recherche.

IA physiquePaper
1 source
OpenFrontier : navigation générale guidée par des frontières vision-langage
3arXiv cs.RO 

OpenFrontier : navigation générale guidée par des frontières vision-langage

Des chercheurs ont publié sur arXiv (identifiant 2503.05377) OpenFrontier, un cadre de navigation robotique en monde ouvert conçu pour fonctionner sans entraînement ni fine-tuning spécifique à la tâche. Le principe central : reformuler la navigation comme une succession d'identifications et d'atteintes de sous-objectifs éparses, en sélectionnant des "frontières visuelles" comme ancres sémantiques. Ces frontières, zones situées à la limite du champ perceptif du robot, servent de relais entre les instructions en langage naturel et les décisions de déplacement. OpenFrontier s'intègre à des modèles vision-langage (VLN) et vision-langage-action (VLA) existants sans reconstruction 3D dense de l'environnement ni collecte de données à grande échelle. Les auteurs rapportent des performances zero-shot sur plusieurs benchmarks de navigation standardisés et un déploiement expérimental sur un robot mobile réel. Ce résultat est notable parce que les approches end-to-end conditionnées sur le langage naturel exigent habituellement soit un entraînement interactif, soit des milliers de trajectoires annotées, soit une adaptation au robot cible. OpenFrontier contourne ces verrous en exploitant les frontières visuelles comme points d'ancrage pour les priors sémantiques du modèle, réduisant la charge computationnelle (pas de carte 3D sémantique dense) et le besoin en données d'entraînement. Pour un intégrateur de robots mobiles autonomes (AMR) ou un décideur industriel, cela ouvre la perspective de déploiements en environnement non structuré sans cycle de fine-tuning propre à chaque site. La performance zero-shot annoncée reste cependant à confronter à des conditions opérationnelles réelles : les benchmarks utilisés sont des environnements de laboratoire contrôlés, non des entrepôts ou espaces publics. OpenFrontier s'inscrit dans une dynamique de recherche qui cherche à transférer les capacités des grands modèles vision-langage vers la navigation mobile sans les contraintes classiques de l'apprentissage par renforcement. Des approches concurrentes comme SayNav, VLMaps ou les politiques VLA de Physical Intelligence (pi0) requièrent soit des environnements annotés, soit des datasets de démonstrations humaines, soit les deux. La méthode des frontières visuelles comme ancres sémantiques est plus légère, mais reste contrainte aux scénarios où la limite perceptive du robot capture les objectifs sémantiques pertinents. En l'état, OpenFrontier est un preprint académique et non un produit commercialisé : les validations en monde réel décrites correspondent à des tests expérimentaux contrôlés, pas à un déploiement industriel à l'échelle.

💬 L'idée de traiter les bords du champ de vision comme des ancres sémantiques au lieu de construire une carte 3D complète, c'est simple et ça coupe court à des années de galère en intégration terrain. Zéro fine-tuning par site, zéro dataset de trajectoires annotées, pour un déployeur d'AMR c'est exactement ce qu'on attendait. Reste que c'est un preprint testé en labo, et qu'un entrepôt avec des chariots élévateurs c'est une autre planète.

IA physiqueOpinion
1 source
DynaWM : distillation consciente de la dynamique avec modèle du monde pour une locomotion fluide sur escaliers continus
4arXiv cs.RO 

DynaWM : distillation consciente de la dynamique avec modèle du monde pour une locomotion fluide sur escaliers continus

Une équipe de chercheurs publie en juin 2026 sur arXiv (2606.24089) un cadre d'apprentissage baptisé DynaWM, destiné aux robots bipèdes à roues pour traverser des escaliers continus avec fluidité. Ces plateformes hybrides franchissent déjà pentes et marches isolées, mais la montée de longs escaliers reste hors de portée des architectures actuelles. DynaWM apporte deux innovations dans le paradigme de distillation enseignant-étudiant : un modèle du monde utilisé comme régulariseur pour forcer l'encodeur à représenter les dynamiques forward du terrain, et un encodeur cible à momentum qui stabilise le transfert de connaissances. Cette seconde brique s'attaque directement à l'effondrement dimensionnel (dimensional collapse), un problème récurrent quand les mises à jour du modèle enseignant sont non-stationnaires. Validé en simulation et sur matériel réel, DynaWM démontre une meilleure adaptabilité au terrain et une locomotion plus fluide que les approches de référence, selon des métriques quantitatives et des visualisations par analyse en composantes principales (ACP). L'enjeu dépasse la performance académique : les escaliers constituent l'un des derniers verrous pour déployer des robots mobiles dans des bâtiments multi-étages sans infrastructure dédiée. Pour un intégrateur ou un décideur industriel, cette capacité est un critère de déploiement critique. La contribution de DynaWM tient à sa méthode de distillation : là où les frameworks classiques dégradent progressivement la représentation des dynamiques terrain lors du transfert de politique, le régulariseur world model maintient une conscience géométrique complète. La validation sur hardware réel est notable, car le sim-to-real gap reste un angle mort fréquent dans les publications sur la locomotion bipède. Les robots à roues et jambes hybrides constituent un segment en pleine expansion, porté par des plateformes comme celles d'Unitree ou les systèmes de recherche développés à l'ETH Zurich, CMU et Berkeley. La distillation enseignant-étudiant est devenue le paradigme dominant pour apprendre des politiques de locomotion robustes depuis des observations proprioceptives, en compressant des connaissances initialement acquises avec un accès complet à la géométrie du terrain. DynaWM s'inscrit dans cette lignée tout en ciblant ses failles connues. L'article ne fait état d'aucun partenariat industriel : il s'agit d'un preprint de recherche, dont les suites naturelles incluent l'intégration dans des pipelines d'entraînement pour robots de service ou d'inspection en environnements multi-étages.

💬 Les escaliers longs, c'est le dernier vrai verrou pour déployer des robots dans des bâtiments existants sans toucher à l'infrastructure. Ce que DynaWM règle, c'est pas juste la perf brute : il corrige l'effondrement de représentation lors du transfert de politique, un bug que les frameworks classiques laissent traîner tranquillement. La validation sur hardware réel est là, et c'est ça qui me fait prendre ça au sérieux.

IA physiquePaper
1 source