RecherchearXiv cs.RO 27 avril 2026

FeudalNav : un framework simple pour la navigation visuelle

1 source couvre ce sujet·Source originale ↗·

Résumé IASource uniqueImpact UE

Des chercheurs ont publié sur arXiv (référence 2602.06974) FeudalNav, un cadre hiérarchique de navigation visuelle pour robots mobiles qui ne requiert ni carte métrique, ni GPS, ni données odométriques en phase d'entraînement ou d'inférence. Le système décompose la prise de décision en plusieurs niveaux : un réseau de sélection de sous-objectifs (waypoints) léger et transférable choisit des points intermédiaires, tandis qu'un module de mémoire dans l'espace latent organise les observations visuelles passées par similarité visuelle, utilisée comme proxy de distance. Ce module de mémoire remplace les représentations topologiques classiques basées sur des graphes, sans dégradation notable des performances. Les résultats sont obtenus dans les environnements simulés Habitat AI, un benchmark standard du domaine, et montrent des scores compétitifs face aux méthodes état de l'art. Les auteurs explorent également une modalité d'navigation interactive : ils quantifient la quantité minimale d'intervention humaine nécessaire pour atteindre un taux de succès de 100% sur l'ensemble des trajectoires testées.

L'intérêt de FeudalNav réside dans sa sobriété architecturale. Là où la plupart des navigateurs apprenants reposent sur des graphes topologiques coûteux à maintenir ou sur des représentations métriques qui échouent dans des environnements non cartographiés, FeudalNav prouve qu'une mémoire visuelle latente simple suffit pour guider un agent vers un objectif en terrain inconnu. Cette approche réduit les exigences d'infrastructure embarquée (pas de capteur odométrique requis) et améliore la transférabilité entre environnements, deux critères directement pertinents pour les intégrateurs de robots de service ou d'inspection industrielle. La composante interactive est notable : même une intervention humaine minimale et ponctuelle augmente significativement le taux de réussite global, ce qui ouvre la voie à des architectures human-in-the-loop adaptatives.

FeudalNav s'inscrit dans un courant de recherche actif visant à dépasser les navigateurs métriques classiques (SLAM, cartographie 2D/3D) en faveur d'approches fondées sur l'apprentissage et la mémoire sémantique, directement inspirées de la cognition spatiale humaine. Le benchmark Habitat AI, développé par Meta AI Research, est devenu la référence pour évaluer ce type de systèmes en simulation. Les méthodes concurrentes incluent les approches à graphes topologiques (NoMaD, ViNT de Berkeley) et les navigateurs basés sur des Vision-Language Models (VLMaps, CoW). FeudalNav se distingue par sa légèreté et l'absence d'odométrie, mais reste pour l'instant cantonné à la simulation, sans validation sur robot physique annoncée dans cet article.

Dans nos dossiers

arXiv cs.RO

À lire aussi

1arXiv cs.RO

RVN-Bench : un benchmark pour la navigation visuelle réactive

Des chercheurs présentent RVN-Bench (Reactive Visual Navigation Benchmark), un nouveau protocole d'évaluation pour la navigation visuelle sécurisée des robots mobiles en intérieur. Construit sur le simulateur Habitat 2.0 et les scènes photoréalistes HM3D, RVN-Bench place un agent robotique dans des environnements intérieurs jamais vus auparavant, sans carte préalable, avec pour seule information des observations visuelles brutes. L'agent doit atteindre une série d'objectifs de position successifs tout en évitant les collisions, une contrainte que les benchmarks existants négligent généralement ou qu'ils appliquent à des scénarios extérieurs peu transposables aux espaces encombrés d'un intérieur. Le système fournit un environnement d'apprentissage par renforcement en ligne, un générateur de jeux de trajectoires en images, ainsi que des outils dédiés à la production de jeux de données "négatifs" capturant spécifiquement les événements de collision, permettant un entraînement hors ligne aussi bien qu'en ligne. Les auteurs ont validé leur approche par des tests physiques sur un robot terrestre Jackal UGV. Ce travail comble un vide méthodologique réel pour l'industrie robotique : la plupart des benchmarks de navigation visuelle mesurent la capacité à atteindre un objectif sans pénaliser les collisions, ce qui masque un défaut critique pour tout déploiement en usine, entrepôt ou établissement de santé où un robot mobile évolue au milieu d'humains et d'obstacles mobiles. En intégrant la sécurité de trajectoire comme métrique de premier plan, RVN-Bench donne aux équipes de recherche et aux intégrateurs un outil standardisé pour comparer des politiques de navigation sur un critère qui compte réellement en production, plutôt que sur la seule réussite de la tâche. Les résultats indiquant une généralisation à des environnements simulés inédits et un transfert sim-to-real prometteur sur Jackal restent toutefois préliminaires : les auteurs eux-mêmes qualifient ces expériences physiques d'initiales, et la portée du transfert vers des robots aux dynamiques différentes reste à démontrer. RVN-Bench s'inscrit dans une lignée de benchmarks de navigation basés sur Habitat, déjà largement utilisés par la communauté de recherche en robotique et en apprentissage par renforcement visuel. Le code, les jeux de données et les outils associés sont publiés en accès libre, une pratique désormais standard pour ce type de contribution académique visant l'adoption par d'autres laboratoires. Aucun acteur français ou européen n'est mentionné dans ces travaux, qui restent pour l'instant au stade de la recherche et n'ont pas de calendrier de déploiement commercial annoncé.

RecherchePaper

1 source

2arXiv cs.RO

TaCauchy : un framework FEM extensible pour la simulation tactile basée sur la vision

Une équipe de chercheurs a publié TaCauchy, un cadre de simulation par éléments finis (FEM) conçu pour les capteurs tactiles à vision, intégré directement dans Isaac Sim, la plateforme de simulation GPU d'NVIDIA. Basé sur le solveur UIPC (Unified Incremental Potential Contact), TaCauchy calcule des tenseurs de contrainte de Cauchy à partir de lois constitutives hyperélastiques, puis projette ces contraintes sur les surfaces de contact pour obtenir les forces de traction et les distributions de pression. Il prend en charge trois capteurs courants, GelSight Mini, DIGIT et 9DTact, via une interface modulaire permettant une intégration rapide par simple configuration. Sur le plan des performances, le framework atteint 33,40 FPS en environnement unique et 555 FPS de débit agrégé sur 60 environnements parallèles, avec un overhead d'extraction des contraintes inférieur à 1 ms. La validation physique montre un SSIM supérieur à 0,93 sur une plage de forces allant de 1,26 N à 4,73 N. L'enjeu principal est le fossé sim-to-real qui pénalise l'entraînement par renforcement des politiques de manipulation tactile. Les approches existantes recourent généralement à des estimations empiriques des champs de contraintes, ce qui introduit des biais difficiles à corriger une fois déployé sur robot réel. TaCauchy propose à la place une vérité terrain mécanique dérivée des premiers principes physiques, ce qui représente un changement de paradigme pour les ingénieurs qui cherchent à entraîner des politiques de préhension fine sans collecter massivement de données réelles. Le débit de 555 FPS en parallèle rend cette précision physique compatible avec les pipelines d'apprentissage par renforcement à grande échelle. Les capteurs tactiles à vision de type GelSight ont émergé comme une alternative économique aux capteurs de force-couple classiques, mais leur simulation restait un goulot d'étranglement dans les environnements GPU-parallèles comme Isaac Lab ou Orbit. TaCauchy s'inscrit dans une dynamique plus large de "physiques différentiables" qui cherchent à remplacer les proxies heuristiques par des modèles rigoureux directement différenciables. Du côté concurrentiel, des travaux comme Taxim ou DigiTac ont proposé des approches optiques ou basées sur des réseaux de neurones pour la simulation GelSight, mais sans calcul de champ de contraintes FEM intégré à un environnement GPU. La prochaine étape probable pour TaCauchy sera l'intégration avec des politiques de type diffusion ou VLA (Vision-Language-Action) pour des tâches d'assemblage ou de manipulation déformable.

RecherchePaper

1 source

3arXiv cs.RO

Apprentissage de marges de sécurité adaptatives pour la navigation visuelle

Des chercheurs présentent un nouveau système de sélection de trajectoires pour la navigation robotique en intérieur encombré, détaillé dans un preprint arXiv (2607.18200v1). Le problème ciblé : les marges de sécurité fixes utilisées par les robots mobiles sont mal calibrées, trop conservatrices elles provoquent détours et dépassements de temps, trop permissives elles autorisent des trajectoires limites dangereuses en cas de biais de perception. Les auteurs proposent un "safety critic" conditionné par le contexte qui apprend une préférence de dégagement adaptative pour classer les propositions générées par un planificateur par diffusion à partir d'images RGB-D égocentriques. Le critique combine trois composantes : un terme de sécurité avec pénalité de budget de dégagement et résidu de fonction barrière de contrôle, un terme d'efficacité mêlant lissage et pénalité de détour conditionnée à la sécurité, et un terme d'ancrage aux clearances ESDF réelles pour éviter l'effondrement de la marge apprise. L'entraînement s'appuie sur une géométrie ESDF privilégiée en simulation, puis le modèle est distillé en un sélecteur ne nécessitant que la perception, via une procédure enseignant-élève en deux temps. Sur les benchmarks PointGoal HM3D et MP3D, y compris en transfert cross-dataset, la méthode obtient les meilleurs taux de réussite et scores SPL face à des références par diffusion, par optimisation et par apprentissage par renforcement. Pour l'industrie robotique, ce travail s'attaque à un goulot d'étranglement concret : la plupart des planificateurs par diffusion génèrent déjà des trajectoires diverses et valables, mais peinent à choisir laquelle exécuter en toute sécurité. Une marge de sécurité apprise et adaptative plutôt que codée en dur pourrait réduire les échecs de navigation des robots déployés en environnements réels, entrepôts, usines, intérieurs domestiques, sans réglage manuel site par site. Le transfert direct vers un humanoïde Unitree G1, entraîné uniquement en simulation et sans ajustement spécifique à la tâche, illustre une réduction crédible de l'écart simulation-réel, un point sensible pour les intégrateurs qui restent souvent méfiants face aux démonstrations purement simulées. Ce travail s'inscrit dans la lignée des planificateurs par diffusion pour la navigation, une approche récente qui a gagné du terrain face aux méthodes d'optimisation classiques et au RL, en s'appuyant sur les fonctions barrière de contrôle et les champs de distance signée (ESDF) pour formaliser la sécurité. Le papier reste à ce stade une publication de recherche non revue par les pairs, sans lien annoncé avec un acteur industriel ; aucune date de déploiement produit ni partenariat n'est mentionné.

RecherchePaper

1 source

4arXiv cs.RO

VGP-Nav : perception géométrique visuelle adaptée aux métriques pour la navigation robotique

Une équipe de chercheurs a présenté en juin 2026 VGP-Nav (arXiv:2606.09268), un cadre unifié permettant à un robot mobile de se localiser avec précision et de détecter des obstacles avec cohérence métrique en n'utilisant qu'une seule caméra RGB monoculaire standard. Contrairement aux systèmes de navigation conventionnels qui combinent caméras et capteurs actifs comme le LiDAR pour obtenir des mesures métriques fiables, VGP-Nav s'appuie exclusivement sur la vision monoculaire. L'architecture ancre la géométrie visuelle à des contraintes d'échelle physiquement significatives extraites de la géométrie du plan sol, ce qui permet de résoudre en ligne l'ambiguïté d'échelle inhérente à tout système monoculaire. Les expériences présentées couvrent des environnements variés et incluent un déploiement validé sur des robots mobiles réels. L'ambiguïté d'échelle est l'un des obstacles fondamentaux à la navigation monoculaire : une caméra seule ne peut pas distinguer un objet proche et petit d'un objet lointain et grand sans référence externe. Les approches classiques contournent ce problème avec du LiDAR (coûteux, encombrant, nécessitant une calibration spatio-temporelle complexe entre capteurs) ou des centrales inertielles, ce qui augmente le coût et la complexité des déploiements, notamment pour les flottes d'AMR en logistique ou en industrie. Si VGP-Nav tient ses promesses à l'échelle, il ouvre la voie à des robots mobiles autonomes basse consommation capables de naviguer en sécurité dans des environnements non structurés sans infrastructure sensorielle lourde, un enjeu critique pour les intégrateurs cherchant à réduire le coût total de possession. La navigation purement visuelle fait l'objet d'intenses recherches depuis la première génération de systèmes SLAM monoculaires comme ORB-SLAM (2015), mais la cohérence métrique restait leur talon d'Achille face au LiDAR. Des approches récentes basées sur la profondeur monoculaire apprise, Depth Anything, UniDepth, ou des architectures de localisation neuronale cherchent à combler cet écart, tandis que des acteurs comme Nvidia (Isaac Perceptor), Clearpath Robotics ou Slamtec intègrent progressivement davantage de vision dans leurs pipelines de navigation pour AMR. VGP-Nav reste à ce stade une contribution de recherche en pré-print : sa validité industrielle n'est pas encore confirmée par des benchmarks tiers indépendants sur des datasets standardisés comme nuScenes ou ScanNet, et aucun partenariat commercial ni calendrier de transfert technologique n'est annoncé.

UEPotentiel indirect pour les intégrateurs AMR européens si la technologie est validée industriellement, aucun partenariat commercial ni transfert vers l'Europe n'est annoncé à ce stade.

RecherchePaper

1 source