Aller au contenu principal
Des modèles de vision fondation adaptés à l'estimation fiable de la traversabilité en environnements extérieurs non structurés
RecherchearXiv cs.RO20h

Des modèles de vision fondation adaptés à l'estimation fiable de la traversabilité en environnements extérieurs non structurés

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Une équipe de chercheurs propose ViTA (Vision-to-Traversability Adaptation), un framework publié sur arXiv (2605.29565) qui adapte les modèles de vision généralistes, en l'occurrence SAM2, le modèle de segmentation de Meta, à l'estimation de traversabilité en environnements extérieurs non structurés. L'objectif : déterminer, depuis une image RGB seule, quelles zones de terrain un robot mobile peut franchir en toute sécurité. ViTA introduit trois mécanismes distincts : des prompts de traversabilité appris (learnable traversability prompts) injectés dans SAM2 sans détruire sa capacité de généralisation ; un protocole d'entraînement "Perspective-Diversified Training" qui modélise l'incertitude sémantique pour éviter les prédictions trop confiantes aux frontières ambiguës ; et une distillation de connaissance géométrique à l'entraînement, permettant au modèle de raisonner sur la pente et l'élévation du terrain à l'inférence sans capteur de profondeur. La sortie finale est un score de traversabilité continu fusionnant incertitude sémantique et risque géométrique. Les évaluations sur plusieurs datasets hors-route réels montrent des résultats état de l'art en IoU et Précision, avec une réduction significative des faux positifs.

L'enjeu pratique est considérable pour les intégrateurs de robots mobiles outdoor, véhicules agricoles autonomes, robots de livraison en terrain mixte, drones terrestres militaires ou de secours. Le taux de faux positifs est le talon d'Achille des approches actuelles : une zone identifiée à tort comme franchissable peut provoquer un basculement ou un enlisement. ViTA attaque ce problème à trois niveaux simultanément, ce qui le distingue des adaptations classiques par fine-tuning de segmentation sémantique. La capacité de généralisation cross-domain est également notable : un modèle entraîné sur un type de terrain (forêt, gravière, prairie) qui tient sur d'autres environnements sans ré-entraînement réduit drastiquement les coûts de déploiement. Il faut cependant souligner qu'il s'agit d'un preprint sans évaluation par les pairs, et que les benchmarks off-road restent hétérogènes, la comparaison directe entre systèmes n'est pas toujours possible.

L'estimation de traversabilité visuelle est un problème central depuis les débuts de la robotique outdoor, initialement traité par des approches géométriques (LIDAR, stéréo), puis hybrides, et de plus en plus par des VFMs (Vision Foundation Models) depuis 2022. SAM2, publié par Meta en 2024, est devenu une base populaire d'adaptation grâce à sa robustesse et sa polyvalence. En parallèle, des frameworks comme DINOv2 (Meta) ou OpenCLIP sont aussi exploités pour la traversabilité. Sur ce segment, ViTA se positionne face à des travaux récents comme WayFASTER ou TerrainNet (NVIDIA). Aucun acteur français ou européen n'est mentionné dans ce preprint. Les prochaines étapes attendues pour ce type de travail incluent une validation sur des plateformes embarquées contraintes (edge computing) et une intégration dans des stacks ROS2 pour des tests terrain en conditions réelles.

Dans nos dossiers

À lire aussi

Estimation de traversabilité auto-supervisée et agnostique au robot pour des environnements ouverts
1arXiv cs.RO 

Estimation de traversabilité auto-supervisée et agnostique au robot pour des environnements ouverts

Une équipe de chercheurs présente COTRATE (Continuous Online TRAversability EsTimation), un framework d'apprentissage en ligne pour l'estimation de traversabilité des terrains par des robots mobiles, publié sur arXiv en mai 2026 (arXiv:2605.28442). Le système apprend de façon auto-supervisée à partir de données non étiquetées collectées par le robot en temps réel. COTRATE fonctionne en deux étapes : un module d'évaluation du terrain exploitant les signaux proprioceptifs et inertiels génère des scores de traversabilité robustes, qui supervisent ensuite un réseau de traversabilité visuelle via une fonction de perte par alignement (alignment loss). Pour limiter l'oubli catastrophique propre à l'apprentissage continu, les auteurs proposent une stratégie de sélection de features basée sur la diversité, s'appuyant sur une mémoire de relecture compacte. Le système a été évalué sur un dataset d'environ 50 000 images collectées avec deux plateformes robotiques sur 11 types de terrains extérieurs, et benchmarké sur des tâches de navigation dans trois environnements extérieurs représentatifs. Le code, le dataset et les modèles pré-entraînés sont disponibles publiquement. La traversabilité est un problème central pour les robots mobiles opérant en environnement non structuré : savoir si un sol est praticable, à quelle vitesse et avec quel risque de chute ou de blocage conditionne directement la sécurité et l'efficacité des missions. Les approches existantes butaient sur un double écueil : soit elles reposaient sur des scores proprioceptifs artisanaux, spécifiques à une plateforme et donc non transférables, soit elles pré-calculaient des clusters sur des données antérieures sans possibilité d'adaptation en ligne. COTRATE lève les deux limitations simultanément : il est robot-agnostic, avec un transfert de connaissances démontré entre plateformes à cinématiques différentes, et il apprend en continu sans coût mémoire ou calcul prohibitif, rendant le déploiement embarqué crédible. C'est un signal pertinent pour les intégrateurs de robots extérieurs dans l'agriculture, l'inspection d'infrastructure ou la défense, secteurs où les conditions terrain varient et où annoter des données à la main reste hors de portée à l'échelle. L'estimation de traversabilité auto-supervisée est un champ actif depuis plusieurs années, porté notamment par des laboratoires travaillant sur les robots quadrupèdes comme ANYmal (ANYbotics) ou Spot (Boston Dynamics) ainsi que sur les UGV de type Clearpath Robotics. Les méthodes antérieures les plus citées dans ce domaine, dont certaines issues d'ETH Zurich ou de CMU, reposaient généralement sur des données pré-collectées ou des heuristiques proprioceptives figées. COTRATE se positionne comme une solution plus générale, bien que la publication soit à ce stade un preprint arXiv sans validation en peer review et qu'aucun partenaire industriel ni déploiement terrain en production ne soit mentionné. Les étapes naturelles seraient une validation sur des plateformes commerciales en conditions réelles prolongées et une intégration dans des stacks de navigation open-source comme Nav2 ou le framework Elevation Mapping de la communauté ETH.

UEImpact indirect via la communauté de recherche européenne (ETH Zurich cité comme référence clé) et pertinence pour les intégrateurs EU en agriculture et inspection d'infrastructure, mais aucun acteur français ni déploiement européen mentionné.

RecherchePaper
1 source
De zéro à l'autonomie en temps réel : adaptation en ligne de la dynamique dans des environnements non structurés
2arXiv cs.RO 

De zéro à l'autonomie en temps réel : adaptation en ligne de la dynamique dans des environnements non structurés

Une équipe de chercheurs propose, dans un préprint arXiv (réf. 2509.12516 v2, septembre 2025), une méthode d'adaptation en ligne des dynamiques robotiques capable de passer de zéro connaissance préalable à un contrôle sûr en quelques secondes. L'algorithme combine des encodeurs de fonctions ("function encoders") avec les moindres carrés récursifs (RLS) : les coefficients de l'encodeur sont traités comme des états latents mis à jour en continu depuis l'odométrie du robot en streaming. L'estimation s'effectue en temps constant, sans boucle interne à base de gradients, ce qui la distingue structurellement des approches de méta-apprentissage. Les expériences portent sur trois configurations : un système de Van der Pol pour valider le comportement algorithmique, un simulateur Unity pour la navigation tout-terrain haute fidélité, et un robot Clearpath Jackal en conditions réelles, notamment sur la glace d'une patinoire locale. Dans toutes ces configurations, la méthode réduit le nombre de collisions par rapport aux baselines statiques et de méta-apprentissage. L'enjeu opérationnel est direct : les transitions abruptes de terrain, comme du bitume vers de la glace ou du gravier vers de la boue, déstabilisent les planificateurs de trajectoire si le modèle dynamique ne se met pas à jour assez vite. Là où des approches comme MAML nécessitent de nombreux pas de gradient pour converger vers un nouveau régime dynamique, ce système extrait une représentation exploitable à partir de quelques secondes de données odométriques. La validation sur glace physique, environnement à très faible coefficient de frottement, renforce la crédibilité de la démonstration au-delà du seul simulateur et constitue un argument sérieux contre le "dynamics gap" souvent reproché aux méthodes d'adaptation sim-to-real. Cette recherche s'inscrit dans un courant actif autour de l'adaptation rapide pour robots mobiles, en concurrence directe avec RMA (Rapid Motor Adaptation, ETH Zürich) pour les quadrupèdes et les travaux de Berkeley sur l'adaptation contextuelle via réseaux d'encodage. Le Clearpath Jackal, plateforme différentielle de référence dans la recherche académique, facilite la reproductibilité des résultats. L'article ne mentionne aucun déploiement industriel ni partenariat commercial, mais la complexité temporelle constante de l'algorithme le rend compatible avec des contraintes embarquées réelles. La prochaine étape logique serait une validation sur flottes AMR en environnement logistique ou sur des quadrupèdes exposés à des changements de surface similaires.

RecherchePaper
1 source
GA3T : jeu de données de traversabilité pour équipes de robots sol-aériens hétérogènes en milieux non structurés
3arXiv cs.RO 

GA3T : jeu de données de traversabilité pour équipes de robots sol-aériens hétérogènes en milieux non structurés

Une équipe de chercheurs a publié GA3T (Ground-Aerial Team for Terrain Traversal), un jeu de données de perception collaborative multi-robots ciblant les environnements non structurés, déposé sur arXiv en mai 2026. La collecte a mobilisé deux plateformes complémentaires : un robot terrestre Clearpath Husky (UGV) équipé de LiDAR 3D, caméra stéréo, IMU et GPS, et un drone Autel EVO II fournissant images RGB, observations thermiques/infrarouges et GPS depuis un point de vue aérien surplombant. Quatre environnements distincts ont été couverts -- sentiers forestiers, chemins rocheux, terrains boueux, congères et prairies -- pour un total de plus de 13 000 frames synchronisées sur environ 29 minutes d'opération. Le jeu de données intègre une segmentation zero-shot basée sur SAM 3 (Segment Anything Model v3, Meta) et plus de 8 000 images labellisées manuellement. Sa particularité tient à la période de collecte, en début de printemps : la canopée encore peu dense permet au drone d'observer partiellement le robot terrestre à travers les arbres, enrichissant la perception collaborative d'une dimension explicite de gestion des occlusions. GA3T comble un vide documenté dans la recherche sur la perception multi-robots en conditions réelles hors route. La quasi-totalité des datasets multi-robots existants se concentre sur le SLAM en environnements structurés ou sur la conduite coopérative simulée, sans fournir de capteurs multi-modaux chevauchants entre plateformes sol et air. La combinaison LiDAR terrestre et infrarouge aérien ouvre des pistes directes pour l'estimation de traversabilité -- problème central pour les déploiements autonomes en agriculture de précision, foresterie ou gestion de crise -- où les modèles doivent distinguer sol franchissable, boue instable et végétation dense sans balisage préalable. C'est précisément ce gap sim-to-real sur terrain non balisé que ce type de dataset vise à réduire, en fournissant des données brutes issues de conditions météo et de sol réelles. Clearpath Robotics, filiale de Rockwell Automation depuis 2023 et fournisseur de référence pour les UGV de recherche universitaire, est associé ici à l'Autel EVO II, drone commercial grand public repositionné en plateforme de collecte scientifique. Aucun acteur européen n'est impliqué dans cette publication. Sur le plan concurrentiel, GA3T se positionne face à des datasets établis comme RUGD, RELLIS ou le corpus DARPA SubT, mais avec l'angle inédit de la fusion cross-view air-sol sur terrain naturel non aménagé. Les auteurs ciblent explicitement comme applications prioritaires la fusion de points de vue hétérogènes, l'estimation de traversabilité et la compréhension de scènes collaboratives -- tâches directement pertinentes pour l'entraînement de modèles VLA (Vision-Language-Action) appliqués à la navigation hors route, un axe de recherche en forte accélération depuis 2024 dans plusieurs laboratoires américains et asiatiques.

RecherchePaper
1 source
HiPAN : navigation hiérarchique adaptative à la posture pour robots quadrupèdes en environnements 3D non structurés
4arXiv cs.RO 

HiPAN : navigation hiérarchique adaptative à la posture pour robots quadrupèdes en environnements 3D non structurés

Des chercheurs proposent HiPAN (Hierarchical Posture-Adaptive Navigation), un framework de navigation pour robots quadrupèdes en environnements tridimensionnels non structurés, publié en préprint sur arXiv en avril 2026 (arXiv:2604.26504). L'architecture est hiérarchique : une politique de haut niveau génère des commandes de navigation (vitesse planaire et posture du corps), exécutées par un contrôleur de locomotion adaptatif de bas niveau. Le système opère directement sur des images de profondeur embarquées, sans pipeline de cartographie-planification préalable. Pour contrer les comportements myopes et étendre l'horizon de navigation, les auteurs introduisent le Path-Guided Curriculum Learning, qui entraîne progressivement la politique de l'évitement réactif jusqu'à la navigation stratégique longue distance. Les expériences couvrent simulations et environnements réels, incluant passages étroits et espaces à faible hauteur libre. Les résultats affichent des taux de réussite et une efficacité de trajectoire supérieurs aux planificateurs réactifs classiques et aux baselines end-to-end. L'intérêt pratique est double : le système tourne sur des plateformes à ressources contraintes, rendant la navigation autonome accessible sans GPU dédié sur des quadrupèdes comme l'Unitree B2 ou l'ANYmal C d'ANYbotics ; l'adaptation dynamique de posture ouvre par ailleurs des cas d'usage concrets en inspection industrielle, gestion de sinistres et exploration de bâtiments dégradés. L'approche contourne l'accumulation d'erreurs de perception inhérente aux pipelines SLAM-planification, un point de friction persistant dans les déploiements réels de quadrupèdes autonomes. La navigation sans carte dans des espaces tridimensionnels contraints reste l'un des verrous majeurs du secteur. Les approches dominantes s'appuient sur SLAM (simultaneous localization and mapping) couplé à un planificateur de trajectoire, au prix d'une latence élevée et d'une sensibilité aux erreurs cumulées. HiPAN s'inscrit dans un courant de recherche qui substitue des politiques apprises par renforcement hiérarchique à ces pipelines, en parallèle de travaux issus du groupe Hutter à ETH Zurich (ANYbotics) ou des laboratoires de locomotion de Carnegie Mellon et UC Berkeley. Il s'agit d'un préprint non encore soumis à peer review, sans partenaire industriel ni calendrier de déploiement annoncé. La prochaine étape critique sera de valider la robustesse hors distribution sur terrains déformables et face à des obstructions dynamiques, conditions que les benchmarks en simulation ne couvrent qu'imparfaitement.

RecherchePaper
1 source