
Des modèles de vision fondation adaptés à l'estimation fiable de la traversabilité en environnements extérieurs non structurés
Une équipe de chercheurs propose ViTA (Vision-to-Traversability Adaptation), un framework publié sur arXiv (2605.29565) qui adapte les modèles de vision généralistes, en l'occurrence SAM2, le modèle de segmentation de Meta, à l'estimation de traversabilité en environnements extérieurs non structurés. L'objectif : déterminer, depuis une image RGB seule, quelles zones de terrain un robot mobile peut franchir en toute sécurité. ViTA introduit trois mécanismes distincts : des prompts de traversabilité appris (learnable traversability prompts) injectés dans SAM2 sans détruire sa capacité de généralisation ; un protocole d'entraînement "Perspective-Diversified Training" qui modélise l'incertitude sémantique pour éviter les prédictions trop confiantes aux frontières ambiguës ; et une distillation de connaissance géométrique à l'entraînement, permettant au modèle de raisonner sur la pente et l'élévation du terrain à l'inférence sans capteur de profondeur. La sortie finale est un score de traversabilité continu fusionnant incertitude sémantique et risque géométrique. Les évaluations sur plusieurs datasets hors-route réels montrent des résultats état de l'art en IoU et Précision, avec une réduction significative des faux positifs.
L'enjeu pratique est considérable pour les intégrateurs de robots mobiles outdoor, véhicules agricoles autonomes, robots de livraison en terrain mixte, drones terrestres militaires ou de secours. Le taux de faux positifs est le talon d'Achille des approches actuelles : une zone identifiée à tort comme franchissable peut provoquer un basculement ou un enlisement. ViTA attaque ce problème à trois niveaux simultanément, ce qui le distingue des adaptations classiques par fine-tuning de segmentation sémantique. La capacité de généralisation cross-domain est également notable : un modèle entraîné sur un type de terrain (forêt, gravière, prairie) qui tient sur d'autres environnements sans ré-entraînement réduit drastiquement les coûts de déploiement. Il faut cependant souligner qu'il s'agit d'un preprint sans évaluation par les pairs, et que les benchmarks off-road restent hétérogènes, la comparaison directe entre systèmes n'est pas toujours possible.
L'estimation de traversabilité visuelle est un problème central depuis les débuts de la robotique outdoor, initialement traité par des approches géométriques (LIDAR, stéréo), puis hybrides, et de plus en plus par des VFMs (Vision Foundation Models) depuis 2022. SAM2, publié par Meta en 2024, est devenu une base populaire d'adaptation grâce à sa robustesse et sa polyvalence. En parallèle, des frameworks comme DINOv2 (Meta) ou OpenCLIP sont aussi exploités pour la traversabilité. Sur ce segment, ViTA se positionne face à des travaux récents comme WayFASTER ou TerrainNet (NVIDIA). Aucun acteur français ou européen n'est mentionné dans ce preprint. Les prochaines étapes attendues pour ce type de travail incluent une validation sur des plateformes embarquées contraintes (edge computing) et une intégration dans des stacks ROS2 pour des tests terrain en conditions réelles.
Dans nos dossiers




