Trinity : segmentation unifiée de terrain et sémantique…

Des modèles de vision fondation adaptés à l'estimation fiable de la traversabilité en environnements extérieurs non structurés

39

1arXiv cs.RO

Des modèles de vision fondation adaptés à l'estimation fiable de la traversabilité en environnements extérieurs non structurés

Une équipe de chercheurs propose ViTA (Vision-to-Traversability Adaptation), un framework publié sur arXiv (2605.29565) qui adapte les modèles de vision généralistes, en l'occurrence SAM2, le modèle de segmentation de Meta, à l'estimation de traversabilité en environnements extérieurs non structurés. L'objectif : déterminer, depuis une image RGB seule, quelles zones de terrain un robot mobile peut franchir en toute sécurité. ViTA introduit trois mécanismes distincts : des prompts de traversabilité appris (learnable traversability prompts) injectés dans SAM2 sans détruire sa capacité de généralisation ; un protocole d'entraînement "Perspective-Diversified Training" qui modélise l'incertitude sémantique pour éviter les prédictions trop confiantes aux frontières ambiguës ; et une distillation de connaissance géométrique à l'entraînement, permettant au modèle de raisonner sur la pente et l'élévation du terrain à l'inférence sans capteur de profondeur. La sortie finale est un score de traversabilité continu fusionnant incertitude sémantique et risque géométrique. Les évaluations sur plusieurs datasets hors-route réels montrent des résultats état de l'art en IoU et Précision, avec une réduction significative des faux positifs. L'enjeu pratique est considérable pour les intégrateurs de robots mobiles outdoor, véhicules agricoles autonomes, robots de livraison en terrain mixte, drones terrestres militaires ou de secours. Le taux de faux positifs est le talon d'Achille des approches actuelles : une zone identifiée à tort comme franchissable peut provoquer un basculement ou un enlisement. ViTA attaque ce problème à trois niveaux simultanément, ce qui le distingue des adaptations classiques par fine-tuning de segmentation sémantique. La capacité de généralisation cross-domain est également notable : un modèle entraîné sur un type de terrain (forêt, gravière, prairie) qui tient sur d'autres environnements sans ré-entraînement réduit drastiquement les coûts de déploiement. Il faut cependant souligner qu'il s'agit d'un preprint sans évaluation par les pairs, et que les benchmarks off-road restent hétérogènes, la comparaison directe entre systèmes n'est pas toujours possible. L'estimation de traversabilité visuelle est un problème central depuis les débuts de la robotique outdoor, initialement traité par des approches géométriques (LIDAR, stéréo), puis hybrides, et de plus en plus par des VFMs (Vision Foundation Models) depuis 2022. SAM2, publié par Meta en 2024, est devenu une base populaire d'adaptation grâce à sa robustesse et sa polyvalence. En parallèle, des frameworks comme DINOv2 (Meta) ou OpenCLIP sont aussi exploités pour la traversabilité. Sur ce segment, ViTA se positionne face à des travaux récents comme WayFASTER ou TerrainNet (NVIDIA). Aucun acteur français ou européen n'est mentionné dans ce preprint. Les prochaines étapes attendues pour ce type de travail incluent une validation sur des plateformes embarquées contraintes (edge computing) et une intégration dans des stacks ROS2 pour des tests terrain en conditions réelles.

RecherchePaper

1 source

GA3T : jeu de données de traversabilité pour équipes de robots sol-aériens hétérogènes en milieux non structurés

41

2arXiv cs.RO

GA3T : jeu de données de traversabilité pour équipes de robots sol-aériens hétérogènes en milieux non structurés

Une équipe de chercheurs a publié GA3T (Ground-Aerial Team for Terrain Traversal), un jeu de données de perception collaborative multi-robots ciblant les environnements non structurés, déposé sur arXiv en mai 2026. La collecte a mobilisé deux plateformes complémentaires : un robot terrestre Clearpath Husky (UGV) équipé de LiDAR 3D, caméra stéréo, IMU et GPS, et un drone Autel EVO II fournissant images RGB, observations thermiques/infrarouges et GPS depuis un point de vue aérien surplombant. Quatre environnements distincts ont été couverts -- sentiers forestiers, chemins rocheux, terrains boueux, congères et prairies -- pour un total de plus de 13 000 frames synchronisées sur environ 29 minutes d'opération. Le jeu de données intègre une segmentation zero-shot basée sur SAM 3 (Segment Anything Model v3, Meta) et plus de 8 000 images labellisées manuellement. Sa particularité tient à la période de collecte, en début de printemps : la canopée encore peu dense permet au drone d'observer partiellement le robot terrestre à travers les arbres, enrichissant la perception collaborative d'une dimension explicite de gestion des occlusions. GA3T comble un vide documenté dans la recherche sur la perception multi-robots en conditions réelles hors route. La quasi-totalité des datasets multi-robots existants se concentre sur le SLAM en environnements structurés ou sur la conduite coopérative simulée, sans fournir de capteurs multi-modaux chevauchants entre plateformes sol et air. La combinaison LiDAR terrestre et infrarouge aérien ouvre des pistes directes pour l'estimation de traversabilité -- problème central pour les déploiements autonomes en agriculture de précision, foresterie ou gestion de crise -- où les modèles doivent distinguer sol franchissable, boue instable et végétation dense sans balisage préalable. C'est précisément ce gap sim-to-real sur terrain non balisé que ce type de dataset vise à réduire, en fournissant des données brutes issues de conditions météo et de sol réelles. Clearpath Robotics, filiale de Rockwell Automation depuis 2023 et fournisseur de référence pour les UGV de recherche universitaire, est associé ici à l'Autel EVO II, drone commercial grand public repositionné en plateforme de collecte scientifique. Aucun acteur européen n'est impliqué dans cette publication. Sur le plan concurrentiel, GA3T se positionne face à des datasets établis comme RUGD, RELLIS ou le corpus DARPA SubT, mais avec l'angle inédit de la fusion cross-view air-sol sur terrain naturel non aménagé. Les auteurs ciblent explicitement comme applications prioritaires la fusion de points de vue hétérogènes, l'estimation de traversabilité et la compréhension de scènes collaboratives -- tâches directement pertinentes pour l'entraînement de modèles VLA (Vision-Language-Action) appliqués à la navigation hors route, un axe de recherche en forte accélération depuis 2024 dans plusieurs laboratoires américains et asiatiques.

RecherchePaper

1 source

Sem-NaVAE : navigation extérieure sans carte guidée sémantiquement via des trajectoires génératives

42

3arXiv cs.RO

Sem-NaVAE : navigation extérieure sans carte guidée sémantiquement via des trajectoires génératives

Des chercheurs ont publié Sem-NaVAE, une approche de navigation sans carte (mapless) pour robots mobiles en extérieur, détaillée dans un preprint arXiv (arXiv:2502.01429v2). Le système repose sur deux composants articulés : un autoencodeur variationnel conditionnel (CVAE) qui génère en temps réel un ensemble de trajectoires candidates, et un modèle vision-langage (VLM) léger qui sélectionne la trajectoire à exécuter via segmentation sémantique à vocabulaire ouvert. L'opérateur spécifie une consigne en langage naturel, le VLM score chaque trajectoire proposée selon la sémantique visuelle de la scène, et un planificateur local de pointe convertit la trajectoire retenue en commandes de vitesse. Sur des parcours réels de 120 à 240 mètres dans des environnements non vus lors de l'entraînement, Sem-NaVAE atteint un taux de réussite de 90%, surpassant la baseline la plus proche de 10 points de pourcentage tout en restant à seulement 7% du plafond théorique d'un système avec carte. Ce résultat est notable car il démontre qu'une navigation extérieure robuste et généralisable est atteignable sans cartographie préalable, une contrainte opérationnelle majeure pour le déploiement d'AMR sur des chantiers, en agriculture ou en logistique outdoor. La combinaison d'un générateur stochastique de trajectoires avec une couche sémantique pilotée par langage naturel permet d'abstraire la description du terrain sans règles codées en dur ni base de données d'annotation. Le fait que le système opère en temps réel sur des itinéraires inédits constitue une validation partielle du sim-to-real pour la navigation extérieure non structurée. L'écart résiduel de 7% avec un système cartographié reste un indicateur honnête des limites actuelles : la carte conserve un avantage mesurable. La navigation mapless en extérieur est un problème ouvert depuis des années : les solutions SLAM indoor ne se transfèrent pas aux terrains variables (végétation, météo, absence de repères stables). Sem-NaVAE s'inscrit dans une tendance récente qui exploite les VLM pour une compréhension sémantique du monde réel, dans la lignée de ViNT (Stanford/Berkeley) ou de GNFactor. Côté industriel, des acteurs comme Boston Dynamics, Clearpath (désormais Rockwell Automation) ou le français Exotec restent principalement positionnés sur des environnements contrôlés et structurés. Le preprint ne mentionne aucun partenaire industriel ni timeline de commercialisation ; les prochaines étapes logiques seraient une validation sur des distances plus longues, des conditions météorologiques adverses, et une comparaison formelle avec des approches VLA de type end-to-end.

UEImpact indirect : les opérateurs d'AMR outdoor européens (agriculture, chantiers, logistique) pourraient bénéficier d'une navigation sans cartographie préalable, mais aucun acteur ou financement européen n'est impliqué dans ces travaux.

RecherchePaper

1 source

Rapport technique pour le challenge ICRA 2026 GOOSE de segmentation sémantique 2D : utilisation de DINOv3 pour la compréhension robuste des scènes extérieures en robotique de terrain

43

4arXiv cs.RO

Rapport technique pour le challenge ICRA 2026 GOOSE de segmentation sémantique 2D : utilisation de DINOv3 pour la compréhension robuste des scènes extérieures en robotique de terrain

Une équipe de chercheurs a remporté la première place du GOOSE 2D Fine-Grained Semantic Segmentation Challenge, organisé dans le cadre du Workshop on Field Robotics de la conférence ICRA 2026. Ce défi porte sur la segmentation sémantique dense d'images hors-route selon une taxonomie fine de 64 classes et 11 catégories coarses évaluées. La solution gagnante repose sur deux apports complémentaires : une architecture combinant un backbone DINOv3 ViT-L/16 (auto-supervisé, patch 16x16), un ViT-Adapter, et un décodeur Mask2Former à classification par masques, complétés par une loss auxiliaire sur le token global [CLS] pour la supervision à grain coarse. À l'inférence, les auteurs appliquent une stratégie d'agrégation multi-échelle avec flip horizontal (test-time augmentation) et un ensemble des trois meilleurs checkpoints sélectionnés via les scores Codabench. Le score composite officiel atteint 76,57 %, décomposé en 69,32 % de mIoU fine-classe et 83,81 % de mIoU catégorie, plaçant cette méthode en tête du leaderboard final. Ce résultat est notable pour la robotique de terrain car la segmentation hors-route à grain fin reste un verrou opérationnel majeur : les environnements non structurés (boue, végétation dense, rochers, herbe haute) produisent une variance visuelle que les modèles entraînés sur données urbaines gèrent mal. La combinaison DINOv3 + ViT-Adapter démontre ici que les représentations auto-supervisées issues de grandes masses de données génériques transfèrent efficacement vers des taxonomies spécialisées outdoor avec 64 classes, sans nécessiter de préentraînement spécifique au domaine. Pour les intégrateurs de robots agricoles, militaires ou de search-and-rescue, cela valide une voie d'architecture réplicable avec des backbones publics, sans dépendance à des datasets propriétaires. Le dataset GOOSE (German Outdoor and Open-Source) a été développé pour combler le manque de benchmarks off-road à haute granularité, là où les jeux de données comme Cityscapes ou ADE20K restent centrés sur la ville. ICRA 2026, tenu en mai à Atlanta, concentre cette année plusieurs challenges dédiés au terrain non structuré, signalant une montée en maturité du sous-domaine face à l'essor des robots d'inspection, de déminage et d'agriculture autonome. Les concurrents directs de cette approche incluent des solutions basées sur des backbones InternImage ou SegFormer, mais la combinaison DINOv3 + supervision auxiliaire coarse semble offrir un gain de robustesse mesurable sur les classes rares. Les auteurs n'annoncent pas de déploiement terrain immédiat, mais le rapport technique soumis à ICRA 2026 constitue une base de référence pour les équipes travaillant sur la perception outdoor en conditions réelles.

UELe dataset GOOSE, développé en Allemagne, constitue un benchmark européen pour la robotique de terrain non structuré ; les équipes EU travaillant sur l'agriculture autonome, le déminage ou l'inspection bénéficient directement d'une architecture de référence à backbones publics, sans dépendance à des données propriétaires.

RecherchePaper

1 source

Trinity : segmentation unifiée de terrain et sémantique en milieux extérieurs non structurés via données synthétiques

À lire aussi

Des modèles de vision fondation adaptés à l'estimation fiable de la traversabilité en environnements extérieurs non structurés

GA3T : jeu de données de traversabilité pour équipes de robots sol-aériens hétérogènes en milieux non structurés

Sem-NaVAE : navigation extérieure sans carte guidée sémantiquement via des trajectoires génératives

Rapport technique pour le challenge ICRA 2026 GOOSE de segmentation sémantique 2D : utilisation de DINOv3 pour la compréhension robuste des scènes extérieures en robotique de terrain