
Rapport technique pour le challenge ICRA 2026 GOOSE de segmentation sémantique 2D : utilisation de DINOv3 pour la compréhension robuste des scènes extérieures en robotique de terrain
Une équipe de chercheurs a remporté la première place du GOOSE 2D Fine-Grained Semantic Segmentation Challenge, organisé dans le cadre du Workshop on Field Robotics de la conférence ICRA 2026. Ce défi porte sur la segmentation sémantique dense d'images hors-route selon une taxonomie fine de 64 classes et 11 catégories coarses évaluées. La solution gagnante repose sur deux apports complémentaires : une architecture combinant un backbone DINOv3 ViT-L/16 (auto-supervisé, patch 16x16), un ViT-Adapter, et un décodeur Mask2Former à classification par masques, complétés par une loss auxiliaire sur le token global [CLS] pour la supervision à grain coarse. À l'inférence, les auteurs appliquent une stratégie d'agrégation multi-échelle avec flip horizontal (test-time augmentation) et un ensemble des trois meilleurs checkpoints sélectionnés via les scores Codabench. Le score composite officiel atteint 76,57 %, décomposé en 69,32 % de mIoU fine-classe et 83,81 % de mIoU catégorie, plaçant cette méthode en tête du leaderboard final.
Ce résultat est notable pour la robotique de terrain car la segmentation hors-route à grain fin reste un verrou opérationnel majeur : les environnements non structurés (boue, végétation dense, rochers, herbe haute) produisent une variance visuelle que les modèles entraînés sur données urbaines gèrent mal. La combinaison DINOv3 + ViT-Adapter démontre ici que les représentations auto-supervisées issues de grandes masses de données génériques transfèrent efficacement vers des taxonomies spécialisées outdoor avec 64 classes, sans nécessiter de préentraînement spécifique au domaine. Pour les intégrateurs de robots agricoles, militaires ou de search-and-rescue, cela valide une voie d'architecture réplicable avec des backbones publics, sans dépendance à des datasets propriétaires.
Le dataset GOOSE (German Outdoor and Open-Source) a été développé pour combler le manque de benchmarks off-road à haute granularité, là où les jeux de données comme Cityscapes ou ADE20K restent centrés sur la ville. ICRA 2026, tenu en mai à Atlanta, concentre cette année plusieurs challenges dédiés au terrain non structuré, signalant une montée en maturité du sous-domaine face à l'essor des robots d'inspection, de déminage et d'agriculture autonome. Les concurrents directs de cette approche incluent des solutions basées sur des backbones InternImage ou SegFormer, mais la combinaison DINOv3 + supervision auxiliaire coarse semble offrir un gain de robustesse mesurable sur les classes rares. Les auteurs n'annoncent pas de déploiement terrain immédiat, mais le rapport technique soumis à ICRA 2026 constitue une base de référence pour les équipes travaillant sur la perception outdoor en conditions réelles.
Le dataset GOOSE, développé en Allemagne, constitue un benchmark européen pour la robotique de terrain non structuré ; les équipes EU travaillant sur l'agriculture autonome, le déminage ou l'inspection bénéficient directement d'une architecture de référence à backbones publics, sans dépendance à des données propriétaires.
Dans nos dossiers




