Aller au contenu principal
Rapport technique pour le challenge ICRA 2026 GOOSE de segmentation sémantique 2D : utilisation de DINOv3 pour la compréhension robuste des scènes extérieures en robotique de terrain
RecherchearXiv cs.RO1h

Rapport technique pour le challenge ICRA 2026 GOOSE de segmentation sémantique 2D : utilisation de DINOv3 pour la compréhension robuste des scènes extérieures en robotique de terrain

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Une équipe de chercheurs a remporté la première place du GOOSE 2D Fine-Grained Semantic Segmentation Challenge, organisé dans le cadre du Workshop on Field Robotics de la conférence ICRA 2026. Ce défi porte sur la segmentation sémantique dense d'images hors-route selon une taxonomie fine de 64 classes et 11 catégories coarses évaluées. La solution gagnante repose sur deux apports complémentaires : une architecture combinant un backbone DINOv3 ViT-L/16 (auto-supervisé, patch 16x16), un ViT-Adapter, et un décodeur Mask2Former à classification par masques, complétés par une loss auxiliaire sur le token global [CLS] pour la supervision à grain coarse. À l'inférence, les auteurs appliquent une stratégie d'agrégation multi-échelle avec flip horizontal (test-time augmentation) et un ensemble des trois meilleurs checkpoints sélectionnés via les scores Codabench. Le score composite officiel atteint 76,57 %, décomposé en 69,32 % de mIoU fine-classe et 83,81 % de mIoU catégorie, plaçant cette méthode en tête du leaderboard final.

Ce résultat est notable pour la robotique de terrain car la segmentation hors-route à grain fin reste un verrou opérationnel majeur : les environnements non structurés (boue, végétation dense, rochers, herbe haute) produisent une variance visuelle que les modèles entraînés sur données urbaines gèrent mal. La combinaison DINOv3 + ViT-Adapter démontre ici que les représentations auto-supervisées issues de grandes masses de données génériques transfèrent efficacement vers des taxonomies spécialisées outdoor avec 64 classes, sans nécessiter de préentraînement spécifique au domaine. Pour les intégrateurs de robots agricoles, militaires ou de search-and-rescue, cela valide une voie d'architecture réplicable avec des backbones publics, sans dépendance à des datasets propriétaires.

Le dataset GOOSE (German Outdoor and Open-Source) a été développé pour combler le manque de benchmarks off-road à haute granularité, là où les jeux de données comme Cityscapes ou ADE20K restent centrés sur la ville. ICRA 2026, tenu en mai à Atlanta, concentre cette année plusieurs challenges dédiés au terrain non structuré, signalant une montée en maturité du sous-domaine face à l'essor des robots d'inspection, de déminage et d'agriculture autonome. Les concurrents directs de cette approche incluent des solutions basées sur des backbones InternImage ou SegFormer, mais la combinaison DINOv3 + supervision auxiliaire coarse semble offrir un gain de robustesse mesurable sur les classes rares. Les auteurs n'annoncent pas de déploiement terrain immédiat, mais le rapport technique soumis à ICRA 2026 constitue une base de référence pour les équipes travaillant sur la perception outdoor en conditions réelles.

Impact France/UE

Le dataset GOOSE, développé en Allemagne, constitue un benchmark européen pour la robotique de terrain non structuré ; les équipes EU travaillant sur l'agriculture autonome, le déminage ou l'inspection bénéficient directement d'une architecture de référence à backbones publics, sans dépendance à des données propriétaires.

Dans nos dossiers

À lire aussi

Enrichir le contexte spatial et temporel pour l'apprentissage par imitation robotique avec des graphes de scène
1arXiv cs.RO 

Enrichir le contexte spatial et temporel pour l'apprentissage par imitation robotique avec des graphes de scène

Des chercheurs ont publié le 1er juin 2026 sur arXiv (2606.01072) une méthode d'apprentissage par imitation qui exploite des graphes de scène dynamiques comme mécanisme de mémoire structurée pour les robots mobiles. Le principe : pendant l'exécution d'une tâche, le robot maintient un graphe de scène mis à jour en continu, qui encode les relations entre objets et leur évolution dans le temps. Plutôt que de traiter uniquement les observations courantes du capteur, le système capitalise sur l'historique accrété de l'environnement pour inférer des politiques d'action. Les validations couvrent deux régimes : manipulation mobile en simulation (environnements à grande échelle spatialement) et manipulation sur table en conditions réelles. Les auteurs rapportent une amélioration substantielle des performances par rapport aux baselines, particulièrement sur des tâches nécessitant un raisonnement à long terme, sans donner de métriques chiffrées précises dans l'abstract. Ce travail s'attaque à deux verrous persistants du déploiement de robots apprenants dans des environnements non-structurés. Le premier est l'observabilité partielle : dans un appartement ou un bureau, le champ de vision d'un robot ne capture qu'une fraction de l'espace pertinent, et les objets manipulés disparaissent régulièrement du cadre. Le second est l'horizon temporel : des tâches comme "ranger la cuisine" enchaînent des dizaines de sous-tâches dont les dépendances ne sont pas localement visibles. En substituant un graphe de scène explicite et structuré à une mémoire implicite (fenêtre d'observations brutes, état caché LSTM), l'approche donne au robot une représentation interprétable et modulaire du contexte. Pour les intégrateurs industriels et les équipes qui déploient des politiques d'imitation dans des environnements semi-structurés, c'est une piste crédible pour réduire le gap entre démo de labo et robustesse opérationnelle, même si les expériences restent pour l'instant confinées à la simulation et au tabletop. L'apprentissage par imitation (behavioral cloning, GAIL, DAgger) a connu un regain d'intérêt majeur avec l'essor des Visual Language Action models (VLA) comme Pi-0 de Physical Intelligence, RT-2 de Google DeepMind, ou OpenVLA. Les graphes de scène sont une technique éprouvée en vision par ordinateur et en navigation robotique (travaux de Armeni, Rosinol, Chang notamment), mais leur intégration dans des pipelines d'imitation learning reste peu explorée. Les approches concurrentes pour gérer la mémoire à long terme incluent les transformers avec attention sur un historique d'observations, les représentations de tâches hiérarchiques (task graphs), et les world models latents. Ce preprint n'étant pas encore évalué par les pairs, ses résultats méritent confirmation sur des benchmarks plus larges et des environnements réellement non-structurés avant de pouvoir orienter des décisions d'architecture. Les auteurs n'annoncent pas de code public ni de suite industrielle à ce stade.

RechercheOpinion
1 source
RoboMME : évaluation et compréhension de la mémoire pour les politiques robotiques généralistes
2arXiv cs.RO 

RoboMME : évaluation et compréhension de la mémoire pour les politiques robotiques généralistes

Une équipe de chercheurs a publié RoboMME (Robotic Multi-Memory Evaluation), un benchmark standardisé à grande échelle destiné à évaluer les modèles VLA (vision-language-action) sur des tâches de manipulation robotique nécessitant de la mémoire à long horizon. Le benchmark comprend 16 tâches construites selon une taxonomie en quatre catégories : mémoire temporelle, spatiale, des objets et procédurale, couvrant des scénarios comme le comptage d'actions répétées ou la manipulation d'objets temporairement occultés. Les auteurs ont également développé 14 variantes de VLA augmentées de mémoire, toutes bâties sur le backbone pi0.5 de Physical Intelligence, et les ont évaluées selon différentes stratégies d'intégration mémorielle. L'absence d'un cadre d'évaluation standardisé était jusqu'ici un frein majeur pour la recherche sur la mémoire dans les VLA généralistes : chaque équipe testait ses mécanismes dans des conditions ad hoc, rendant toute comparaison rigoureuse impossible. RoboMME comble ce vide en permettant, pour la première fois, de mesurer systématiquement comment différentes représentations mémorielles (états cachés récurrents, mémoire externe, fenêtre de contexte longue) se comportent sur un spectre de tâches hétérogènes. La conclusion principale est nuancée : l'efficacité d'une architecture mémoire est fortement dépendante de la tâche, chaque approche présentant des avantages distincts selon la catégorie, ce qui remet en cause l'idée qu'une solution universelle serait à portée à court terme. Pour les intégrateurs et les décideurs B2B, cela signifie concrètement que le choix du mécanisme mémoriel devra rester spécifique au cas d'usage, sans recette générique applicable. Ce benchmark s'inscrit dans la montée en puissance des VLA généralistes, portés par des modèles comme pi0 et pi0.5 de Physical Intelligence (levée de 400 millions de dollars en 2024), OpenVLA, Octo ou RoboVLMs, qui cherchent tous à transférer les capacités des grands modèles de langage à la manipulation physique. D'autres benchmarks comme LIBERO, RoboSuite ou MetaWorld couvrent déjà l'évaluation générale des VLA, mais RoboMME se distingue par son focus explicite sur la mémoire à long horizon, un aspect jusqu'ici systématiquement sous-évalué dans ces environnements. Les prochaines étapes probables incluent l'adoption de RoboMME comme référence communautaire dans les pipelines d'évaluation des grands labs robotiques, et le développement d'architectures mémoire capables de généraliser entre catégories de tâches sans sacrifier les performances spécialisées.

RechercheActu
1 source
Simulé ou réel : robustesse des VLM au décalage de domaine en compréhension de scène robotique
3arXiv cs.RO 

Simulé ou réel : robustesse des VLM au décalage de domaine en compréhension de scène robotique

Une équipe de chercheurs a publié sur arXiv (identifiant 2506.19579, troisième révision, juin 2025) une évaluation systématique des modèles vision-langage (VLM) appliqués à la compréhension de scènes robotiques en vue unique. Le protocole expérimental cible des scènes de table captées par un bras manipulateur, avec un cadre de domain shift contrôlé : chaque outil réel est mis en parallèle avec un homologue imprimé en 3D, géométriquement identique mais différent en texture, couleur et matière. Plusieurs VLM déployables localement, parmi les plus récents du domaine, ont été soumis à un benchmark multicritères axé sur l'alignement sémantique et l'ancrage factuel des descriptions textuelles générées. Les résultats montrent que les VLM décrivent correctement les objets courants du monde réel, mais que leurs performances se dégradent sensiblement dès que ces objets sont remplacés par des pièces imprimées en 3D, malgré une forme structurelle identique. Le constat a une portée directe pour les intégrateurs robotiques et les équipes industrielles qui s'appuient sur des VLM pour la perception de scènes. En atelier, les gabarits, les pièces de fixation et les prototypes imprimés en 3D sont omniprésents : un système de perception qui confond la texture avec la fonction risque de produire des descriptions erronées, voire de déclencher de mauvaises instructions de préhension. Plus préoccupant encore, les chercheurs démontrent que les métriques d'évaluation standard présentent des vulnérabilités critiques : certaines ne détectent pas le domain shift, d'autres récompensent des descriptions linguistiquement fluides mais factuellement incorrectes. Ce double problème, défaillance du modèle et défaillance de la métrique simultanément, rend l'échec invisible pour les équipes qui s'appuient sur les indicateurs habituels. Cette publication s'inscrit dans un courant croissant de travaux questionnant la maturité des modèles fondationnels pour les applications physiques. Le sim-to-real gap est bien documenté dans la littérature robotique, mais ce papier pointe un défi distinct : le real-to-real domain shift entre catégories de matériaux. Alors que les pipelines robotiques modernes, comme ceux qui sous-tendent GR00T N2 (NVIDIA), Pi-0 (Physical Intelligence) ou les architectures VLA en général, intègrent de plus en plus des composants vision-langage, l'étude souligne que les protocoles d'évaluation doivent évoluer en parallèle. Les auteurs appellent à des architectures plus robustes et à des protocoles de validation adaptés aux contraintes physiques du déploiement réel, sans toutefois proposer de solution concrète dans ce travail préliminaire.

RecherchePaper
1 source
Trinity : segmentation unifiée de terrain et sémantique en milieux extérieurs non structurés via données synthétiques
4arXiv cs.RO 

Trinity : segmentation unifiée de terrain et sémantique en milieux extérieurs non structurés via données synthétiques

Des chercheurs ont soumis sur arXiv (arXiv:2605.27644v1) Trinity, une architecture transformer qui effectue simultanément deux tâches de segmentation visuelle pour robots mobiles en extérieur non structuré : la segmentation sémantique classique par classes prédéfinies, et une segmentation de terrain dite "class-agnostic", fondée uniquement sur l'apparence visuelle, sans étiquettes sémantiques ni scores de franchissabilité liés à un robot particulier. Pour entraîner ce réseau à grande échelle, les auteurs ont étendu le simulateur OAISYS et créé RUGDSynth, un dataset synthétique inspiré du benchmark RUGD avec des échantillons de terrain sans annotation de classe. Ils publient également EXTerra, un dataset réel annoté avec les deux types de labels. Les expériences confirment la faisabilité de l'approche en conditions extérieures complexes. Le code et les datasets seront disponibles après la revue par les pairs. Le problème que Trinity cible est la portabilité des systèmes de franchissabilité (traversability estimation). Les méthodes actuelles requièrent des annotations spécifiques au robot ou des mappings de classes liés à ses capacités mécaniques : dès que le robot change de charge utile, de cinématique ou de mode de locomotion, toute l'annotation est à refaire, un coût élevé pour les intégrateurs. En apprenant des priors visuels de terrain indépendants du robot, Trinity vise un module de perception réutilisable entre plateformes, applicable à la planification de mission, à l'odométrie visuelle ou à la classification de zones franchissables, sans réentraînement complet à chaque nouveau déploiement. La traversabilité en extérieur est un défi structurant de la robotique mobile depuis plus d'une décennie : des plateformes comme ANYmal (ANYbotics) ou Spot (Boston Dynamics) se heurtent en permanence à la variabilité des terrains naturels. RUGD, qui a inspiré RUGDSynth, est un benchmark académique sur la navigation tout-terrain largement utilisé dans la communauté. Le recours à des données synthétiques pour pallier le manque d'annotations réelles suit une tendance forte dans le domaine, avec des limites bien documentées sur le domain gap sim-to-real. Ce pré-print étant encore en cours de revue, les résultats présentés restent à confirmer par la communauté scientifique.

RecherchePaper
1 source