RecherchearXiv cs.RO2h

GO : le grand jeu de données multimodal sur la nature en plein air

1 source couvre ce sujet·Source originale ↗·

Résumé IASource uniqueImpact UE

Le laboratoire Unmanned Systems Lab a publié en janvier 2025 le dataset GO (Great Outdoors), une ressource d'entraînement multimodale annotée destinée à la robotique de terrain en environnements non structurés. Sa caractéristique principale est la combinaison de six modalités sensorielles complémentaires, dont la caméra thermique et le radar, deux capteurs systématiquement absents des datasets off-road existants. L'ensemble est accompagné d'annotations sémantiques et de traces GPS, ce qui permet de l'exploiter pour l'entraînement à la segmentation sémantique, la détection d'objets et le SLAM (localisation et cartographie simultanées). L'article, référencé arXiv:2501.19274 et en troisième révision, ne précise pas le volume exact de données dans son abstract : la mention "large-scale" reste à vérifier dans le papier complet.

Ce dataset comble une lacune réelle dans l'écosystème de la robotique outdoor : la quasi-totalité des benchmarks off-road disponibles, RUGD, RELLIS, YCOR, se limitent aux modalités RGB et LiDAR, qui deviennent inopérantes par brouillard dense, nuit ou fumée. L'ajout du thermique et du radar ouvre la voie à des systèmes de perception capables d'opérer en conditions dégradées, un prérequis pour les applications d'exploration autonome en milieux naturels, la robotique de secours post-catastrophe ou les véhicules tout-terrain militaires et civils. Pour les équipes de recherche et les intégrateurs industriels, disposer de données annotées multi-capteurs dans ces conditions représente un accélérateur concret pour le développement de modèles de perception robustes, sans avoir à monter leurs propres campagnes de collecte coûteuses.

L'Unmanned Systems Lab, rattaché à une université américaine (Texas A&M University), est spécialisé depuis plusieurs années dans la robotique de terrain non structurée et la navigation autonome en extérieur. Le secteur compte quelques acteurs positionnés sur des niches proches : en France, aucun équivalent direct n'est recensé sur ce segment précis, bien que des laboratoires comme le LAAS-CNRS travaillent sur la navigation outdoor. Côté datasets concurrents, Boreas (University of Toronto) couvre des conditions hivernales avec radar et LiDAR, et le dataset TartanDrive (CMU) se concentre sur la dynamique off-road, GO se distingue par l'inclusion du thermique comme modalité de premier rang. Le dataset est téléchargeable sur unmannedlab.org ; aucune roadmap ni partenariat industriel annoncé à ce stade.

Impact France/UE

Les équipes françaises travaillant sur la robotique outdoor (LAAS-CNRS notamment) peuvent exploiter ce dataset open-access pour accélérer leurs travaux sur la perception en conditions dégradées, sans monter leurs propres campagnes de collecte multi-capteurs coûteuses.

Dans nos dossiers

arXiv cs.RO

À lire aussi

1arXiv cs.RO

EgoWalk : un jeu de données multimodal pour la navigation robotique en conditions réelles

Une équipe de chercheurs a publié EgoWalk, un dataset multimodal de 50 heures de navigation humaine destiné à entraîner des algorithmes de navigation robotique en conditions réelles. Les données ont été collectées dans une grande variété d'environnements intérieurs et extérieurs, sur plusieurs saisons et sites géographiques différents. Le dataset comprend les données brutes ainsi qu'un format prêt pour l'apprentissage par imitation (Imitation Learning), accompagné de pipelines automatisés générant deux types de sous-datasets dérivés : des annotations d'objectifs en langage naturel et des masques de segmentation de traversabilité. L'ensemble des pipelines de traitement et la description de la plateforme matérielle utilisée pour la collecte sont publiés en open source. L'intérêt principal d'EgoWalk réside dans la rareté des datasets de navigation en conditions non contrôlées, à grande échelle et couvrant plusieurs saisons. La majorité des systèmes de navigation robotique actuels souffrent d'un écart sim-to-real persistant, faute de données réelles suffisamment diversifiées. En proposant simultanément des annotations langage naturel et des masques de traversabilité générés automatiquement, EgoWalk vise à réduire le coût de labellisation manuelle qui freine le développement de modèles vision-langage-action (VLA) pour la navigation outdoor. La publication open source des pipelines permet aux équipes de réplication de reconstruire des datasets similaires sur leur propre plateforme, ce qui est un signal positif pour la reproductibilité dans le domaine. La navigation autonome en environnements non structurés reste l'un des défis centraux de la robotique mobile, que ce soit pour les robots de livraison, les plateformes de surveillance ou les assistants mobiles. EgoWalk s'inscrit dans un mouvement plus large de constitution de datasets ego-centriques, aux côtés d'initiatives comme SCAND (UT Austin) ou des travaux de Boston Dynamics et de Google DeepMind sur la navigation en extérieur. Le fait que les données soient collectées du point de vue humain, plutôt que depuis un robot, soulève la question du transfert de domaine, que les auteurs reconnaissent implicitement en proposant des benchmarks et études de diversité. Les prochaines étapes naturelles seraient la validation sur des plateformes robotiques réelles et l'intégration dans des architectures de type foundation model pour la navigation.

RechercheActu

1 source

2arXiv cs.RO

Évaluation multimodale de la perception robotique en environnements naturels

Des chercheurs du CSIRO (Commonwealth Scientific and Industrial Research Organisation, Australie) ont publié en juin 2026 le benchmark WildCross, un jeu de données multi-modal destiné à évaluer les systèmes de perception robotique dans des environnements naturels non structurés. Le dataset comprend plus de 476 000 frames RGB séquentielles annotées avec profondeur semi-dense, normales de surface, pose 6DoF précise et sous-cartes lidar denses synchronisées. WildCross cible deux tâches clés : la reconnaissance de lieu (place recognition) et l'estimation de profondeur métrique, deux briques fondamentales pour la navigation autonome en extérieur. L'article, disponible en preprint sur arXiv (2606.11563), constitue une extension d'une publication précédente avec un focus particulier sur les expériences d'estimation de profondeur. Le benchmark révèle une faiblesse structurelle des modèles de vision actuels, notamment les vision foundation models (type DINOv2, SAM ou DepthAnything) : entraînés massivement sur des données urbaines structurées (routes, bâtiments, feux de signalisation), ils se dégradent significativement face aux textures répétitives, aux variations d'éclairage et à l'absence de repères géométriques nets caractéristiques des milieux forestiers, agricoles ou montagneux. Pour les intégrateurs en robotique de terrain (agriculture de précision, inspection d'infrastructures, opérations de recherche et sauvetage), cela confirme ce que les praticiens suspectent depuis longtemps : les benchmarks urbains comme KITTI ou NYUv2 ne prédisent pas les performances réelles sur le terrain. Le CSIRO Robotics est l'un des principaux laboratoires mondiaux sur la robotique en environnements difficiles, notamment via ses contributions au challenge DARPA Subterranean et au développement du robot Spot dans des mines australiennes. WildCross entre en compétition directe avec des initiatives comme RUGD, RELLIS ou le benchmark TartanAir sur la question du sim-to-real en outdoor, mais se distingue par l'intégration de lidar dense synchronisé permettant une vérité terrain de profondeur plus fiable. Le dataset et le code sont accessibles publiquement via csiro-robotics.github.io/WildCross. Les prochaines étapes annoncées incluent l'évaluation de modèles VLA (vision-language-action) sur ce corpus, ce qui pourrait élargir la portée du benchmark au-delà de la seule perception passive.

UELes équipes européennes en robotique de terrain (agriculture de précision, inspection d'infrastructures) peuvent utiliser ce benchmark open-source pour évaluer objectivement leurs modèles de perception en environnement non structuré, confirmant que les référentiels urbains classiques ne prédisent pas les performances réelles sur le terrain.

RecherchePaper

1 source

3arXiv cs.RO

ForEnt : un jeu de données multimodal pour caractériser le piégeage des robots quadrupèdes en milieu forestier

Des chercheurs ont publié ForEnt, un dataset multimodal destiné à caractériser les encastrements de robots quadrupèdes en milieu forestier. Collecté avec le Unitree Go2, un quadrupède d'entrée de gamme, sur huit sites du Southampton Common Woodlands au Royaume-Uni, le jeu de données couvre 1,7 km de traversées réparties en 11 séquences, au cours desquelles 69 événements d'encastrement ont été enregistrés. Un encastrement désigne une situation où les pattes du robot se retrouvent piégées dans des lianes, des racines ou d'autres végétaux, provoquant une perte de stabilité et un risque de chute. ForEnt combine des flux temporellement synchronisés : images RGB-D, nuages de points LiDAR, données proprioceptives et vidéo en vue tierce-personne. Chaque événement est labellisé, ce qui en fait un benchmark reproductible pour évaluer des stratégies de détection d'encastrement. Les robots quadrupèdes sont de plus en plus déployés pour la surveillance écologique en forêt, mais leur autonomie est régulièrement interrompue par ces incidents mécaniques, qui nécessitent une intervention humaine et risquent d'endommager le matériel. L'absence d'un dataset dédié à ces modes de défaillance spécifiques freinait le développement d'algorithmes robustes. ForEnt comble ce manque : une base de données multimodale structurée permet désormais d'entraîner et d'évaluer des méthodes de détection in situ. Pour les chercheurs en navigation autonome, c'est une brique essentielle pour que des robots identifient proactivement les zones à risque et adaptent leur locomotion, condition nécessaire à des déploiements sans supervision prolongée dans des environnements non structurés. Le Unitree Go2 est l'un des quadrupèdes les plus accessibles du marché (environ 2 700 dollars), ce qui explique son adoption croissante en recherche académique. La robotique forestière reste un segment de niche mais en expansion, porté par des besoins croissants en monitoring environnemental : inventaires d'espèces, suivi d'incendies, cartographie de biodiversité. Les plateformes plus robustes comme Boston Dynamics Spot ou ANYbotics ANYmal restent hors de portée budgétaire pour la plupart des équipes académiques, ce qui rend les travaux sur des systèmes low-cost d'autant plus stratégiques. Les suites naturelles de ForEnt incluent l'entraînement de modèles de détection en temps réel et leur intégration dans des politiques de locomotion adaptative.

RecherchePaper

1 source

4arXiv cs.RO

MiniVLA-Nav v1 : un jeu de données de simulation multi-scènes pour la navigation robotique guidée par le langage

MiniVLA-Nav v1 est un dataset de simulation publié sur HuggingFace pour la navigation robotique conditionnée par le langage naturel, tâche désignée LCOA (Language-Conditioned Object Approach). Un robot différentiel NVIDIA Nova Carter reçoit une instruction courte et doit atteindre l'objet nommé en s'arrêtant à moins d'un mètre. Le dataset couvre 1 174 épisodes dans quatre scènes Isaac Sim photoréalistes (bureau, hôpital, entrepôt complet, entrepôt à étagères multiples), chacun annoté avec images RGB 640x640, cartes de profondeur métriques float32, masques de segmentation d'instance et labels d'action à 60 Hz (commandes continues v/omega et tokenisation 7x7 via contrôleur proportionnel visuel). Trois tiers de distance d'initialisation (1,5-3,5 m, 3,5-7,0 m, et lointain curatés) assurent la diversité des trajectoires, avec une corrélation Pearson r=0,94 entre distance de départ et longueur. Douze catégories d'objets et 30 templates (18 d'entraînement, 12 hors distribution) structurent cinq splits d'évaluation. La rareté de données annotées pour entraîner des modèles VLA (Vision-Language-Action) orientés navigation reste un frein reconnu dans la communauté. MiniVLA-Nav v1 y répond avec un benchmark à cinq axes : précision en distribution, robustesse aux paraphrases et généralisation hors distribution sur de nouvelles catégories. La tâche LCOA isole délibérément le grounding linguistique, c'est-à-dire la capacité à relier une instruction verbale à un objet physique, sans mélanger avec la planification globale de chemin. Les labels moteurs continus à 60 Hz offrent une supervision plus fine que la majorité des datasets de navigation verbale existants, souvent limités à des waypoints discrets. La compatibilité native avec l'écosystème Isaac Sim et la plateforme Nova Carter facilite un éventuel transfert sim-to-real vers des robots physiques en milieu industriel ou hospitalier. Ce travail s'inscrit dans la lignée de R2R et REVERIE pour la navigation à instruction verbale, mais avec un focus bas niveau peu commun. La publication, signée Ali Bustami et déposée sur arXiv en mai 2025 (2605.00397), ne présente pas encore de modèle baseline entraîné sur ces données, ce qui en limite la portée empirique immédiate : c'est un dataset, pas une preuve de performance. L'écosystème concurrent inclut Meta AI avec Habitat, Allen AI avec AI2-THOR et plusieurs benchmarks récents de Google DeepMind, mais aucun ne cible spécifiquement le LCOA avec commandes continues à 60 Hz sur plateforme NVIDIA. Le dataset est librement accessible sur HuggingFace (alibustami/miniVLA-Nav), en attente d'un modèle VLA de référence et d'expériences de transfert sim-to-real sur robot physique.

RechercheOpinion

1 source