EgoWalk : un jeu de données multimodal pour la…

GrandTour : un jeu de données de robotique à pattes en conditions réelles pour la perception multimodale et l'estimation d'état

46

1arXiv cs.RO

GrandTour : un jeu de données de robotique à pattes en conditions réelles pour la perception multimodale et l'estimation d'état

Voici l'article : Des chercheurs publient GrandTour, un jeu de données massif dédié à la perception multimodale et à l'estimation d'état pour robots quadrupèdes, disponible sur grand-tour.leggedrobotics.com au format HuggingFace (indépendant de ROS) ainsi qu'en formats ROS. La plateforme utilisée est un ANYmal-D d'ANYbotics équipé de la charge utile capteurs Boxi, combinant LiDAR rotatif, plusieurs caméras RGB aux caractéristiques complémentaires, capteurs proprioceptifs et caméras de profondeur stéréo, le tout synchronisé temporellement. Les données ont été collectées sur des sites très variés : environnements alpins, forêts, bâtiments démolis et zones urbaines, couvrant une large gamme d'échelles, de conditions d'éclairage et de météo. Point clé pour la fiabilité scientifique : les trajectoires de référence (ground truth) proviennent de GNSS RTK par satellite et d'une station totale Leica Geosystems, offrant une précision de localisation bien supérieure aux méthodes d'estimation embarquées classiques. Selon les auteurs, il s'agit du plus grand jeu de données en accès libre jamais publié pour la robotique à pattes. Ce type de ressource comble un manque criant dans la recherche en robotique légère : jusqu'ici, aucun jeu de données public à grande échelle ne permettait de développer et de comparer rigoureusement des algorithmes de SLAM, d'estimation d'état et de fusion de capteurs pour des quadrupèdes évoluant en conditions réelles, hors laboratoire. Pour les équipes travaillant sur la navigation autonome de robots à pattes, en particulier dans des environnements non structurés (chantiers, sites industriels accidentés, terrains extérieurs), GrandTour offre un benchmark commun et une vérité terrain de précision géodésique, rare dans ce domaine. C'est un signal que la communauté cherche à standardiser l'évaluation des systèmes de perception embarqués, plutôt que de se fier à des démonstrations isolées difficiles à reproduire. Le projet s'inscrit dans la lignée des travaux du Robotic Systems Lab, à l'origine de la plateforme ANYmal, aujourd'hui commercialisée par ANYbotics, acteur suisse reconnu de la robotique quadrupède industrielle aux côtés de Boston Dynamics (Spot) et Unitree. La publication constitue une mise à jour (version 3) d'un article déposé sur arXiv sous la référence 2602.18164. Les auteurs annoncent la mise à disposition d'outils et de ressources de démonstration pour faciliter l'adoption du jeu de données par la communauté SLAM et apprentissage multimodal, sans toutefois préciser de calendrier pour d'éventuelles extensions futures du corpus.

UECe jeu de donnees en acces libre, issu du Robotic Systems Lab (ETH Zurich) et d'ANYbotics (Suisse), constitue une ressource directement utile aux equipes de recherche francaises et europeennes travaillant sur le SLAM et l'estimation d'etat pour robots a pattes.

RecherchePaper

1 source

MUSON : jeu de données multimodal orienté raisonnement pour la navigation socialement conforme en milieu urbain

42

2arXiv cs.RO

MUSON : jeu de données multimodal orienté raisonnement pour la navigation socialement conforme en milieu urbain

Une équipe de recherche publie MUSON, un nouveau jeu de données multimodal destiné à entraîner les robots et systèmes de navigation autonome à respecter les normes sociales dans les espaces partagés avec des humains. Le corpus comprend 10 110 échantillons égocentriques (captés à la première personne, comme le ferait un robot ou un piéton) collectés dans des scènes intérieures et extérieures variées. Chaque échantillon est annoté selon un cadre structuré en cinq étapes de raisonnement en chaîne : perception, prédiction, raisonnement, action et explication, avec un espace de décision standardisé à six actions possibles et une modélisation explicite des contraintes physiques statiques (obstacles fixes, rétrécissements de passage, etc.). Les chercheurs ont évalué dix modèles vision-langage (VLM) de taille petite à moyenne sur ce benchmark. Qwen3-VL-8B, développé par Alibaba, arrive en tête avec une précision d'action de 0,7765, un score Macro-F1 de 0,7490 et le taux de collision le plus bas parmi les modèles testés, à 0,0609. Le dataset est publié en accès libre sur GitHub sous la version 1.0. Cette publication répond à un manque identifié dans la recherche en navigation sociale : jusqu'ici, aucun jeu de données à grande échelle ne combinait annotations égocentriques et raisonnement structuré pour ce cas d'usage précis. Les modèles vision-langage génériques, même performants sur des tâches visuelles classiques, peinent à interpréter finement les normes sociales implicites (céder le passage, anticiper une trajectoire piétonne, respecter une distance de confort) sans fine-tuning spécifique. En fournissant un benchmark reproductible avec des métriques comparables, MUSON offre aux équipes de recherche en robotique mobile et en véhicules autonomes de proximité un outil pour évaluer objectivement leurs modèles, plutôt que de se fier à des démonstrations ponctuelles souvent peu représentatives des conditions réelles. Le projet s'inscrit dans la lignée des travaux récents cherchant à exploiter les VLM comme couche de raisonnement de haut niveau pour la navigation robotique, en complément des piles de perception et de contrôle bas niveau classiques. Contrairement à une annonce produit, il s'agit ici d'une contribution académique dont la valeur dépendra de son adoption par la communauté comme référence d'évaluation, à l'image d'autres benchmarks ayant structuré des sous-domaines de la robotique ces dernières années. Le code et les données étant publics, les prochaines étapes attendues sont des extensions du dataset et des comparaisons avec des modèles plus volumineux ou spécialisés.

RecherchePaper

1 source

MiniVLA-Nav v1 : un jeu de données de simulation multi-scènes pour la navigation robotique guidée par le langage

37

3arXiv cs.RO

MiniVLA-Nav v1 : un jeu de données de simulation multi-scènes pour la navigation robotique guidée par le langage

MiniVLA-Nav v1 est un dataset de simulation publié sur HuggingFace pour la navigation robotique conditionnée par le langage naturel, tâche désignée LCOA (Language-Conditioned Object Approach). Un robot différentiel NVIDIA Nova Carter reçoit une instruction courte et doit atteindre l'objet nommé en s'arrêtant à moins d'un mètre. Le dataset couvre 1 174 épisodes dans quatre scènes Isaac Sim photoréalistes (bureau, hôpital, entrepôt complet, entrepôt à étagères multiples), chacun annoté avec images RGB 640x640, cartes de profondeur métriques float32, masques de segmentation d'instance et labels d'action à 60 Hz (commandes continues v/omega et tokenisation 7x7 via contrôleur proportionnel visuel). Trois tiers de distance d'initialisation (1,5-3,5 m, 3,5-7,0 m, et lointain curatés) assurent la diversité des trajectoires, avec une corrélation Pearson r=0,94 entre distance de départ et longueur. Douze catégories d'objets et 30 templates (18 d'entraînement, 12 hors distribution) structurent cinq splits d'évaluation. La rareté de données annotées pour entraîner des modèles VLA (Vision-Language-Action) orientés navigation reste un frein reconnu dans la communauté. MiniVLA-Nav v1 y répond avec un benchmark à cinq axes : précision en distribution, robustesse aux paraphrases et généralisation hors distribution sur de nouvelles catégories. La tâche LCOA isole délibérément le grounding linguistique, c'est-à-dire la capacité à relier une instruction verbale à un objet physique, sans mélanger avec la planification globale de chemin. Les labels moteurs continus à 60 Hz offrent une supervision plus fine que la majorité des datasets de navigation verbale existants, souvent limités à des waypoints discrets. La compatibilité native avec l'écosystème Isaac Sim et la plateforme Nova Carter facilite un éventuel transfert sim-to-real vers des robots physiques en milieu industriel ou hospitalier. Ce travail s'inscrit dans la lignée de R2R et REVERIE pour la navigation à instruction verbale, mais avec un focus bas niveau peu commun. La publication, signée Ali Bustami et déposée sur arXiv en mai 2025 (2605.00397), ne présente pas encore de modèle baseline entraîné sur ces données, ce qui en limite la portée empirique immédiate : c'est un dataset, pas une preuve de performance. L'écosystème concurrent inclut Meta AI avec Habitat, Allen AI avec AI2-THOR et plusieurs benchmarks récents de Google DeepMind, mais aucun ne cible spécifiquement le LCOA avec commandes continues à 60 Hz sur plateforme NVIDIA. Le dataset est librement accessible sur HuggingFace (alibustami/miniVLA-Nav), en attente d'un modèle VLA de référence et d'expériences de transfert sim-to-real sur robot physique.

RechercheOpinion

1 source

45

4arXiv cs.RO

RoboDesign1M : un jeu de données à grande échelle pour la compréhension de la conception robotique

Le dataset RoboDesign1M rassemble un million d'échantillons multimodaux consacrés à la conception de robots, extraits automatiquement de la littérature scientifique couvrant plusieurs domaines de la robotique. Les auteurs ont mis au point un pipeline de collecte semi-automatisé permettant d'agréger efficacement des données diverses (texte et images) issues de publications existantes, plutôt que de les créer manuellement. Pour valider l'utilité du corpus, l'équipe a mené des expériences sur trois tâches distinctes : la génération d'images de conception robotique, la réponse à des questions visuelles portant sur des schémas de conception, et la recherche d'images de conception à partir de requêtes. Les résultats montrent que ce jeu de données constitue un nouveau benchmark exigeant pour ces tâches de compréhension du design. Le dataset sera rendu public, avec une page de projet dédiée (airvlab.github.io/robotdesign1m). Il s'agit d'une version mise à jour d'un article déposé sur arXiv (2503.06796), initialement publié en mars puis révisé. Ce travail cible un goulot d'étranglement méthodologique plutôt qu'un produit commercial : la conception mécanique d'un robot reste un processus long, coûteux et dépendant d'une expertise rare, et les modèles de fondation qui pourraient l'automatiser manquaient jusqu'ici de données d'entraînement à grande échelle sur ce sujet précis. En fournissant un million d'exemples annotés, RoboDesign1M ouvre la voie à des assistants IA capables de proposer des pistes de conception, de retrouver des schémas existants à partir d'une description textuelle, ou de générer des visualisations de composants robotiques. Pour les laboratoires de recherche et les équipes R&D en robotique, c'est surtout un instrument de mesure standardisé qui manquait pour comparer objectivement les approches de génération et de compréhension de designs. Le projet s'inscrit dans la tendance plus large d'application des modèles de fondation multimodaux à des domaines d'ingénierie spécialisés, après leur succès en vision et en langage naturel. La rareté des jeux de données de conception robotique freinait jusqu'à présent ce transfert, contrairement à des domaines comme la manipulation ou la navigation qui disposent déjà de corpus massifs. La mise à disposition publique annoncée par les auteurs devrait permettre à d'autres équipes de recherche de reproduire et d'étendre ces travaux, sans toutefois que des applications commerciales concrètes ou des partenariats industriels n'aient été mentionnés à ce stade.

RecherchePaper

1 source

EgoWalk : un jeu de données multimodal pour la navigation robotique en conditions réelles

À lire aussi

GrandTour : un jeu de données de robotique à pattes en conditions réelles pour la perception multimodale et l'estimation d'état

MUSON : jeu de données multimodal orienté raisonnement pour la navigation socialement conforme en milieu urbain

MiniVLA-Nav v1 : un jeu de données de simulation multi-scènes pour la navigation robotique guidée par le langage

RoboDesign1M : un jeu de données à grande échelle pour la compréhension de la conception robotique