ForEnt : un jeu de données multimodal pour…

EgoWalk : un jeu de données multimodal pour la navigation robotique en conditions réelles

44

1arXiv cs.RO

EgoWalk : un jeu de données multimodal pour la navigation robotique en conditions réelles

Une équipe de chercheurs a publié EgoWalk, un dataset multimodal de 50 heures de navigation humaine destiné à entraîner des algorithmes de navigation robotique en conditions réelles. Les données ont été collectées dans une grande variété d'environnements intérieurs et extérieurs, sur plusieurs saisons et sites géographiques différents. Le dataset comprend les données brutes ainsi qu'un format prêt pour l'apprentissage par imitation (Imitation Learning), accompagné de pipelines automatisés générant deux types de sous-datasets dérivés : des annotations d'objectifs en langage naturel et des masques de segmentation de traversabilité. L'ensemble des pipelines de traitement et la description de la plateforme matérielle utilisée pour la collecte sont publiés en open source. L'intérêt principal d'EgoWalk réside dans la rareté des datasets de navigation en conditions non contrôlées, à grande échelle et couvrant plusieurs saisons. La majorité des systèmes de navigation robotique actuels souffrent d'un écart sim-to-real persistant, faute de données réelles suffisamment diversifiées. En proposant simultanément des annotations langage naturel et des masques de traversabilité générés automatiquement, EgoWalk vise à réduire le coût de labellisation manuelle qui freine le développement de modèles vision-langage-action (VLA) pour la navigation outdoor. La publication open source des pipelines permet aux équipes de réplication de reconstruire des datasets similaires sur leur propre plateforme, ce qui est un signal positif pour la reproductibilité dans le domaine. La navigation autonome en environnements non structurés reste l'un des défis centraux de la robotique mobile, que ce soit pour les robots de livraison, les plateformes de surveillance ou les assistants mobiles. EgoWalk s'inscrit dans un mouvement plus large de constitution de datasets ego-centriques, aux côtés d'initiatives comme SCAND (UT Austin) ou des travaux de Boston Dynamics et de Google DeepMind sur la navigation en extérieur. Le fait que les données soient collectées du point de vue humain, plutôt que depuis un robot, soulève la question du transfert de domaine, que les auteurs reconnaissent implicitement en proposant des benchmarks et études de diversité. Les prochaines étapes naturelles seraient la validation sur des plateformes robotiques réelles et l'intégration dans des architectures de type foundation model pour la navigation.

RechercheActu

1 source

GrandTour : un jeu de données de robotique à pattes en conditions réelles pour la perception multimodale et l'estimation d'état

44

2arXiv cs.RO

GrandTour : un jeu de données de robotique à pattes en conditions réelles pour la perception multimodale et l'estimation d'état

Des chercheurs publient GrandTour, un jeu de données massif dédié à la perception multimodale et à l'estimation d'état pour robots quadrupèdes, disponible sur grand-tour.leggedrobotics.com au format HuggingFace (indépendant de ROS) ainsi qu'en formats ROS. La plateforme utilisée est un ANYmal-D d'ANYbotics équipé de la charge utile capteurs Boxi, combinant LiDAR rotatif, plusieurs caméras RGB aux caractéristiques complémentaires, capteurs proprioceptifs et caméras de profondeur stéréo, le tout synchronisé temporellement. Les données ont été collectées sur des sites très variés : environnements alpins, forêts, bâtiments démolis et zones urbaines, couvrant une large gamme d'échelles, de conditions d'éclairage et de météo. Point clé pour la fiabilité scientifique : les trajectoires de référence (ground truth) proviennent de GNSS RTK par satellite et d'une station totale Leica Geosystems, offrant une précision de localisation bien supérieure aux méthodes d'estimation embarquées classiques. Selon les auteurs, il s'agit du plus grand jeu de données en accès libre jamais publié pour la robotique à pattes. Ce type de ressource comble un manque criant dans la recherche en robotique légère : jusqu'ici, aucun jeu de données public à grande échelle ne permettait de développer et de comparer rigoureusement des algorithmes de SLAM, d'estimation d'état et de fusion de capteurs pour des quadrupèdes évoluant en conditions réelles, hors laboratoire. Pour les équipes travaillant sur la navigation autonome de robots à pattes, en particulier dans des environnements non structurés (chantiers, sites industriels accidentés, terrains extérieurs), GrandTour offre un benchmark commun et une vérité terrain de précision géodésique, rare dans ce domaine. C'est un signal que la communauté cherche à standardiser l'évaluation des systèmes de perception embarqués, plutôt que de se fier à des démonstrations isolées difficiles à reproduire. Le projet s'inscrit dans la lignée des travaux du Robotic Systems Lab, à l'origine de la plateforme ANYmal, aujourd'hui commercialisée par ANYbotics, acteur suisse reconnu de la robotique quadrupède industrielle aux côtés de Boston Dynamics (Spot) et Unitree. La publication constitue une mise à jour (version 3) d'un article déposé sur arXiv sous la référence 2602.18164. Les auteurs annoncent la mise à disposition d'outils et de ressources de démonstration pour faciliter l'adoption du jeu de données par la communauté SLAM et apprentissage multimodal, sans toutefois préciser de calendrier pour d'éventuelles extensions futures du corpus.

UECe jeu de données en accès libre, issu du Robotic Systems Lab (ETH Zurich) et d'ANYbotics (Suisse), constitue une ressource directement utile aux équipes de recherche françaises et européennes travaillant sur le SLAM et l'estimation d'état pour robots a pattes.

RecherchePaper

1 source

MUSON : jeu de données multimodal orienté raisonnement pour la navigation socialement conforme en milieu urbain

41

3arXiv cs.RO

MUSON : jeu de données multimodal orienté raisonnement pour la navigation socialement conforme en milieu urbain

Une équipe de recherche publie MUSON, un nouveau jeu de données multimodal destiné à entraîner les robots et systèmes de navigation autonome à respecter les normes sociales dans les espaces partagés avec des humains. Le corpus comprend 10 110 échantillons égocentriques (captés à la première personne, comme le ferait un robot ou un piéton) collectés dans des scènes intérieures et extérieures variées. Chaque échantillon est annoté selon un cadre structuré en cinq étapes de raisonnement en chaîne : perception, prédiction, raisonnement, action et explication, avec un espace de décision standardisé à six actions possibles et une modélisation explicite des contraintes physiques statiques (obstacles fixes, rétrécissements de passage, etc.). Les chercheurs ont évalué dix modèles vision-langage (VLM) de taille petite à moyenne sur ce benchmark. Qwen3-VL-8B, développé par Alibaba, arrive en tête avec une précision d'action de 0,7765, un score Macro-F1 de 0,7490 et le taux de collision le plus bas parmi les modèles testés, à 0,0609. Le dataset est publié en accès libre sur GitHub sous la version 1.0. Cette publication répond à un manque identifié dans la recherche en navigation sociale : jusqu'ici, aucun jeu de données à grande échelle ne combinait annotations égocentriques et raisonnement structuré pour ce cas d'usage précis. Les modèles vision-langage génériques, même performants sur des tâches visuelles classiques, peinent à interpréter finement les normes sociales implicites (céder le passage, anticiper une trajectoire piétonne, respecter une distance de confort) sans fine-tuning spécifique. En fournissant un benchmark reproductible avec des métriques comparables, MUSON offre aux équipes de recherche en robotique mobile et en véhicules autonomes de proximité un outil pour évaluer objectivement leurs modèles, plutôt que de se fier à des démonstrations ponctuelles souvent peu représentatives des conditions réelles. Le projet s'inscrit dans la lignée des travaux récents cherchant à exploiter les VLM comme couche de raisonnement de haut niveau pour la navigation robotique, en complément des piles de perception et de contrôle bas niveau classiques. Contrairement à une annonce produit, il s'agit ici d'une contribution académique dont la valeur dépendra de son adoption par la communauté comme référence d'évaluation, à l'image d'autres benchmarks ayant structuré des sous-domaines de la robotique ces dernières années. Le code et les données étant publics, les prochaines étapes attendues sont des extensions du dataset et des comparaisons avec des modèles plus volumineux ou spécialisés.

RecherchePaper

1 source

AssemLM : un modèle de langage multimodal pour le raisonnement spatial en assemblage robotique

44

4arXiv cs.RO

AssemLM : un modèle de langage multimodal pour le raisonnement spatial en assemblage robotique

Des chercheurs ont publié AssemLM (arXiv:2604.08983), un modèle multimodal de raisonnement spatial pour la robotique d'assemblage. Le système fusionne trois sources (manuels d'assemblage, nuages de points 3D, instructions textuelles) pour prédire des poses 6D, c'est-à-dire la position et l'orientation complètes d'une pièce dans l'espace tridimensionnel. Un encodeur de nuages de points spécialisé extrait des caractéristiques géométriques et rotationnelles fines, transmises ensuite à un LLM multimodal pour le raisonnement spatial de haut niveau. Les auteurs publient également AssemBench, un benchmark de plus de 900 000 échantillons multimodaux avec annotations de poses 6D précises, étendant l'évaluation classique du grounding 2D à l'inférence géométrique 3D complète. Des tests sur robot réel valident des performances à l'état de l'art sur des tâches d'assemblage multi-étapes en conditions réelles. Le verrou ciblé est central en manipulation fine industrielle: les VLMs courants opèrent sur des images 2D et peinent à raisonner sur la géométrie précise qu'exigent le vissage, l'emboîtement ou l'alignement de composants au sous-millimètre. En intégrant les nuages de points comme modalité native, AssemLM raisonne sur l'orientation exacte d'une pièce, pas seulement sur sa présence dans le champ visuel. Pour un intégrateur ou une équipe R&D en automatisation industrielle, prédire des poses 6D depuis un manuel PDF et une capture 3D ouvre la voie à des cellules d'assemblage reconfigurables sans reprogrammation manuelle entre chaque référence produit. AssemBench, avec ses 900 000 échantillons annotés, comble par ailleurs un manque d'infrastructure de comparaison rigoureuse dans ce sous-domaine. Le raisonnement spatial est un défi persistant pour les modèles de vision-langage, majoritairement entraînés sur des tâches 2D (captioning, grounding d'objets, VQA). Les modèles VLA (Vision-Language-Action) récents, comme pi0 de Physical Intelligence, OpenVLA ou les travaux de Google DeepMind sur RoboVLMs, progressent sur la manipulation généraliste, mais l'assemblage industriel structuré avec ses contraintes de précision sub-millimétrique reste peu adressé par ces approches. AssemLM se positionne dans cette niche en ciblant explicitement les tâches avec documentation formalisée (manuels, nomenclatures). Les auteurs annoncent la mise à disposition publique du code, des modèles et du dataset AssemBench, point d'entrée potentiel pour la communauté académique et les industriels souhaitant affiner le modèle sur leurs propres composants. Aucun partenaire industriel ni déploiement commercial n'est mentionné: il s'agit à ce stade d'une publication de recherche, sans produit ni pilote planifié.

UELa publication en open-source d'AssemBench (900 000 échantillons annotés 6D) constitue une ressource d'entraînement et d'évaluation directement exploitable par les labos européens travaillant sur la manipulation industrielle précise, sans acteur FR/EU impliqué à ce stade.

RechercheOpinion

1 source

ForEnt : un jeu de données multimodal pour caractériser le piégeage des robots quadrupèdes en milieu forestier

À lire aussi

EgoWalk : un jeu de données multimodal pour la navigation robotique en conditions réelles

GrandTour : un jeu de données de robotique à pattes en conditions réelles pour la perception multimodale et l'estimation d'état

MUSON : jeu de données multimodal orienté raisonnement pour la navigation socialement conforme en milieu urbain

AssemLM : un modèle de langage multimodal pour le raisonnement spatial en assemblage robotique