RoboCade : la collecte de données robotiques par…

47

1arXiv cs.RO

RoboDesign1M : un jeu de données à grande échelle pour la compréhension de la conception robotique

Le dataset RoboDesign1M rassemble un million d'échantillons multimodaux consacrés à la conception de robots, extraits automatiquement de la littérature scientifique couvrant plusieurs domaines de la robotique. Les auteurs ont mis au point un pipeline de collecte semi-automatisé permettant d'agréger efficacement des données diverses (texte et images) issues de publications existantes, plutôt que de les créer manuellement. Pour valider l'utilité du corpus, l'équipe a mené des expériences sur trois tâches distinctes : la génération d'images de conception robotique, la réponse à des questions visuelles portant sur des schémas de conception, et la recherche d'images de conception à partir de requêtes. Les résultats montrent que ce jeu de données constitue un nouveau benchmark exigeant pour ces tâches de compréhension du design. Le dataset sera rendu public, avec une page de projet dédiée (airvlab.github.io/robotdesign1m). Il s'agit d'une version mise à jour d'un article déposé sur arXiv (2503.06796), initialement publié en mars puis révisé. Ce travail cible un goulot d'étranglement méthodologique plutôt qu'un produit commercial : la conception mécanique d'un robot reste un processus long, coûteux et dépendant d'une expertise rare, et les modèles de fondation qui pourraient l'automatiser manquaient jusqu'ici de données d'entraînement à grande échelle sur ce sujet précis. En fournissant un million d'exemples annotés, RoboDesign1M ouvre la voie à des assistants IA capables de proposer des pistes de conception, de retrouver des schémas existants à partir d'une description textuelle, ou de générer des visualisations de composants robotiques. Pour les laboratoires de recherche et les équipes R&D en robotique, c'est surtout un instrument de mesure standardisé qui manquait pour comparer objectivement les approches de génération et de compréhension de designs. Le projet s'inscrit dans la tendance plus large d'application des modèles de fondation multimodaux à des domaines d'ingénierie spécialisés, après leur succès en vision et en langage naturel. La rareté des jeux de données de conception robotique freinait jusqu'à présent ce transfert, contrairement à des domaines comme la manipulation ou la navigation qui disposent déjà de corpus massifs. La mise à disposition publique annoncée par les auteurs devrait permettre à d'autres équipes de recherche de reproduire et d'étendre ces travaux, sans toutefois que des applications commerciales concrètes ou des partenariats industriels n'aient été mentionnés à ce stade.

RecherchePaper

1 source

RCT : un jeu de données tactiles vision-langage collecté par robot pour la généralisation du toucher

44

2arXiv cs.RO

RCT : un jeu de données tactiles vision-langage collecté par robot pour la généralisation du toucher

Des chercheurs du Faerber Lab publient RCT (Robotic Contact Tactile), un jeu de données touch-vision-language collecté par robot pour évaluer la généralisation tactile des systèmes robotiques. Le dataset comprend 29 279 frames tactiles issues de pressions complètes effectuées par un bras robotique sur 122 matériaux de référence industriels répartis en 7 catégories, enregistrées à l'aide de trois capteurs DIGIT positionnés à plusieurs points de contact. Particularité méthodologique : RCT conserve chaque pression comme une séquence de contact continue plutôt que comme des frames isolées, ce qui permet des évaluations "held-out" rigoureuses par matériau, catégorie, capteur, position de contact ou séquence entière. Les auteurs démontrent que les frames issues d'une même pression sont fortement corrélées entre elles : un découpage aléatoire des frames (frame-random split), pratique courante dans le domaine, place des observations quasi-identiques de la même interaction physique à la fois dans les jeux d'entraînement et de test. En supprimant ce chevauchement de séquences, le score de Recall@1 en correspondance tactile-texte chute de 17,7 points de pourcentage à encodeur fixe. Lorsque les matériaux sont également exclus à l'entraînement, la performance s'effondre davantage, avec un Recall@1 de seulement 25,1 % (± 6,1 %) en moyenne sur trois tirages de matériaux non vus. Le jeu de données est open source, disponible sur faerber-lab.github.io/RCT. Cette étude expose un biais méthodologique qui gonflait artificiellement les résultats publiés sur la perception tactile robotique. En analysant le split public TVL/HCT, référence largement utilisée dans le domaine, les auteurs montrent que chaque séquence de contact du jeu de test apparaît déjà dans l'entraînement : une simple recherche du plus proche voisin en pixels bruts, sans aucun apprentissage, retrouve la bonne séquence dans 98,3 % des cas. Autrement dit, les benchmarks existants mesurent en grande partie de la mémorisation plutôt que de la généralisation réelle. Pour les équipes qui développent des systèmes de manipulation tactile destinés à des environnements ouverts (tri de déchets, logistique, inspection de pièces), cela signifie que des modèles annoncés comme performants pourraient largement sous-performer face à des matériaux jamais rencontrés. L'étude montre aussi une piste corrective concrète : échantillonner uniformément les frames au sein d'une pression, plutôt que de façon aléatoire, améliore l'entraînement contrastif, et les embeddings entraînés sur RCT améliorent les probes de catégorisation sur des matériaux inédits. Le travail s'inscrit dans la lignée des jeux de données touch-vision-language existants comme TVL (Touch-Vision-Language) et HCT, dont RCT réutilise la structure de split pour illustrer le problème de fuite de données. Le choix des capteurs DIGIT, développés initialement par Meta AI et largement adoptés en recherche tactile académique, ancre RCT dans l'écosystème matériel dominant du secteur plutôt que dans des capteurs propriétaires. Aucun acteur français ou européen n'est mentionné dans cette publication, qui reste un travail de recherche fondamentale plutôt qu'une annonce produit. Les prochaines étapes attendues pour le domaine concernent l'adoption de protocoles d'évaluation "contact-sequence-aware" par les équipes travaillant sur la manipulation tactile, ainsi que l'extension de ce type de benchmark held-out-material à d'autres modalités sensorielles combinées, à mesure que les architectures VLA (vision-language-action) intègrent de plus en plus le retour tactile comme signal de contrôle.

RecherchePaper

1 source

EgoWalk : un jeu de données multimodal pour la navigation robotique en conditions réelles

44

3arXiv cs.RO

EgoWalk : un jeu de données multimodal pour la navigation robotique en conditions réelles

Une équipe de chercheurs a publié EgoWalk, un dataset multimodal de 50 heures de navigation humaine destiné à entraîner des algorithmes de navigation robotique en conditions réelles. Les données ont été collectées dans une grande variété d'environnements intérieurs et extérieurs, sur plusieurs saisons et sites géographiques différents. Le dataset comprend les données brutes ainsi qu'un format prêt pour l'apprentissage par imitation (Imitation Learning), accompagné de pipelines automatisés générant deux types de sous-datasets dérivés : des annotations d'objectifs en langage naturel et des masques de segmentation de traversabilité. L'ensemble des pipelines de traitement et la description de la plateforme matérielle utilisée pour la collecte sont publiés en open source. L'intérêt principal d'EgoWalk réside dans la rareté des datasets de navigation en conditions non contrôlées, à grande échelle et couvrant plusieurs saisons. La majorité des systèmes de navigation robotique actuels souffrent d'un écart sim-to-real persistant, faute de données réelles suffisamment diversifiées. En proposant simultanément des annotations langage naturel et des masques de traversabilité générés automatiquement, EgoWalk vise à réduire le coût de labellisation manuelle qui freine le développement de modèles vision-langage-action (VLA) pour la navigation outdoor. La publication open source des pipelines permet aux équipes de réplication de reconstruire des datasets similaires sur leur propre plateforme, ce qui est un signal positif pour la reproductibilité dans le domaine. La navigation autonome en environnements non structurés reste l'un des défis centraux de la robotique mobile, que ce soit pour les robots de livraison, les plateformes de surveillance ou les assistants mobiles. EgoWalk s'inscrit dans un mouvement plus large de constitution de datasets ego-centriques, aux côtés d'initiatives comme SCAND (UT Austin) ou des travaux de Boston Dynamics et de Google DeepMind sur la navigation en extérieur. Le fait que les données soient collectées du point de vue humain, plutôt que depuis un robot, soulève la question du transfert de domaine, que les auteurs reconnaissent implicitement en proposant des benchmarks et études de diversité. Les prochaines étapes naturelles seraient la validation sur des plateformes robotiques réelles et l'intégration dans des architectures de type foundation model pour la navigation.

RechercheActu

1 source

Quelles questions les robots devraient-ils pouvoir répondre ? Un jeu de données pour la robotique explicable

42

4arXiv cs.RO

Quelles questions les robots devraient-ils pouvoir répondre ? Un jeu de données pour la robotique explicable

Une équipe de chercheurs a publié sur arXiv (référence 2510.16435) un jeu de données de 1 893 questions posées par des utilisateurs à des robots domestiques, issu d'une collecte auprès de 100 participants recrutés via la plateforme Prolific. Les données ont été structurées en 12 catégories et 70 sous-catégories, à partir de 22 stimuli au total : 15 vidéos et 7 scénarios textuels dépeignant des robots effectuant des tâches ménagères variées. Dans le jeu de données final, les questions les plus fréquentes portent sur les détails d'exécution des tâches (21,4 %), les capacités du robot (12,6 %) et l'évaluation de ses performances (10,7 %). À noter que les questions relatives aux scénarios difficiles ou à la fiabilité du comportement sont moins nombreuses, mais que les participants les jugent comme les plus importantes auxquelles un robot devrait pouvoir répondre. Ce travail comble un angle mort structurel dans la recherche en robotique explicable : la quasi-totalité des travaux existants se concentre sur les questions de type "pourquoi" (justification d'une décision), alors que ce dataset couvre un spectre bien plus large, des détails opérationnels aux hypothèses contrefactuelles. Pour les intégrateurs et concepteurs de systèmes d'interaction humain-robot, cela signifie que les modules de question-réponse embarqués doivent gérer des requêtes que les architectures conversationnelles actuelles ne priorisent pas. Le constat que les utilisateurs novices posent des questions plus factuelles et immédiates, tandis que les utilisateurs expérimentés interrogent davantage les capacités généralisées du robot, a des implications directes pour la conception des interfaces et la gestion du niveau de détail dans les réponses. Ce dataset s'inscrit dans un contexte où les grands modèles de langage (LLMs) sont de plus en plus intégrés comme couche conversationnelle dans des systèmes robotiques, des plateformes comme Boston Dynamics Spot aux robots de service de PAL Robotics ou Enchanted Tools. Il constitue une ressource de référence pour trois usages : identifier quelles données les robots doivent logger et exposer via une interface conversationnelle, benchmarker les modules de QA en HRI, et aligner les stratégies d'explication avec les attentes réelles des utilisateurs. Les prochaines étapes naturelles incluent l'extension du dataset à d'autres contextes (industriel, médical) et son utilisation pour entraîner ou évaluer des modèles vision-langage-action (VLA) dans des scénarios d'interaction explicite.

UELe dataset pourrait servir de référence pour les équipes européennes (dont Enchanted Tools et PAL Robotics) qui intègrent des LLMs comme couche conversationnelle dans leurs robots de service, en orientant la conception de leurs modules QA vers des questions que les architectures actuelles ne priorisent pas.

RecherchePaper

1 source

RoboCade : la collecte de données robotiques par le jeu

À lire aussi

RoboDesign1M : un jeu de données à grande échelle pour la compréhension de la conception robotique

RCT : un jeu de données tactiles vision-langage collecté par robot pour la généralisation du toucher

EgoWalk : un jeu de données multimodal pour la navigation robotique en conditions réelles

Quelles questions les robots devraient-ils pouvoir répondre ? Un jeu de données pour la robotique explicable