RecherchearXiv cs.RO6sem

Quelles questions les robots devraient-ils pouvoir répondre ? Un jeu de données pour la robotique explicable

1 source couvre ce sujet·Source originale ↗·

Résumé IASource uniqueImpact UE

Une équipe de chercheurs a publié sur arXiv (référence 2510.16435) un jeu de données de 1 893 questions posées par des utilisateurs à des robots domestiques, issu d'une collecte auprès de 100 participants recrutés via la plateforme Prolific. Les données ont été structurées en 12 catégories et 70 sous-catégories, à partir de 22 stimuli au total : 15 vidéos et 7 scénarios textuels dépeignant des robots effectuant des tâches ménagères variées. Dans le jeu de données final, les questions les plus fréquentes portent sur les détails d'exécution des tâches (21,4 %), les capacités du robot (12,6 %) et l'évaluation de ses performances (10,7 %). À noter que les questions relatives aux scénarios difficiles ou à la fiabilité du comportement sont moins nombreuses, mais que les participants les jugent comme les plus importantes auxquelles un robot devrait pouvoir répondre.

Ce travail comble un angle mort structurel dans la recherche en robotique explicable : la quasi-totalité des travaux existants se concentre sur les questions de type "pourquoi" (justification d'une décision), alors que ce dataset couvre un spectre bien plus large, des détails opérationnels aux hypothèses contrefactuelles. Pour les intégrateurs et concepteurs de systèmes d'interaction humain-robot, cela signifie que les modules de question-réponse embarqués doivent gérer des requêtes que les architectures conversationnelles actuelles ne priorisent pas. Le constat que les utilisateurs novices posent des questions plus factuelles et immédiates, tandis que les utilisateurs expérimentés interrogent davantage les capacités généralisées du robot, a des implications directes pour la conception des interfaces et la gestion du niveau de détail dans les réponses.

Ce dataset s'inscrit dans un contexte où les grands modèles de langage (LLMs) sont de plus en plus intégrés comme couche conversationnelle dans des systèmes robotiques, des plateformes comme Boston Dynamics Spot aux robots de service de PAL Robotics ou Enchanted Tools. Il constitue une ressource de référence pour trois usages : identifier quelles données les robots doivent logger et exposer via une interface conversationnelle, benchmarker les modules de QA en HRI, et aligner les stratégies d'explication avec les attentes réelles des utilisateurs. Les prochaines étapes naturelles incluent l'extension du dataset à d'autres contextes (industriel, médical) et son utilisation pour entraîner ou évaluer des modèles vision-langage-action (VLA) dans des scénarios d'interaction explicite.

Impact France/UE

Le dataset pourrait servir de référence pour les équipes européennes (dont Enchanted Tools et PAL Robotics) qui intègrent des LLMs comme couche conversationnelle dans leurs robots de service, en orientant la conception de leurs modules QA vers des questions que les architectures actuelles ne priorisent pas.

Dans nos dossiers

Boston Dynamics Enchanted Tools — Mirokaï IA physique & VLA arXiv cs.RO

À lire aussi

1arXiv cs.RO

EgoWalk : un jeu de données multimodal pour la navigation robotique en conditions réelles

Une équipe de chercheurs a publié EgoWalk, un dataset multimodal de 50 heures de navigation humaine destiné à entraîner des algorithmes de navigation robotique en conditions réelles. Les données ont été collectées dans une grande variété d'environnements intérieurs et extérieurs, sur plusieurs saisons et sites géographiques différents. Le dataset comprend les données brutes ainsi qu'un format prêt pour l'apprentissage par imitation (Imitation Learning), accompagné de pipelines automatisés générant deux types de sous-datasets dérivés : des annotations d'objectifs en langage naturel et des masques de segmentation de traversabilité. L'ensemble des pipelines de traitement et la description de la plateforme matérielle utilisée pour la collecte sont publiés en open source. L'intérêt principal d'EgoWalk réside dans la rareté des datasets de navigation en conditions non contrôlées, à grande échelle et couvrant plusieurs saisons. La majorité des systèmes de navigation robotique actuels souffrent d'un écart sim-to-real persistant, faute de données réelles suffisamment diversifiées. En proposant simultanément des annotations langage naturel et des masques de traversabilité générés automatiquement, EgoWalk vise à réduire le coût de labellisation manuelle qui freine le développement de modèles vision-langage-action (VLA) pour la navigation outdoor. La publication open source des pipelines permet aux équipes de réplication de reconstruire des datasets similaires sur leur propre plateforme, ce qui est un signal positif pour la reproductibilité dans le domaine. La navigation autonome en environnements non structurés reste l'un des défis centraux de la robotique mobile, que ce soit pour les robots de livraison, les plateformes de surveillance ou les assistants mobiles. EgoWalk s'inscrit dans un mouvement plus large de constitution de datasets ego-centriques, aux côtés d'initiatives comme SCAND (UT Austin) ou des travaux de Boston Dynamics et de Google DeepMind sur la navigation en extérieur. Le fait que les données soient collectées du point de vue humain, plutôt que depuis un robot, soulève la question du transfert de domaine, que les auteurs reconnaissent implicitement en proposant des benchmarks et études de diversité. Les prochaines étapes naturelles seraient la validation sur des plateformes robotiques réelles et l'intégration dans des architectures de type foundation model pour la navigation.

RechercheActu

1 source

2arXiv cs.RO

GrandTour : un jeu de données de robotique à pattes en conditions réelles pour la perception multimodale et l'estimation d'état

Voici l'article : Des chercheurs publient GrandTour, un jeu de données massif dédié à la perception multimodale et à l'estimation d'état pour robots quadrupèdes, disponible sur grand-tour.leggedrobotics.com au format HuggingFace (indépendant de ROS) ainsi qu'en formats ROS. La plateforme utilisée est un ANYmal-D d'ANYbotics équipé de la charge utile capteurs Boxi, combinant LiDAR rotatif, plusieurs caméras RGB aux caractéristiques complémentaires, capteurs proprioceptifs et caméras de profondeur stéréo, le tout synchronisé temporellement. Les données ont été collectées sur des sites très variés : environnements alpins, forêts, bâtiments démolis et zones urbaines, couvrant une large gamme d'échelles, de conditions d'éclairage et de météo. Point clé pour la fiabilité scientifique : les trajectoires de référence (ground truth) proviennent de GNSS RTK par satellite et d'une station totale Leica Geosystems, offrant une précision de localisation bien supérieure aux méthodes d'estimation embarquées classiques. Selon les auteurs, il s'agit du plus grand jeu de données en accès libre jamais publié pour la robotique à pattes. Ce type de ressource comble un manque criant dans la recherche en robotique légère : jusqu'ici, aucun jeu de données public à grande échelle ne permettait de développer et de comparer rigoureusement des algorithmes de SLAM, d'estimation d'état et de fusion de capteurs pour des quadrupèdes évoluant en conditions réelles, hors laboratoire. Pour les équipes travaillant sur la navigation autonome de robots à pattes, en particulier dans des environnements non structurés (chantiers, sites industriels accidentés, terrains extérieurs), GrandTour offre un benchmark commun et une vérité terrain de précision géodésique, rare dans ce domaine. C'est un signal que la communauté cherche à standardiser l'évaluation des systèmes de perception embarqués, plutôt que de se fier à des démonstrations isolées difficiles à reproduire. Le projet s'inscrit dans la lignée des travaux du Robotic Systems Lab, à l'origine de la plateforme ANYmal, aujourd'hui commercialisée par ANYbotics, acteur suisse reconnu de la robotique quadrupède industrielle aux côtés de Boston Dynamics (Spot) et Unitree. La publication constitue une mise à jour (version 3) d'un article déposé sur arXiv sous la référence 2602.18164. Les auteurs annoncent la mise à disposition d'outils et de ressources de démonstration pour faciliter l'adoption du jeu de données par la communauté SLAM et apprentissage multimodal, sans toutefois préciser de calendrier pour d'éventuelles extensions futures du corpus.

UECe jeu de donnees en acces libre, issu du Robotic Systems Lab (ETH Zurich) et d'ANYbotics (Suisse), constitue une ressource directement utile aux equipes de recherche francaises et europeennes travaillant sur le SLAM et l'estimation d'etat pour robots a pattes.

RecherchePaper

1 source

3arXiv cs.RO

PHUMA : un jeu de données pour la locomotion fiable des robots humanoïdes

Une équipe de chercheurs du laboratoire DAVIAN a publié en juin 2026 PHUMA (Physically Reliable HUMAnoid locomotion dataset), un corpus de 73 heures de données de locomotion humanoide produit via un pipeline en deux étapes : une curation physiquement consciente suivie d'un retargeting contraint par des lois physiques. La base de données agrège à la fois des données de motion capture traditionnelles et des vidéos issues d'internet, les deux étant traitées pour éliminer les artefacts physiques récurrents dans les datasets existants, notamment le flottement, la pénétration géométrique et le foot skating. Entraînées sur PHUMA, les politiques de contrôle obtiennent des taux de succès supérieurs à ceux obtenus avec AMASS et Humanoid-X sur les benchmarks de motion tracking standards, et transfèrent en zero-shot vers un Unitree G1 réel. Le code et les données sont disponibles publiquement via davian-robotics.github.io/PHUMA. Le principal verrou que PHUMA prétend lever est la qualité physique des données d'entraînement pour l'imitation de mouvement humanoide. Les approches par imitation sont attractives parce qu'elles permettent d'acquérir des comportements naturels sans reward engineering fastidieux, mais leur efficacité dépend directement de la cohérence physique des données sources. Les artefacts présents dans les datasets basés sur des vidéos internet (comme Humanoid-X) se propagent dans les politiques entraînées, produisant des robots qui glissent ou oscillent de façon instable. La démonstration de transfert zero-shot sur un Unitree G1 physique est le point le plus concret : elle suggère que le filtrage physique en amont réduit effectivement le sim-to-real gap, sans fine-tuning additionnel sur hardware. Reste à qualifier l'ampleur du gain : les métriques de benchmarks internes ne se substituent pas à des comparaisons en conditions réelles standardisées. AMASS, publié en 2019, est resté longtemps la référence en motion capture humanoide, mais sa taille limitée et son coût d'acquisition ont freiné la scalabilité des approches data-driven. Humanoid-X a tenté de combler ce vide en exploitant des vidéos YouTube à grande échelle, au prix d'une dégradation qualitative. PHUMA s'inscrit dans une dynamique plus large où plusieurs équipes cherchent à constituer des datasets de locomotion humanoide à la fois volumineux et physiquement valides, en parallèle des travaux de Figure AI (Figure 03), Boston Dynamics, et des équipes derrière GR00T N2 chez NVIDIA. La prochaine étape logique serait de tester PHUMA sur d'autres plateformes humanoïdes commerciales (H1, Digit) et d'élargir les tâches au-delà de la locomotion simple vers la manipulation en déplacement.

UELe dataset PHUMA étant en accès libre, les équipes de recherche européennes en locomotion humanoïde (INRIA, CEA-List, LAAS-CNRS) peuvent l'intégrer directement dans leurs pipelines d'entraînement sans coût d'acquisition.

RecherchePaper

1 source

4arXiv cs.RO

SIR : représentations d'images structurées pour un apprentissage robotique explicable

Des chercheurs du laboratoire Intuitive Robots publient SIR (Structured Image Representations, arXiv:2606.30101), une méthode visant à corriger l'un des angles morts persistants des politiques robotiques basées sur l'apprentissage profond : leur opacité. Le pipeline repose sur les Scene Graphs (graphes de scènes) comme couche intermédiaire entre la perception et l'action. À partir d'une image d'entrée, le système construit d'abord un graphe complet dont les noeuds sont initialisés avec des features visuelles extraites. Un second module apprend ensuite, de bout en bout, à réduire (sparsifier) ce graphe pour n'en conserver que le sous-graphe pertinent à la tâche courante, avant de le transmettre au générateur d'actions. Évalué sur RoboCasa, un benchmark de manipulation en environnement domestique simulé, SIR atteint un taux de succès moyen de 19,5 % contre 14,81 % pour les baselines à embeddings visuels directs, soit un gain relatif d'environ 30 %. L'intérêt ne se limite pas à ce delta de performance, en soi modeste en valeur absolue. Ce qui distingue SIR, c'est que le sous-graphe creux appris constitue une représentation lisible et auditable : il devient possible d'inspecter sur quels objets et quelles relations le modèle fonde ses décisions pour une tâche donnée. Lorsque ce sous-graphe s'écarte des attentes humaines, qu'il intègre des noeuds distracteurs sans rapport avec la tâche ou qu'il omet des objets pourtant centraux, les auteurs montrent que cela révèle systématiquement des biais dans le dataset d'entraînement, notamment des corrélations spurieuses et des biais positionnels. Pour des intégrateurs industriels ou des équipes soumises à des exigences de validation et de certification, cette capacité d'audit intrinsèque est un argument autrement plus fort qu'une amélioration marginale du taux de réussite. Ce travail s'inscrit dans un débat de fond au sein de la communauté robotique : les représentations visuelles latentes des architectures de type VLA (Vision-Language-Action) ou des politiques par diffusion sont puissantes mais pratiquement impossibles à déboguer. Les approches concurrentes pour l'explicabilité passent généralement par des méthodes post-hoc, cartes de saillance ou visualisation d'attention dans les Transformers, qui n'interviennent pas dans la boucle d'inférence. SIR propose à l'inverse une explicabilité structurelle native. Le code est disponible sur GitHub (intuitive-robots/SIR\_Model) et les auteurs évaluent pour l'instant uniquement en simulation ; la généralisation à des robots physiques dans des environnements non contrôlés reste la prochaine étape critique pour valider le sim-to-real transfer de cette approche.

RecherchePaper

1 source