Aller au contenu principal
RoboCade : la collecte de données robotiques par le jeu
RecherchearXiv cs.RO2h

RoboCade : la collecte de données robotiques par le jeu

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Des chercheurs ont publié RoboCade, une plateforme de télé-opération gamifiée conçue pour collecter à grande échelle des données de démonstration robotique, un pré-requis critique pour l'apprentissage par imitation. La plateforme intègre des mécaniques de jeu classiques, retours visuels, effets sonores, barres de progression, classements et badges, dans une interface accessible à des utilisateurs non experts. Trois tâches de manipulation ont été instanciées sur la plateforme : arrangement spatial, scanning et insertion. Le résultat quantifié : les politiques robotiques entraînées en co-training avec des données issues de RoboCade améliorent leur taux de réussite sur des tâches cibles non gamifiées de 16 à 56 % selon la tâche. Une étude utilisateur auprès de novices montre en parallèle un gain de 24 % sur l'appréciation subjective de la plateforme gamifiée par rapport à une interface standard.

L'enjeu derrière ces chiffres est structurel. La collecte de données de démonstration pour l'apprentissage par imitation (imitation learning) est aujourd'hui un goulot d'étranglement majeur dans la robotique d'autonomie : elle exige un accès physique à des robots réels, une main-d'œuvre qualifiée, et un investissement temporel soutenu sur des tâches répétitives. RoboCade déplace ce modèle vers un crowd-sourcing distant, ouvrant la collecte à un public large sans expertise robotique préalable. La hausse de performance constatée valide que des données produites par des utilisateurs non experts dans un contexte gamifié restent exploitables pour entraîner des politiques efficaces, ce qui conteste implicitement l'hypothèse selon laquelle la qualité de démonstration exige nécessairement un opérateur expert.

Cette approche s'inscrit dans une tendance plus large visant à décorréler la qualité des politiques robotiques du coût de la collecte de données. Des initiatives comme Open X-Embodiment (Google DeepMind) ou BridgeData V2 ont montré la valeur des grands datasets partagés, mais ceux-ci restent produits en laboratoire. RoboCade propose une alternative orientée scalabilité via le grand public, sans nécessiter de déploiement physique robot côté utilisateur. La question qui reste ouverte, et que le papier ne traite pas encore, est celle du passage à l'échelle réel : quelle dégradation de signal introduit la variabilité des profils utilisateurs à très grande échelle, et comment filtrer les démonstrations sous-optimales sans supervision humaine intensive.

À lire aussi

EgoWalk : un jeu de données multimodal pour la navigation robotique en conditions réelles
1arXiv cs.RO 

EgoWalk : un jeu de données multimodal pour la navigation robotique en conditions réelles

Une équipe de chercheurs a publié EgoWalk, un dataset multimodal de 50 heures de navigation humaine destiné à entraîner des algorithmes de navigation robotique en conditions réelles. Les données ont été collectées dans une grande variété d'environnements intérieurs et extérieurs, sur plusieurs saisons et sites géographiques différents. Le dataset comprend les données brutes ainsi qu'un format prêt pour l'apprentissage par imitation (Imitation Learning), accompagné de pipelines automatisés générant deux types de sous-datasets dérivés : des annotations d'objectifs en langage naturel et des masques de segmentation de traversabilité. L'ensemble des pipelines de traitement et la description de la plateforme matérielle utilisée pour la collecte sont publiés en open source. L'intérêt principal d'EgoWalk réside dans la rareté des datasets de navigation en conditions non contrôlées, à grande échelle et couvrant plusieurs saisons. La majorité des systèmes de navigation robotique actuels souffrent d'un écart sim-to-real persistant, faute de données réelles suffisamment diversifiées. En proposant simultanément des annotations langage naturel et des masques de traversabilité générés automatiquement, EgoWalk vise à réduire le coût de labellisation manuelle qui freine le développement de modèles vision-langage-action (VLA) pour la navigation outdoor. La publication open source des pipelines permet aux équipes de réplication de reconstruire des datasets similaires sur leur propre plateforme, ce qui est un signal positif pour la reproductibilité dans le domaine. La navigation autonome en environnements non structurés reste l'un des défis centraux de la robotique mobile, que ce soit pour les robots de livraison, les plateformes de surveillance ou les assistants mobiles. EgoWalk s'inscrit dans un mouvement plus large de constitution de datasets ego-centriques, aux côtés d'initiatives comme SCAND (UT Austin) ou des travaux de Boston Dynamics et de Google DeepMind sur la navigation en extérieur. Le fait que les données soient collectées du point de vue humain, plutôt que depuis un robot, soulève la question du transfert de domaine, que les auteurs reconnaissent implicitement en proposant des benchmarks et études de diversité. Les prochaines étapes naturelles seraient la validation sur des plateformes robotiques réelles et l'intégration dans des architectures de type foundation model pour la navigation.

RechercheActu
1 source
Quelles questions les robots devraient-ils pouvoir répondre ? Un jeu de données pour la robotique explicable
2arXiv cs.RO 

Quelles questions les robots devraient-ils pouvoir répondre ? Un jeu de données pour la robotique explicable

Une équipe de chercheurs a publié sur arXiv (référence 2510.16435) un jeu de données de 1 893 questions posées par des utilisateurs à des robots domestiques, issu d'une collecte auprès de 100 participants recrutés via la plateforme Prolific. Les données ont été structurées en 12 catégories et 70 sous-catégories, à partir de 22 stimuli au total : 15 vidéos et 7 scénarios textuels dépeignant des robots effectuant des tâches ménagères variées. Dans le jeu de données final, les questions les plus fréquentes portent sur les détails d'exécution des tâches (21,4 %), les capacités du robot (12,6 %) et l'évaluation de ses performances (10,7 %). À noter que les questions relatives aux scénarios difficiles ou à la fiabilité du comportement sont moins nombreuses, mais que les participants les jugent comme les plus importantes auxquelles un robot devrait pouvoir répondre. Ce travail comble un angle mort structurel dans la recherche en robotique explicable : la quasi-totalité des travaux existants se concentre sur les questions de type "pourquoi" (justification d'une décision), alors que ce dataset couvre un spectre bien plus large, des détails opérationnels aux hypothèses contrefactuelles. Pour les intégrateurs et concepteurs de systèmes d'interaction humain-robot, cela signifie que les modules de question-réponse embarqués doivent gérer des requêtes que les architectures conversationnelles actuelles ne priorisent pas. Le constat que les utilisateurs novices posent des questions plus factuelles et immédiates, tandis que les utilisateurs expérimentés interrogent davantage les capacités généralisées du robot, a des implications directes pour la conception des interfaces et la gestion du niveau de détail dans les réponses. Ce dataset s'inscrit dans un contexte où les grands modèles de langage (LLMs) sont de plus en plus intégrés comme couche conversationnelle dans des systèmes robotiques, des plateformes comme Boston Dynamics Spot aux robots de service de PAL Robotics ou Enchanted Tools. Il constitue une ressource de référence pour trois usages : identifier quelles données les robots doivent logger et exposer via une interface conversationnelle, benchmarker les modules de QA en HRI, et aligner les stratégies d'explication avec les attentes réelles des utilisateurs. Les prochaines étapes naturelles incluent l'extension du dataset à d'autres contextes (industriel, médical) et son utilisation pour entraîner ou évaluer des modèles vision-langage-action (VLA) dans des scénarios d'interaction explicite.

UELe dataset pourrait servir de référence pour les équipes européennes (dont Enchanted Tools et PAL Robotics) qui intègrent des LLMs comme couche conversationnelle dans leurs robots de service, en orientant la conception de leurs modules QA vers des questions que les architectures actuelles ne priorisent pas.

RecherchePaper
1 source
COFFAIL : un jeu de données sur les succès et anomalies d'exécution de compétences robotiques pour la préparation du café
3arXiv cs.RO 

COFFAIL : un jeu de données sur les succès et anomalies d'exécution de compétences robotiques pour la préparation du café

L'équipe derrière COFFAIL a publié sur arXiv (référence 2604.18236) un jeu de données consacré à l'apprentissage de compétences robotiques de manipulation, collecté dans un environnement cuisine avec un robot physique. Le dataset couvre plusieurs types de tâches liées à la préparation de café et se distingue par une caractéristique rare dans la littérature : il regroupe à la fois des épisodes d'exécution réussis et des épisodes anomaux, c'est-à-dire des séquences où quelque chose s'est mal passé. Certains épisodes mobilisent une manipulation bimanuell, impliquant la coordination des deux bras du robot. Les auteurs démontrent l'usage concret du dataset en entraînant une politique robotique par imitation learning (apprentissage par démonstration). Ce qui distingue COFFAIL des datasets de manipulation habituellement disponibles, c'est l'inclusion explicite des échecs et des anomalies. La grande majorité des benchmarks publics ne documentent que les trajectoires réussies, ce qui crée un biais structurel dans l'entraînement des modèles : les robots apprennent à réussir, mais pas à détecter ni à récupérer d'une défaillance. Pour les intégrateurs industriels et les équipes de recherche travaillant sur la robustesse et la détection d'anomalies en manipulation, disposer d'exemples négatifs annotés est une ressource directement exploitable, notamment pour entraîner des modules de supervision ou de re-planification. L'application à l'imitation learning suggère aussi une compatibilité avec les architectures VLA (vision-language-action) actuelles. La préparation de café comme domaine applicatif est un choix délibéré dans la robotique de service : c'est une tâche suffisamment structurée pour être reproductible, mais qui implique des objets déformables, des liquides, et des contraintes temporelles, ce qui en fait un banc de test représentatif pour la manipulation fine. Plusieurs labos et startups ont utilisé des scénarios similaires pour tester leurs pipelines, dont Physical Intelligence (pi0), Everyday Robots (avant sa dissolution chez Google) ou des équipes académiques européennes. COFFAIL reste pour l'instant une contribution de dataset sans benchmarking comparatif avec d'autres méthodes, ce qui limite la portée des conclusions : le papier est court et déclaré comme tel par les auteurs. Les prochaines étapes naturelles seraient une évaluation comparative sur des tâches de détection d'anomalies et une extension du protocole à d'autres domaines de manipulation.

UELes équipes de recherche européennes en manipulation robotique peuvent exploiter ce dataset pour entraîner des modules de détection d'anomalies, mais aucun acteur FR/EU n'est directement impliqué dans sa production.

RecherchePaper
1 source
MiniVLA-Nav v1 : un jeu de données de simulation multi-scènes pour la navigation robotique guidée par le langage
4arXiv cs.RO 

MiniVLA-Nav v1 : un jeu de données de simulation multi-scènes pour la navigation robotique guidée par le langage

MiniVLA-Nav v1 est un dataset de simulation publié sur HuggingFace pour la navigation robotique conditionnée par le langage naturel, tâche désignée LCOA (Language-Conditioned Object Approach). Un robot différentiel NVIDIA Nova Carter reçoit une instruction courte et doit atteindre l'objet nommé en s'arrêtant à moins d'un mètre. Le dataset couvre 1 174 épisodes dans quatre scènes Isaac Sim photoréalistes (bureau, hôpital, entrepôt complet, entrepôt à étagères multiples), chacun annoté avec images RGB 640x640, cartes de profondeur métriques float32, masques de segmentation d'instance et labels d'action à 60 Hz (commandes continues v/omega et tokenisation 7x7 via contrôleur proportionnel visuel). Trois tiers de distance d'initialisation (1,5-3,5 m, 3,5-7,0 m, et lointain curatés) assurent la diversité des trajectoires, avec une corrélation Pearson r=0,94 entre distance de départ et longueur. Douze catégories d'objets et 30 templates (18 d'entraînement, 12 hors distribution) structurent cinq splits d'évaluation. La rareté de données annotées pour entraîner des modèles VLA (Vision-Language-Action) orientés navigation reste un frein reconnu dans la communauté. MiniVLA-Nav v1 y répond avec un benchmark à cinq axes : précision en distribution, robustesse aux paraphrases et généralisation hors distribution sur de nouvelles catégories. La tâche LCOA isole délibérément le grounding linguistique, c'est-à-dire la capacité à relier une instruction verbale à un objet physique, sans mélanger avec la planification globale de chemin. Les labels moteurs continus à 60 Hz offrent une supervision plus fine que la majorité des datasets de navigation verbale existants, souvent limités à des waypoints discrets. La compatibilité native avec l'écosystème Isaac Sim et la plateforme Nova Carter facilite un éventuel transfert sim-to-real vers des robots physiques en milieu industriel ou hospitalier. Ce travail s'inscrit dans la lignée de R2R et REVERIE pour la navigation à instruction verbale, mais avec un focus bas niveau peu commun. La publication, signée Ali Bustami et déposée sur arXiv en mai 2025 (2605.00397), ne présente pas encore de modèle baseline entraîné sur ces données, ce qui en limite la portée empirique immédiate : c'est un dataset, pas une preuve de performance. L'écosystème concurrent inclut Meta AI avec Habitat, Allen AI avec AI2-THOR et plusieurs benchmarks récents de Google DeepMind, mais aucun ne cible spécifiquement le LCOA avec commandes continues à 60 Hz sur plateforme NVIDIA. Le dataset est librement accessible sur HuggingFace (alibustami/miniVLA-Nav), en attente d'un modèle VLA de référence et d'expériences de transfert sim-to-real sur robot physique.

RechercheOpinion
1 source