Aller au contenu principal
COFFAIL : un jeu de données sur les succès et anomalies d'exécution de compétences robotiques pour la préparation du café
RecherchearXiv cs.RO6sem

COFFAIL : un jeu de données sur les succès et anomalies d'exécution de compétences robotiques pour la préparation du café

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

L'équipe derrière COFFAIL a publié sur arXiv (référence 2604.18236) un jeu de données consacré à l'apprentissage de compétences robotiques de manipulation, collecté dans un environnement cuisine avec un robot physique. Le dataset couvre plusieurs types de tâches liées à la préparation de café et se distingue par une caractéristique rare dans la littérature : il regroupe à la fois des épisodes d'exécution réussis et des épisodes anomaux, c'est-à-dire des séquences où quelque chose s'est mal passé. Certains épisodes mobilisent une manipulation bimanuell, impliquant la coordination des deux bras du robot. Les auteurs démontrent l'usage concret du dataset en entraînant une politique robotique par imitation learning (apprentissage par démonstration).

Ce qui distingue COFFAIL des datasets de manipulation habituellement disponibles, c'est l'inclusion explicite des échecs et des anomalies. La grande majorité des benchmarks publics ne documentent que les trajectoires réussies, ce qui crée un biais structurel dans l'entraînement des modèles : les robots apprennent à réussir, mais pas à détecter ni à récupérer d'une défaillance. Pour les intégrateurs industriels et les équipes de recherche travaillant sur la robustesse et la détection d'anomalies en manipulation, disposer d'exemples négatifs annotés est une ressource directement exploitable, notamment pour entraîner des modules de supervision ou de re-planification. L'application à l'imitation learning suggère aussi une compatibilité avec les architectures VLA (vision-language-action) actuelles.

La préparation de café comme domaine applicatif est un choix délibéré dans la robotique de service : c'est une tâche suffisamment structurée pour être reproductible, mais qui implique des objets déformables, des liquides, et des contraintes temporelles, ce qui en fait un banc de test représentatif pour la manipulation fine. Plusieurs labos et startups ont utilisé des scénarios similaires pour tester leurs pipelines, dont Physical Intelligence (pi0), Everyday Robots (avant sa dissolution chez Google) ou des équipes académiques européennes. COFFAIL reste pour l'instant une contribution de dataset sans benchmarking comparatif avec d'autres méthodes, ce qui limite la portée des conclusions : le papier est court et déclaré comme tel par les auteurs. Les prochaines étapes naturelles seraient une évaluation comparative sur des tâches de détection d'anomalies et une extension du protocole à d'autres domaines de manipulation.

Impact France/UE

Les équipes de recherche européennes en manipulation robotique peuvent exploiter ce dataset pour entraîner des modules de détection d'anomalies, mais aucun acteur FR/EU n'est directement impliqué dans sa production.

À lire aussi

EgoWalk : un jeu de données multimodal pour la navigation robotique en conditions réelles
1arXiv cs.RO 

EgoWalk : un jeu de données multimodal pour la navigation robotique en conditions réelles

Une équipe de chercheurs a publié EgoWalk, un dataset multimodal de 50 heures de navigation humaine destiné à entraîner des algorithmes de navigation robotique en conditions réelles. Les données ont été collectées dans une grande variété d'environnements intérieurs et extérieurs, sur plusieurs saisons et sites géographiques différents. Le dataset comprend les données brutes ainsi qu'un format prêt pour l'apprentissage par imitation (Imitation Learning), accompagné de pipelines automatisés générant deux types de sous-datasets dérivés : des annotations d'objectifs en langage naturel et des masques de segmentation de traversabilité. L'ensemble des pipelines de traitement et la description de la plateforme matérielle utilisée pour la collecte sont publiés en open source. L'intérêt principal d'EgoWalk réside dans la rareté des datasets de navigation en conditions non contrôlées, à grande échelle et couvrant plusieurs saisons. La majorité des systèmes de navigation robotique actuels souffrent d'un écart sim-to-real persistant, faute de données réelles suffisamment diversifiées. En proposant simultanément des annotations langage naturel et des masques de traversabilité générés automatiquement, EgoWalk vise à réduire le coût de labellisation manuelle qui freine le développement de modèles vision-langage-action (VLA) pour la navigation outdoor. La publication open source des pipelines permet aux équipes de réplication de reconstruire des datasets similaires sur leur propre plateforme, ce qui est un signal positif pour la reproductibilité dans le domaine. La navigation autonome en environnements non structurés reste l'un des défis centraux de la robotique mobile, que ce soit pour les robots de livraison, les plateformes de surveillance ou les assistants mobiles. EgoWalk s'inscrit dans un mouvement plus large de constitution de datasets ego-centriques, aux côtés d'initiatives comme SCAND (UT Austin) ou des travaux de Boston Dynamics et de Google DeepMind sur la navigation en extérieur. Le fait que les données soient collectées du point de vue humain, plutôt que depuis un robot, soulève la question du transfert de domaine, que les auteurs reconnaissent implicitement en proposant des benchmarks et études de diversité. Les prochaines étapes naturelles seraient la validation sur des plateformes robotiques réelles et l'intégration dans des architectures de type foundation model pour la navigation.

RechercheActu
1 source
AffordSim : un générateur de données évolutif et un benchmark pour la manipulation robotique guidée par les affordances
2arXiv cs.RO 

AffordSim : un générateur de données évolutif et un benchmark pour la manipulation robotique guidée par les affordances

AffordSim est un générateur de données simulées et benchmark pour la manipulation robotique consciente des affordances, publié en preprint sur arXiv en mai 2026 (référence 2604.11674). Le système répond à un problème structurel : les estimateurs de préhension génériques optimisent la stabilité sans logique de tâche et sélectionnent souvent la mauvaise zone fonctionnelle de l'objet, tandis que les annotations manuelles de contact doivent être réécrites pour chaque nouvel objet et chaque nouvelle tâche. AffordSim intègre la prédiction d'affordances 3D à vocabulaire ouvert dans un pipeline de simulation : à partir d'une instruction en langage naturel, il synthétise la scène, localise les régions fonctionnelles pertinentes sur les surfaces d'objets (la poignée d'une casserole, le bouton d'un tiroir), échantillonne des prises conditionnées à ces régions, puis sélectionne les trajectoires exécutables par planification de mouvement. La randomisation de pose, texture, éclairage et bruit d'image est intégrée pour favoriser le transfert sim-to-real. Le benchmark couvre 50 tâches, cinq embodiments robotiques distincts et plus de 500 objets rigides et articulés. Les politiques VLA (Vision-Language-Action) entraînées sur ces données transfèrent zéro-shot vers un Franka FR3 réel avec 24 % de succès moyen, sans aucun fine-tuning sur données physiques. La zone fonctionnelle d'un objet, l'affordance, est précisément le point de défaillance ignoré par les benchmarks de manipulation génériques : saisir le mauvais endroit rend l'action aval impossible quel que soit le planificateur. AffordSim atteint 93 % du taux de succès des annotations manuelles sur les tâches critiques d'affordance, et 89 % sur les tâches composites difficiles, ce qui valide l'annotation automatisée comme substitut crédible à l'annotation humaine à grande échelle. Pour les équipes développant des modèles de fondation robotique ou des politiques VLA, cela réduit drastiquement le coût de génération de données diversifiées. Le score de 24 % en zero-shot reste modeste, mais il constitue une preuve de principe importante : un pipeline entièrement simulé peut produire des politiques opérationnelles sur matériel réel, condition nécessaire à un déploiement industriel scalable. AffordSim s'inscrit dans la vague des générateurs de données synthétiques pour la manipulation, aux côtés de RoboGen, GenSim et des pipelines Nvidia Isaac. Le Franka FR3, bras académique de référence vendu autour de 15 000 euros, est l'unique plateforme réelle testée, ce qui limite la portée des conclusions hors de ce contexte de laboratoire. Les modèles de fondation robotique comme pi0 (Physical Intelligence) ou OpenVLA constituent le terrain applicatif naturel de cet outil. En Europe, des équipes comme le LAAS-CNRS à Toulouse et des startups comme Enchanted Tools (Paris, robots manipulateurs expressifs) pourraient exploiter ce type de générateur pour réduire leur dépendance aux plateformes de données propriétaires américaines. Ce travail restant un preprint non encore évalué par les pairs, les métriques avancées devront être confirmées lors d'une soumission en conférence (CoRL, RSS ou ICRA).

UELes équipes européennes comme le LAAS-CNRS (Toulouse) et Enchanted Tools (Paris) pourraient exploiter AffordSim pour réduire leur dépendance aux plateformes de données propriétaires américaines dans le développement de politiques VLA.

RechercheOpinion
1 source
Quelles questions les robots devraient-ils pouvoir répondre ? Un jeu de données pour la robotique explicable
3arXiv cs.RO 

Quelles questions les robots devraient-ils pouvoir répondre ? Un jeu de données pour la robotique explicable

Une équipe de chercheurs a publié sur arXiv (référence 2510.16435) un jeu de données de 1 893 questions posées par des utilisateurs à des robots domestiques, issu d'une collecte auprès de 100 participants recrutés via la plateforme Prolific. Les données ont été structurées en 12 catégories et 70 sous-catégories, à partir de 22 stimuli au total : 15 vidéos et 7 scénarios textuels dépeignant des robots effectuant des tâches ménagères variées. Dans le jeu de données final, les questions les plus fréquentes portent sur les détails d'exécution des tâches (21,4 %), les capacités du robot (12,6 %) et l'évaluation de ses performances (10,7 %). À noter que les questions relatives aux scénarios difficiles ou à la fiabilité du comportement sont moins nombreuses, mais que les participants les jugent comme les plus importantes auxquelles un robot devrait pouvoir répondre. Ce travail comble un angle mort structurel dans la recherche en robotique explicable : la quasi-totalité des travaux existants se concentre sur les questions de type "pourquoi" (justification d'une décision), alors que ce dataset couvre un spectre bien plus large, des détails opérationnels aux hypothèses contrefactuelles. Pour les intégrateurs et concepteurs de systèmes d'interaction humain-robot, cela signifie que les modules de question-réponse embarqués doivent gérer des requêtes que les architectures conversationnelles actuelles ne priorisent pas. Le constat que les utilisateurs novices posent des questions plus factuelles et immédiates, tandis que les utilisateurs expérimentés interrogent davantage les capacités généralisées du robot, a des implications directes pour la conception des interfaces et la gestion du niveau de détail dans les réponses. Ce dataset s'inscrit dans un contexte où les grands modèles de langage (LLMs) sont de plus en plus intégrés comme couche conversationnelle dans des systèmes robotiques, des plateformes comme Boston Dynamics Spot aux robots de service de PAL Robotics ou Enchanted Tools. Il constitue une ressource de référence pour trois usages : identifier quelles données les robots doivent logger et exposer via une interface conversationnelle, benchmarker les modules de QA en HRI, et aligner les stratégies d'explication avec les attentes réelles des utilisateurs. Les prochaines étapes naturelles incluent l'extension du dataset à d'autres contextes (industriel, médical) et son utilisation pour entraîner ou évaluer des modèles vision-langage-action (VLA) dans des scénarios d'interaction explicite.

UELe dataset pourrait servir de référence pour les équipes européennes (dont Enchanted Tools et PAL Robotics) qui intègrent des LLMs comme couche conversationnelle dans leurs robots de service, en orientant la conception de leurs modules QA vers des questions que les architectures actuelles ne priorisent pas.

RecherchePaper
1 source
Politique de contrainte de surface pour l'apprentissage de compétences robotiques contraintes et dynamiquement réalisables
4arXiv cs.RO 

Politique de contrainte de surface pour l'apprentissage de compétences robotiques contraintes et dynamiquement réalisables

Des chercheurs ont déposé en mai 2026 sur arXiv (identifiant 2605.31321) un article présentant la Surface Constraint Policy (SCP), une méthode destinée à améliorer la fiabilité des robots dans des tâches de manipulation dextre impliquant des contraintes de surface complexes et de forme libre. L'approche encode la géométrie de surface à partir de démonstrations humaines via une fonction noyau gaussien pondérée en deux dimensions. Sur cette base, une politique de diffusion infère des intentions d'action à partir d'entrées multimodales (observations visuelles et retour d'état du robot), qui sont ensuite transformées en primitives de mouvement dynamique contraintes à la surface (DMPs, Dynamic Movement Primitives) via une méthode de mapping par similarité. Ce pipeline produit des trajectoires à la fois géométriquement admissibles et dynamiquement réalisables. Les auteurs font état de taux de succès et d'une stabilité de contact supérieurs aux méthodes comparées, sans que le résumé ne détaille les métriques précises ni les benchmarks utilisés. Ce travail pointe un angle mort persistant des approches actuelles d'apprentissage par imitation à base de diffusion : les politiques classiques génèrent des actions de manière stochastique, sans modéliser explicitement la géométrie de la surface de contact. En pratique, cela se traduit par des glissements, des décrochages ou des trajectoires physiquement inadmissibles, problèmes rédhibitoires pour des applications industrielles comme le polissage, l'assemblage surfacique ou le soudage. L'originalité de SCP tient à l'intégration des contraintes géométriques dès la génération d'action, couplée à des DMPs qui garantissent la faisabilité dynamique. Pour les intégrateurs et les équipes R&D, cette approche représente un pas concret vers la répétabilité requise en production, là où la stabilité du contact prime sur la généralisation toutes-tâches. Ce travail s'inscrit dans une vague de recherche intense autour des politiques de diffusion pour la manipulation robotique, initiée par Diffusion Policy (Chi et al., 2023, Columbia University) et accélérée par des acteurs comme Physical Intelligence avec pi0, Google DeepMind avec RT-2, ou encore ACT de Stanford. Les primitives de mouvement dynamique mobilisées ici sont un outil classique de la robotique depuis les travaux de Schaal dans les années 2000, mais leur couplage avec un pipeline de diffusion moderne pour gérer des contraintes surfaciques constitue l'apport original de la méthode. Les limitations pointées par les auteurs sont partagées par la plupart des architectures VLA actuelles, ce qui signale un axe de recherche pertinent pour quiconque vise le déploiement industriel. Les prochaines étapes naturelles incluraient une validation sur des surfaces déformables ou en mouvement, ainsi qu'un test de passage à l'échelle avec une plus grande diversité de tâches et de morphologies robotiques.

RecherchePaper
1 source