Aller au contenu principal
RecherchearXiv cs.RO3h

Quelles questions les robots devraient-ils pouvoir répondre ? Un jeu de données pour la robotique explicable

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Une équipe de chercheurs a publié sur arXiv (référence 2510.16435) un jeu de données de 1 893 questions posées par des utilisateurs à des robots domestiques, issu d'une collecte auprès de 100 participants recrutés via la plateforme Prolific. Les données ont été structurées en 12 catégories et 70 sous-catégories, à partir de 22 stimuli au total : 15 vidéos et 7 scénarios textuels dépeignant des robots effectuant des tâches ménagères variées. Dans le jeu de données final, les questions les plus fréquentes portent sur les détails d'exécution des tâches (21,4 %), les capacités du robot (12,6 %) et l'évaluation de ses performances (10,7 %). À noter que les questions relatives aux scénarios difficiles ou à la fiabilité du comportement sont moins nombreuses, mais que les participants les jugent comme les plus importantes auxquelles un robot devrait pouvoir répondre.

Ce travail comble un angle mort structurel dans la recherche en robotique explicable : la quasi-totalité des travaux existants se concentre sur les questions de type "pourquoi" (justification d'une décision), alors que ce dataset couvre un spectre bien plus large, des détails opérationnels aux hypothèses contrefactuelles. Pour les intégrateurs et concepteurs de systèmes d'interaction humain-robot, cela signifie que les modules de question-réponse embarqués doivent gérer des requêtes que les architectures conversationnelles actuelles ne priorisent pas. Le constat que les utilisateurs novices posent des questions plus factuelles et immédiates, tandis que les utilisateurs expérimentés interrogent davantage les capacités généralisées du robot, a des implications directes pour la conception des interfaces et la gestion du niveau de détail dans les réponses.

Ce dataset s'inscrit dans un contexte où les grands modèles de langage (LLMs) sont de plus en plus intégrés comme couche conversationnelle dans des systèmes robotiques, des plateformes comme Boston Dynamics Spot aux robots de service de PAL Robotics ou Enchanted Tools. Il constitue une ressource de référence pour trois usages : identifier quelles données les robots doivent logger et exposer via une interface conversationnelle, benchmarker les modules de QA en HRI, et aligner les stratégies d'explication avec les attentes réelles des utilisateurs. Les prochaines étapes naturelles incluent l'extension du dataset à d'autres contextes (industriel, médical) et son utilisation pour entraîner ou évaluer des modèles vision-langage-action (VLA) dans des scénarios d'interaction explicite.

Impact France/UE

Le dataset pourrait servir de référence pour les équipes européennes (dont Enchanted Tools et PAL Robotics) qui intègrent des LLMs comme couche conversationnelle dans leurs robots de service, en orientant la conception de leurs modules QA vers des questions que les architectures actuelles ne priorisent pas.

À lire aussi

EgoWalk : un jeu de données multimodal pour la navigation robotique en conditions réelles
1arXiv cs.RO 

EgoWalk : un jeu de données multimodal pour la navigation robotique en conditions réelles

Une équipe de chercheurs a publié EgoWalk, un dataset multimodal de 50 heures de navigation humaine destiné à entraîner des algorithmes de navigation robotique en conditions réelles. Les données ont été collectées dans une grande variété d'environnements intérieurs et extérieurs, sur plusieurs saisons et sites géographiques différents. Le dataset comprend les données brutes ainsi qu'un format prêt pour l'apprentissage par imitation (Imitation Learning), accompagné de pipelines automatisés générant deux types de sous-datasets dérivés : des annotations d'objectifs en langage naturel et des masques de segmentation de traversabilité. L'ensemble des pipelines de traitement et la description de la plateforme matérielle utilisée pour la collecte sont publiés en open source. L'intérêt principal d'EgoWalk réside dans la rareté des datasets de navigation en conditions non contrôlées, à grande échelle et couvrant plusieurs saisons. La majorité des systèmes de navigation robotique actuels souffrent d'un écart sim-to-real persistant, faute de données réelles suffisamment diversifiées. En proposant simultanément des annotations langage naturel et des masques de traversabilité générés automatiquement, EgoWalk vise à réduire le coût de labellisation manuelle qui freine le développement de modèles vision-langage-action (VLA) pour la navigation outdoor. La publication open source des pipelines permet aux équipes de réplication de reconstruire des datasets similaires sur leur propre plateforme, ce qui est un signal positif pour la reproductibilité dans le domaine. La navigation autonome en environnements non structurés reste l'un des défis centraux de la robotique mobile, que ce soit pour les robots de livraison, les plateformes de surveillance ou les assistants mobiles. EgoWalk s'inscrit dans un mouvement plus large de constitution de datasets ego-centriques, aux côtés d'initiatives comme SCAND (UT Austin) ou des travaux de Boston Dynamics et de Google DeepMind sur la navigation en extérieur. Le fait que les données soient collectées du point de vue humain, plutôt que depuis un robot, soulève la question du transfert de domaine, que les auteurs reconnaissent implicitement en proposant des benchmarks et études de diversité. Les prochaines étapes naturelles seraient la validation sur des plateformes robotiques réelles et l'intégration dans des architectures de type foundation model pour la navigation.

RechercheActu
1 source
COFFAIL : un jeu de données sur les succès et anomalies d'exécution de compétences robotiques pour la préparation du café
2arXiv cs.RO 

COFFAIL : un jeu de données sur les succès et anomalies d'exécution de compétences robotiques pour la préparation du café

L'équipe derrière COFFAIL a publié sur arXiv (référence 2604.18236) un jeu de données consacré à l'apprentissage de compétences robotiques de manipulation, collecté dans un environnement cuisine avec un robot physique. Le dataset couvre plusieurs types de tâches liées à la préparation de café et se distingue par une caractéristique rare dans la littérature : il regroupe à la fois des épisodes d'exécution réussis et des épisodes anomaux, c'est-à-dire des séquences où quelque chose s'est mal passé. Certains épisodes mobilisent une manipulation bimanuell, impliquant la coordination des deux bras du robot. Les auteurs démontrent l'usage concret du dataset en entraînant une politique robotique par imitation learning (apprentissage par démonstration). Ce qui distingue COFFAIL des datasets de manipulation habituellement disponibles, c'est l'inclusion explicite des échecs et des anomalies. La grande majorité des benchmarks publics ne documentent que les trajectoires réussies, ce qui crée un biais structurel dans l'entraînement des modèles : les robots apprennent à réussir, mais pas à détecter ni à récupérer d'une défaillance. Pour les intégrateurs industriels et les équipes de recherche travaillant sur la robustesse et la détection d'anomalies en manipulation, disposer d'exemples négatifs annotés est une ressource directement exploitable, notamment pour entraîner des modules de supervision ou de re-planification. L'application à l'imitation learning suggère aussi une compatibilité avec les architectures VLA (vision-language-action) actuelles. La préparation de café comme domaine applicatif est un choix délibéré dans la robotique de service : c'est une tâche suffisamment structurée pour être reproductible, mais qui implique des objets déformables, des liquides, et des contraintes temporelles, ce qui en fait un banc de test représentatif pour la manipulation fine. Plusieurs labos et startups ont utilisé des scénarios similaires pour tester leurs pipelines, dont Physical Intelligence (pi0), Everyday Robots (avant sa dissolution chez Google) ou des équipes académiques européennes. COFFAIL reste pour l'instant une contribution de dataset sans benchmarking comparatif avec d'autres méthodes, ce qui limite la portée des conclusions : le papier est court et déclaré comme tel par les auteurs. Les prochaines étapes naturelles seraient une évaluation comparative sur des tâches de détection d'anomalies et une extension du protocole à d'autres domaines de manipulation.

UELes équipes de recherche européennes en manipulation robotique peuvent exploiter ce dataset pour entraîner des modules de détection d'anomalies, mais aucun acteur FR/EU n'est directement impliqué dans sa production.

RecherchePaper
1 source
Un robot de tennis de table bat certains des meilleurs joueurs mondiaux : les implications majeures pour la robotique
3Robohub 

Un robot de tennis de table bat certains des meilleurs joueurs mondiaux : les implications majeures pour la robotique

Sony AI a publié dans la revue Nature les résultats d'un robot de tennis de table autonome baptisé Ace, capable de remporter trois matchs sur cinq contre des joueurs de niveau élite, soit des athlètes comptant plus de dix ans de pratique et vingt heures d'entraînement hebdomadaire en moyenne. Le robot a perdu ses deux confrontations face à des professionnels de la ligue japonaise, mais a remporté un set contre l'un d'eux, dont Yamato Kawamata lors d'un match en décembre 2025. Ace joue sur une table réglementaire, avec un équipement standard, contre des adversaires libres d'utiliser l'intégralité de leur répertoire technique. La balle peut dépasser 20 mètres par seconde et les joueurs professionnels peuvent lui imprimer une rotation jusqu'à 9 000 tours par minute, laissant moins d'une demi-seconde au robot pour évaluer la trajectoire et formuler une réponse. Pour percevoir cette dynamique, le système combine trois capteurs de vision événementielle (qui détectent les changements de luminosité plutôt que de capturer des images fixes) et neuf caméras haute vitesse. Un algorithme d'apprentissage par renforcement profond, entraîné sur plusieurs millions de rallyes simulés en self-play, recalcule les commandes de mouvement du bras articulé toutes les quelques dizaines de millisecondes, en évitant les collisions avec la table et avec le bras lui-même. Ce résultat dépasse le cadre du ping-pong : il constitue la première démonstration publiquement documentée d'un système IA autonome compétitif dans un environnement physique non contraint, à vitesse humaine et contre des adversaires experts. Contrairement aux victoires d'AlphaGo ou de Stockfish, obtenues dans des univers entièrement numériques aux règles fixes, Ace opère dans un espace où la physique, le spin et l'imprévisibilité humaine créent des conditions radicalement ouvertes. Pour l'industrie robotique, cela valide une chaîne technique complète : estimation de spin en temps réel via marquages visuels, transfert sim-to-real sur des tâches dynamiques rapides, et contrôle d'un bras multi-articulé sous contrainte temporelle sévère. Ces mêmes briques techniques (capteurs événementiels, RL simulé, contrôle rapproché temps réel) sont directement transférables à la manipulation industrielle haute cadence, au tri ou à l'assemblage fin, là où les systèmes actuels restent limités par leur latence de perception. Sony AI s'inscrit dans une trajectoire de recherche où la table de ping-pong sert depuis longtemps de banc de test pour la robotique physique. Le robot Forpheus d'Omron, développé depuis 2017, avait pavé la voie mais dans des conditions contraintes : lanceur de balles contrôlé, déplacements limités, effets de rotation peu ou pas pris en compte. Ace franchit un seuil qualitatif en jouant dans les mêmes conditions qu'un humain. Sony n'a pas encore annoncé de calendrier de commercialisation ni de partenariat industriel, et la publication Nature porte le statut d'avancée de recherche plutôt que de produit commercialisé. Du côté des concurrents, les efforts en robotique physique intelligente se concentrent ailleurs : Boston Dynamics sur la locomotion, Figure et 1X sur les humanoïdes polyvalents, Sanctuary AI sur la manipulation généraliste. Le vrai enjeu pour Sony sera de montrer si les innovations d'Ace peuvent migrer vers des cas d'usage industriels concrets, ou si elles restent cantonnées à un démonstrateur de laboratoire remarquable.

RecherchePaper
1 source
Au-delà des pixels : apprendre des récompenses invariantes pour la robotique réelle à partir de quelques démonstrations
4arXiv cs.RO 

Au-delà des pixels : apprendre des récompenses invariantes pour la robotique réelle à partir de quelques démonstrations

Des chercheurs ont publié fin mai 2026 (arXiv:2605.22123) un framework permettant d'apprendre des fonctions de récompense symboliques invariantes à partir de seulement cinq démonstrations pour des tâches de manipulation robotique. Le système repose sur deux composants couplés : une formulation structurelle de récompense encodant des stratégies de niveau tâche et des contraintes physiques, et une procédure hybride symbolique-numérique qui distille des invariants comportementaux depuis ces démonstrations sans requérir d'interaction en ligne avec l'environnement. La méthode a été évaluée sur huit tâches du benchmark Meta-World et trois tâches de manipulation sur bras Franka, affichant de meilleures capacités d'alignement procédural et de classement de rollouts de politique par rapport aux baselines existantes. Trois expériences réelles out-of-distribution valident une généralisation zero-shot à des variations de position, de point de vue caméra et d'instances d'objets inédites. Le problème adressé est structurel : les modèles de récompense basés sur la vision tendent à mémoriser des distributions de pixels spécifiques et s'effondrent dès que les conditions visuelles changent, qu'il s'agisse d'un objet déplacé, d'un angle de caméra différent ou d'une variante d'objet inconnue. Pour un intégrateur déployant un système de manipulation en milieu industriel, cela impose de recollectecter des démonstrations ou de réentraîner le modèle à chaque variation du contexte opérationnel. Le passage aux invariants symboliques, c'est-à-dire des propriétés comportementales constantes indépendamment de l'apparence visuelle, propose une représentation de récompense réutilisable sur de multiples variantes de tâche sans interaction supplémentaire, ce qui réduit significativement le coût itératif du déploiement en apprentissage par renforcement. Ce travail s'inscrit dans une dynamique de recherche active visant à résoudre le goulot d'étranglement du reward engineering en RL robotique. Les approches récentes fondées sur des embeddings visuels issus de VLMs, comme VIP ou RoboCLIP, ont progressé sur la généralisation visuelle mais restent fragilisées par les variations de distribution en dehors des conditions d'entraînement. La méthode proposée se distingue en substituant aux embeddings bruts une abstraction symbolique de la tâche. Des laboratoires comme Berkeley BAIR, Stanford ou le CMU Robotics Institute travaillent sur des directions similaires d'abstraction pour le RL. La capacité à bootstrapper une récompense généralisable depuis cinq démonstrations seulement ouvre la voie à des pipelines de fine-tuning robotique plus accessibles, potentiellement utilisables par des intégrateurs sans expertise RL avancée.

RecherchePaper
1 source