RecherchearXiv cs.RO6sem

Robots capables de demander des précisions : corriger des récompenses mal alignées grâce à des explications ciblées

1 source couvre ce sujet·Source originale ↗·

Résumé IASource uniqueImpact UE

Des chercheurs ont publié fin mai 2026 (arXiv:2605.22986) un cadre algorithmique permettant à un robot d'identifier automatiquement les aspects d'une tâche qu'il n'a pas correctement appris à partir de démonstrations humaines, puis de formuler en langage naturel des requêtes ciblées pour obtenir des démonstrations correctives. Le système s'applique à l'apprentissage de fonctions de récompense par imitation : lorsqu'un humain montre plusieurs fois comment accomplir une tâche, certains comportements sont bien couverts, d'autres sous-représentés, soit par charge cognitive, soit par difficulté physique à les démontrer de façon cohérente. Le mécanisme de détection repose sur une observation statistique simple : les caractéristiques bien spécifiées présentent peu de variance entre démonstrations, tandis que celles qui sont ambiguës varient largement. Le robot exploite ce signal pour inférer ses propres lacunes, puis explique verbalement à l'opérateur humain les aspects comportementaux incertains avant de demander de nouvelles démonstrations ciblées sur ces gaps. Le dispositif a été validé sur un domaine de manipulation de table simulé et dans une étude utilisateur avec un robot Franka réel.

L'enjeu est direct pour les intégrateurs et les équipes d'automatisation industrielle : l'apprentissage par démonstration (LfD) est l'une des voies les plus prometteuses pour programmer des robots sans expertise en robotique, mais son talon d'Achille reste précisément le comportement divergent au déploiement quand les démonstrations ne couvrent pas suffisamment l'espace des situations réelles. Ce travail propose une boucle de correction active qui réduit l'ambiguïté résiduelle sans imposer à l'opérateur de savoir a priori quoi re-démontrer, ce que ne permettent ni la collecte passive de données supplémentaires ni les requêtes aléatoires. Les résultats montrent une amélioration significative de la récupération de la fonction de récompense correcte, ce qui constitue un signal concret contre l'hypothèse que le "demo-to-deploy gap" serait inévitable avec des démonteurs non experts.

Ce travail s'inscrit dans la dynamique actuelle autour des architectures d'apprentissage interactif pour la robotique, à côté des approches de type RLHF robot (reinforcement learning from human feedback) ou des corrections par retour haptique. Il se distingue en rendant le robot explicitement demandeur d'information plutôt que passif. Les concurrents directs incluent les travaux sur l'active inverse reward design de Sadigh et al., ainsi que les approches de preference learning à la PEBBLE. La validation sur Franka, robot dominant des labos académiques, donne une crédibilité matérielle, bien qu'une évaluation sur manipulateurs industriels ou humanoïdes reste à faire. La prochaine étape logique serait de tester ce mécanisme en environnement non structuré ou avec des opérateurs non techniques, ce que les auteurs n'ont pas encore adressé.

Impact France/UE

Les équipes de recherche en robotique française (INRIA, CEA-List) et les intégrateurs européens déployant l'apprentissage par démonstration peuvent directement évaluer ce cadre pour réduire le gap démo-déploiement sans imposer une expertise robotique aux opérateurs.

Dans nos dossiers

arXiv cs.RO

À lire aussi

1Interesting Engineering

Les robots humanoïdes plient, ramassent et manipulent des objets fragiles avec plus de précision grâce à une nouvelle technologie

Des chercheurs de Carnegie Mellon University (CMU) et du Bosch Center for AI ont publié un nouveau système d'IA baptisé HTD (Humanoid Transformer with Touch Dreaming), conçu pour améliorer la manipulation d'objets par des robots humanoïdes dans des environnements à contact complexe. Le framework combine l'apprentissage par imitation avec un module de prédiction tactile, permettant au robot d'anticiper l'évolution des forces de contact et du retour haptique avant et pendant la saisie. Testé sur cinq tâches réelles, insertion d'objet en T, rangement de livres, pliage de serviette, ramassage de litière et service du thé, HTD affiche une amélioration relative de 90,9 % du taux de réussite moyen par rapport à la baseline ACT, un modèle d'imitation de référence dans le domaine. Le système repose sur une architecture dissociée : un contrôleur bas-corps entraîné par renforcement en simulation via une méthode teacher-student stabilise l'orientation du torse, la vitesse et l'équilibre, tandis que la cinématique inverse et le retargeting de main gèrent les mouvements du haut du corps et la dextérité digitale. Les représentations tactiles ne sont pas reconstruites brutes mais encodées dans un espace latent compact via un réseau cible mis à jour lentement, ce qui filtre le bruit sensoriel et améliore la stabilité de la manipulation. Ce résultat est notable parce qu'il adresse directement l'un des verrous persistants de la robotique humanoïde : la cohabitation entre locomotion et manipulation fine sans dégradation mutuelle. La séparation architecturale bas/haut corps n'est pas nouvelle en soi, mais son intégration avec un modèle prédictif tactile dans une politique unifiée évite le recours à un pré-entraînement tactile séparé ou à un world model externe, ce qui simplifie le pipeline de déploiement. Les études d'ablation sont particulièrement instructives : incorporer le toucher comme entrée brute supplémentaire ne suffit pas, la prédiction dans l'espace latent apporte 30 % de gain relatif supplémentaire sur le raw tactile. Pour les intégrateurs qui envisagent des humanoïdes dans des cellules de manutention délicate, c'est un signal clair que la qualité de la représentation sensorielle prime sur la quantité de capteurs. HTD s'inscrit dans une vague de travaux cherchant à combler le sim-to-real gap pour la manipulation contact-riche. Le controller bas-corps a été entraîné sur le dataset AMASS, qui fournit des mouvements humains réalistes pour perturber le torse pendant l'apprentissage, une approche de robustification déjà utilisée dans des projets comme Isaac Lab de NVIDIA ou les travaux de Stanford sur whole-body control. Dans le paysage concurrentiel, Figure (Figure 03), Physical Intelligence (Pi-0), Boston Dynamics et 1X Technologies travaillent tous sur des architectures VLA (Vision-Language-Action) pour la manipulation généraliste, mais peu publient des résultats quantitatifs sur des tâches aussi précises que l'insertion de connecteurs ou la manipulation de textiles. CMU n'a pas encore annoncé de partenariat industriel ni de calendrier de transfert vers un produit commercial, mais le Bosch Center for AI comme co-auteur suggère un intérêt applicatif concret dans l'automatisation industrielle à manipulation variable.

UELe Bosch Center for AI (Allemagne) co-auteur du papier signale un intérêt applicatif concret pour l'automatisation industrielle européenne à manipulation variable, sans calendrier de transfert industriel annoncé.

RechercheOpinion

1 source

2arXiv cs.RO

Explications contrefactuelles temporelles des décisions d'arbres de comportement

Une équipe de chercheurs a publié sur arXiv (référence 2509.07674, version 2) une méthode automatisée de génération d'explications contrefactuelles temporelles pour les robots pilotés par des arbres de comportement (behaviour trees, BT). Le système répond en temps réel aux questions de type "pourquoi le robot a-t-il fait X plutôt que Y ?" en construisant automatiquement un modèle causal à partir de la structure du BT et de la connaissance du domaine applicatif, puis en interrogeant ce modèle pour produire un ensemble d'explications contrefactuelles diversifiées. Les auteurs affirment surpasser les méthodes existantes, qui soit ne répondent pas aux questions contrastives avec des explications causales, soit ne garantissent pas la cohérence et la précision des réponses sur une large gamme de structures de BT et d'états système. Les arbres de comportement sont largement utilisés dans les systèmes robotiques industriels et de service pour piloter la prise de décision, des manipulateurs aux robots mobiles autonomes (AMR) en passant par les plateformes humanoïdes. La question de l'explicabilité (XAI) y est critique pour les intégrateurs et les équipes de sécurité fonctionnelle : comprendre pourquoi un robot a choisi une séquence d'actions plutôt qu'une autre est indispensable pour la certification, la maintenance et l'acceptation par les opérateurs. Cette méthode propose le premier mécanisme de causalité contrefactuelle automatique dédié aux BT, comblant un angle mort identifié dans la littérature XAI robotique. Les arbres de comportement ont progressivement remplacé les automates finis (FSM) dans de nombreux systèmes robotiques depuis le milieu des années 2010, grâce à leur modularité et leur lisibilité. Les travaux antérieurs sur l'explicabilité des BT se limitaient à des justifications post-hoc non causales ou à des méthodes génériques issues de LIME, SHAP ou des réseaux causaux structuraux (SCM). La validation présentée repose sur des structures de BT synthétiques et des états variés, sans déploiement industriel annoncé à ce stade. Les prochaines étapes naturelles incluent la validation en environnement réel et l'intégration dans des interfaces opérateur, un enjeu croissant en Europe avec l'AI Act et les normes cobotiques (ISO 10218) qui renforcent les exigences de traçabilité des décisions autonomes.

UELes exigences de traçabilité de l'AI Act et des normes cobotiques (ISO 10218) rendent cette méthode d'explicabilité causale directement pertinente pour les intégrateurs robotiques européens soumis à certification.

RecherchePaper

1 source

3arXiv cs.RO

EvoNav : conception évolutionnaire de fonctions de récompense pour la navigation robotique avec des grands modèles de langage

Un préprint déposé sur arXiv le 16 mai 2025 (référence 2605.11859) présente EvoNav, un cadre évolutionnaire automatisant la conception de fonctions de récompense pour la navigation robotique en environnements dynamiques peuplés d'humains. Le problème de fond : en reinforcement learning (RL), la qualité d'une politique de navigation dépend directement de sa fonction de récompense, un processus manuel coûteux en expertise et porteur de biais difficilement auditables. EvoNav confie cette tâche à un grand modèle de langage (LLM) dans une boucle évolutionnaire. Chaque candidat-récompense proposé par le LLM est évalué selon une procédure en trois étapes progressives : proxies analytiques peu coûteux (petits jeux de données, règles analytiques), rollouts légers, puis entraînement complet de la politique. Cette progression évite d'entraîner une politique complète pour chaque candidat, réduisant significativement le coût de calcul. Les auteurs concluent qu'EvoNav surpasse les récompenses artisanales et les méthodes de référence actuelles, sans détailler les métriques précises dans le résumé disponible. Pour les équipes développant des robots sociaux ou des AMR en environnements non structurés, l'enjeu est structurel : le reward engineering est l'une des étapes les plus chronophages du développement RL, nécessitant des allers-retours coûteux entre experts domaine et ingénieurs ML. Automatiser ce processus via LLM déplace le goulot d'étranglement de l'expertise tacite vers une boucle d'optimisation pilotée par données. Point de vigilance : le papier est un préprint sans relecture par les pairs, et les comparaisons avec l'état de l'art manquent de détails sur les benchmarks et les configurations de test utilisées, ce qui rend difficile une évaluation indépendante des gains annoncés. EvoNav s'inscrit dans un courant initié notamment par EUREKA (NVIDIA, 2023), qui avait démontré que GPT-4 pouvait générer des récompenses surpassant des experts humains sur des tâches de dextérité en manipulation. La navigation sociale est un terrain plus difficile, car elle implique la prédiction de comportements humains en temps réel dans des espaces ouverts. Aucun partenaire industriel ni institution de recherche n'est identifié dans le document accessible ; les prochaines étapes naturelles seraient une validation sur robot physique et une comparaison directe avec des approches VLA (vision-language-action), qui constituent une alternative architecturale de plus en plus crédible pour la navigation en environnement ouvert.

RecherchePaper

1 source

4arXiv cs.RO

RoboAlign-R1 : alignement multimodal des récompenses pour les modèles du monde vidéo robotique

Des chercheurs ont publié le 6 mai 2026 sur arXiv (arXiv:2605.03821) un framework baptisé RoboAlign-R1, conçu pour améliorer l'alignement des modèles vidéo du monde robotique avec les objectifs réels de prise de décision. Le coeur du travail repose sur un benchmark inédit, RobotWorldBench, qui rassemble 10 000 paires vidéo-instruction annotées issues de quatre sources de données robotiques, et sur un juge multimodal, RoboAlign-Judge, capable d'évaluer les vidéos générées selon six dimensions distinctes (instruction following, manipulation accuracy, plausibilité physique, entre autres). Ce juge enseignant est ensuite distillé en un modèle récompense léger pour un post-entraînement par renforcement. En parallèle, les auteurs introduisent une stratégie d'inférence sans entraînement supplémentaire, le Sliding Window Re-encoding (SWR), qui rafraichit périodiquement le contexte de génération pour limiter la dérive lors des prédictions à long horizon. Les gains mesurés sont de 10,1 % sur le score agrégé à six dimensions par rapport au meilleur baseline, dont 7,5 % en précision de manipulation et 4,6 % en suivi d'instructions. Le SWR apporte quant à lui une réduction de 9,8 % en LPIPS et une hausse de 2,8 % en SSIM, avec seulement environ 1 % de latence additionnelle. Ce travail pointe un problème structurel rarement nommé aussi clairement dans la littérature : les modèles vidéo robotiques sont généralement optimisés pour des métriques visuelles basses (reconstruction pixel, SSIM) qui ne corrèlent pas avec la performance réelle en manipulation ou en suivi d'instructions. Autrement dit, un modèle peut produire des vidéos visuellement cohérentes tout en étant inutilisable pour le contrôle d'un bras robotique. En transposant la logique du post-entraînement par récompense, inspirée du RLHF appliqué aux LLM, aux world models vidéo, RoboAlign-R1 propose une voie pour aligner simulation et tâche réelle. Pour les équipes qui utilisent ces modèles comme simulateurs de planification ou générateurs de données synthétiques, l'évaluation multi-dimensionnelle de RoboAlign-Judge pourrait devenir un protocole de référence, à condition que le benchmark soit publié et reproductible. Cette publication s'inscrit dans une dynamique plus large d'application des techniques d'alignement (post-training, distillation, RL) à la robotique incarnée, un domaine où des travaux comme UniSim, GROOT de NVIDIA ou IRASim ont posé les bases des world models vidéo. Le code et les données ne sont pas encore disponibles publiquement au moment de la publication, ce qui limite l'évaluation indépendante des résultats. La prochaine étape naturelle serait une validation sur robot physique en dehors du protocole in-domain utilisé ici, car les gains mesurés en simulation n'impliquent pas directement un transfert sim-to-real amélioré.

RechercheOpinion

1 source