Robots capables de demander des précisions : corriger des récompenses mal alignées grâce à des explications ciblées
Des chercheurs ont publié fin mai 2026 (arXiv:2605.22986) un cadre algorithmique permettant à un robot d'identifier automatiquement les aspects d'une tâche qu'il n'a pas correctement appris à partir de démonstrations humaines, puis de formuler en langage naturel des requêtes ciblées pour obtenir des démonstrations correctives. Le système s'applique à l'apprentissage de fonctions de récompense par imitation : lorsqu'un humain montre plusieurs fois comment accomplir une tâche, certains comportements sont bien couverts, d'autres sous-représentés, soit par charge cognitive, soit par difficulté physique à les démontrer de façon cohérente. Le mécanisme de détection repose sur une observation statistique simple : les caractéristiques bien spécifiées présentent peu de variance entre démonstrations, tandis que celles qui sont ambiguës varient largement. Le robot exploite ce signal pour inférer ses propres lacunes, puis explique verbalement à l'opérateur humain les aspects comportementaux incertains avant de demander de nouvelles démonstrations ciblées sur ces gaps. Le dispositif a été validé sur un domaine de manipulation de table simulé et dans une étude utilisateur avec un robot Franka réel.
L'enjeu est direct pour les intégrateurs et les équipes d'automatisation industrielle : l'apprentissage par démonstration (LfD) est l'une des voies les plus prometteuses pour programmer des robots sans expertise en robotique, mais son talon d'Achille reste précisément le comportement divergent au déploiement quand les démonstrations ne couvrent pas suffisamment l'espace des situations réelles. Ce travail propose une boucle de correction active qui réduit l'ambiguïté résiduelle sans imposer à l'opérateur de savoir a priori quoi re-démontrer, ce que ne permettent ni la collecte passive de données supplémentaires ni les requêtes aléatoires. Les résultats montrent une amélioration significative de la récupération de la fonction de récompense correcte, ce qui constitue un signal concret contre l'hypothèse que le "demo-to-deploy gap" serait inévitable avec des démonteurs non experts.
Ce travail s'inscrit dans la dynamique actuelle autour des architectures d'apprentissage interactif pour la robotique, à côté des approches de type RLHF robot (reinforcement learning from human feedback) ou des corrections par retour haptique. Il se distingue en rendant le robot explicitement demandeur d'information plutôt que passif. Les concurrents directs incluent les travaux sur l'active inverse reward design de Sadigh et al., ainsi que les approches de preference learning à la PEBBLE. La validation sur Franka, robot dominant des labos académiques, donne une crédibilité matérielle, bien qu'une évaluation sur manipulateurs industriels ou humanoïdes reste à faire. La prochaine étape logique serait de tester ce mécanisme en environnement non structuré ou avec des opérateurs non techniques, ce que les auteurs n'ont pas encore adressé.
Les équipes de recherche en robotique française (INRIA, CEA-List) et les intégrateurs européens déployant l'apprentissage par démonstration peuvent directement évaluer ce cadre pour réduire le gap démo-déploiement sans imposer une expertise robotique aux opérateurs.
Dans nos dossiers




