RechercheIEEE Spectrum Robotics 12 juin 2026

Un chercheur primé entraîne des robots à formuler des hypothèses éclairées

1 source couvre ce sujet·Source originale ↗·

Résumé IASource uniqueImpact UE

Yen-Ling Kuo, professeure assistante en informatique à l'Université de Virginie à Charlottesville, a reçu l'année dernière le tout premier prix "Outstanding Women in Robotics and Automation Early Career Contribution Award" de l'IEEE Robotics and Automation Society. Cette distinction, créée dans le cadre du programme WiRA (Women in Robotics and Automation), récompense son article intitulé "Diff-DAgger: Uncertainty Estimation with Diffusion Policy for Robotic Manipulation". La méthode présentée permet à un robot de mieux évaluer et gérer l'incertitude lorsqu'il est confronté à des situations sur lesquelles il n'a pas été entraîné. Concrètement, le système réduit le besoin de supervision humaine tout en améliorant le taux de succès dans les tâches de manipulation. Membre IEEE, Kuo est titulaire d'un bachelor et d'un master en informatique de la National Taiwan University (respectivement 2009 et 2012), avant d'intégrer Google en 2012 comme ingénieure logicielle, puis d'embrasser une carrière académique à l'Université de Virginie.

Diff-DAgger s'attaque à l'un des obstacles persistants du déploiement robotique en environnements réels : la capacité d'un robot à reconnaître qu'il se trouve hors de sa zone de compétence. Plutôt qu'échouer silencieusement ou répéter indéfiniment une action erronée, un robot équipé de cette approche peut estimer son propre niveau de confiance et solliciter une intervention humaine ciblée uniquement lorsque nécessaire. Cette architecture réduit la charge de collecte de données d'entraînement et ouvre la voie à l'intégration de modèles plus complexes, notamment les politiques de diffusion (diffusion policy), une famille de modèles génératifs appliquée au contrôle robotique, dans les boucles d'apprentissage interactif. Pour les intégrateurs industriels et les équipes R&D en robotique, l'enjeu est concret : moins de démonstrations humaines requises pour généraliser un comportement, et une robustesse accrue face aux variantes imprévues en production.

Le parcours de Kuo illustre la convergence entre sciences cognitives et informatique qui irrigue aujourd'hui la recherche en robotique incarnée. Après ses études à Taipei, elle passe l'été 2011 chez Google à Kirkland (Washington) avant de rejoindre brièvement le MIT Media Lab sur le projet Open Mind Common Sense, un effort pionnier de représentation du sens commun pour les machines. Recrutée à temps plein chez Google en 2012, elle pilote l'initiative Shop the Look, qui connectait contenus de réseaux sociaux et résultats de recherche via vision par ordinateur et traitement du langage naturel, un précurseur direct des expériences shopping actuelles propulsées par l'IA. C'est dans ce contexte qu'elle commence à travailler avec les premiers outils de réseaux de neurones profonds, soulevant des questions sur leur interprétabilité et leur fiabilité qui orienteront sa trajectoire de recherche. Son travail sur l'incertitude en manipulation s'inscrit dans un écosystème académique actif, aux côtés d'équipes comme celles de Chelsea Finn (Stanford) ou Sergey Levine (Berkeley), qui explorent des approches similaires d'apprentissage par imitation robuste face à la distribution shift.

À lire aussi

1Interesting Engineering

Un nouveau système d'IA aide les robots à transférer leur entraînement virtuel vers des tâches réelles

Des chercheurs de l'Aston University et de l'University of Birmingham ont publié dans Scientific Reports une méthode d'entraînement robotique visant à réduire le "sim-to-real gap", ce fossé persistant entre les performances d'un robot en simulation et son comportement réel. L'approche, développée dans le cadre du projet REBELION financé par UK Research and Innovation, utilise un générateur de variations d'environnement piloté par IA : pendant la phase de simulation, le système introduit automatiquement des perturbations (bruit capteur, variabilité des matériaux, forces inattendues) pour entraîner le robot à des conditions plus proches du terrain. La validation expérimentale porte sur des tâches de manipulation et de découpe impliquant une interaction physique avec des matériaux, puis un ajustement avec un volume minimal de données réelles. Le cas d'usage mis en avant est le recyclage de batteries lithium-ion, où les robots doivent opérer autour de cellules endommagées ou potentiellement dangereuses, rendant les cycles de test physiques coûteux et risqués. L'intérêt industriel est direct : la dépendance à de longs cycles de test en environnement réel est l'un des principaux freins au déploiement rapide de robots dans des lignes de production ou des ateliers de recyclage. En permettant de compresser l'essentiel de l'apprentissage en simulation tout en garantissant un transfert fiable avec peu de données réelles, cette approche pourrait raccourcir significativement les timelines d'intégration et réduire les coûts opérationnels pour les industriels. Elle valide aussi une hypothèse qui fait débat dans le secteur depuis plusieurs années : que le sim-to-real gap n'est pas une fatalité, mais un problème d'exposition à la variance pendant l'entraînement. La vision formulée par le Dr. Alireza Rastegarpanah, assistant professor en applied AI and robotics à Aston University, est celle de systèmes robotiques "plug-and-play", entraînés une fois en simulation et redéployés rapidement dans un nouveau contexte sans reconfiguration lourde. C'est une promesse ambitieuse, et les résultats publiés restent limités à un périmètre de tâches contrôlées ; aucun chiffre de performance comparative (taux de succès, cycles de recalibration) n'est rendu public dans la version relayée. Le sim-to-real gap est un problème structurel documenté depuis les premières applications de reinforcement learning en robotique. Des acteurs comme Boston Dynamics, Agility Robotics ou encore Wandercraft (France, exosquelettes) utilisent des combinaisons de domain randomization et de transfert par imitation pour y répondre, avec des niveaux de maturité variables selon les tâches. Le projet REBELION s'inscrit dans un effort européen plus large sur l'automatisation du recyclage de batteries, filière en forte croissance avec l'essor des véhicules électriques. Les prochaines étapes annoncées par l'équipe visent à élargir la méthode à des environnements industriels plus incertains et à des applications en manufacturing avancé et opérations autonomes, sans calendrier précis communiqué.

UELa méthode du projet REBELION (financé UKRI, inscrit dans un effort européen) pourrait accélérer le déploiement de robots dans les filières EU de recyclage de batteries lithium-ion, secteur stratégique pour la transition électrique.

RecherchePaper

1 source

2arXiv cs.RO

Phantom : entraîner des robots sans robots, uniquement avec des vidéos humaines

Une équipe de chercheurs a publié Phantom (arXiv:2503.00779), un framework d'entraînement de politiques de manipulation robotique n'utilisant aucune donnée robot : uniquement des vidéos de démonstrations humaines. Le pipeline extrait les trajectoires via estimation de pose des mains (hand pose estimation), efface le bras humain par inpainting, puis superpose un rendu 3D du robot cible pour produire des paires observation-action directement exploitables. Déployé en zero-shot sur matériel réel sans fine-tuning, le système atteint jusqu'à 92 % de taux de réussite sur des tâches de manipulation d'objets déformables, de balayage multi-objets et d'insertion de composants. Les politiques supportent l'exécution en boucle fermée (closed-loop) et généralisent à des environnements inédits non vus à l'entraînement. L'enjeu est la scalabilité des données. La téléopération, méthode dominante chez Figure, 1X ou Physical Intelligence, exige du matériel disponible, des opérateurs qualifiés et des sessions d'enregistrement coûteuses. En substituant des vidéos humaines à ces démos, Phantom compresse drastiquement le coût d'acquisition du dataset. Si les taux de réussite annoncés se confirment en dehors des conditions contrôlées du laboratoire, cela représenterait un argument solide contre le "reality gap" classique entre simulation et déploiement industriel. La capacité à généraliser sans fine-tuning, point souvent problématique pour les modèles VLA (Visual Language Action), mérite toutefois une validation sur des environnements plus variés que ceux présentés dans le papier. Le problème des données hors-robot n'est pas nouveau : DexMV, ACT et les travaux autour de GR00T N2 de NVIDIA ont exploré des voies comparables, et Physical Intelligence avec pi-0 a parié sur la diversité massive de données multi-embodiment. Les approches sim-to-real via IsaacLab ou Genesis constituent les concurrents méthodologiques directs, contournant le même obstacle par la simulation plutôt que par la vidéo humaine. Phantom se distingue par sa légèreté : pas de flotte de robots nécessaire pour constituer le dataset initial. Le travail reste à ce stade une preuve de concept académique, sans partenariat ni déploiement industriel annoncé. La prochaine étape attendue serait une validation sur des morphologies robotiques variées et des tâches à précision sub-millimétrique.

RechercheOpinion

1 source

3Interesting Engineering

Robot humanoïde marche sur sable, gravier et pentes grâce à un cadre d'entraînement plus rapide

Des chercheurs du Georgia Institute of Technology ont mis au point un nouveau cadre d'apprentissage automatique baptisé « Learn to Teach » (L2T), qui permet à un robot humanoïde bipède de marcher sur du sable, du gravier, de l'herbe détrempée, des pentes, des escaliers et des surfaces glissantes, tout en réduisant nettement le temps et la puissance de calcul nécessaires à l'entraînement du contrôleur. Contrairement à l'apprentissage classique par renforcement de type enseignant-élève, où un modèle « professeur » est d'abord entraîné en simulation avant de transmettre ses connaissances à un modèle « élève » qui pilote le robot réel, la méthode de Georgia Tech entraîne les deux agents simultanément. Selon Feiyang Wu, chercheur principal du projet, l'approche séquentielle classique pose deux problèmes : elle prend trop de temps et gaspille une partie des informations collectées par le professeur en cours d'apprentissage. Le contrôleur a été testé sur un robot humanoïde grandeur nature dans le laboratoire du professeur associé Ye Zhao, où l'équipe a aussi poussé et tiré la machine pendant les essais pour observer sa capacité à ajuster sa démarche et rester stable. Les travaux ont été présentés à l'ICRA (IEEE International Conference on Robotics and Automation). Cette avancée s'attaque à un goulot d'étranglement bien identifié dans la robotique humanoïde : l'entraînement de contrôleurs en simulation nécessite souvent des heures de calcul sur du matériel GPU coûteux, un frein direct à l'itération rapide et au déploiement à grande échelle. En faisant apprendre le professeur et l'élève en parallèle, et en permettant au professeur de tirer des enseignements de l'expérience de l'élève, l'équipe réduit ce que les roboticiens appellent le « fossé d'imitation » entre les conditions idéalisées de la simulation et la réalité du terrain, un problème central dans le débat sur le fameux « sim-to-real gap ». Fait notable, le même contrôleur généraliste a surpassé le logiciel fourni par le fabricant du robot sur plusieurs types de terrains, sans nécessiter de contrôleurs distincts par environnement, ce qui illustre la valeur d'une recherche en apprentissage automatique directement confrontée au monde réel plutôt qu'à des démonstrations scénarisées. Wu reconnaît que l'équipe ne s'attendait pas elle-même à une telle polyvalence pour un robot humanoïde aussi volumineux, la locomotion agile sur terrain accidenté n'ayant jusqu'ici jamais été véritablement démontrée pour ce type de machine. Au-delà de la marche, les chercheurs estiment que le cadre « Learn to Teach » pourrait s'appliquer à d'autres architectures de robots et à des tâches variées exigeant un déplacement fiable en environnement imprévisible, ouvrant une piste de recherche transférable bien au-delà du seul cas d'usage testé à Atlanta.

RecherchePaper

1 source

4arXiv cs.RO

Hi-WM : un modèle du monde centré sur l'humain pour l'entraînement robotique à grande échelle

Une équipe de recherche présente Hi-WM (Human-in-the-World-Model), un cadre de post-entraînement pour politiques robotiques généralisées, publié sur arXiv (2604.21741). L'approche remplace l'exécution physique par un modèle du monde appris : la politique est d'abord déroulée en boucle fermée dans ce simulateur interne, et lorsqu'une trajectoire devient incorrecte ou risquée, un opérateur humain intervient directement dans le modèle pour fournir des actions correctives courtes. Hi-WM met en cache les états intermédiaires et supporte le rollback et le branchement, ce qui permet de réutiliser un seul état d'échec pour générer plusieurs continuations correctives distinctes. Les trajectoires ainsi produites sont réinjectées dans le jeu d'entraînement. Évalué sur trois tâches de manipulation réelle (objets rigides et déformables) avec deux architectures de politique différentes, le système affiche un gain de 37,9 points en taux de succès réel par rapport à la politique de base, et de 19,0 points par rapport à une ligne de base en boucle fermée dans le modèle du monde. La corrélation entre les évaluations dans le modèle et les performances réelles atteint r = 0,953. Ce résultat adresse un goulot d'étranglement structurel du déploiement robotique : le post-entraînement actuel exige du temps robot, des resets de scène, une supervision opérateur en continu, autant de contraintes qui rendent la correction itérative coûteuse à l'échelle. En décorrélant la phase corrective de l'exécution physique, Hi-WM densifie la supervision précisément là où la politique échoue, sans mobiliser le matériel. La forte corrélation sim-to-real (r > 0,95) est notable : elle suggère que le modèle du monde est suffisamment fidèle pour qualifier les politiques avant déploiement, ce qui contredit en partie l'hypothèse que l'évaluation dans le modèle reste trop éloignée des conditions réelles pour être exploitable. Les modèles du monde conditionnés sur les actions sont étudiés depuis plusieurs années principalement pour la génération de données synthétiques et l'évaluation de politiques, notamment dans les travaux autour des VLA (Vision-Language-Action models) et des politiques généralisées comme celles portées par Physical Intelligence (Pi-0) ou les recherches internes de Google DeepMind. Hi-WM repositionne ces modèles comme substrat correctif actif, une troisième fonction jusqu'ici peu explorée. Les suites naturelles incluent l'extension à des tâches de locomotion, la réduction du coût de construction du modèle du monde, et l'intégration dans des pipelines de fine-tuning continu pour robots déployés en environnement industriel variable.

RechercheOpinion

1 source