Aller au contenu principal
Un chercheur primé entraîne des robots à formuler des hypothèses éclairées
RechercheIEEE Spectrum Robotics12h

Un chercheur primé entraîne des robots à formuler des hypothèses éclairées

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Yen-Ling Kuo, professeure assistante en informatique à l'Université de Virginie à Charlottesville, a reçu l'année dernière le tout premier prix "Outstanding Women in Robotics and Automation Early Career Contribution Award" de l'IEEE Robotics and Automation Society. Cette distinction, créée dans le cadre du programme WiRA (Women in Robotics and Automation), récompense son article intitulé "Diff-DAgger: Uncertainty Estimation with Diffusion Policy for Robotic Manipulation". La méthode présentée permet à un robot de mieux évaluer et gérer l'incertitude lorsqu'il est confronté à des situations sur lesquelles il n'a pas été entraîné. Concrètement, le système réduit le besoin de supervision humaine tout en améliorant le taux de succès dans les tâches de manipulation. Membre IEEE, Kuo est titulaire d'un bachelor et d'un master en informatique de la National Taiwan University (respectivement 2009 et 2012), avant d'intégrer Google en 2012 comme ingénieure logicielle, puis d'embrasser une carrière académique à l'Université de Virginie.

Diff-DAgger s'attaque à l'un des obstacles persistants du déploiement robotique en environnements réels : la capacité d'un robot à reconnaître qu'il se trouve hors de sa zone de compétence. Plutôt qu'échouer silencieusement ou répéter indéfiniment une action erronée, un robot équipé de cette approche peut estimer son propre niveau de confiance et solliciter une intervention humaine ciblée uniquement lorsque nécessaire. Cette architecture réduit la charge de collecte de données d'entraînement et ouvre la voie à l'intégration de modèles plus complexes, notamment les politiques de diffusion (diffusion policy), une famille de modèles génératifs appliquée au contrôle robotique, dans les boucles d'apprentissage interactif. Pour les intégrateurs industriels et les équipes R&D en robotique, l'enjeu est concret : moins de démonstrations humaines requises pour généraliser un comportement, et une robustesse accrue face aux variantes imprévues en production.

Le parcours de Kuo illustre la convergence entre sciences cognitives et informatique qui irrigue aujourd'hui la recherche en robotique incarnée. Après ses études à Taipei, elle passe l'été 2011 chez Google à Kirkland (Washington) avant de rejoindre brièvement le MIT Media Lab sur le projet Open Mind Common Sense, un effort pionnier de représentation du sens commun pour les machines. Recrutée à temps plein chez Google en 2012, elle pilote l'initiative Shop the Look, qui connectait contenus de réseaux sociaux et résultats de recherche via vision par ordinateur et traitement du langage naturel, un précurseur direct des expériences shopping actuelles propulsées par l'IA. C'est dans ce contexte qu'elle commence à travailler avec les premiers outils de réseaux de neurones profonds, soulevant des questions sur leur interprétabilité et leur fiabilité qui orienteront sa trajectoire de recherche. Son travail sur l'incertitude en manipulation s'inscrit dans un écosystème académique actif, aux côtés d'équipes comme celles de Chelsea Finn (Stanford) ou Sergey Levine (Berkeley), qui explorent des approches similaires d'apprentissage par imitation robuste face à la distribution shift.

À lire aussi

Un nouveau système d'IA aide les robots à transférer leur entraînement virtuel vers des tâches réelles
1Interesting Engineering 

Un nouveau système d'IA aide les robots à transférer leur entraînement virtuel vers des tâches réelles

Des chercheurs de l'Aston University et de l'University of Birmingham ont publié dans Scientific Reports une méthode d'entraînement robotique visant à réduire le "sim-to-real gap", ce fossé persistant entre les performances d'un robot en simulation et son comportement réel. L'approche, développée dans le cadre du projet REBELION financé par UK Research and Innovation, utilise un générateur de variations d'environnement piloté par IA : pendant la phase de simulation, le système introduit automatiquement des perturbations (bruit capteur, variabilité des matériaux, forces inattendues) pour entraîner le robot à des conditions plus proches du terrain. La validation expérimentale porte sur des tâches de manipulation et de découpe impliquant une interaction physique avec des matériaux, puis un ajustement avec un volume minimal de données réelles. Le cas d'usage mis en avant est le recyclage de batteries lithium-ion, où les robots doivent opérer autour de cellules endommagées ou potentiellement dangereuses, rendant les cycles de test physiques coûteux et risqués. L'intérêt industriel est direct : la dépendance à de longs cycles de test en environnement réel est l'un des principaux freins au déploiement rapide de robots dans des lignes de production ou des ateliers de recyclage. En permettant de compresser l'essentiel de l'apprentissage en simulation tout en garantissant un transfert fiable avec peu de données réelles, cette approche pourrait raccourcir significativement les timelines d'intégration et réduire les coûts opérationnels pour les industriels. Elle valide aussi une hypothèse qui fait débat dans le secteur depuis plusieurs années : que le sim-to-real gap n'est pas une fatalité, mais un problème d'exposition à la variance pendant l'entraînement. La vision formulée par le Dr. Alireza Rastegarpanah, assistant professor en applied AI and robotics à Aston University, est celle de systèmes robotiques "plug-and-play", entraînés une fois en simulation et redéployés rapidement dans un nouveau contexte sans reconfiguration lourde. C'est une promesse ambitieuse, et les résultats publiés restent limités à un périmètre de tâches contrôlées ; aucun chiffre de performance comparative (taux de succès, cycles de recalibration) n'est rendu public dans la version relayée. Le sim-to-real gap est un problème structurel documenté depuis les premières applications de reinforcement learning en robotique. Des acteurs comme Boston Dynamics, Agility Robotics ou encore Wandercraft (France, exosquelettes) utilisent des combinaisons de domain randomization et de transfert par imitation pour y répondre, avec des niveaux de maturité variables selon les tâches. Le projet REBELION s'inscrit dans un effort européen plus large sur l'automatisation du recyclage de batteries, filière en forte croissance avec l'essor des véhicules électriques. Les prochaines étapes annoncées par l'équipe visent à élargir la méthode à des environnements industriels plus incertains et à des applications en manufacturing avancé et opérations autonomes, sans calendrier précis communiqué.

UELa méthode du projet REBELION (financé UKRI, inscrit dans un effort européen) pourrait accélérer le déploiement de robots dans les filières EU de recyclage de batteries lithium-ion, secteur stratégique pour la transition électrique.

RecherchePaper
1 source
Phantom : entraîner des robots sans robots, uniquement avec des vidéos humaines
2arXiv cs.RO 

Phantom : entraîner des robots sans robots, uniquement avec des vidéos humaines

Une équipe de chercheurs a publié Phantom (arXiv:2503.00779), un framework d'entraînement de politiques de manipulation robotique n'utilisant aucune donnée robot : uniquement des vidéos de démonstrations humaines. Le pipeline extrait les trajectoires via estimation de pose des mains (hand pose estimation), efface le bras humain par inpainting, puis superpose un rendu 3D du robot cible pour produire des paires observation-action directement exploitables. Déployé en zero-shot sur matériel réel sans fine-tuning, le système atteint jusqu'à 92 % de taux de réussite sur des tâches de manipulation d'objets déformables, de balayage multi-objets et d'insertion de composants. Les politiques supportent l'exécution en boucle fermée (closed-loop) et généralisent à des environnements inédits non vus à l'entraînement. L'enjeu est la scalabilité des données. La téléopération, méthode dominante chez Figure, 1X ou Physical Intelligence, exige du matériel disponible, des opérateurs qualifiés et des sessions d'enregistrement coûteuses. En substituant des vidéos humaines à ces démos, Phantom compresse drastiquement le coût d'acquisition du dataset. Si les taux de réussite annoncés se confirment en dehors des conditions contrôlées du laboratoire, cela représenterait un argument solide contre le "reality gap" classique entre simulation et déploiement industriel. La capacité à généraliser sans fine-tuning, point souvent problématique pour les modèles VLA (Visual Language Action), mérite toutefois une validation sur des environnements plus variés que ceux présentés dans le papier. Le problème des données hors-robot n'est pas nouveau : DexMV, ACT et les travaux autour de GR00T N2 de NVIDIA ont exploré des voies comparables, et Physical Intelligence avec pi-0 a parié sur la diversité massive de données multi-embodiment. Les approches sim-to-real via IsaacLab ou Genesis constituent les concurrents méthodologiques directs, contournant le même obstacle par la simulation plutôt que par la vidéo humaine. Phantom se distingue par sa légèreté : pas de flotte de robots nécessaire pour constituer le dataset initial. Le travail reste à ce stade une preuve de concept académique, sans partenariat ni déploiement industriel annoncé. La prochaine étape attendue serait une validation sur des morphologies robotiques variées et des tâches à précision sub-millimétrique.

RechercheOpinion
1 source
Hi-WM : un modèle du monde centré sur l'humain pour l'entraînement robotique à grande échelle
3arXiv cs.RO 

Hi-WM : un modèle du monde centré sur l'humain pour l'entraînement robotique à grande échelle

Une équipe de recherche présente Hi-WM (Human-in-the-World-Model), un cadre de post-entraînement pour politiques robotiques généralisées, publié sur arXiv (2604.21741). L'approche remplace l'exécution physique par un modèle du monde appris : la politique est d'abord déroulée en boucle fermée dans ce simulateur interne, et lorsqu'une trajectoire devient incorrecte ou risquée, un opérateur humain intervient directement dans le modèle pour fournir des actions correctives courtes. Hi-WM met en cache les états intermédiaires et supporte le rollback et le branchement, ce qui permet de réutiliser un seul état d'échec pour générer plusieurs continuations correctives distinctes. Les trajectoires ainsi produites sont réinjectées dans le jeu d'entraînement. Évalué sur trois tâches de manipulation réelle (objets rigides et déformables) avec deux architectures de politique différentes, le système affiche un gain de 37,9 points en taux de succès réel par rapport à la politique de base, et de 19,0 points par rapport à une ligne de base en boucle fermée dans le modèle du monde. La corrélation entre les évaluations dans le modèle et les performances réelles atteint r = 0,953. Ce résultat adresse un goulot d'étranglement structurel du déploiement robotique : le post-entraînement actuel exige du temps robot, des resets de scène, une supervision opérateur en continu, autant de contraintes qui rendent la correction itérative coûteuse à l'échelle. En décorrélant la phase corrective de l'exécution physique, Hi-WM densifie la supervision précisément là où la politique échoue, sans mobiliser le matériel. La forte corrélation sim-to-real (r > 0,95) est notable : elle suggère que le modèle du monde est suffisamment fidèle pour qualifier les politiques avant déploiement, ce qui contredit en partie l'hypothèse que l'évaluation dans le modèle reste trop éloignée des conditions réelles pour être exploitable. Les modèles du monde conditionnés sur les actions sont étudiés depuis plusieurs années principalement pour la génération de données synthétiques et l'évaluation de politiques, notamment dans les travaux autour des VLA (Vision-Language-Action models) et des politiques généralisées comme celles portées par Physical Intelligence (Pi-0) ou les recherches internes de Google DeepMind. Hi-WM repositionne ces modèles comme substrat correctif actif, une troisième fonction jusqu'ici peu explorée. Les suites naturelles incluent l'extension à des tâches de locomotion, la réduction du coût de construction du modèle du monde, et l'intégration dans des pipelines de fine-tuning continu pour robots déployés en environnement industriel variable.

RechercheOpinion
1 source
Les gens apprécient-ils un entraîneur robot ? Étude de cas avec Snoopie le Pacerbot
4arXiv cs.RO 

Les gens apprécient-ils un entraîneur robot ? Étude de cas avec Snoopie le Pacerbot

Une équipe de chercheurs a développé SNOOPIE (Snoopie Pacerbot), un robot quadrupède autonome conçu pour servir d'entraîneur personnel lors de séances d'interval training. Publié sur arXiv (2604.18331), le travail porte sur une tâche spécifique : guider des coureurs à maintenir un rythme précis sur des intervalles répétés, une discipline où la régularité est critique. Dans les expériences utilisateurs menées, les participants équipés du robot ont respecté leur plan de cadence avec 60,6 % de précision supplémentaire par rapport à un groupe utilisant une Apple Watch, et ont maintenu une vitesse de course 45,9 % plus régulière d'un intervalle à l'autre. Sur le plan subjectif, la préférence pour le robot sur le wearable est nette : facilité d'utilisation (+56,7 %), plaisir de l'interaction (+60,6 %), sentiment d'être bien accompagné (+39,1 %). Ces résultats soulèvent une question concrète pour les intégrateurs et les concepteurs de systèmes d'entraînement connecté : la présence physique incarnée d'un robot apporte-t-elle une valeur ajoutée mesurable par rapport à un écran ou un capteur poignet ? L'étude suggère que oui, au moins dans ce cas précis. Le robot peut ajuster son allure en temps réel, maintenir une distance constante avec le coureur, et fournir un retour visuel et cinétique que ni une montre ni une application mobile ne peuvent reproduire. Cela conforte l'hypothèse que l'embodiment robotique n'est pas qu'un argument marketing dans les contextes d'interaction physique prolongée : il modifie effectivement le comportement de l'utilisateur. Ces données restent néanmoins issues d'une étude de laboratoire à effectif limité, et les conditions réelles (terrain variable, foule, météo) n'ont pas été testées. Les robots quadrupèdes agiles comme ceux de Boston Dynamics (Spot) ou les plateformes issues des travaux de l'ETH Zurich et de CMU ont ouvert la voie à une nouvelle génération de robots capables de se déplacer de manière fiable dans des environnements non structurés. SNOOPIE s'inscrit dans cette lignée en poussant l'usage vers une application grand public et de bien-être, un territoire encore peu exploré par l'industrie. Les concurrents directs dans le créneau coaching physique robotisé sont quasi inexistants à ce stade commercial, mais des entreprises comme Agility Robotics ou Unitree pourraient théoriquement adapter leurs plateformes à ce type d'usage. Les suites annoncées par l'équipe incluent des tests en conditions extérieures et l'intégration de retours verbaux, avec l'ambition de transformer SNOOPIE en dispositif d'entraînement personnalisé adaptatif à plus long terme.

RecherchePaper
1 source