Aller au contenu principal
Apprendre à piloter en quelques minutes : Infoprop Dyna sur le Mini Wheelbot
RecherchearXiv cs.RO7sem

Apprendre à piloter en quelques minutes : Infoprop Dyna sur le Mini Wheelbot

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Des chercheurs ont publié en mai 2025 sur arXiv (2605.01096) les résultats d'une expérience dans laquelle le Mini Wheelbot, un robot unicycle sous-actionné aux dynamiques fortement non linéaires et instables, apprend à effectuer des tours de piste en seulement 11 minutes d'interactions dans le monde réel. Le système repose sur Infoprop Dyna, un framework de reinforcement learning basé sur des modèles (MBRL) intégrant une estimation explicite de l'incertitude. Aucun simulateur physique n'a été utilisé : l'entraînement se fait entièrement à partir de données collectées en conditions réelles, sans domain randomization.

Ce résultat interpelle car la quasi-totalité des approches RL en robotique repose aujourd'hui sur des simulateurs haute-fidélité pour accélérer l'entraînement et garantir le transfert sim-to-real. Cette dépendance représente un coût d'ingénierie significatif et introduit un "reality gap" particulièrement difficile à combler pour des dynamiques rapides ou mal modélisées. Le fait qu'un robot à dynamique instable atteigne des performances de course en moins d'un quart d'heure de données réelles suggère qu'Infoprop Dyna peut court-circuiter cette étape, ce qui serait une avancée tangible pour les équipes sans les ressources nécessaires pour construire des simulateurs précis. À noter : l'abstract ne précise ni la longueur du circuit ni la complexité de la trajectoire, ce qui limite la comparabilité du chiffre des 11 minutes.

Le cadre MBRL uncertainty-aware n'est pas nouveau en soi, mais son application à un unicycle sous-actionné, réputé parmi les plateformes les plus difficiles à stabiliser, constitue un test de robustesse sérieux. Les approches concurrentes en apprentissage réel incluent PETS, POLO ou DreamerV3, qui cherchent également à réduire la dépendance aux données simulées. La prochaine étape naturelle serait de tester Infoprop Dyna sur des plateformes plus rapides ou en présence de perturbations externes, pour déterminer si la convergence en 11 minutes reste reproductible hors conditions laboratoire contrôlées.

Dans nos dossiers

À lire aussi

Main dextérique joueuse de piano : deux minutes de pratique suffisent pour apprendre les notes
1Interesting Engineering 

Main dextérique joueuse de piano : deux minutes de pratique suffisent pour apprendre les notes

Des chercheurs de l'Université de Californie du Sud (USC Viterbi) ont présenté la "Musician Hand", une main robotique à quatre doigts actionnée par tendons et moteurs électriques, capable de reproduire une mélodie inconnue après seulement deux minutes d'exploration autonome. Le processus s'appelle "motor babbling" : pendant 120 secondes, la main tapote aléatoirement les touches du piano, enregistrant simultanément les sons produits et les mouvements correspondants. Un réseau de neurones établit ensuite la cartographie audio-motrice. Résultat : lors d'un premier essai sans correction en temps réel, la main a restitué fidèlement une mélodie de 30 notes entièrement nouvelle. Lors d'une audition en aveugle, des juges musicaux n'ont pas toujours réussi à distinguer son jeu de celui de quatre pianistes humains. L'étude est publiée dans le Journal of the Royal Society Interface, sous la direction de Francisco Valero-Cuevas, professeur de génie biomédical et mécanique à USC. Ce système illustre une rupture méthodologique avec l'orthodoxie robotique dominante, qui suppose qu'un agent a besoin de données massives et d'une modélisation précise de son environnement pour agir efficacement. La "Musician Hand" fonctionne à rebours : elle perçoit, infère et s'adapte, à la manière d'un animal ou d'un nourrisson humain. Cette approche, baptisée "robotique perceptuelle" par ses créateurs, ouvre la voie à des systèmes capables d'auto-calibration rapide dans des environnements non contrôlés, sans intervention d'un ingénieur. Pour les intégrateurs et concepteurs de robots collaboratifs, c'est une démonstration de principe importante : le coût d'apprentissage d'une nouvelle tâche motrice peut tomber à quelques minutes sur un simple laptop, là où les pipelines classiques exigent des semaines de collecte de données et d'annotation. Il convient néanmoins de noter que la démonstration reste un proof-of-concept dans un environnement très contrôlé, et qu'aucune performance en conditions industrielles réelles n'a encore été publiée. L'équipe USC ne vise pas le marché du divertissement mais la médecine. L'application cible principale est l'assistance aux patients atteints de maladies neurodégénératives progressives comme Parkinson : contrairement aux exosquelettes actuels, rigidement préprogrammés, un dispositif basé sur ce framework pourrait apprendre la signature motrice personnelle d'un patient dès le diagnostic, puis évoluer avec lui à mesure que sa condition se dégrade, sans reprogrammation. D'autres pistes sont évoquées : rééducation post-AVC, assistance aux personnes âgées, voire collaboration avec des ouvriers du bâtiment. Sur le plan concurrentiel, l'approche se distingue des travaux de laboratoires comme Boston Dynamics, Figure AI ou 1X, qui s'appuient majoritairement sur l'imitation à grande échelle (imitation learning, VLA) et des datasets conséquents. Le groupe USC n'a pas annoncé de partenaires industriels ni de timeline de commercialisation à ce stade.

RecherchePaper
1 source
Quand agir, interroger ou apprendre : le pilotage de politique par gestion de l'incertitude
2arXiv cs.RO 

Quand agir, interroger ou apprendre : le pilotage de politique par gestion de l'incertitude

Une équipe de chercheurs a publié sur arXiv (réf. 2602.22474) un cadre nommé UPS (Uncertainty-Aware Policy Steering), conçu pour adapter le comportement d'un robot au moment du déploiement sans nécessiter de réentraînement complet. Le "policy steering" consiste à utiliser un vérificateur appris qui analyse les échantillons d'actions proposés par une politique pré-entraînée (typiquement une diffusion policy) et ne retient que celles jugées conformes à la tâche. UPS utilise un Vision-Language Model (VLM) comme vérificateur général, mais y ajoute une calibration par prédiction conforme (conformal prediction) pour corriger le biais de surconfiance caractéristique de ces modèles. Le système distingue trois régimes de décision : exécuter une action avec haute confiance, demander une clarification en langage naturel si la consigne est ambiguë, ou solliciter une intervention humaine sur l'action lorsque la politique de base est jugée incapable d'exécuter la tâche. Des expériences ont été menées en simulation et sur plateforme physique. Le problème de la surconfiance des VLMs est concret et rarement traité dans la littérature sur le déploiement robotique. En pratique, un vérificateur qui ne sait pas qu'il ne sait pas valide des actions incorrectes ou bloque des actions valides, dégradant directement la performance opérationnelle. UPS apporte une garantie statistique formelle sur le choix de stratégie, ce qui est significatif pour des intégrateurs industriels qui ont besoin de bornes de fiabilité chiffrées. La composante de residual learning permet au système de progresser à partir des interventions collectées en déploiement, avec un objectif explicite de minimiser le feedback humain coûteux. Cette combinaison calibration plus apprentissage continu différencie UPS des pipelines d'apprentissage actif classiques, qui ne pondèrent pas le coût réel des interruptions. Le policy steering s'est accéléré avec la disponibilité de politiques pré-entraînées génériques comme la diffusion policy, ACT ou pi-0, et de VLMs capables de raisonnement visuel. Les approches précédentes (SayCan, inner-monologue, RT-2) traitaient généralement la planification de haut niveau et l'exécution de bas niveau comme des modules séparés, sans calibration jointe de l'incertitude. UPS tente de combler ce gap en traitant simultanément l'incertitude sémantique et l'incertitude d'action dans un seul cadre probabiliste avec garanties statistiques. Les concurrents directs incluent les frameworks human-in-the-loop comme TAMER ou les approches de gating robotique d'OpenVLA, qui s'appuient sur des heuristiques moins formelles pour décider quand escalader vers un opérateur. Les travaux sont portés par une équipe académique (site de démonstration : jessie-yuan.github.io/ups) ; aucun partenaire industriel ni calendrier de transfert n'est annoncé à ce stade.

RechercheOpinion
1 source
Apprendre aux robots à interpréter les interactions sociales via l'apprentissage sur graphes dynamiques guidé par le lexique
3arXiv cs.RO 

Apprendre aux robots à interpréter les interactions sociales via l'apprentissage sur graphes dynamiques guidé par le lexique

Une équipe de chercheurs publie SocialLDG (Social Lexically-guided Dynamic Graph learning), un cadre d'apprentissage multi-tâches destiné à doter les robots d'intelligence sociale. Déposé sur arXiv (2604.10895v2), le travail vise un problème central de l'interaction humain-robot : inférer les états internes d'un utilisateur (émotions, intentions, états cognitifs non directement observables), prédire ses comportements futurs et y répondre de façon adaptée. Le cadre modélise six tâches distinctes représentant la relation dynamique entre états latents et actions observables, en intégrant un modèle de langage pour introduire des priors lexicaux par tâche, et un apprentissage par graphe dynamique pour suivre l'évolution temporelle des affinités entre tâches. Les auteurs rapportent des performances état de l'art sur deux jeux de données publics d'interaction sociale humain-robot, sans que le résumé disponible précise les benchmarks ni les marges de gain exactes. L'apport le plus concret pour les équipes de R&D en robotique sociale est la résistance au catastrophic forgetting : SocialLDG intègre de nouvelles tâches comportementales sans dégrader les capacités acquises, une propriété critique pour des déploiements réels où l'étendue des interactions croît progressivement. L'usage de priors linguistiques pour structurer le raisonnement sur graphe est également original : il permet d'exploiter la sémantique du langage naturel comme contrainte sur la modélisation sociale du robot, ouvrant la voie à une adaptation sans réentraînement complet. La lisibilité des affinités entre tâches offre en outre un levier d'interprétabilité utile pour le debug et la validation industrielle. La compréhension sociale en robotique est un chantier actif de longue date, avec des contributions notables de CMU, du MIT, et des travaux sur OpenFace ou EMOTIC. SocialLDG se distingue des approches actuelles qui traitent séparément reconnaissance d'émotion, détection d'intention et prédiction de geste, en proposant un cadre unifié inspiré des sciences cognitives. Les travaux récents sur les vision-language agents et les VLA adressent partiellement ce champ, mais restent centrés sur la manipulation physique plutôt que sur la dynamique socio-cognitive. En tant que prépublication non encore évaluée par les pairs, les performances annoncées restent à confirmer indépendamment avant toute intégration.

RecherchePaper
1 source
Apprentissage rapide par simulation GPU pour la manipulation de matériaux déformables en quelques minutes
4arXiv cs.RO 

Apprentissage rapide par simulation GPU pour la manipulation de matériaux déformables en quelques minutes

Une équipe de chercheurs a publié fin avril 2026 FLASH (Fast Learning via GPU-Accelerated Simulation), un simulateur physique conçu nativement pour GPU, ciblant la manipulation d'objets déformables en contact riche. Le framework repose sur un solveur NCP (Nonlinear Complementarity Problem) qui impose simultanément les contraintes de contact et de déformation, redessiné de zéro pour exploiter le parallélisme fin des architectures GPU modernes, incluant la gestion optimisée des collisions et les layouts mémoire adaptés. Sur un seul RTX 5090, FLASH atteint plus de 3 millions de degrés de liberté simulés à 30 images par seconde. Des politiques entraînées exclusivement sur données synthétiques générées par FLASH, en quelques minutes d'entraînement, permettent un transfert sim-to-réel zéro-shot validé sur robots physiques pour des tâches de pliage de serviettes et de vêtements, sans aucune démonstration en conditions réelles. L'enjeu n'est pas anodin : la manipulation d'objets déformables représente l'un des derniers grands verrous du robot learning industriel. Les frameworks existants comme Isaac Sim (NVIDIA) excellent sur la cinématique rigide et la locomotion, mais les matériaux souples imposent des géométries en mutation continue, des milliers de vertices et des contraintes de contact instables qui rendent la simulation précise et rapide quasi incompatible. FLASH contourne ce problème non pas en portant un solveur SIMD classique sur GPU, mais en réécrivant entièrement le moteur physique autour des primitives GPU. Si les résultats de transfert annoncés se confirment hors des tâches de pliage sélectionnées dans le papier, les intégrateurs ciblant le textile, la logistique e-commerce ou la préparation alimentaire disposeraient d'un pipeline d'entraînement pratique sans collecte de données terrain. Le problème du sim-to-real gap pour le déformable est documenté depuis plus d'une décennie, sans solution généraliste convaincante. MuJoCo, Warp et Genesis ont chacun progressé sur la simulation souple, mais aucun n'avait démontré ce niveau de throughput combiné à un transfert zéro-shot sur manipulation contact-riche. FLASH s'inscrit dans une tendance lourde de 2025-2026 : repenser les moteurs physiques pour la scalabilité GPU plutôt que d'adapter des architectures CPU legacy. Les auteurs valident uniquement sur pliage de textile, ce qui laisse ouverte la question de généralisation à d'autres déformables (câbles, mousses, aliments). Aucune date de release publique du framework ni de partenariat industriel n'est mentionnée dans le preprint.

RecherchePaper
1 source