
Apprendre à piloter en quelques minutes : Infoprop Dyna sur le Mini Wheelbot
Des chercheurs ont publié en mai 2025 sur arXiv (2605.01096) les résultats d'une expérience dans laquelle le Mini Wheelbot, un robot unicycle sous-actionné aux dynamiques fortement non linéaires et instables, apprend à effectuer des tours de piste en seulement 11 minutes d'interactions dans le monde réel. Le système repose sur Infoprop Dyna, un framework de reinforcement learning basé sur des modèles (MBRL) intégrant une estimation explicite de l'incertitude. Aucun simulateur physique n'a été utilisé : l'entraînement se fait entièrement à partir de données collectées en conditions réelles, sans domain randomization.
Ce résultat interpelle car la quasi-totalité des approches RL en robotique repose aujourd'hui sur des simulateurs haute-fidélité pour accélérer l'entraînement et garantir le transfert sim-to-real. Cette dépendance représente un coût d'ingénierie significatif et introduit un "reality gap" particulièrement difficile à combler pour des dynamiques rapides ou mal modélisées. Le fait qu'un robot à dynamique instable atteigne des performances de course en moins d'un quart d'heure de données réelles suggère qu'Infoprop Dyna peut court-circuiter cette étape, ce qui serait une avancée tangible pour les équipes sans les ressources nécessaires pour construire des simulateurs précis. À noter : l'abstract ne précise ni la longueur du circuit ni la complexité de la trajectoire, ce qui limite la comparabilité du chiffre des 11 minutes.
Le cadre MBRL uncertainty-aware n'est pas nouveau en soi, mais son application à un unicycle sous-actionné, réputé parmi les plateformes les plus difficiles à stabiliser, constitue un test de robustesse sérieux. Les approches concurrentes en apprentissage réel incluent PETS, POLO ou DreamerV3, qui cherchent également à réduire la dépendance aux données simulées. La prochaine étape naturelle serait de tester Infoprop Dyna sur des plateformes plus rapides ou en présence de perturbations externes, pour déterminer si la convergence en 11 minutes reste reproductible hors conditions laboratoire contrôlées.
Dans nos dossiers




