
Imitation ergodique pour une exploration adaptative autour des démonstrations
Une équipe de recherche vient de publier sur arXiv (référence 2605.13996) une méthode intitulée "Ergodic Imitation", conçue pour rendre les robots capables de s'adapter lorsqu'ils échouent à reproduire fidèlement une démonstration. Le problème ciblé est classique en apprentissage par imitation : une trajectoire apprise sur des démonstrations peut devenir inopérante dès que les conditions de déploiement diffèrent légèrement, qu'il s'agisse d'un changement d'environnement, d'une imprécision de capteur, ou d'une erreur de contrôle. Plutôt que de se bloquer sur la trajectoire nominale, le système proposé construit une distribution cible à partir de la géométrie des démonstrations récupérées, puis génère des trajectoires qui interpolent de façon adaptative entre suivi strict et exploration locale.
Le coeur de la contribution est l'extension du contrôle ergodique, une technique jusqu'ici utilisée principalement pour la couverture de zones et la recherche en environnements inconnus, à un cadre de recalage par horizon glissant ancré dans les démonstrations. Le contrôle ergodique garantit que le robot passe du temps dans les régions proportionnellement à leur "importance" selon la distribution cible, ce qui permet d'explorer autour de la démonstration sans s'en éloigner trop. Pour les intégrateurs et les équipes d'automatisation industrielle, cela représente un levier concret contre le "demo-to-deployment gap" : une politique apprise n'a plus besoin d'être réapprise ou ré-annotée chaque fois que les conditions dérivent légèrement par rapport au setup de collecte des données.
Le contrôle ergodique en robotique mobile remonte à des travaux des années 2010 (en particulier ceux du groupe de Todd Murphey à Northwestern), mais son application à l'imitation reste rare. Les approches concurrentes dans ce segment incluent DAgger et ses variantes (correction en ligne via un expert), ainsi que les méthodes de diffusion conditionnelle comme Diffusion Policy ou Pi-0 (Physical Intelligence), qui gèrent aussi l'incertitude par exploration stochastique mais nécessitent en général des volumes de données bien supérieurs. Cette publication est un preprint non encore évalué par des pairs, sans benchmark comparatif publié ni déploiement hardware annoncé ; les résultats expérimentaux mentionnés dans l'abstract restent à évaluer dans la version complète du papier.
Dans nos dossiers




