Comment atténuer le problème de décalage de distribution dans le contrôle robotique : une approche robuste et adaptative par apprentissage par imitation hors ligne vers en ligne
Une équipe de recherche a déposé le 25 mai 2026 sur arXiv (réf. 2605.25414) un cadre d'apprentissage par imitation en deux phases pour traiter le décalage de distribution dans le contrôle robotique. Ce problème survient lorsqu'un agent entraîné sur des démonstrations expertes rencontre, au déploiement, des états non couverts pendant l'entraînement, sa couverture état-action étant structurellement limitée par la portée des démonstrations fournies. La méthode articule une phase hors ligne utilisant des démonstrations complémentaires filtrées par un discriminateur pour élargir cette couverture, et une phase en ligne qui détecte le décalage en temps réel et déclenche un apprentissage auto-supervisé à partir des expériences collectées. Les évaluations ont été conduites uniquement dans des environnements MuJoCo ; aucun test sur robot physique n'est rapporté.
L'intérêt réside dans la nature lifelong du mécanisme : au lieu d'une politique figée après entraînement, le système s'adapte en continu lorsqu'il dérive hors de sa distribution. Pour un ingénieur robotique ou un intégrateur industriel, cela ouvre la perspective d'un robot capable de se recalibrer automatiquement en production sans re-collecte manuelle de données ni réentraînement complet. L'utilisation d'un discriminateur évoque les architectures GAIL (Generative Adversarial Imitation Learning), mais la contribution revendiquée tient à la détection en ligne du shift couplée à l'auto-supervision. Les auteurs rapportent de meilleures performances que les baselines sur robustesse et adaptation, bien que les métriques issues de MuJoCo restent éloignées des contraintes du monde réel.
Le décalage de distribution est un problème structurel de l'apprentissage par imitation depuis DAgger (Ross et al., 2011) et GAIL (Ho & Ermon, 2016). Les approches concurrentes, comme l'offline RL à haute couverture de données, les politiques de diffusion de type pi-0 (Physical Intelligence) ou les VLA généralistes, traitent le problème principalement par la diversité des données d'entraînement, non par adaptation en ligne. Ce preprint n'a pas encore été soumis à évaluation par les pairs, et le vrai test restera le transfert sim-to-real : la validation sur robots physiques amplifierait précisément les écarts de distribution que ce cadre cherche à combler.
Dans nos dossiers




