
Bibliothèque d'experts à mélange dynamique progressif pour l'apprentissage robotique continu
Des chercheurs proposent DMPEL (Dynamic Mixture of Progressive Parameter-Efficient Expert Library), une architecture publiée sur arXiv (2506.05985) pour l'apprentissage continu en robotique. L'objectif est de permettre à un agent généraliste d'acquérir séquentiellement de nouvelles compétences sans effacer les précédentes, phénomène dit d'oubli catastrophique. DMPEL construit progressivement une bibliothèque d'experts à rang réduit (low-rank, dans la famille PEFT), et utilise un routeur léger pour les combiner dynamiquement en une politique end-to-end. La technique centrale, l'« expert coefficient replay », guide ce routeur vers les experts gelés correspondant aux tâches passées sans rejouer l'intégralité de l'historique d'expériences. Évalué sur LIBERO, benchmark standard de l'apprentissage continu en robotique simulée, DMPEL surpasse l'état de l'art en taux de succès lors d'adaptations séquentielles, avec un nombre minimal de paramètres entraînables.
Le verrou levé est pratiquement significatif : les méthodes PEFT existantes supposent un identifiant de tâche disponible à l'inférence, hypothèse irréaliste en déploiement réel où le robot doit lui-même inférer à quelle tâche il est confronté. En s'en affranchissant, DMPEL ouvre la voie à une adaptation incrémentale sans supervision externe. Le remplacement de l'experience replay classique par l'expert coefficient replay réduit aussi sensiblement les besoins en stockage et en calcul, un argument concret pour l'embarqué industriel. Pour un intégrateur ou un décideur B2B, c'est le signal que spécialiser un robot à de nouveaux postes de travail en séquence devient techniquement plus accessible.
L'apprentissage continu connaît un regain d'intérêt direct avec l'essor des politiques vision-langage-action (VLA) comme OpenVLA, RT-2 ou pi-zero, qui nécessitent une spécialisation post-entraînement par tâche. DMPEL s'inscrit dans la lignée des travaux sur les Mixture of Experts et les adaptateurs LoRA, appliqués ici à un cadre multi-tâches séquentiel. Ses concurrents directs sur LIBERO incluent EWC (Elastic Weight Consolidation), PackNet et L2P. La limite principale reste l'absence d'expériences sur robot physique : les gains mesurés en simulation ne garantissent pas le passage au déploiement terrain, un sim-to-real gap que les publications de ce type peinent encore à combler systématiquement.
Dans nos dossiers




