
Apprentissage continu par démonstration : un modèle à dynamique stable généré par hyperréseau
Des chercheurs ont présenté une méthode d'apprentissage continu par démonstration (LfD) stable et scalable pour robots, publiée sur arXiv (référence 2311.03600, version 3, indiquant un travail itératif). L'architecture centrale repose sur un hyperréseau qui génère dynamiquement les paramètres de deux réseaux neuronaux : un modèle de dynamique de trajectoire et une fonction de Lyapunov garantissant la stabilité asymptotique. Ces deux composants forment un solveur d'équations différentielles ordinaires stable augmenté par horloge, baptisé sNODE (stable Neural ODE). L'évaluation couvre des séquences de 7 à 26 tâches successives, des trajectoires de 2 à 32 dimensions, et des tâches réelles combinant position et orientation. Une régularisation stochastique de l'hyperréseau, via un seul embedding de tâche échantillonné uniformément, réduit la complexité d'entraînement de O(N²) à O(N) pour N tâches cumulées, sans dégradation des performances mesurée sur les benchmarks utilisés.
L'enjeu central est la persistance des compétences motrices sans réentraînement sur les démonstrations passées, un problème dit d'oubli catastrophique qui bloque concrètement le déploiement de robots industriels capables d'acquérir progressivement un répertoire de gestes. Le passage de O(N²) à O(N) rend viable l'accumulation de dizaines de compétences sur un même système sans explosion du coût computationnel, ce qui change la donne pour les intégrateurs soumis à des contraintes matérielles embarquées. Plus notable encore : les auteurs montrent empiriquement que la contrainte de stabilité imposée par la fonction de Lyapunov améliore directement les scores d'apprentissage continu, particulièrement dans les hyperréseaux compacts. Cela contredit l'hypothèse courante selon laquelle stabilité et plasticité seraient nécessairement antagonistes.
Le LfD stable s'inscrit dans une tradition remontant à SEDS (Khansari-Zadeh, 2011) et aux Dynamic Movement Primitives, qui garantissaient la stabilité au prix d'une expressivité limitée. Les approches récentes basées sur des ODE neuronales (NODE) avaient amélioré la précision de reproduction de trajectoire mais peinaient à combiner stabilité et apprentissage séquentiel sans réentraînement global. Les hyperréseaux, déjà exploités en apprentissage continu pour d'autres domaines, sont ici adaptés spécifiquement à la contrainte de stabilité dynamique. Des variantes haute dimension du dataset LASA (référence standard du domaine) sont introduites pour évaluer la scalabilité. Le code est disponible publiquement sur GitHub (sayantanauddy/clfd-snode) ; les prochaines étapes naturelles incluent la validation sur des plateformes à haute dimensionnalité (au-delà de 32 DOF) et l'intégration avec des politiques de type VLA pour des tâches de manipulation non structurée.
Dans nos dossiers




