
Les modèles VLA peuvent-ils apprendre en continu depuis des données réelles sans oublier ?
Une équipe de chercheurs a publié sur arXiv (référence 2605.26820) une étude empirique sur la capacité des modèles VLA (Vision-Language-Action) à apprendre de nouvelles tâches sans oublier les compétences acquises précédemment. Pour ce faire, les auteurs ont constitué un jeu de données réel de type apprentissage continu, structuré en quatre tâches de manipulation séquentielles : saisie et dépose d'objets rigides, appui avec contact (contact-rich pressing), pliage d'objets déformables, et une quatrième tâche couvrant des configurations hétérogènes. Contrairement aux travaux antérieurs qui s'appuyaient sur des environnements simulés étroitement contrôlés, ce benchmark est intégralement collecté dans le monde physique, avec des démonstrations réelles. Résultat central : les modèles VLA souffrent massivement du phénomène d'oubli catastrophique (catastrophic forgetting) lorsqu'ils sont entraînés séquentiellement sur ces données hétérogènes. Les chercheurs ont également évalué l'experience replay comme stratégie d'atténuation, en identifiant les facteurs d'implémentation déterminants pour son efficacité.
Ce travail pointe un angle mort critique dans la trajectoire de commercialisation des robots polyvalents. Un VLA performant en lab sur une tâche figée ne suffit pas pour un déploiement industriel où les lignes évoluent, les références changent, et les opérateurs ajoutent des compétences sans repartir de zéro. L'oubli catastrophique est une limite connue du deep learning, mais jusqu'ici peu documentée sur données réelles pour les politiques robotiques de type VLA. Cette étude démontre que le problème persiste même avec des architectures modernes, et que l'experience replay, bien configuré, offre une piste praticable. Pour un intégrateur ou un COO industriel, c'est un signal clair : toute feuille de route robotique basée sur des VLA doit intégrer une stratégie d'apprentissage continu avant passage à l'échelle.
Les modèles VLA sont au coeur d'une course technologique impliquant Physical Intelligence (Pi-0), Google DeepMind (RT-2, OpenVLA), et plus récemment Figure AI et Apptronik avec leurs propres pipelines de politiques généralisées. Jusqu'à présent, la majorité des benchmarks de continual learning en robotique restaient cantonnés à la simulation (RoboSuite, MetaWorld), ce qui limitait la transposabilité des conclusions. Cette étude est présentée comme le premier bilan empirique sur données réelles pour les VLA, un signal que la communauté commence à confronter ces modèles aux contraintes opérationnelles réelles plutôt qu'aux conditions idéales de laboratoire. Les prochaines étapes probables incluent l'extension du benchmark à davantage de tâches et de morphologies de robots, ainsi que l'intégration de méthodes plus sophistiquées (EWC, LoRA-based replay) pour comparer leur robustesse à l'oubli sur scénarios industriels longs.
Impact indirect : les équipes R&D et intégrateurs européens travaillant sur des déploiements VLA industriels doivent anticiper une stratégie d'apprentissage continu dans leur feuille de route avant tout passage à l'échelle.
Dans nos dossiers




