Multi-apprentissage continu : adapter des politiques visuomotrices préentraînées à la force
Voici l'article en français :
Des chercheurs ont présenté MuSe (Multisensory Continual Learning), une méthode permettant d'adapter une politique de manipulation robotique pré-entraînée sur la seule vision à de nouvelles modalités sensorielles, sans dégrader ses performances initiales. Publiée sur arXiv (2606.30988v1) le 30 juin 2026, l'étude part d'un constat pratique : les capteurs de force, de toucher ou audio sont souvent spécifiques à un matériel ou une tâche donnée, et les jeux de données robotiques multisensoriels à grande échelle restent rares. Il est donc impossible de pré-entraîner une politique avec tous les capteurs qu'elle pourrait rencontrer en production. MuSe résout ce problème via trois mécanismes combinés : une fusion multi-étages des signaux, une prédiction future multisensorielle, et un rejeu d'expérience (experience replay) sur les données de pré-entraînement d'origine. Les chercheurs ont testé l'approche en ajoutant un capteur de force-couple à une politique vision-seule existante, sur des tâches de manipulation réelles impliquant du contact physique.
Cette méthode répond à un problème central pour l'industrie des politiques vision-langage-action (VLA) de type Pi-0, GR00T N2 ou RT-2/OpenVLA : ces modèles, entraînés quasi exclusivement sur des flux vidéo, échouent souvent sur les tâches à contact riche (insertion de pièces, assemblage, préhension d'objets déformables) où la seule vision ne suffit pas à détecter un glissement ou une collision. Pour les intégrateurs industriels, l'enjeu est d'ajouter un capteur de force sans devoir ré-entraîner un modèle depuis zéro ni perdre les compétences déjà acquises, un phénomène classique d'oubli catastrophique. Les résultats montrent que MuSe améliore les performances sur les tâches de contact tout en préservant, voire en améliorant légèrement, les performances sur les tâches de pré-entraînement d'origine, ce qui suggère qu'un jeu de données multisensoriel modeste suffit à étendre les capacités générales d'un robot au-delà de sa distribution initiale d'entraînement.
Le travail s'inscrit dans la tendance actuelle du secteur à généraliser des politiques robotiques pré-entraînées à grande échelle (à l'image des fondations VLA déployées par les principaux laboratoires de robotique humanoïde), plutôt qu'à ré-entraîner des modèles spécialisés par tâche. La rareté des données tactiles et de force reste un frein reconnu du secteur, contrairement à l'abondance de données vidéo. Le site du projet (jadenvc.github.io/multisensory-continual-learning) propose des démonstrations complémentaires ; les prochaines étapes annoncées concernent l'extension à d'autres modalités, comme le tactile ou l'audio, selon la même approche de fusion incrémentale.
Dans nos dossiers




