Aller au contenu principal
CLARE : apprentissage continu pour les modèles VLA via routage et expansion autonomes d'adaptateurs
RecherchearXiv cs.RO6sem

CLARE : apprentissage continu pour les modèles VLA via routage et expansion autonomes d'adaptateurs

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Des chercheurs de la Technische Universität München (TUM) ont publié CLARE, un framework d'apprentissage continu pour les modèles vision-langage-action (VLA) en robotique manipulatrice. Présenté sur arXiv (arXiv:2601.09512v2), CLARE repose sur deux mécanismes principaux : des adaptateurs modulaires légers insérés dans des couches sélectionnées du VLA, et un système de routage dynamique basé sur un autoencodeur qui active à l'inférence les adaptateurs les plus pertinents sans que le robot ait besoin de connaître l'identifiant de la tâche en cours. Lors de l'apprentissage d'une nouvelle tâche, le framework évalue la similarité des features couche par couche pour décider d'étendre ou non le modèle, expansion réalisée uniquement là où c'est nécessaire. Validé sur le benchmark LIBERO et cinq tâches réelles en manipulation, CLARE surpasse les méthodes existantes y compris celles qui stockent des données antérieures (méthodes "exemplar-based").

L'enjeu derrière ce travail est structurant pour l'industrie robotique : le fine-tuning classique d'un VLA sur de nouvelles tâches provoque un "catastrophic forgetting", c'est-à-dire l'effacement des compétences précédemment acquises. Pour un robot industriel ou de service devant s'adapter en continu à de nouveaux environnements ou procédures sans interruption de déploiement, cette limitation est rédhibitoire. Clare propose une voie sans stockage de données historiques (contrainte forte en RGPD et en coût mémoire), sans identifiant de tâche imposé à l'opérateur, et avec une empreinte paramétrique réduite grâce aux adaptateurs, une combinaison que les approches par Elastic Weight Consolidation (EWC) ou LoRA seuls n'atteignaient pas sur de longues séquences de tâches.

Les VLA sont devenus un axe de recherche central depuis les travaux de Physical Intelligence (Pi-0), NVIDIA (GR00T N2) et Google DeepMind (RT-2). L'apprentissage continu sans oubli catastrophique y reste un problème ouvert : la majorité des démos sont réalisées dans des conditions contrôlées avec re-fine-tuning complet entre environnements. CLARE s'attaque directement à ce gap entre laboratoire et déploiement longue durée. Le code, les données et les vidéos sont disponibles publiquement sur le site du laboratoire LSY de la TUM. Les prochaines étapes probables incluent des tests sur des séquences de tâches plus longues et une intégration dans des plateformes humanoïdes ou collaboratives, domaine où plusieurs acteurs européens comme Enchanted Tools ou Wandercraft pourraient bénéficier de ce type de composant pour l'adaptation terrain.

Impact France/UE

La TUM (Allemagne) publie une solution open-source au catastrophic forgetting dans les VLA, directement exploitable par des acteurs européens comme Enchanted Tools et Wandercraft pour déployer des robots s'adaptant à de nouvelles tâches sans re-fine-tuning complet ni stockage de données historiques.

À lire aussi

Apprentissage par imitation robuste aux distorsions pour le routage autonome de câbles
1arXiv cs.RO 

Apprentissage par imitation robuste aux distorsions pour le routage autonome de câbles

Une équipe de chercheurs a publié en juin 2026 sur arXiv (ref. 2606.11577) un framework d'apprentissage par imitation robuste aux dégradations d'image, appliqué au câblage robotisé. La tâche visée, le routage de câbles, consiste à faire passer et connecter des câbles à travers des cheminements prédéfinis dans un environnement industriel, une opération qui exige à la fois dextérité fine et prise de décision séquentielle sur plusieurs étapes. Le système proposé s'articule autour de trois modules couplés : un module d'évaluation de la qualité d'image (IQA), un mécanisme d'apprentissage pondéré par la confiance, et un module de décision capable de produire aussi bien des actions discrètes (sélection de compétences) que continues (commandes moteur). L'abstract ne communique pas de métriques chiffrées précises, taux de succès, temps de cycle, nombre de démonstrations, ce qui limite l'évaluation indépendante des résultats annoncés. L'intérêt technique réside dans l'identification d'un angle mort réel des systèmes de contrôle intelligent en milieu industriel : les perturbations optiques. Reflets, poussière, vibrations des caméras embarquées ou éclairage variable génèrent couramment des observations dégradées qui faussent l'entraînement des modèles et réduisent leur fiabilité à l'inférence. La contribution centrale est l'intégration d'un score de qualité d'image directement dans la boucle d'apprentissage, via un mécanisme de pondération qui donne priorité aux échantillons difficiles plutôt que de les ignorer ou de les traiter uniformément. C'est une approche pragmatique face au reality gap, plus proche d'un correctif de robustesse que d'une rupture architecturale. Le câblage robotisé reste l'un des derniers bastions de l'assemblage manuel dans l'industrie automobile et électronique, faute de solutions fiables à l'échelle. Des acteurs comme Schunk, Franka Robotics ou des startups spécialisées en manipulation déformable (Cobot, Pollen Robotics côté européen) cherchent des approches généralisables. Ce travail s'inscrit dans le courant de l'imitation learning pour la manipulation, après les avancées de Pi-0 (Physical Intelligence) et des méthodes de type Diffusion Policy. La prochaine étape naturelle serait une validation sur un benchmark standardisé, RoboSuite, DROID ou un dataset industriel, pour confirmer les gains annoncés face aux méthodes de l'état de l'art.

UEPollen Robotics (France) et Franka Robotics (Allemagne) sont cités comme acteurs européens cherchant des solutions au câblage automatisé ; ce travail pourrait informer leurs feuilles de route en manipulation déformable, mais sans validation benchmark, l'impact reste hypothétique.

RecherchePaper
1 source
RoboSSM : apprentissage par imitation contextuel et extensible via les modèles à espace d'états
2arXiv cs.RO 

RoboSSM : apprentissage par imitation contextuel et extensible via les modèles à espace d'états

Des chercheurs ont publié sur arXiv (réf. 2509.19658v2) RoboSSM, une architecture d'apprentissage par imitation en contexte (ICIL, pour in-context imitation learning) qui remplace les Transformers par des modèles à espace d'état (SSM, state-space models), et plus précisément par Longhorn, un SSM récent présenté comme état de l'art. L'apprentissage par imitation en contexte permet à un robot d'apprendre une nouvelle tâche à partir d'une poignée de démonstrations fournies à l'inférence, sans aucune mise à jour des paramètres du modèle. Les expériences ont été conduites sur le benchmark LIBERO, référence standard pour l'évaluation des politiques robotiques multi-tâches, et montrent que RoboSSM dépasse les méthodes ICIL à base de Transformers sur les tâches non vues à l'entraînement ainsi que sur les tâches à horizon long. L'enjeu est architectural : les Transformers ont une complexité quadratique en fonction de la longueur du contexte, ce qui les pénalise dès que le prompt contient de nombreuses démonstrations ou des séquences longues. Les SSM, eux, offrent une inférence en temps linéaire et une capacité d'extrapolation à des contextes plus longs que ceux vus à l'entraînement, deux propriétés directement utiles pour l'ICIL en conditions réelles, où l'on peut vouloir fournir cinq ou dix démonstrations plutôt qu'une seule. Les auteurs affirment démontrer pour la première fois qu'un SSM peut servir de colonne vertébrale efficace et scalable pour l'ICIL. Les résultats restent toutefois confinés au simulateur LIBERO ; aucun transfert sim-to-real ni déploiement industriel n'est documenté dans ce travail. L'ICIL s'est imposée ces deux dernières années comme alternative aux politiques entraînées tâche par tâche, portée notamment par des travaux comme ICRT ou HPT, tous basés sur des Transformers. RoboSSM s'inscrit dans une tendance plus large de remplacement des Transformers par des SSM (famille Mamba, Longhorn) dans les pipelines séquentiels, tendance déjà observée en NLP et en vision. Le code est publié sur GitHub, ce qui ouvre la voie à une reproduction communautaire. Les prochaines étapes attendues sont une validation sur robot physique et une comparaison à l'échelle avec des VLA (vision-language-action) de plus grande taille.

RecherchePaper
1 source
BORA : apprentissage par renforcement hors ligne et adaptation résiduelle en ligne pour modèles VLA dextériques
3arXiv cs.RO 

BORA : apprentissage par renforcement hors ligne et adaptation résiduelle en ligne pour modèles VLA dextériques

Des chercheurs ont publié sur arXiv (arXiv:2605.30226) BORA, un cadre de post-entraînement mêlant apprentissage par renforcement hors ligne et adaptation résiduelle en ligne, conçu pour les modèles VLA (Vision-Language-Action) appliqués à la manipulation dextre. Le système fonctionne en deux phases: hors ligne, un réseau critique est entraîné en prenant comme entrées les tokens cognitifs du modèle de langage-vision et les chunks d'actions, ce qui lui permet d'évaluer les mouvements de main au-delà du seul contexte visuel. En ligne, le modèle VLA de base est gelé et une couche d'adaptation résiduelle légère de type chunk-wise est introduite, guidée par un mécanisme Human-in-the-Loop (HiL) générant des récompenses à partir d'interventions humaines. Évalué sur cinq tâches réelles de manipulation dextre complexe, BORA affiche une hausse absolue de 33 points de pourcentage du taux de succès moyen face aux baselines standards, et jusqu'à +43 points sur des objets non vus lors de l'entraînement. Ces résultats s'attaquent à l'un des verrous persistants de la robotique dextre: les mains à haute dimensionnalité amplifient les erreurs d'exécution cumulées, rendant l'exploration RL en conditions réelles à la fois inefficace et risquée pour le matériel. L'approche de BORA, qui préserve le modèle pré-entraîné comme prior stable et n'ajoute qu'une couche corrective légère, circonscrit l'espace d'exploration plutôt que de le réouvrir entièrement. Le gain de 43% sur objets non vus suggère une généralisation réelle plutôt qu'un surapprentissage des démonstrations, ce qui distingue ce travail des pipelines d'imitation learning classiques. Pour un intégrateur ou un décideur B2B, cela valide une trajectoire concrète: spécialiser un VLA généraliste pour une tâche dextre sans repartir d'un entraînement complet. Les VLA ont connu une accélération notable depuis Pi-0 de Physical Intelligence, OpenVLA (Berkeley) ou RoboVLMs (Google DeepMind), mais la manipulation fine multi-doigts reste leur point faible documenté. BORA s'inscrit dans un mouvement offline-to-online concurrent d'approches comme RLPD ou Cal-QL, qui cherchent à rendre le RL online moins destructif pour les politiques pré-apprises. Aucun partenaire industriel ni calendrier de déploiement n'est mentionné dans la publication; il s'agit pour l'instant d'un résultat de recherche sans annonce de commercialisation. La dépendance au HiL en phase online reste par ailleurs une limite pratique non résolue pour un passage à l'échelle industrielle.

RechercheOpinion
1 source
ROAD-VLA : adaptation en ligne robuste par auto-distillation pour les modèles vision-langage-action
4arXiv cs.RO 

ROAD-VLA : adaptation en ligne robuste par auto-distillation pour les modèles vision-langage-action

Une équipe de chercheurs publie fin juin 2026 ROAD-VLA (arXiv:2606.25800), un cadre d'adaptation en ligne des modèles VLA (Vision-Language-Action) par auto-distillation guidée par avantage. Les VLA, à l'image de Pi-0 (Physical Intelligence), GR00T N2 (NVIDIA) ou RT-2 (Google DeepMind), traduisent directement une entrée visuelle et une instruction en langage naturel en séquences d'actions robotiques. Le problème : affiner un tel modèle pré-entraîné sur de nouvelles tâches via apprentissage par renforcement (RL) génère des récompenses trop éparses pour superviser des politiques autoregressives de haute dimension. ROAD-VLA y répond en construisant un "enseignant proximal" dans l'espace des actions, perturbant les logits des tokens d'action avec des estimations d'avantage calibrées pour convertir des récompenses rares en supervision dense token par token. Évalué sur sept environnements de manipulation robotique, en distribution et hors distribution, le framework surpasse PPO (Proximal Policy Optimization, référence RL standard) dans la quasi-totalité des configurations. La découverte la plus saillante est l'existence d'un "modality gap" : les enseignants textuels conditionnés sur des démonstrations, des expériences récupérées ou des plans de haut niveau s'avèrent systématiquement inefficaces pour adapter les politiques d'action VLA. C'est une contradiction directe avec une hypothèse répandue selon laquelle le guidage symbolique ou langagier peut servir de supervision fiable lors du fine-tuning RL. ROAD-VLA démontre que la supervision doit opérer dans l'espace des actions, pas dans l'espace du langage. Pour un intégrateur déployant des bras manipulateurs basés sur VLA, cela ouvre une voie d'adaptation au domaine sans collecter de nouvelles démonstrations massives : le modèle se corrige via son propre comportement et les signaux de récompense de l'environnement réel. Le paradigme VLA a pris son essor avec RT-2 (Google DeepMind, 2023), puis s'est accéléré via Pi-0 (Physical Intelligence, 2024), GR00T N2 (NVIDIA, 2025) et Helix (Figure AI), accompagnés d'une vague de publications académiques. L'adaptation post-déploiement, soit ajuster un modèle généraliste à une géométrie de préhension spécifique ou à un flux industriel précis sans tout ré-entraîner, est désormais identifiée comme le verrou opérationnel suivant par les équipes terrain. Ce travail reste une annonce académique (arXiv, juin 2026), pas un produit livré ni un déploiement industriel réel, et la validation sur robots physiques en conditions industrielles reste à conduire. Aucun acteur français ou européen n'est impliqué dans cette recherche.

RechercheOpinion
1 source