
CLASP : sélection et composition de compétences robotiques pilotées par le langage avec apprentissage paramétré par la tâche
Des chercheurs ont publié sur arXiv (2606.08169) CLASP, une architecture modulaire permettant à un bras manipulateur à 7 degrés de liberté d'exécuter des tâches robotiques à partir de commandes en langage naturel, avec seulement 2 à 5 démonstrations kinesthésiques par compétence. Le système repose sur deux briques : des primitives de mouvement noyau paramétrées par tâche (TP-KMPs), héritées des méthodes d'imitation de données, et un modèle vision-langage (VLM) préentraîné, utilisé sans fine-tuning. Lors de la phase d'apprentissage, le VLM génère des schémas de compétences décrivant les paramètres nécessaires et les préconditions d'exécution. À l'exécution, il sélectionne la compétence adaptée, résout les liaisons de paramètres, et compose des comportements inédits via une pondération par covariance. Lorsqu'aucune compétence existante ne suffit, le système identifie automatiquement la lacune et sollicite une démonstration ciblée. Les taux de succès rapportés vont de 73,3 % à 100 % selon les scénarios testés (sélection, composition, apprentissage actif).
Ce résultat est notable parce qu'il attaque un problème structurel du déploiement industriel : les modèles vision-langage-action (VLA) de nouvelle génération, comme Pi-0 de Physical Intelligence ou GR00T N2 de NVIDIA, atteignent des performances impressionnantes mais exigent des volumes de données d'entraînement massifs, difficilement compatibles avec les contraintes de production réelle. À l'inverse, les méthodes d'imitation efficaces en données, comme les TP-GMMs de Stefan Calinon, restent rigides face à des instructions non anticipées. CLASP propose une voie intermédiaire : déléguer le raisonnement symbolique au VLM sans le ré-entraîner, et garder la motricité dans un espace probabiliste compact. La boucle d'apprentissage actif intégrée est particulièrement pertinente pour les intégrateurs industriels : le robot peut signaler ce qu'il ne sait pas faire plutôt que d'échouer silencieusement.
Les primitives de mouvement paramétrées par tâche ont une longue trajectoire académique, popularisées notamment par les travaux de Calinon et Billard depuis les années 2010. CLASP s'inscrit dans la vague actuelle qui cherche à greffer la compréhension du langage sur ces méthodes sans sacrifier leur frugalité en données, une direction également explorée par des équipes comme celles de CMU, ETH Zurich ou l'INRIA en France. La validation reste limitée à un manipulateur en laboratoire, les scénarios présentés sont sélectionnés, et les taux de succès ne sont pas contextualisés par rapport à la complexité des tâches ni à la variabilité environnementale. La prochaine étape évidente serait une évaluation sur des tâches de manipulation non structurées, voire un transfert vers une plateforme mobile ou humanoïde.
L'INRIA est cité parmi les équipes explorant des directions similaires (langage sur primitives de mouvement frugales en données), positionnant la France comme contributeur actif à cette vague de recherche, sans impact industriel direct à court terme.
Dans nos dossiers




