
Décomposer et recomposer : inférer de nouvelles compétences robotiques à partir des capacités existantes
Une équipe de chercheurs a publié en mai 2025 sur arXiv (identifiant 2605.01448) un framework baptisé "Decompose and Recompose" visant à résoudre la généralisation inter-tâches en manipulation robotique en milieu ouvert. L'approche repose sur des paires compétence-action atomiques comme représentation intermédiaire : le système décompose des démonstrations de tâches connues en alignements interprétables, puis recompose ces compétences pour accomplir des tâches inconnues via un raisonnement compositionnel. Concrètement, la méthode construit une bibliothèque dynamique de démonstrations adaptative, fondée sur une récupération visuo-sémantique couplée aux séquences de compétences produites par un agent planificateur, complétée d'une bibliothèque statique sensible à la couverture pour combler les patterns manquants. Les expériences sont conduites sur le benchmark AGNOSTOS et en environnement réel, avec des résultats de généralisation zero-shot sur des tâches non présentées durant l'entraînement.
La généralisation inter-tâches reste l'un des verrous fondamentaux pour déployer des robots manipulateurs polyvalents dans des environnements industriels non structurés. Les approches d'apprentissage en contexte existantes fournissent uniquement des séquences d'actions continues de bas niveau, conduisant les modèles à imiter superficiellement des trajectoires sans extraire de connaissances transférables. "Decompose and Recompose" introduit une couche d'abstraction explicite, les compétences atomiques, qui permet de raisonner sur la composition et l'ordonnancement des actions plutôt que de mémoriser des trajectoires. Pour les intégrateurs et décideurs industriels, cela ouvre une voie pour réduire le volume de démonstrations nécessaires lors du déploiement sur de nouvelles tâches, point de friction majeur dans l'industrialisation de la manipulation apprenante, sans nécessiter aucune mise à jour des paramètres du modèle.
Cette recherche s'inscrit dans un courant actif d'apprentissage en contexte appliqué à la robotique, en contrepoint des approches fondées sur des modèles VLA (Vision-Language-Action) massivement entraînés comme Pi-0 de Physical Intelligence, GR00T N2 de NVIDIA, ou les politiques embarquées de Figure et 1X Technologies. Là où ces systèmes misent sur des jeux de données d'entraînement volumineux, "Decompose and Recompose" parie sur le raisonnement compositionnel à l'inférence. Le benchmark AGNOSTOS est conçu spécifiquement pour évaluer la généralisation à des tâches non vues, offrant un cadre plus rigoureux que les benchmarks standards comme RLBench ou MetaWorld. Ce travail en est au stade de preprint, sans annonce de déploiement industriel ni de partenariat commercial associé.




