ASPIRE : découverte de compétences à base d'agents pour la robotique
ASPIRE (Agentic Skill Programming through Iterative Robot Exploration) est un nouveau système d'apprentissage continu pour la robotique, décrit dans un article publié sur arXiv (2607.00272) début juillet 2026. Contrairement à la programmation robotique traditionnelle, qui impose de coder manuellement la perception multimodale, la gestion des contacts physiques et la diversité des échecs d'exécution, ASPIRE écrit et corrige lui-même ses programmes de contrôle selon le paradigme "code-as-policy", puis capitalise chaque correction validée dans une bibliothèque de compétences réutilisables. Le système s'appuie sur trois briques : un moteur d'exécution en boucle fermée qui expose des traces multimodales fines pour diagnostiquer les échecs et synthétiser des réparations ; une bibliothèque de compétences qui s'enrichit en continu de correctifs transférables ; et une recherche évolutionnaire qui génère des séquences de tâches et des programmes de contrôle variés, au-delà du simple raffinement trajectoire par trajectoire. Sur les bancs d'essai simulés, ASPIRE dépasse les méthodes précédentes de 77% sur les manipulations perturbées de LIBERO-Pro, 72% sur les transferts bimanuels de Robosuite, et 32% sur les tâches ménagères longues de BEHAVIOR-1K.
Ce travail s'attaque directement à un point de friction connu du secteur : la difficulté à faire generaliser des politiques de contrôle robotique au-delà de la tâche pour laquelle elles ont été conçues, sans réentraînement lourd à chaque nouvelle configuration. La bibliothèque cumulative d'ASPIRE permet une généralisation zero-shot à des tâches longues jamais vues : 31% de réussite sur LIBERO-Pro Long, contre seulement 4% pour les meilleures méthodes concurrentes, qui pourtant s'appuient sur du raisonnement et des tentatives répétées au moment de l'exécution. Pour les intégrateurs et décideurs robotique, c'est un signal encourageant sur la viabilité de bibliothèques de compétences auto-construites plutôt que de politiques VLA monolithiques entraînées une fois pour toutes, mais les auteurs restent prudents : ils ne parlent que de "premières preuves" de transfert simulation-vers-réel, pas d'un problème résolu.
Ce résultat s'inscrit dans la lignée des travaux récents sur les politiques de contrôle générées ou affinées par des grands modèles de langage, où l'enjeu principal est de dépasser le stade de la démonstration isolée pour atteindre une robustesse répétable en conditions réelles. Contrairement aux approches par apprentissage par renforcement pur ou aux VLA entraînés de bout en bout (type Pi-0 ou GR00T), ASPIRE mise sur l'exploration itérative et la mémoire de compétences pour réduire l'effort de programmation à chaque nouvel embodiment ou API robotique. Les auteurs annoncent vouloir approfondir la validation du transfert sim-to-real sur des plateformes physiques variées, une étape encore à venir puisque l'article ne documente pour l'instant que des résultats en simulation.
Dans nos dossiers



