RecherchearXiv cs.RO2h

ASPIRE : découverte de compétences à base d'agents pour la robotique

1 source couvre ce sujet·Source originale ↗·

Résumé IASource uniqueImpact UE

ASPIRE (Agentic Skill Programming through Iterative Robot Exploration) est un nouveau système d'apprentissage continu pour la robotique, décrit dans un article publié sur arXiv (2607.00272) début juillet 2026. Contrairement à la programmation robotique traditionnelle, qui impose de coder manuellement la perception multimodale, la gestion des contacts physiques et la diversité des échecs d'exécution, ASPIRE écrit et corrige lui-même ses programmes de contrôle selon le paradigme "code-as-policy", puis capitalise chaque correction validée dans une bibliothèque de compétences réutilisables. Le système s'appuie sur trois briques : un moteur d'exécution en boucle fermée qui expose des traces multimodales fines pour diagnostiquer les échecs et synthétiser des réparations ; une bibliothèque de compétences qui s'enrichit en continu de correctifs transférables ; et une recherche évolutionnaire qui génère des séquences de tâches et des programmes de contrôle variés, au-delà du simple raffinement trajectoire par trajectoire. Sur les bancs d'essai simulés, ASPIRE dépasse les méthodes précédentes de 77% sur les manipulations perturbées de LIBERO-Pro, 72% sur les transferts bimanuels de Robosuite, et 32% sur les tâches ménagères longues de BEHAVIOR-1K.

Ce travail s'attaque directement à un point de friction connu du secteur : la difficulté à faire generaliser des politiques de contrôle robotique au-delà de la tâche pour laquelle elles ont été conçues, sans réentraînement lourd à chaque nouvelle configuration. La bibliothèque cumulative d'ASPIRE permet une généralisation zero-shot à des tâches longues jamais vues : 31% de réussite sur LIBERO-Pro Long, contre seulement 4% pour les meilleures méthodes concurrentes, qui pourtant s'appuient sur du raisonnement et des tentatives répétées au moment de l'exécution. Pour les intégrateurs et décideurs robotique, c'est un signal encourageant sur la viabilité de bibliothèques de compétences auto-construites plutôt que de politiques VLA monolithiques entraînées une fois pour toutes, mais les auteurs restent prudents : ils ne parlent que de "premières preuves" de transfert simulation-vers-réel, pas d'un problème résolu.

Ce résultat s'inscrit dans la lignée des travaux récents sur les politiques de contrôle générées ou affinées par des grands modèles de langage, où l'enjeu principal est de dépasser le stade de la démonstration isolée pour atteindre une robustesse répétable en conditions réelles. Contrairement aux approches par apprentissage par renforcement pur ou aux VLA entraînés de bout en bout (type Pi-0 ou GR00T), ASPIRE mise sur l'exploration itérative et la mémoire de compétences pour réduire l'effort de programmation à chaque nouvel embodiment ou API robotique. Les auteurs annoncent vouloir approfondir la validation du transfert sim-to-real sur des plateformes physiques variées, une étape encore à venir puisque l'article ne documente pour l'instant que des résultats en simulation.

Dans nos dossiers

NVIDIA GR00T arXiv cs.RO

À lire aussi

1arXiv cs.RO

Coordination continue de robots quadrupèdes par découverte de compétences sémantiques

Des chercheurs ont publié sur arXiv (réf. 2606.08102) un framework appelé Conquer, conçu pour coordonner des équipes de robots quadrupèdes en apprentissage continu, c'est-à-dire sans avoir à réentraîner le système à chaque nouvelle tâche. L'approche repose sur une bibliothèque de compétences sémantiques organisée autour d'un cycle récupérer-adapter-mettre à jour : avant d'exécuter une tâche inconnue, le système construit un descripteur sémantique à partir des informations pré-exécution, retrouve la compétence la plus proche dans la bibliothèque, l'adapte, puis intègre les trajectoires réelles pour enrichir la base. Le backbone SAG (Self-Allies-Goal) permet de gérer des équipes de taille variable en modélisant explicitement l'état propre de chaque robot, le contexte de ses coéquipiers et l'objectif de la tâche. En simulation, Conquer atteint un taux de succès moyen final de 95,6 %, avec un transfert positif démontré vers de nouvelles tâches et un oubli catastrophique qualifié de négligeable. Des essais en conditions réelles ont été conduits sur des équipes de Unitree Go2, le quadrupède commercial d'Unitree Robotics. Ce résultat compte parce qu'il s'attaque à l'un des verrous fondamentaux de la robotique multi-agents : les méthodes de type MARL (apprentissage par renforcement multi-agents) existantes entraînent des politiques spécifiques à une famille de tâches fermée, ce qui les rend inutilisables dans des environnements industriels où les missions évoluent en permanence. Conquer propose une alternative où de nouvelles compétences de coordination s'accumulent sans effacer les précédentes, un prérequis pour tout déploiement réel dans des entrepôts ou sur des lignes de production à géométrie variable. La capacité à gérer des équipes de taille arbitraire est également non triviale : la plupart des approches supposent un nombre fixe d'agents. À noter cependant que les métriques de succès sont issues de simulation, et que les vidéos de déploiement sur Go2 restent des démonstrations sélectionnées, sans données quantifiées sur les taux d'échec terrain ni sur les temps de cycle réels. La coordination multi-quadrupèdes s'est intensifiée avec la disponibilité de robots comme le Go2 d'Unitree (lancé à moins de 2 700 dollars en version grand public), qui abaisse le coût d'expérimentation en laboratoire. La problématique de l'apprentissage continu en robotique est partagée par plusieurs groupes de recherche, notamment autour des architectures VLA (Vision-Language-Action) qui cherchent elles aussi à éviter la réinitialisation à chaque nouvelle tâche. Conquer se positionne dans un espace encore peu industrialisé, entre les approches MARL classiques et les frameworks généralistes de type foundation model. Les prochaines étapes logiques seraient des évaluations en entrepôt réel sur des tâches de manutention collaboratives, domaine où des acteurs comme Exotec (France) ou Boston Dynamics investissent sur des flottes mixtes humanoïdes et quadrupèdes.

RecherchePaper

1 source

2arXiv cs.RO

Gouvernance par sonde atomique pour la mise à jour des compétences dans les politiques de robots compositionnels

Des chercheurs ont publié sur arXiv (preprint 2604.26689) un protocole d'évaluation pour gouverner les mises à jour de compétences dans les politiques robotiques compositionnelles. Le problème concret : les bibliothèques de skills dans les systèmes déployés sont continuellement raffinées par fine-tuning, nouvelles démonstrations ou adaptation de domaine, mais les méthodes de composition existantes (BLADE, SymSkill, Generative Skill Chaining) supposent que la bibliothèque est figée au moment du test et ne caractérisent pas l'impact d'un remplacement de skill sur la composition globale. L'équipe introduit un protocole de swap cross-version par échantillonnage couplé (paired-sampling cross-version swap) sur les tâches de manipulation robosuite. Sur une tâche bimanuelle peg-in-hole, ils documentent un effet de skill dominant : un seul ECM (Elementary Composition Module) atteint 86,7 % de taux de succès atomique tandis que tous les autres restent sous 26,7 %, et la présence ou l'absence de cet ECM dominant dans une composition déplace le taux de succès de la composition jusqu'à +50 points de pourcentage. Ils testent également une tâche de pick où toutes les politiques saturent à 100 %, rendant l'effet indéfini, et couvrent au total 144 décisions de mise à jour de skill sur trois tâches. L'enseignement industriellement pertinent est que les métriques de distance comportementale hors-politique échouent à identifier l'ECM dominant, ce qui élimine le prédicteur bon marché le plus naturel pour un système de gouvernance en production. Pour pallier cela, les auteurs proposent une sonde de qualité atomique (atomic-quality probe) combinée à un Hybrid Selector : sur T6, la sonde atomique seule se situe 23 points sous la revalidation complète (64,6 % vs 87,5 % de correspondance oracle) à coût nul par décision ; le Hybrid Selector avec m=10 ramène cet écart à environ 12 points en mobilisant 46 % du coût d'une revalidation complète. Sur la moyenne inter-tâches des 144 événements, la sonde atomique seule reste à moins de 3 points de la revalidation complète, avec une réserve liée à l'oracle mixte. Pour les intégrateurs qui déploient des robots en production continue, ce résultat signifie qu'une stratégie de revalidation sélective peut préserver l'essentiel de la qualité compositionnelle à moitié coût, sans rejouer l'intégralité du test de composition à chaque mise à jour de skill. Ce travail s'inscrit dans un corpus académique croissant autour de la composition de politiques robotiques, domaine animé notamment par des méthodes comme Generative Skill Chaining et BLADE qui ont posé les bases du typed-composition mais sans mécanisme de gouvernance post-déploiement. Il n'existe à ce stade aucun déploiement industriel annoncé, ni partenariat OEM mentionné dans le preprint : il s'agit d'un résultat de recherche fondamentale évalué uniquement en simulation (robosuite). La portée pratique dépendra de la capacité à transférer ces résultats sur des stacks de policies VLA (Vision-Language-Action) plus récents, comme pi-zero de Physical Intelligence ou GR00T N2 de NVIDIA, qui multiplient précisément les modules compositionnels mis à jour en continu. Les prochaines étapes naturelles seraient une validation sim-to-real et une intégration dans des pipelines de CI/CD pour robots, un problème d'ingénierie encore largement ouvert.

RecherchePaper

1 source

3arXiv cs.RO

Mémoire analytique centrée sur les concepts pour la manipulation incarnée à base d'agents

Une équipe de recherche a soumis le 30 juin 2026 sur arXiv (arXiv:2606.29774) un cadre de mémoire structurée pour agents de manipulation robotique à long horizon. Baptisé "analytic concept-centric memory", le système organise l'expérience autour de concepts analytiques : chaque objet est représenté par ses parties sémantiques, des gabarits paramétriques, des poses ancrées dans l'espace, ses affordances et ses états de manipulation. Deux couches supplémentaires complètent l'architecture : une mémoire de transitions enregistrant les effets des actions sur l'état de scène, et une mémoire de compétences (skill memory) stockant des politiques réutilisables ancrées dans ces gabarits. À l'exécution, l'agent effectue une récupération coarse-to-fine pour identifier objets pertinents, états courants et compétences applicables. Les auteurs valident leur approche sur des tâches de manipulation dépendantes de la mémoire, la généralisation à des objets articulés (portes, tiroirs) et une évaluation en environnement réel. La gestion de mémoire reste un goulet d'étranglement critique en manipulation longue durée. Les agents actuels, y compris ceux fondés sur des architectures VLA (Vision-Language-Action), peinent à réutiliser les connaissances acquises lors d'interactions passées, forçant une replanification coûteuse à chaque nouvelle tâche. Ce cadre montre que structurer explicitement la mémoire autour de concepts physiques améliore le taux de complétion de tâches, la précision de récupération, la réidentification d'objets et la généralisation de compétences inter-objets, par rapport aux baselines non structurées et aux représentations vectorielles par embeddings. Pour les intégrateurs industriels, c'est un signal que la réutilisabilité des compétences sans réentraînement complet commence à devenir atteignable, ce qui réduit potentiellement les coûts de déploiement dans des environnements variables. La manipulation robotique à long horizon est un chantier actif chez plusieurs acteurs majeurs : Google DeepMind avec ses architectures RT-2 et SayCan, Physical Intelligence et son modèle Pi-0, Boston Dynamics, ainsi que des laboratoires comme Stanford et ETH Zurich. Ce travail s'inscrit dans une lignée cherchant à concilier planification symbolique structurée et politiques neuronales, deux paradigmes longtemps opposés. Ce preprint n'a pas encore été soumis à revue par les pairs, et les benchmarks restent des environnements de laboratoire contrôlés. La démonstration sur une plateforme industrielle réelle, avec la diversité des objets, le bruit sensoriel et les contraintes temps réel, reste à établir. Les prochaines étapes naturelles incluent l'intégration avec des VLA à grande échelle et l'évaluation sur des manipulateurs ou humanoïdes en contexte de production semi-réelle.

RechercheOpinion

1 source

4arXiv cs.RO

Titre découverte conjointe de symboles d'objets et d'actions par prédiction d'effets pour la planification de manipulation robotique

Ce travail de recherche, publié sur arXiv, s'attaque à un problème central en planification robotique : comment faire en sorte qu'un robot autonome transforme des interactions sensorimotrices continues et complexes en représentations discrètes exploitables pour planifier ses actions. Les auteurs proposent un modèle qui découvre simultanément des primitives de manipulation de haut niveau et des catégories d'objets, via une couche binaire dite « bottleneck », entraînée à prédire des résultats multimodaux (mouvement de l'objet, contact, retour de force) à partir de données d'interaction générées aléatoirement. Le système s'appuie ensuite sur une méthode de planification discrète qui utilise les étapes intermédiaires de la trajectoire d'effets prédite, permettant des exécutions partielles d'actions pour un contrôle précis à bas niveau. Les expériences portent sur des tâches de repositionnement et d'empilement d'objets sur table, et montrent une précision de planification supérieure à un état de l'art existant et à une méthode alternative fondée sur la vision, aussi bien sur des objets déjà vus que sur des objets nouveaux. L'enjeu dépasse la simple performance de laboratoire. Les approches classiques de catégorisation d'objets en robotique reposent soit sur l'apparence visuelle, ce qui échoue dès que deux objets se ressemblent mais réagissent différemment à la manipulation, soit sur les effets observés, mais avec des actions figées à l'avance. En liant les deux via l'apprentissage, cette méthode permet une généralisation en few-shot fondée sur le comportement réel de l'objet plutôt que sur son aspect, un enjeu direct pour les intégrateurs industriels confrontés à des objets non standardisés en entrepôt ou en logistique, où deux boîtes identiques visuellement peuvent avoir un contenu, un poids ou une rigidité totalement différents. Ce travail s'inscrit dans la lignée des recherches sur l'ancrage symbolique (symbol grounding) pour la planification robotique, un champ qui cherche depuis plusieurs années à dépasser les limites de la perception purement visuelle. Les auteurs annoncent vouloir étendre cette approche à des tâches de manipulation plus variées et à des objets plus complexes, une piste qui pourrait à terme nourrir les architectures de type VLA utilisées par les bras industriels et les robots humanoïdes.

RecherchePaper

1 source