
Coordination continue de robots quadrupèdes par découverte de compétences sémantiques
Des chercheurs ont publié sur arXiv (réf. 2606.08102) un framework appelé Conquer, conçu pour coordonner des équipes de robots quadrupèdes en apprentissage continu, c'est-à-dire sans avoir à réentraîner le système à chaque nouvelle tâche. L'approche repose sur une bibliothèque de compétences sémantiques organisée autour d'un cycle récupérer-adapter-mettre à jour : avant d'exécuter une tâche inconnue, le système construit un descripteur sémantique à partir des informations pré-exécution, retrouve la compétence la plus proche dans la bibliothèque, l'adapte, puis intègre les trajectoires réelles pour enrichir la base. Le backbone SAG (Self-Allies-Goal) permet de gérer des équipes de taille variable en modélisant explicitement l'état propre de chaque robot, le contexte de ses coéquipiers et l'objectif de la tâche. En simulation, Conquer atteint un taux de succès moyen final de 95,6 %, avec un transfert positif démontré vers de nouvelles tâches et un oubli catastrophique qualifié de négligeable. Des essais en conditions réelles ont été conduits sur des équipes de Unitree Go2, le quadrupède commercial d'Unitree Robotics.
Ce résultat compte parce qu'il s'attaque à l'un des verrous fondamentaux de la robotique multi-agents : les méthodes de type MARL (apprentissage par renforcement multi-agents) existantes entraînent des politiques spécifiques à une famille de tâches fermée, ce qui les rend inutilisables dans des environnements industriels où les missions évoluent en permanence. Conquer propose une alternative où de nouvelles compétences de coordination s'accumulent sans effacer les précédentes, un prérequis pour tout déploiement réel dans des entrepôts ou sur des lignes de production à géométrie variable. La capacité à gérer des équipes de taille arbitraire est également non triviale : la plupart des approches supposent un nombre fixe d'agents. À noter cependant que les métriques de succès sont issues de simulation, et que les vidéos de déploiement sur Go2 restent des démonstrations sélectionnées, sans données quantifiées sur les taux d'échec terrain ni sur les temps de cycle réels.
La coordination multi-quadrupèdes s'est intensifiée avec la disponibilité de robots comme le Go2 d'Unitree (lancé à moins de 2 700 dollars en version grand public), qui abaisse le coût d'expérimentation en laboratoire. La problématique de l'apprentissage continu en robotique est partagée par plusieurs groupes de recherche, notamment autour des architectures VLA (Vision-Language-Action) qui cherchent elles aussi à éviter la réinitialisation à chaque nouvelle tâche. Conquer se positionne dans un espace encore peu industrialisé, entre les approches MARL classiques et les frameworks généralistes de type foundation model. Les prochaines étapes logiques seraient des évaluations en entrepôt réel sur des tâches de manutention collaboratives, domaine où des acteurs comme Exotec (France) ou Boston Dynamics investissent sur des flottes mixtes humanoïdes et quadrupèdes.
Dans nos dossiers




