
R2BC : apprentissage par imitation multi-agents à partir de démonstrations d'un agent unique
Des chercheurs ont publié sur arXiv en octobre 2024 (arXiv:2510.18085v2) une méthode baptisée R2BC (Round-Robin Behavior Cloning), conçue pour entraîner des systèmes multi-robots à partir de démonstrations réalisées par un seul opérateur humain. Le principe : l'humain téléopère un robot à la fois, de façon séquentielle en "round-robin", sans jamais avoir à contrôler plusieurs agents simultanément ni à fournir des démonstrations dans l'espace d'action conjoint. La méthode a été évaluée sur quatre tâches simulées multi-agents, puis déployée sur deux tâches physiques avec des démonstrations humaines réelles. Résultat : R2BC atteint, voire dépasse dans certains cas, les performances d'une approche oracle de behavior cloning entraînée sur des démonstrations synchronisées privilégiées, c'est-à-dire des données idéales rarement disponibles en pratique.
L'intérêt de R2BC tient à son approche de la collecte de données d'imitation learning. En robotique collaborative multi-bras ou en manipulation industrielle coordonnée, constituer des démonstrations synchronisées entre plusieurs agents représente un goulot d'étranglement logistique majeur : cela exige plusieurs opérateurs, une coordination temporelle précise, et multiplie les coûts d'instrumentation. R2BC supprime cette contrainte en permettant à un seul technicien de construire progressivement un dataset multi-agent, ce qui rend la méthode directement applicable aux déploiements à budget contraint. Que R2BC tienne la comparaison face à un oracle entraîné sur des données idéales constitue une validation empirique solide, même si les tâches physiques testées restent relativement simples et que les détails sur les configurations matérielles ne sont pas communiqués dans le préprint.
L'imitation learning par clonage comportemental s'est imposé comme une voie centrale pour l'apprentissage robot depuis les travaux fondateurs de DAgger (Ross et al., 2011) et, plus récemment, avec les architectures VLA (Vision-Language-Action) portées notamment par Physical Intelligence (pi0) et Google DeepMind. Son extension au multi-agent reste néanmoins peu explorée : la plupart des travaux existants supposent des démonstrations conjointes ou une coordination centralisée, là où des méthodes de renforcement multi-agent comme MAPPO ou QMIX opèrent sans contrainte de collecte humaine. R2BC occupe ce blanc de la littérature avec une approche pragmatique. Les suites naturelles seraient de tester la méthode sur des équipes de robots plus nombreuses, dans des environnements dynamiques proches des standards industriels, et d'évaluer sa robustesse sur des tâches longue-horizon.
Dans nos dossiers




