CollaBot : manipulation collaborative simultanée guidée par modèle vision-langage
Une équipe de chercheurs a publié sur arXiv (arXiv:2508.03526v2) CollaBot, un framework généraliste de manipulation collaborative simultanée par plusieurs robots. L'approche articule trois composants : un module de segmentation de scène basé sur SEEM (Segment Everything Everywhere all at once Model) pour isoler l'objet cible dans l'environnement, un framework de saisie collaborative qui décompose la tâche en génération locale de poses de préhension par chaque robot et coordination globale entre agents, et un module de planification en deux étapes pour produire des trajectoires sans collision. Testé sur des configurations variées, nombre de robots, types d'objets (dont des objets volumineux comme des tables), types de tâches, CollaBot atteint un taux de réussite de 72 %, surpassant les méthodes basées sur le behavior cloning. Des expériences en conditions réelles confirment la faisabilité de l'approche hors simulation.
Ce résultat pointe un angle mort structurel de la robotique de manipulation : la quasi-totalité des frameworks existants ciblent des robots seuls opérant sur des objets de petite taille, alors que les environnements industriels et domestiques exigent fréquemment la manipulation coordonnée d'objets volumineux, tables, panneaux, charges lourdes. La décomposition explicite du problème (saisie locale + coordination globale) se révèle plus robuste que l'apprentissage bout-en-bout pur pour la généralisation multi-robot, ce qui constitue une piste d'architecture à retenir pour les intégrateurs industriels cherchant à déployer des cellules multi-bras flexibles. Le taux de 72 % mérite toutefois d'être nuancé : le papier ne détaille pas précisément la diversité des objets testés en conditions réelles ni les critères de succès retenus, ce qui limite la comparaison directe avec d'autres systèmes.
La manipulation multi-robot collaborative reste un champ en structuration, sans cadre généraliste interopérable établi à ce jour. CollaBot s'inscrit dans une tendance plus large d'intégration de modèles vision-langage dans la planification robotique, dans l'esprit des architectures VLA portées par Physical Intelligence avec Pi-0, Figure AI avec Figure 03, ou Google DeepMind avec GR00T N2, mais appliqué spécifiquement à la coordination multi-agents sur objets larges, un scénario que les VLA classiques traitent mal. Les suites logiques seraient de tester le framework avec un nombre de robots plus élevé, dans des environnements encombrés, et de publier des benchmarks complets pour permettre une reproductibilité indépendante et une comparaison sérieuse avec les approches concurrentes.
Dans nos dossiers




