RecherchearXiv cs.RO6sem

CollaBot : manipulation collaborative simultanée guidée par modèle vision-langage

1 source couvre ce sujet·Source originale ↗·

Résumé IASource uniqueImpact UE

Une équipe de chercheurs a publié sur arXiv (arXiv:2508.03526v2) CollaBot, un framework généraliste de manipulation collaborative simultanée par plusieurs robots. L'approche articule trois composants : un module de segmentation de scène basé sur SEEM (Segment Everything Everywhere all at once Model) pour isoler l'objet cible dans l'environnement, un framework de saisie collaborative qui décompose la tâche en génération locale de poses de préhension par chaque robot et coordination globale entre agents, et un module de planification en deux étapes pour produire des trajectoires sans collision. Testé sur des configurations variées, nombre de robots, types d'objets (dont des objets volumineux comme des tables), types de tâches, CollaBot atteint un taux de réussite de 72 %, surpassant les méthodes basées sur le behavior cloning. Des expériences en conditions réelles confirment la faisabilité de l'approche hors simulation.

Ce résultat pointe un angle mort structurel de la robotique de manipulation : la quasi-totalité des frameworks existants ciblent des robots seuls opérant sur des objets de petite taille, alors que les environnements industriels et domestiques exigent fréquemment la manipulation coordonnée d'objets volumineux, tables, panneaux, charges lourdes. La décomposition explicite du problème (saisie locale + coordination globale) se révèle plus robuste que l'apprentissage bout-en-bout pur pour la généralisation multi-robot, ce qui constitue une piste d'architecture à retenir pour les intégrateurs industriels cherchant à déployer des cellules multi-bras flexibles. Le taux de 72 % mérite toutefois d'être nuancé : le papier ne détaille pas précisément la diversité des objets testés en conditions réelles ni les critères de succès retenus, ce qui limite la comparaison directe avec d'autres systèmes.

La manipulation multi-robot collaborative reste un champ en structuration, sans cadre généraliste interopérable établi à ce jour. CollaBot s'inscrit dans une tendance plus large d'intégration de modèles vision-langage dans la planification robotique, dans l'esprit des architectures VLA portées par Physical Intelligence avec Pi-0, Figure AI avec Figure 03, ou Google DeepMind avec GR00T N2, mais appliqué spécifiquement à la coordination multi-agents sur objets larges, un scénario que les VLA classiques traitent mal. Les suites logiques seraient de tester le framework avec un nombre de robots plus élevé, dans des environnements encombrés, et de publier des benchmarks complets pour permettre une reproductibilité indépendante et une comparaison sérieuse avec les approches concurrentes.

Dans nos dossiers

Figure NVIDIA GR00T Physical Intelligence — π0 arXiv cs.RO

À lire aussi

1arXiv cs.RO

Modèle vision-langage-action pour la manipulation robuste multi-robot en boucle fermée

Un article publié le 9 juillet 2026 sur arXiv (référence 2607.06990) présente un nouveau système multi-agent destiné à fiabiliser la manipulation robotique lorsque plusieurs robots doivent coopérer. Les chercheurs proposent une architecture hiérarchique et bouclée reposant sur trois agents pilotés par un grand modèle de langage (LLM) : un agent de planification qui décompose une instruction globale en sous-tâches réparties entre les robots, un agent de manipulation propre à chaque robot qui exécute les actions en mobilisant dynamiquement des outils adaptés, et un agent de vérification qui observe les résultats physiques réels et renvoie des corrections sémantiques en cas d'échec ou d'écart. Le système a été testé lors d'expériences réelles, sans que l'article ne précise pour l'instant de chiffres exacts (taux de succès, nombre de robots, temps de cycle) au-delà de l'affirmation d'une performance supérieure aux approches existantes, aussi bien sur des tâches limitées à un seul poste de travail que sur des tâches réparties entre plusieurs espaces de travail distincts. L'intérêt de ce travail tient au problème qu'il cible directement : la plupart des approches actuelles combinant LLM et robotique se cantonnent soit à un seul bras manipulateur, où la prise en compte du contact physique est robuste mais sans coordination multi-robot possible, soit à une planification multi-robot de haut niveau qui traite la manipulation comme une brique idéalisée, ignorant les aléas réels d'exécution (glissement, échec de préhension, erreur de perception). En bouclant la boucle perception-action-vérification à l'échelle du système multi-robot, cette architecture s'attaque à un angle mort connu du secteur : la difficulté à faire passer un plan LLM cohérent en langage naturel vers une exécution physique fiable quand plusieurs machines doivent se synchroniser sur des tâches à long horizon. Ce travail s'inscrit dans une tendance de recherche plus large qui cherche à doter les architectures VLA (vision-language-action) et les systèmes agentiques d'un mécanisme de rétroaction correctif, plutôt que de se reposer uniquement sur des plans ouverts non révisables. Il concurrence conceptuellement les approches de planification hiérarchique pure et les méthodes de manipulation mono-robot type Pi-0 ou GR00T N2, en visant explicitement le passage à l'échelle vers des ateliers ou des cellules industrielles à plusieurs robots. L'article, encore un simple dépôt arXiv à ce stade, ne mentionne pas de partenariat industriel ni de calendrier de déploiement commercial.

RechercheActu

1 source

2arXiv cs.RO

Manipulation Collaborative de Plis en Fibre de Carbone Guidée par l'Humain

Des chercheurs ont publié sur arXiv (référence 2606.11818) une étude portant sur la co-manipulation humain-robot de plis en fibre de carbone, un processus central dans la fabrication de pièces composites pour l'aéronautique et l'automobile. Le travail évalue plusieurs modalités de contrôle dans un environnement contrôlé : commandes vocales, suivi du poignet opérateur par vision, et contrôle en effort avec compliance mécanique. L'objectif est de permettre à un opérateur humain de guider le robot lors du drapage de matériaux souples, sans avoir à programmer des trajectoires rigides incapables de s'adapter aux déformations imprévisibles du matériau. L'enjeu industriel est réel : la manipulation de matériaux flexibles comme les préimprégnés carbone reste l'un des derniers verrous de l'automatisation en fabrication composite. Contrairement aux pièces rigides, les plis se déforment, glissent, et réagissent différemment selon la température, l'humidité ou la tension appliquée, rendant une automatisation complète économiquement et techniquement difficile à justifier pour les séries courtes ou les géométries complexes. L'approche co-manipulation présentée ici évite ce blocage en conservant le jugement humain dans la boucle, tout en déchargeant l'opérateur des efforts physiques répétitifs. Les auteurs concluent qu'une combinaison multimodale des trois méthodes offre le meilleur compromis entre intuitivité et complétude du contrôle, résultat qui reste toutefois à valider hors du cadre expérimental contrôlé décrit dans le papier. Ce travail s'inscrit dans un champ de recherche actif autour de la fabrication composite automatisée, où des acteurs comme Cevotec (Allemagne), Electroimpact (États-Unis) ou Coriolis Composites (France) développent des solutions de placement automatique de fibres, mais principalement pour des géométries prévisibles en grande série. La co-manipulation humain-robot cible un créneau différent : les petites séries, les pièces à forte valeur ajoutée, et les environnements où la flexibilité prime sur le débit. Le papier ne mentionne pas de partenariat industriel ni de calendrier de déploiement, ce qui le situe clairement au stade de la recherche amont plutôt que d'un produit opérationnel.

UEPertinent pour les acteurs français de la fabrication composite (ex. Coriolis Composites) qui cherchent à automatiser les petites séries, mais la recherche reste au stade amont sans transfert industriel annoncé.

RecherchePaper

1 source

3arXiv cs.RO

MARVL : guidage multi-étapes pour la manipulation robotique via des modèles vision-langage

Des chercheurs ont publié MARVL (Multi-Stage Guidance for Robotic Manipulation via Vision-Language Models, arXiv:2602.15872), une méthode visant à automatiser la conception de fonctions de récompense dense pour l'apprentissage par renforcement (RL) appliqué à la manipulation robotique. L'approche repose sur l'affinage (fine-tuning) d'un modèle de vision-langage (VLM) pour améliorer sa cohérence spatiale et sémantique, puis décompose chaque tâche en sous-tâches séquentielles. Un mécanisme dit de projection de direction de trajectoire (task direction projection) renforce la sensibilité du signal de récompense aux progrès réels de l'agent. Évalué sur le benchmark Meta-World, référence standard pour les tâches de manipulation à récompenses éparses, MARVL surpasse les méthodes VLM-reward existantes en efficacité d'échantillonnage et en robustesse. La contribution centrale de MARVL est de corriger trois défauts chroniques des approches naïves de récompense par VLM : le désalignement entre signal de récompense et avancement réel de la tâche, la faiblesse du grounding spatial, et la compréhension insuffisante de la sémantique d'une tâche robotique. Pour les équipes de recherche en RL robotique, l'enjeu est concret : la conception manuelle de fonctions de récompense dense est coûteuse, non scalable, et constitue un goulot d'étranglement majeur dans le déploiement de nouveaux comportements. Si la méthode confirme ses performances sur des benchmarks plus larges, elle représenterait un pas vers l'automatisation du cycle de reward design, réduisant la dépendance aux ingénieurs spécialisés et accélérant l'itération expérimentale. Les VLMs utilisés comme superviseurs pour le RL robotique constituent un axe de recherche actif depuis 2023, porté notamment par des travaux comme EUREKA (OpenAI/NVIDIA) ou VLP. MARVL se distingue par son affinage ciblé du VLM et sa décomposition multi-étapes, là où EUREKA s'appuie sur un LLM pour générer du code de récompense sans fine-tuning préalable. La validation se limite pour l'instant à Meta-World, un environnement entièrement simulé ; aucun résultat sur robot physique n'est rapporté dans cette version, ce qui laisse ouverte la question du sim-to-real gap. Les suites naturelles incluront une évaluation sur des plateformes matérielles et des benchmarks plus récents comme RLBench ou ManiSkill.

RechercheOpinion

1 source

4arXiv cs.RO

V-VLAPS : planification guidée par valeur pour les modèles vision-langage-action (VLA)

Des chercheurs proposent V-VLAPS (Value-Guided Vision-Language-Action Planning and Search), une méthode qui augmente les modèles VLA (Vision-Language-Action) d'un signal de valeur appris pour améliorer la planification en manipulation robotique. Les VLA encodent perception visuelle, langage et commande motrice pour générer des actions, mais leur comportement purement réactif se dégrade hors distribution d'entraînement ou sur des tâches à horizon long. V-VLAPS ajoute une tête de valeur légère (value head), entraînée sur des trajectoires hors-ligne (offline rollouts), qui prédit les retours Monte Carlo et guide un MCTS (Monte Carlo Tree Search) vers les branches de plus haute valeur. Sur les cinq suites du benchmark LIBERO, V-VLAPS égale la baseline sans valeur au budget de recherche standard ; avec un budget élargi, il la dépasse dans toutes les suites, avec +6 points de pourcentage sur LIBERO-Object et +4 points sur LIBERO-10. L'apport central est de démontrer que les représentations internes des VLA encodent non seulement des informations sur l'échec d'une trajectoire (déjà documenté dans la littérature), mais peuvent aussi estimer la valeur pendant la planification. Cela ouvre une voie pragmatique pour les intégrateurs : renforcer des politiques VLA existantes sans réentraînement complet, par simple ajout d'une tête de valeur et d'un budget de recherche accru. L'analyse révèle toutefois une limite claire : la majorité des échecs durs sont des timeouts au niveau racine, là où les valeurs prédites restent peu différenciées, ce qui plafonne le gain observé et indique que le signal de valeur est encore insuffisamment discriminant en début de trajectoire. Ce travail (préprint arXiv, janvier 2026) s'inscrit dans une série de méthodes cherchant à coupler la puissance générative des VLA modernes (RT-2, OpenVLA, Pi-0 de Physical Intelligence, GR00T N2 de NVIDIA) avec des mécanismes de planification structurée, face aux approches concurrentes par world models et diffusion planifiante. Les résultats sont obtenus uniquement en simulation sur LIBERO et ne sont pas encore validés sur robot réel, limite classique de ce type de contribution arxiv. La prochaine étape naturelle est une évaluation sim-to-real pour vérifier si le signal de valeur appris se transfère hors simulation, notamment sur des tâches à contacts complexes ou en environnement non structuré.

RechercheOpinion

1 source