Manipulation Collaborative de Plis en Fibre de…

CollaBot : manipulation collaborative simultanée guidée par modèle vision-langage

42

1arXiv cs.RO

CollaBot : manipulation collaborative simultanée guidée par modèle vision-langage

Une équipe de chercheurs a publié sur arXiv (arXiv:2508.03526v2) CollaBot, un framework généraliste de manipulation collaborative simultanée par plusieurs robots. L'approche articule trois composants : un module de segmentation de scène basé sur SEEM (Segment Everything Everywhere all at once Model) pour isoler l'objet cible dans l'environnement, un framework de saisie collaborative qui décompose la tâche en génération locale de poses de préhension par chaque robot et coordination globale entre agents, et un module de planification en deux étapes pour produire des trajectoires sans collision. Testé sur des configurations variées, nombre de robots, types d'objets (dont des objets volumineux comme des tables), types de tâches, CollaBot atteint un taux de réussite de 72 %, surpassant les méthodes basées sur le behavior cloning. Des expériences en conditions réelles confirment la faisabilité de l'approche hors simulation. Ce résultat pointe un angle mort structurel de la robotique de manipulation : la quasi-totalité des frameworks existants ciblent des robots seuls opérant sur des objets de petite taille, alors que les environnements industriels et domestiques exigent fréquemment la manipulation coordonnée d'objets volumineux, tables, panneaux, charges lourdes. La décomposition explicite du problème (saisie locale + coordination globale) se révèle plus robuste que l'apprentissage bout-en-bout pur pour la généralisation multi-robot, ce qui constitue une piste d'architecture à retenir pour les intégrateurs industriels cherchant à déployer des cellules multi-bras flexibles. Le taux de 72 % mérite toutefois d'être nuancé : le papier ne détaille pas précisément la diversité des objets testés en conditions réelles ni les critères de succès retenus, ce qui limite la comparaison directe avec d'autres systèmes. La manipulation multi-robot collaborative reste un champ en structuration, sans cadre généraliste interopérable établi à ce jour. CollaBot s'inscrit dans une tendance plus large d'intégration de modèles vision-langage dans la planification robotique, dans l'esprit des architectures VLA portées par Physical Intelligence avec Pi-0, Figure AI avec Figure 03, ou Google DeepMind avec GR00T N2, mais appliqué spécifiquement à la coordination multi-agents sur objets larges, un scénario que les VLA classiques traitent mal. Les suites logiques seraient de tester le framework avec un nombre de robots plus élevé, dans des environnements encombrés, et de publier des benchmarks complets pour permettre une reproductibilité indépendante et une comparaison sérieuse avec les approches concurrentes.

RecherchePaper

1 source

WristMimic : contrôle corps entier de l'humanoïde par manipulation guidée au poignet

39

2arXiv cs.RO

WristMimic : contrôle corps entier de l'humanoïde par manipulation guidée au poignet

Publié en juillet 2026 sur arXiv, WristMimic est un framework de contrôle corps entier pour robots humanoïdes qui transfère des démonstrations humaines de manipulation vers une simulation physique. Plutôt que de suivre intégralement la pose de la main, la méthode sépare le corps et le poignet, guidés cinématiquement, des doigts, qui apprennent leurs gestes de préhension à partir du suivi de l'objet et du résultat des contacts. Le poignet sert de charnière entre les deux régimes : peu soumis aux forces de contact, il reste suivable fidèlement tout en plaçant la main dans une configuration de prise atteignable. Des contraintes de réinitialisation et une priorisation des récompenses au poignet fiabilisent ce positionnement ; les auteurs annoncent des performances égales ou supérieures aux méthodes à supervision complète des doigts, avec un retargeting indépendant de la morphologie de la main. Le problème ciblé est connu en contrôle humanoïde : une trajectoire de main en position seule ne renseigne pas les forces de contact nécessaires à une prise réussie, et imposer un suivi complet des doigts tend à surcontraindre des comportements qui doivent rester riches en contacts, ce qui fragilise la manipulation fine. En découplant mouvement libre et manipulation, WristMimic s'inscrit dans la recherche sur l'imitation à grande échelle pour l'IA incarnée, sans dépendre d'une capture de main parfaite. Pour l'industrie, l'argument concret est qu'une approche agnostique à la morphologie de la main pourrait réduire le travail d'adaptation quand un intégrateur change de main dextérisée, un problème récurrent tant les architectures varient d'un fabricant humanoïde à l'autre. Ce travail s'inscrit dans la lignée des méthodes de contrôle guidé par la cinématique humaine pour humanoïdes, qui cherchent depuis deux ans à rapprocher téléopération et apprentissage par renforcement. L'abstract ne mentionne aucun déploiement sur robot réel ni partenariat industriel : il s'agit pour l'instant d'une validation en simulation, une contribution de recherche plutôt qu'un produit. Les suites logiques seraient une validation sur plateforme humanoïde physique et une comparaison avec les pipelines de téléopération des acteurs du secteur, qu'il s'agisse des humanoïdes commerciaux ou des modèles VLA généralistes comme Pi-0 ou GR00T N2.

RecherchePaper

1 source

Un cadre conversationnel pour la manipulation collaborative humain-robot avec des modèles d'IA générative distribués

45

3arXiv cs.RO

Un cadre conversationnel pour la manipulation collaborative humain-robot avec des modèles d'IA générative distribués

Des chercheurs de l'Université de Tampere (Finlande) publient sur arXiv (2606.06061) un framework distribué permettant à un opérateur humain de piloter un robot manipulateur par commandes vocales ou textuelles en langage naturel. L'architecture repose sur ROS 2, avec quatre nœuds indépendants : compréhension linguistique (LLM local), ancrage visuel (VLM), orchestration, et exécution moteur. À partir d'une instruction libre, le système génère des requêtes structurées pour des tâches de saisie, dépose et transfert d'objet. Le VLM retourne des cibles en espace-image, ensuite converties en objectifs métriques dans le référentiel robot grâce à la profondeur et à la calibration. Les expériences sont menées sur un bras Franka FR3 ; les auteurs mesurent la fiabilité bout-en-bout et la latence en faisant varier le degré d'ambiguïté de la scène sur la table de travail, et comparent plusieurs configurations LLM/VLM dans le même pipeline. Un tableau de bord web affiche les intentions intermédiaires et les superpositions d'ancrage visuel (pixel, profondeur, référentiel robot), et exige une confirmation explicite de l'opérateur avant tout mouvement. L'intérêt principal de cette approche pour un intégrateur ou un COO industriel tient à trois points. Premièrement, le choix de modèles locaux, pas de dépendance cloud, répond directement aux contraintes de latence et de confidentialité en environnement de production. Deuxièmement, la modularité ROS 2 permet de substituer un modèle par un autre sans refondre la stack, ce qui facilite le benchmarking et la mise à jour. Troisièmement, la boucle de confirmation opérateur est un signal clair que les auteurs ne cherchent pas à masquer le gap demo-versus-réalité : le système ne prétend pas être autonome, il vise une collaboration vérifiable. À noter que les métriques de fiabilité ne sont pas chiffrées dans l'abstract, les résultats quantitatifs précis restent à vérifier dans le corps du papier. Ce travail s'inscrit dans un courant de recherche actif autour des VLA (vision-language-action) pour la manipulation, où Physical Intelligence (Pi-0), Google DeepMind (RT-2, π0) et Stanford (Mobile ALOHA) occupent le devant de la scène avec des approches end-to-end à grande échelle. Le choix de Tampere d'utiliser des modèles légers et locaux contraste délibérément avec ces acteurs : c'est un positionnement orienté déploiement industriel frugal plutôt que performance brute. Le code est disponible en open source sur GitHub (cogrob-tuni/franka-llm), ce qui facilite la reproductibilité. La prochaine étape logique serait d'étendre le framework à des scènes dynamiques ou multi-robots, et de publier des benchmarks comparatifs sur des tâches standardisées comme celles de RoboAgent ou BridgeData.

UETravaux issus de l'Université de Tampere (Finlande, UE) proposant une architecture LLM/VLM entièrement locale et open source pour la manipulation collaborative, directement alignée sur les contraintes RGPD et de souveraineté industrielle du marché européen.

RechercheOpinion

1 source

LAMP : planification adaptative de manipulation à long horizon pour la collaboration multi-robots en espace encombré

36

4arXiv cs.RO

LAMP : planification adaptative de manipulation à long horizon pour la collaboration multi-robots en espace encombré

Une équipe de chercheurs a publié sur arXiv (référence 2606.29358v1) un nouveau cadre de planification intitulé LAMP, pour Long-horizon Adaptive Manipulation Planning, conçu pour coordonner plusieurs robots manipulateurs dans des environnements très encombrés. Le système repose sur deux planificateurs complémentaires : LAMPA*, qui effectue une recherche systématique dans l'espace couplé objets-robots, et LAMP-Lazy, un planificateur dit "paresseux" qui diffère certaines évaluations pour permettre une replanification en temps réel. Les expériences ont été menées dans des environnements simulés à haute densité d'obstacles, où les méthodes existantes échouent à trouver des solutions. Aucun déploiement physique ni timeline de commercialisation n'est annoncé. Le verrou technique que LAMP cherche à lever est fondamental pour l'industrie : coordonner plusieurs bras robotiques sur des tâches longues dans des espaces confinés implique de raisonner simultanément sur les contacts physiques, les dynamiques couplées entre robots, et l'évitement de collision. Les deux approches dominantes aujourd'hui se heurtent à des murs de scalabilité distincts. L'apprentissage par renforcement end-to-end peine à généraliser dès que l'horizon de tâche s'allonge ou que le nombre de robots augmente. Les méthodes hybrides, qui planifient les trajectoires d'objets et apprennent des primitives de contact à courte portée, ne tiennent pas dans des scènes très denses. LAMP propose de rendre ce problème tractable via un modèle génératif appris, combiné à une stratégie de recherche adaptative, ce qui constitue une approche architecturalement différente des VLA (Vision-Language-Action models) qui dominent l'espace humanoïde. La planification multi-robot en environnement encombré est un problème central pour l'automatisation logistique et industrielle, où des acteurs comme Exotec (France) déploient des flottes de robots AMR dans des entrepôts à haute densité. La recherche en robotique académique a longtemps traité la manipulation et la coordination de flotte séparément ; des travaux comme LAMP signalent une convergence vers des systèmes unifiés capables de gérer les deux dimensions. Cependant, l'absence totale de validation sur hardware réel est une limite importante : le sim-to-real gap reste le principal obstacle entre des résultats de simulation convaincants et une industrialisation effective. Les prochaines étapes naturelles seraient des tests sur bancs physiques multi-bras, dans des configurations représentatives de cellules de picking ou d'assemblage.

RecherchePaper

1 source

Manipulation Collaborative de Plis en Fibre de Carbone Guidée par l'Humain

À lire aussi

CollaBot : manipulation collaborative simultanée guidée par modèle vision-langage

WristMimic : contrôle corps entier de l'humanoïde par manipulation guidée au poignet

Un cadre conversationnel pour la manipulation collaborative humain-robot avec des modèles d'IA générative distribués

LAMP : planification adaptative de manipulation à long horizon pour la collaboration multi-robots en espace encombré