Aller au contenu principal
CUBic : cadre unifié et coordonné de perception et contrôle bimanuels
RecherchearXiv cs.RO6sem

CUBic : cadre unifié et coordonné de perception et contrôle bimanuels

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Des chercheurs ont publié CUBic (Coordinated and Unified framework for Bimanual perception and control), un cadre d'apprentissage visuomoteur pour robots à deux bras, déposé sur arXiv en mai 2025 (arXiv:2605.13452). L'objectif : résoudre un verrou classique de la manipulation bimanuelle, où chaque bras doit agir à la fois de façon indépendante et coordonnée avec l'autre. CUBic reformule ce problème comme un défi de modélisation perceptuelle unifiée, en apprenant une représentation tokenisée partagée à travers trois composants : une agrégation perceptuelle unidirectionnelle, une coordination bidirectionnelle via deux codebooks à mapping commun, et une politique de diffusion perception-vers-contrôle. Les expériences sur le benchmark RoboTwin montrent des améliorations nettes sur les métriques de précision de coordination et de taux de succès par rapport aux baselines de référence, sans que les chiffres précis soient disponibles dans l'abstract publié.

Le verrou que CUBic adresse est structurel : les approches existantes forçaient un choix binaire, soit déconnecter les deux bras (chacun avec sa propre politique, au détriment de la coordination globale), soit imposer un couplage fort entre eux (risque d'interférences, manque de souplesse). CUBic démontre qu'une représentation partagée apprise de façon émergente, sans couplage codé à la main, suffit à générer simultanément indépendance et coordination. Pour un intégrateur ou un COO industriel, c'est un signal encourageant pour les tâches d'assemblage bimanuel complexes comme le vissage, le pliage ou le conditionnement, qui restent aujourd'hui difficiles à automatiser sans sur-ingénierie du système de contrôle.

La manipulation bimanuelle est l'un des fronts les plus actifs de la recherche en robotique apprise. Des cadres comme ACT (Action Chunking with Transformers), Diffusion Policy ou Pi-0 de Physical Intelligence ont progressivement amélioré les performances à un seul bras ; l'extension bimanuelle reste un défi ouvert, notamment pour les robots humanoïdes tels que le Figure 03, l'Optimus Gen 3 ou l'Unitree G1, qui en ont besoin pour les tâches industrielles réelles. CUBic est pour l'instant une contribution fondationnelle validée uniquement en simulation sur RoboTwin, sans déploiement physique annoncé. La prochaine étape logique serait un transfert sim-to-real sur robot physique, qui constitue encore le principal goulot d'étranglement entre publications académiques et applications industrielles concrètes.

À lire aussi

Cadre multi-dynamique unifié pour la modélisation orientée perception des robots continus à tendons
1arXiv cs.RO 

Cadre multi-dynamique unifié pour la modélisation orientée perception des robots continus à tendons

Des chercheurs ont publié sur arXiv (référence 2511.18088v2) un cadre de modélisation multi-dynamique unifié pour les robots continus à tendons, illustré par un prototype baptisé Spirob, dont la géométrie s'inspire d'une spirale. Le modèle intègre trois niveaux couplés : la dynamique électrique des moteurs, la dynamique moteur-treuil, et la dynamique structurelle du corps continu. En exploitant les signaux moteurs internes, courant et déplacement angulaire, le système est capable de détecter des interactions physiques avec l'environnement sans aucun capteur externe. Trois capacités ont été validées expérimentalement : détection passive de contact, détection active de contact avec stratégie de contrôle issue de la simulation, et estimation de la taille d'objets via une politique apprise en simulation puis déployée directement sur le robot réel. Le modèle reproduit fidèlement deux comportements critiques du système physique : l'hystérésis d'actionnement et l'auto-contact aux limites de mouvement. L'intérêt industriel de cette approche tient à l'élimination des capteurs extéroceptifs, qui alourdissent l'intégration hardware et fragilisent la scalabilité des déploiements. En ancrant la perception dans la dynamique intrinsèque du robot, les auteurs proposent une voie vers des robots plus compacts et moins coûteux à maintenir. Plus significatif encore : le transfert simulation-réel fonctionne sans adaptation supplémentaire pour la détection de contact active et l'estimation dimensionnelle, ce qui suggère que le modèle capte suffisamment les non-linéarités physiques pour que les politiques apprises en sim soient directement exploitables. C'est un point non trivial dans le domaine des robots souples, où le sim-to-real gap reste un obstacle structurel bien documenté. Les robots continus à tendons occupent une niche spécifique : manipulation en espace confiné, interventions médicales mini-invasives, inspection de conduites. Des laboratoires comme BioRobotics Institute (Scuola Superiore Sant'Anna), CHARM Lab (Stanford) ou des équipes EPFL travaillent sur des architectures comparables. Côté perception intrinsèque, la tendance rejoint les travaux sur la proprioception apprise pour robots souples (ex. travaux de Google DeepMind sur les robots déformables). Spirob reste pour l'instant un prototype de recherche, et l'article ne mentionne ni partenaire industriel, ni horizon de commercialisation. La prochaine étape logique serait une validation sur des tâches de manipulation plus complexes ou dans des configurations multi-robots.

UEDes laboratoires européens comme l'EPFL et le BioRobotics Institute (Sant'Anna, Italie) travaillent sur des architectures comparables, positionnant l'UE dans ce segment de recherche sur les robots souples à destination des applications médicales mini-invasives et de l'inspection industrielle.

RecherchePaper
1 source
TacVerse : un jeu de données et benchmark multi-capteurs pour la perception tactile visuelle entre capteurs
2arXiv cs.RO 

TacVerse : un jeu de données et benchmark multi-capteurs pour la perception tactile visuelle entre capteurs

Une équipe de chercheurs a publié TacVerse, un jeu de données multi-capteurs et benchmark destiné à évaluer la perception tactile par vision (vision-based tactile sensors, VBTS) à travers des capteurs de designs hétérogènes. Le dataset compile 106 800 images tactiles issues de sept capteurs VBTS distincts, couvrant trois tâches cibles : classification de formes, classification de réseaux de rainures (grating), et régression de force. Les expériences sont conduites selon trois protocoles expérimentaux : entraînement intra-capteur, transfert zéro-shot inter-capteurs, et adaptation few-shot. L'article, déposé sur arXiv (2606.25877), ne mentionne pas de financement industriel ni de partenaire de déploiement terrain ; il s'agit d'une contribution académique à visée benchmark, sans produit commercialisé associé. Le résultat le plus structurant pour les intégrateurs robotiques est le gouffre de généralisation inter-capteurs : si les performances intra-capteur sont solides sur les trois tâches, le transfert direct zéro-shot vers un capteur inconnu dégrade significativement les résultats, surtout pour la régression de force et la classification de réseaux de rainures. La classification de forme se révèle comparativement plus robuste face au changement de capteur. L'adaptation few-shot améliore la régression de force sur des capteurs cibles non vus, sans toutefois atteindre les performances intra-capteur. Ce résultat implique qu'un modèle entraîné sur un VBTS donné ne peut pas être déployé tel quel sur un autre design sans dégradation mesurable, ce qui complexifie les stratégies de standardisation des pipelines de perception tactile dans l'industrie. Les capteurs VBTS (type GelSight, DIGIT, Tactip et variantes) ont connu un essor marqué depuis 2018, portés par des labos comme MIT CSAIL et des acteurs industriels comme Meta AI (DIGIT). TacVerse s'inscrit dans un effort de standardisation de l'évaluation, comparable à ce que ImageNet a représenté pour la vision classique. L'étude révèle également que le préentraînement par MAE (Masked Autoencoder) offre les gains les plus constants sur l'ensemble des tâches et des capteurs, suggérant une piste d'architecture prioritaire pour les travaux futurs. Aucun concurrent direct de benchmark tactile multi-capteurs à cette échelle n'est cité dans l'abstract ; TacVerse vise à combler ce vide méthodologique pour la communauté sim-to-real et apprentissage auto-supervisé en perception haptique.

RecherchePaper
1 source
Politique de diffusion pour le contrôle coordonné d'une base mobile non-holonome et de deux bras lors du franchissement de portes
3arXiv cs.RO 

Politique de diffusion pour le contrôle coordonné d'une base mobile non-holonome et de deux bras lors du franchissement de portes

Un groupe de chercheurs a publié sur arXiv (preprint 2605.15352) une politique de contrôle fondée sur la diffusion, capable de faire ouvrir et franchir une porte à loquet auto-fermant par un robot mobile équipé de deux bras. La tâche ciblée, une porte lourde nécessitant une traction, est décomposée en plusieurs phases enchaînées sans intervention manuelle : rotation de la poignée, traction progressive, maintien de l'ouverture, transfert d'appui entre les deux membres, déplacement de la base, puis passage complet. Le robot repose sur une base non-holonome (incapable de se déplacer latéralement sans rotation préalable), ce qui contraint fortement la coordination simultanée entre châssis et manipulateurs. Les auteurs ne communiquent ni le nom du robot utilisé ni de taux de succès chiffré dans l'abstract, ce qui limite l'évaluation indépendante des performances annoncées. L'intérêt technique réside dans l'abandon des automates à états finis classiques, où chaque transition (tirer une fois la poignée tournée, passer une fois l'ouverture suffisante) est programmée manuellement et échoue dès que les conditions réelles dévient du scénario prévu. L'approche par imitation learning, via une diffusion policy (modèle génératif entraîné à reproduire des démonstrations humaines en capturant une distribution de trajectoires plutôt qu'une unique solution), produit une politique unique de bout en bout qui gère l'intégralité de la séquence longue sans découpage explicite. Les auteurs signalent également une robustesse aux perturbations extérieures, comme des poussées appliquées au robot en cours de tâche, résultat difficile à atteindre avec des méthodes classiques. Pour les intégrateurs industriels, les variables clés à valider restent le sim-to-real et la généralisation à la diversité physique des portes réelles. La diffusion policy s'est imposée comme paradigme dominant en manipulation robotique depuis les travaux de Chi et al. (Columbia, 2023) et irrigue aujourd'hui des laboratoires académiques et des start-ups comme Physical Intelligence (Pi-0), 1X Technologies ou Covariant. Ce preprint s'inscrit dans un effort plus large vers la manipulation mobile bimanuelle, segment encore peu couvert commercialement : Boston Dynamics (Spot + bras ARM), Hello Robot (Stretch) ou Kinova opèrent principalement en manipulation unimanuelle ou sur base fixe. Aucune collaboration industrielle ni timeline de déploiement n'est mentionnée, ce qui situe ce travail résolument côté recherche fondamentale, malgré des résultats préliminaires prometteurs sur les longues séquences gestuelles.

RecherchePaper
1 source
COMPASS : planification de la manipulation en espace confiné par perception active
4arXiv cs.RO 

COMPASS : planification de la manipulation en espace confiné par perception active

Des chercheurs ont publié COMPASS (Confined-space Manipulation Planning with Active Sensing Strategy), un framework multi-étapes destiné à résoudre la manipulation robotique en environnements confinés et encombrés. La méthode repose sur trois composants enchaînés : un scan de proximité dit "near-field awareness" qui construit une carte locale de collision avant tout mouvement, une fonction d'utilité multi-objectifs qui sélectionne des points de vue à la fois informatifs et compatibles avec les poses de saisie ultérieures, et un optimiseur de manipulation contraint qui génère des configurations de préhension respectant les obstacles détectés. Les auteurs proposent également un benchmark structuré en quatre niveaux de difficulté croissante pour évaluer les méthodes d'exploration et de manipulation en espace restreint. En simulation, COMPASS affiche un gain de 24,25 points de pourcentage sur le taux de succès de manipulation par rapport aux méthodes d'exploration conçues pour d'autres types de robots ou n'optimisant que le gain d'information. Des expériences en conditions réelles confirment la faisabilité de l'approche. Ce résultat est significatif parce qu'il adresse directement l'un des angles morts du champ NBV (Next Best View) : les stratégies d'exploration existantes maximisent la couverture informationnelle sans tenir compte de la faisabilité de la manipulation qui suit. En couplant explicitement exploration et planification de saisie dans une même fonction d'utilité, COMPASS réduit l'écart entre "voir la scène" et "agir dessus". Pour un intégrateur industriel, cela signifie une réduction du nombre de cycles d'observation improductifs avant une prise, ce qui devient critique dans des applications comme la désassembly, le picking en bacs profonds, ou la maintenance en espaces contraints. La validation sim-to-real, même partielle, réduit le scepticisme habituel sur le transfert des méthodes d'exploration en laboratoire vers des contextes terrain. Le problème de la manipulation en espace confiné est étudié depuis plusieurs années dans la communauté planification-perception, mais reste ouvert faute de benchmarks standardisés et de méthodes intégrant les deux dimensions simultanément. COMPASS s'inscrit dans un mouvement plus large qui voit des frameworks comme Active Neural Mapping ou des planificateurs basés sur l'échantillonnage (RRT, STOMP) être revisités pour intégrer des contraintes de manipulation dès la phase d'exploration. Aucune entreprise n'est associée à cette publication académique (arXiv:2509.14787), et aucune timeline de commercialisation n'est mentionnée. Les prochaines étapes naturelles seraient d'étendre le benchmark à des objets déformables ou à des scènes dynamiques, et de tester la robustesse face à des capteurs de profondeur bruités, condition sine qua non pour un déploiement industriel.

RecherchePaper
1 source