RecherchearXiv cs.RO 16 juin 2026

HATS : système de téléopération humain-agent pour la collecte de données multi-bras

1 source couvre ce sujet·Source originale ↗·

Résumé IASource uniqueImpact UE

Des chercheurs ont publié sur arXiv (référence 2606.16491) un système de télé-opération baptisé HATS (Human-Agent Teleoperation System), conçu pour collecter des données d'entraînement dans des configurations à quatre bras robotiques. Le principe repose sur un découplage du contrôle : un seul opérateur humain télé-opère deux bras principaux directement, tandis qu'un agent basé sur un MLLM (modèle de langage multimodal à grande échelle, non spécifié dans le papier) gère deux bras assistants de façon autonome, sans phase d'entraînement préalable. L'opérateur peut en temps réel corriger le comportement des bras assistants et prévenir des collisions via commandes vocales. Selon les auteurs, l'efficacité de collecte et les taux de réussite obtenus avec HATS sont comparables à ceux d'équipes de deux opérateurs experts humains.

Le problème que HATS tente de résoudre est structurant pour le secteur : les scénarios de manipulation industrielle complexes nécessitent souvent plus de deux bras, mais les systèmes de télé-opération existants imposent un arbitrage difficile entre charge cognitive (un seul opérateur gérant tout) et coût de coordination (plusieurs opérateurs synchronisés). En déléguant les sous-tâches à un agent MLLM, HATS réduit la charge sur l'humain sans multiplier les intervenants. Les évaluations en aval (downstream policy evaluations) suggèrent que les données collectées produisent des politiques de manipulation efficaces, mais ces résultats restent auto-rapportés et n'ont pas encore été validés de façon indépendante. La robustesse sur des tâches longues ou à haute précision, là où des corrections vocales pourraient s'avérer insuffisantes, n'est pas encore documentée.

La collecte de démonstrations téléopérées est aujourd'hui le principal goulot d'étranglement pour entraîner des politiques de manipulation polyvalentes, notamment dans les approches VLA (Vision-Language-Action, architectures combinant perception visuelle, compréhension du langage et génération d'actions). Des systèmes comme ALOHA de Stanford ou les configurations bimanuelless d'Agility Robotics reposent sur des datasets construits par télé-opération humaine à deux bras. HATS étend cette approche à quatre bras en s'appuyant sur les capacités de raisonnement spatial des MLLM récents pour automatiser les bras secondaires. Cette direction est à suivre de près : si elle se généralisait, elle réduirait significativement le coût humain de construction des datasets d'imitation, un verrou majeur pour le passage à l'échelle des robots manipulateurs.

Dans nos dossiers

Agility Robotics — Digit arXiv cs.RO

À lire aussi

1arXiv cs.RO

Apprentissage de politiques ancrées en simulation pour la manipulation bimanuelle de corde à partir de données de téléopération humaine

Une équipe de recherche publie sur arXiv (ref. 2605.16043) une étude comparative sur la manipulation bimanuelle de cordes par robot, en se concentrant sur la tâche de démêlage de nœuds. Les chercheurs ont entraîné deux politiques de contrôle basées sur le framework ACT (Action Chunking with Transformers) à partir des mêmes données de télé-opération humaine : la première reçoit en entrée deux flux vidéo RGB provenant de caméras montées sur les poignets du robot, la seconde utilise un état 3D particulaire de la corde, extrait par fusion multi-vues puis propagé dans un simulateur xPBD (eXtended Position-Based Dynamics). Évaluée en boucle ouverte sur une configuration de corde inédite, la politique à base d'état réduit l'erreur L1 de 30,8 % sur l'action initiale de saisie et de traction, par rapport à son homologue visuelle. Ce résultat isole une cause souvent sous-estimée des échecs de généralisation en apprentissage par imitation : non pas l'architecture du réseau ni le volume de données, mais l'espace d'observation lui-même. Les objets linéaires déformables (DLO) comme les câbles et les cordes posent un problème d'auto-occultation fréquente sous caméra ego-centrique, rendant la perception purement visuelle peu robuste sur des configurations non vues à l'entraînement. En ancrant la représentation dans un état physique cohérent simulé par xPBD, les chercheurs comblent partiellement ce "gap d'observabilité" entre pixels bruts et état mécanique réel, ouvrant la voie à un apprentissage plus efficace en données depuis un faible nombre de démonstrations humaines. La manipulation de DLOs est un problème ouvert de longue date en robotique, car leur espace de configuration est théoriquement infini-dimensionnel. L'approche par télé-opération bimanuelle est bien établie depuis les travaux sur ACT (Stanford/Berkeley, 2023), mais sa dépendance à de grands volumes de données limite la scalabilité industrielle. Cette étude s'inscrit dans un courant qui cherche à compenser le manque de données par une meilleure structure de représentation, comparable aux travaux sur les VLA (Vision-Language-Action models) mais ici centré sur la physique plutôt que le langage. Les prochaines étapes naturelles incluent la validation en boucle fermée et l'évaluation sur des câbles industriels, contexte où des acteurs comme Cobot Systems ou des labos européens spécialisés câblage automobile pourraient trouver un intérêt direct.

UEImpact indirect : les équipementiers et laboratoires européens spécialisés dans le câblage automobile pourraient exploiter cette approche pour réduire le volume de données de téléopération requis, un goulot d'étranglement réel dans ce secteur.

RecherchePaper

1 source

2arXiv cs.RO

MEVION : système de collecte de données open source à faible coût pour la manipulation à deux bras rapide et puissante

Une équipe de recherche a dévoile MEVION, un système de collecte de données pour bras robotique bimanual pense pour dépasser les limites du célèbre ALOHA, standard de facto pour la téléopération a bas cout dans la recherche en apprentissage par imitation. Presente dans un article publie sur arXiv (2607.17970), MEVION embarque quatre bras a 6 degrés de liberté (DoF) équipes de pinces parallèles. Chaque bras pèse 7,0 kg et développe un couple maximal de 60 Nm, largement au-dessus de ce que permet ALOHA, pour un cout total de construction d'environ 14 000 dollars. Toutes les pièces sont sourcées via des sites d'e-commerce standard, et la structure principale, de grande taille, est assemblée par soudure de tôle avec un nombre réduit de composants, ce qui simplifie le montage. Point technique clé: l'articulation du coude reprend un mécanisme a liaison fermée, une architecture habituellement réservée aux robots quadrupèdes, qui réduit la masse distale du bras et permet ainsi de générer plus de force et de vitesse au niveau de l'effecteur terminal. L'ensemble du matériel et du logiciel est publie en open source, disponible sur GitHub (haraduka/mevion). L'enjeu dépasse la seule question matérielle. ALOHA a permis de démocratiser la collecte de démonstrations pour l'apprentissage par imitation, mais sa faible puissance le cantonne a des taches légères et lentes, incompatibles avec la manipulation d'objets lourds ou les mouvements rapides. En repoussant ces limites tout en gardant un cout de construction comparable, MEVION ouvre la collecte de données a des taches jusqu'ici hors de portée des plateformes bas cout: manipulation d'objets pesants, gestes dynamiques, cycles rapides. Pour les laboratoires qui entrainent des modèles de type VLA ou des politiques d'imitation, cela signifie un accès a des jeux de données plus diversifies sans recourir a des bras industriels couteux. C'est un signal notable dans la course mondiale aux modèles fondamentaux pour la robotique, ou la qualité et la variété des démonstrations collectées conditionnent directement les capacités des modèles entraines derrière. ALOHA, popularise notamment via les travaux sur l'apprentissage par imitation fine (ACT), s'est impose depuis plusieurs années comme la référence open source pour la téléopération bimanuale a bas cout, repris par de nombreux laboratoires et startups robotiques a travers le monde. MEVION s'inscrit dans sa continuité directe en visant le même public, chercheurs et petites équipes a budget limite, mais en s'attaquant frontalement au principal reproche adresse a ALOHA: son incapacité a générer des données pour des taches nécessitant force et vitesse. En publiant intégralement le matériel et le code, les auteurs misent sur une adoption communautaire comparable a celle d'ALOHA. Reste a voir si MEVION s'imposera comme un standard alternatif ou complémentaire, alors que la demande en données de démonstration de qualité s'intensifie avec la multiplication des modèles fondamentaux pour la manipulation robotique.

RecherchePaper

1 source

3arXiv cs.RO

DexTele : un système de téléopération dextre à double bras basé sur le reciblage de mouvement et le contrôle de force adaptatif

Des chercheurs viennent de publier sur arXiv (arXiv:2607.05883v1) une nouvelle architecture de télé-opération bimanuelle baptisée DexTele, conçue pour reproduire des gestes humains dextres sur des bras robotiques hétérogènes. Le système repose sur deux briques. La première est un module de retargeting de mouvement basé sur la vision, qui transforme des images humaines en trajectoires robotiques préliminaires grâce à un encodeur de graphe de mouvement et une optimisation dans l'espace latent, pensé pour fonctionner sur plusieurs plateformes robotiques sans reconception spécifique. La seconde est un module de préhension adaptative qui combine un modèle vision-langage (VLM) avec du contrôle prédictif (MPC) : le VLM estime la force de serrage nécessaire pour un objet cible, puis une optimisation en ligne par gradient ajuste cette force en temps réel. Les auteurs rapportent des expériences étendues montrant un retargeting précis et une préhension compliante généralisables à plusieurs plateformes robotiques, sans toutefois publier de chiffres de taux de réussite ou de comparaisons avec des systèmes existants dans le résumé. L'enjeu pour l'industrie est double. D'abord, l'hétérogénéité des bras et mains robotiques (nombre de degrés de liberté, cinématique, actionneurs) reste un frein majeur à la réutilisation de données de télé-opération d'une plateforme à l'autre, un problème critique pour les équipes qui collectent des démonstrations humaines afin d'entraîner des modèles vision-langage-action. Ensuite, la préhension compliante par force adaptative, plutôt que par simple asservissement en position, s'attaque directement au problème du sim-to-real et de la manipulation d'objets de forme ou de rigidité variable, un point où beaucoup de démonstrations actuelles échouent en conditions réelles. DexTele s'inscrit dans une vague de systèmes de télé-opération (type ALOHA, Mobile ALOHA, GELLO, Open-TeleVision) développés ces deux dernières années pour alimenter en données des modèles comme GR00T, Pi-0 ou Helix. Ce papier, encore au stade de prépublication sans code ni plateforme matérielle précisée, devra être confirmé par une validation indépendante et des comparaisons chiffrées face à ces solutions existantes avant toute adoption industrielle.

RecherchePaper

1 source

4arXiv cs.RO

Système de téléopération à contrôle partagé par vision pour le bras robotique d'un robot quadrupède

Des chercheurs ont publié sur arXiv (identifiant 2508.14994, troisième révision) un système de téleopération à contrôle partagé pour un robot quadrupède équipé d'un bras manipulateur, ciblant les environnements dangereux ou inaccessibles. Le principe : une caméra externe couplée à un modèle d'apprentissage automatique détecte la position du poignet de l'opérateur en temps réel, puis traduit ces mouvements en commandes directes pour le bras robotique. Un planificateur de trajectoire intégré assure la sécurité en détectant et bloquant les collisions potentielles avec les obstacles environnants, ainsi que les auto-collisions entre le bras et le châssis du robot. Le système a été validé sur un robot physique réel, pas uniquement en simulation. Il s'agit d'un preprint académique, pas d'un produit commercialisé. Ce travail adresse un verrou connu dans l'intégration industrielle des robots à pattes : les interfaces joystick ou manette exigent un niveau d'expertise élevé et génèrent une charge cognitive importante pour l'opérateur, augmentant le risque de collision dans des espaces confinés ou dynamiques. En mappant directement les gestes naturels du bras humain vers le bras du robot, l'approche réduit la barrière à l'entrée et pourrait accélérer le déploiement de plateformes comme le Boston Dynamics Spot ARM ou l'ANYmal d'ANYbotics dans des scénarios d'inspection ou de maintenance à risque. La solution revendique un faible coût d'implémentation, ne nécessitant qu'une caméra standard plutôt qu'un équipement de capture de mouvement dédié ou un retour haptique coûteux. La téleopération de robots locomoteurs reste un champ en compétition dense. Les approches concurrentes incluent la commande par réalité virtuelle (Boston Dynamics, Apptronik), les exosquelettes (Sarcos, Shadow Robot) et les interfaces à vision stéréo immersive. Du côté académique, les modèles Visual-Language-Action (VLA) comme pi-0 de Physical Intelligence ou GR00T N2 de NVIDIA visent à réduire ou éliminer la téleopération au profit de l'autonomie embarquée. Ce travail se positionne dans une niche différente : augmenter la sécurité et l'intuitivité du contrôle humain plutôt que de le remplacer. Les prochaines étapes, non détaillées dans le preprint, concerneraient typiquement des tests de robustesse en conditions dégradées (faible luminosité, poussière) et une évaluation comparative des temps de cycle opérateur face aux interfaces existantes.

RecherchePaper

1 source