Aller au contenu principal
HATS : système de téléopération humain-agent pour la collecte de données multi-bras
RecherchearXiv cs.RO4h

HATS : système de téléopération humain-agent pour la collecte de données multi-bras

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Des chercheurs ont publié sur arXiv (référence 2606.16491) un système de télé-opération baptisé HATS (Human-Agent Teleoperation System), conçu pour collecter des données d'entraînement dans des configurations à quatre bras robotiques. Le principe repose sur un découplage du contrôle : un seul opérateur humain télé-opère deux bras principaux directement, tandis qu'un agent basé sur un MLLM (modèle de langage multimodal à grande échelle, non spécifié dans le papier) gère deux bras assistants de façon autonome, sans phase d'entraînement préalable. L'opérateur peut en temps réel corriger le comportement des bras assistants et prévenir des collisions via commandes vocales. Selon les auteurs, l'efficacité de collecte et les taux de réussite obtenus avec HATS sont comparables à ceux d'équipes de deux opérateurs experts humains.

Le problème que HATS tente de résoudre est structurant pour le secteur : les scénarios de manipulation industrielle complexes nécessitent souvent plus de deux bras, mais les systèmes de télé-opération existants imposent un arbitrage difficile entre charge cognitive (un seul opérateur gérant tout) et coût de coordination (plusieurs opérateurs synchronisés). En déléguant les sous-tâches à un agent MLLM, HATS réduit la charge sur l'humain sans multiplier les intervenants. Les évaluations en aval (downstream policy evaluations) suggèrent que les données collectées produisent des politiques de manipulation efficaces, mais ces résultats restent auto-rapportés et n'ont pas encore été validés de façon indépendante. La robustesse sur des tâches longues ou à haute précision, là où des corrections vocales pourraient s'avérer insuffisantes, n'est pas encore documentée.

La collecte de démonstrations téléopérées est aujourd'hui le principal goulot d'étranglement pour entraîner des politiques de manipulation polyvalentes, notamment dans les approches VLA (Vision-Language-Action, architectures combinant perception visuelle, compréhension du langage et génération d'actions). Des systèmes comme ALOHA de Stanford ou les configurations bimanuelless d'Agility Robotics reposent sur des datasets construits par télé-opération humaine à deux bras. HATS étend cette approche à quatre bras en s'appuyant sur les capacités de raisonnement spatial des MLLM récents pour automatiser les bras secondaires. Cette direction est à suivre de près : si elle se généralisait, elle réduirait significativement le coût humain de construction des datasets d'imitation, un verrou majeur pour le passage à l'échelle des robots manipulateurs.

À lire aussi

Apprentissage de politiques ancrées en simulation pour la manipulation bimanuelle de corde à partir de données de téléopération humaine
1arXiv cs.RO 

Apprentissage de politiques ancrées en simulation pour la manipulation bimanuelle de corde à partir de données de téléopération humaine

Une équipe de recherche publie sur arXiv (ref. 2605.16043) une étude comparative sur la manipulation bimanuelle de cordes par robot, en se concentrant sur la tâche de démêlage de nœuds. Les chercheurs ont entraîné deux politiques de contrôle basées sur le framework ACT (Action Chunking with Transformers) à partir des mêmes données de télé-opération humaine : la première reçoit en entrée deux flux vidéo RGB provenant de caméras montées sur les poignets du robot, la seconde utilise un état 3D particulaire de la corde, extrait par fusion multi-vues puis propagé dans un simulateur xPBD (eXtended Position-Based Dynamics). Évaluée en boucle ouverte sur une configuration de corde inédite, la politique à base d'état réduit l'erreur L1 de 30,8 % sur l'action initiale de saisie et de traction, par rapport à son homologue visuelle. Ce résultat isole une cause souvent sous-estimée des échecs de généralisation en apprentissage par imitation : non pas l'architecture du réseau ni le volume de données, mais l'espace d'observation lui-même. Les objets linéaires déformables (DLO) comme les câbles et les cordes posent un problème d'auto-occultation fréquente sous caméra ego-centrique, rendant la perception purement visuelle peu robuste sur des configurations non vues à l'entraînement. En ancrant la représentation dans un état physique cohérent simulé par xPBD, les chercheurs comblent partiellement ce "gap d'observabilité" entre pixels bruts et état mécanique réel, ouvrant la voie à un apprentissage plus efficace en données depuis un faible nombre de démonstrations humaines. La manipulation de DLOs est un problème ouvert de longue date en robotique, car leur espace de configuration est théoriquement infini-dimensionnel. L'approche par télé-opération bimanuelle est bien établie depuis les travaux sur ACT (Stanford/Berkeley, 2023), mais sa dépendance à de grands volumes de données limite la scalabilité industrielle. Cette étude s'inscrit dans un courant qui cherche à compenser le manque de données par une meilleure structure de représentation, comparable aux travaux sur les VLA (Vision-Language-Action models) mais ici centré sur la physique plutôt que le langage. Les prochaines étapes naturelles incluent la validation en boucle fermée et l'évaluation sur des câbles industriels, contexte où des acteurs comme Cobot Systems ou des labos européens spécialisés câblage automobile pourraient trouver un intérêt direct.

UEImpact indirect : les équipementiers et laboratoires européens spécialisés dans le câblage automobile pourraient exploiter cette approche pour réduire le volume de données de téléopération requis, un goulot d'étranglement réel dans ce secteur.

RecherchePaper
1 source
Système de téléopération à contrôle partagé par vision pour le bras robotique d'un robot quadrupède
2arXiv cs.RO 

Système de téléopération à contrôle partagé par vision pour le bras robotique d'un robot quadrupède

Des chercheurs ont publié sur arXiv (identifiant 2508.14994, troisième révision) un système de téleopération à contrôle partagé pour un robot quadrupède équipé d'un bras manipulateur, ciblant les environnements dangereux ou inaccessibles. Le principe : une caméra externe couplée à un modèle d'apprentissage automatique détecte la position du poignet de l'opérateur en temps réel, puis traduit ces mouvements en commandes directes pour le bras robotique. Un planificateur de trajectoire intégré assure la sécurité en détectant et bloquant les collisions potentielles avec les obstacles environnants, ainsi que les auto-collisions entre le bras et le châssis du robot. Le système a été validé sur un robot physique réel, pas uniquement en simulation. Il s'agit d'un preprint académique, pas d'un produit commercialisé. Ce travail adresse un verrou connu dans l'intégration industrielle des robots à pattes : les interfaces joystick ou manette exigent un niveau d'expertise élevé et génèrent une charge cognitive importante pour l'opérateur, augmentant le risque de collision dans des espaces confinés ou dynamiques. En mappant directement les gestes naturels du bras humain vers le bras du robot, l'approche réduit la barrière à l'entrée et pourrait accélérer le déploiement de plateformes comme le Boston Dynamics Spot ARM ou l'ANYmal d'ANYbotics dans des scénarios d'inspection ou de maintenance à risque. La solution revendique un faible coût d'implémentation, ne nécessitant qu'une caméra standard plutôt qu'un équipement de capture de mouvement dédié ou un retour haptique coûteux. La téleopération de robots locomoteurs reste un champ en compétition dense. Les approches concurrentes incluent la commande par réalité virtuelle (Boston Dynamics, Apptronik), les exosquelettes (Sarcos, Shadow Robot) et les interfaces à vision stéréo immersive. Du côté académique, les modèles Visual-Language-Action (VLA) comme pi-0 de Physical Intelligence ou GR00T N2 de NVIDIA visent à réduire ou éliminer la téleopération au profit de l'autonomie embarquée. Ce travail se positionne dans une niche différente : augmenter la sécurité et l'intuitivité du contrôle humain plutôt que de le remplacer. Les prochaines étapes, non détaillées dans le preprint, concerneraient typiquement des tests de robustesse en conditions dégradées (faible luminosité, poussière) et une évaluation comparative des temps de cycle opérateur face aux interfaces existantes.

RecherchePaper
1 source
OASIS : de la collecte de données en simulation à la loco-manipulation humanoïde en conditions réelles
3arXiv cs.RO 

OASIS : de la collecte de données en simulation à la loco-manipulation humanoïde en conditions réelles

Une équipe de chercheurs publie sur arXiv (juin 2026) le framework OASIS, une approche pour entraîner des robots humanoïdes à des tâches de loco-manipulation, combinaison de locomotion et de manipulation d'objets, en s'appuyant exclusivement sur des données de simulation. Le système reconstruit automatiquement des assets 3D réalistes à partir d'images du monde réel via un modèle génératif, puis collecte des trajectoires par télé-opération dans ce simulateur. Ces trajectoires sont ensuite augmentées par randomisation de domaine : variations d'éclairage, de textures et de configuration environnementale. Une politique visuomotrice hiérarchique, entraînée sur ces données simulées, est déployée en zero-shot sur un robot humanoïde physique, sans fine-tuning sur données réelles. Les résultats publiés indiquent que cette politique dépasse, sur la majorité des tâches testées, les performances d'une politique entraînée sur des données de télé-opération réelle. Ce résultat, à prendre avec prudence, le preprint n'étant pas encore soumis à peer review, va à contre-courant d'une hypothèse largement répandue : que la qualité des données terrain serait irremplaçable pour la manipulation fine. Le principal facteur explicatif avancé par les auteurs est la couverture plus large des variations d'éclairage et d'environnement dans le rendu simulé, que la collecte physique peine à égaler à grande échelle. Si le résultat se confirme, il soulage considérablement le goulot d'étranglement de la collecte terrain, qui implique aujourd'hui des resets manuels coûteux et une infrastructure dédiée par tâche. La loco-manipulation reste l'un des défis les plus complexes en robotique humanoïde, car elle exige une coordination simultanée du contrôle de marche et de la manipulation d'objets. Des plateformes comme Figure 03, l'Optimus Gen 3 de Tesla ou l'Atlas de Boston Dynamics cherchent des solutions via des approches diverses : imitation learning sur données réelles (pi-0 de Physical Intelligence), politiques VLA (GR00T N2 de Nvidia) ou RL massivement simulé (Unitree). OASIS positionne la simulation augmentée comme alternative crédible à la télé-opération physique, ce qui pourrait accélérer le bootstrapping de nouvelles tâches sans mobiliser de cellules robotiques dédiées. Les prochaines étapes attendues sont une évaluation sur un spectre plus large de tâches industrielles et une soumission à une conférence avec évaluation par les pairs.

RechercheOpinion
1 source
Apprentissage de la collaboration altruiste dans les systèmes multi-équipes hétérogènes
4arXiv cs.RO 

Apprentissage de la collaboration altruiste dans les systèmes multi-équipes hétérogènes

Des chercheurs ont soumis en mai 2025 sur arXiv (arXiv:2605.21723) un framework d'allocation dynamique de robots entre équipes hétérogènes, où chaque robot constitue une ressource transférable d'une équipe à l'autre en cours de mission. Le mécanisme de décision repose sur la règle de Hamilton, empruntée à la biologie évolutive : un agent "accepte" de quitter son équipe d'origine si le bénéfice collectif pondéré par la relation entre équipes dépasse le coût de transfert. Le problème d'optimisation résultant est combinatoire et démontré NP-difficile. Pour contourner ce verrou de scalabilité, les auteurs proposent une politique fondée sur un réseau de neurones sur graphe (GNN), entraîné en mode centralisé mais exécuté de façon décentralisée (paradigme CTDE, Centralized Training, Decentralized Execution). Le modèle opère sur le graphe d'interaction entre équipes et prédit à la fois les transferts de robots et les réaffectations équipe-par-équipe. La validation s'appuie sur un scénario de lutte contre des incendies simultanés, combinant simulations à grande échelle et expériences physiques réelles, avec des performances proches de l'optimal calculé. Pour les intégrateurs de flottes multi-robots, l'apport principal est la capacité à redistribuer dynamiquement des actifs hétérogènes (robots de capacités différentes) sans coordinateur central en temps réel, ce qui réduit la dépendance à une infrastructure de communication fiable. Démontrer que ce comportement altruiste peut être appris via un GNN et exécuté localement contredit l'idée selon laquelle la coordination complexe entre équipes exige impérativement une optimisation centralisée en ligne. Le passage à l'échelle est validé empiriquement, pas seulement en simulation. Ce travail s'inscrit dans la vague du Multi-Agent Reinforcement Learning (MARL), où CTDE est désormais un paradigme standard avec des baselines comme MAPPO ou QMIX. L'originalité réside dans l'emprunt explicite à l'écologie évolutive comme principe normatif, là où la plupart des approches MARL restent purement empiriques. L'article n'est pas encore évalué par des pairs (preprint arXiv). Aucun acteur industriel n'est impliqué dans cette publication académique, et aucune timeline de déploiement n'est mentionnée. Les prochaines étapes naturelles seraient une validation sur des scénarios industriels réels (entrepôts, chantiers, réponse aux catastrophes) avec des flottes robotiques hétérogènes commerciales.

RecherchePaper
1 source