RecherchearXiv cs.RO1j

Priorité aux gestes, voix assistée par LLM : téléopération 'Puppeteer' via un double virtuel en réalité augmentée

1 source couvre ce sujet·Source originale ↗·

Résumé IASource uniqueImpact UE

Une équipe de chercheurs a publié sur arXiv (2506.13189) une étude comparative portant sur la téléopération de robots via réalité augmentée. Leur système, baptisé "puppeteer", utilise un casque Meta Quest 3 pour permettre à un opérateur de piloter un robot physique en interagissant avec son jumeau virtuel superposé dans l'espace réel. Deux modalités ont été testées en protocole intra-sujet avec 42 participants : geste seul (GO) et combinaison voix assistée par grand modèle de langage (LLM) plus geste (VG), sur une tâche de pick-and-place avec correspondance de motifs. Dans la condition VG, la voix gérait la navigation de haut niveau tandis que le geste assurait la manipulation fine, selon une allocation séquentielle des rôles et non une interaction simultanée.

Les résultats montrent que la modalité geste seul offre actuellement un contrôle plus fiable et plus efficace pour les tâches à contrainte temporelle forte. L'ajout de commandes vocales via LLM introduit de la flexibilité mais génère une latence supplémentaire et des erreurs de reconnaissance qui augmentent la charge cognitive de l'opérateur. Ce constat nuance une hypothèse courante dans la communauté HRI (human-robot interaction) : l'accumulation de modalités n'est pas universellement bénéfique. Pour les intégrateurs et décideurs industriels, cela signifie que la multimodalité doit être traitée comme une stratégie adaptative, calibrée au profil de l'utilisateur et à la nature de la tâche. L'étude révèle par ailleurs que l'expertise robotique préalable des participants différencie significativement les performances et l'expérience utilisateur selon les conditions.

La téléopération par réalité augmentée s'inscrit dans un effort plus large visant à abaisser la barrière d'entrée au pilotage de robots pour des opérateurs non spécialisés. Des approches concurrentes incluent la téléopération en vue subjective (first-person), les interfaces haptiques et les méthodes d'apprentissage par démonstration directe. La métaphore "puppeteer" se distingue par l'usage d'un double virtuel colocalisé, distinct des flux vidéo classiques. Les auteurs formalisent leurs conclusions en un ensemble de directives de conception pour ce type d'interface, insistant sur la nécessité d'adapter dynamiquement les modalités disponibles au contexte d'usage. Les prochaines étapes naturelles concerneront des tests sur des robots à degrés de liberté (DOF) plus élevés et des environnements industriels réels, au-delà du cadre contrôlé de laboratoire.

Dans nos dossiers

arXiv cs.RO

À lire aussi

1arXiv cs.RO

Contrôle par assimilation d'intention pour un suivi précis à impédance variable en téléopération

Une équipe de chercheurs a publié sur arXiv (réf. 2605.07037) un nouveau paradigme de contrôle pour la télé-opération robotique baptisé IAC (Intention Assimilation Control), conçu pour résoudre le compromis fondamental entre précision de suivi et sécurité. Dans les systèmes maître-esclave classiques, le robot suiveur est attiré vers la position du meneur par un effet ressort : une rigidité élevée assure le suivi mais expose l'environnement à des forces dangereuses, tandis qu'une rigidité faible préserve la sécurité au détriment de la précision. IAC contourne ce problème en estimant la position cible du meneur, c'est-à-dire son intention de mouvement, plutôt que sa position instantanée, et en la transmettant au suiveur. L'impédance peut ainsi être ajustée en temps réel par l'opérateur ou modulée automatiquement selon les contraintes de la tâche. Le système a été validé sur deux manipulateurs à 7 degrés de liberté (DOF) au travers de quatre expériences : suivi libre, interaction avec un ballon, insertion cheville-trou (peg insertion) et polissage de surface avec retour de force. Les résultats montrent qu'IAC surpasse la tele-impedance control (TIC) classique sur les trois métriques clés : précision de suivi, taux de complétion des tâches et temps d'exécution. L'enjeu concret est réel pour les intégrateurs opérant en environnements contraints (chirurgie assistée, manipulation de pièces fragiles, intervention en milieu à risque), où la rigidité excessive du robot représente un danger direct. En dissociant la compliance perçue par l'environnement de la fidélité du suivi, IAC permet à l'opérateur de moduler l'impédance selon son intention à chaque instant sans sacrifier la précision du mouvement. Il faut noter que les tâches testées restent relativement simples et que ces résultats proviennent d'un preprint non encore soumis à révision par les pairs. Le contrôle en impédance variable pour la télé-opération est un axe de recherche actif depuis plusieurs décennies, mais la plupart des approches obligent l'opérateur à arbitrer entre précision et compliance. Des laboratoires comme le DLR (Allemagne) et le LIRMM (Montpellier, France) ont contribué significativement à ce domaine. IAC s'inscrit dans la continuité des travaux sur l'estimation d'intention en temps réel, une approche qui gagne du terrain à mesure que les applications avancées se multiplient, notamment en chirurgie robotique et en intervention nucléaire. Aucune entreprise n'est associée à ces travaux, qui relèvent de la recherche académique pure. Les prochaines étapes naturelles concernent la validation sur des tâches industrielles réelles et l'intégration dans des plateformes commerciales de télé-opération existantes.

UELe LIRMM (Montpellier) est cité comme contributeur historique du domaine ; les applications en intervention nucléaire et en chirurgie robotique représentent des débouchés naturels pour les équipes de recherche françaises et européennes actives dans la téléopération.

RecherchePaper

1 source

2arXiv cs.RO

AssistDLO : téléopération assistée pour la manipulation d'objets linéaires déformables

Des chercheurs ont publié AssistDLO, un cadre de téléopération assistée conçu pour la manipulation d'objets linéaires déformables (DLOs, Deformable Linear Objects), tels que câbles, cordes ou fils industriels. Le système combine trois composants : une estimation d'état en temps réel par vision multi-vue, une assistance visuelle (VA) projetée dans l'interface opérateur, et un contrôleur de partage d'autonomie géométriquement conscient, baptisé SA-CBF, fondé sur les fonctions de barrière de contrôle (Control Barrier Functions). Le tout a été validé dans une étude utilisateur bimanuelle de dénouage de nœuds (N=22), sur des cordes de longueurs et rigidités variables. Le résultat clé : pour les opérateurs novices, SA-CBF fait passer le taux de succès de 71 % à 88 %, tandis que les opérateurs experts préfèrent la VA seule. Ce travail s'attaque à un verrou persistant de la robotique industrielle : les DLOs sont pratiquement impossibles à modéliser en temps réel en raison de leur espace de configuration de dimension infinie et de leurs dynamiques non linéaires. En téléopération, l'incertitude de profondeur aggrave encore la perception d'état. L'apport de SA-CBF est de fonctionner comme un entonnoir géométrique, guidant la saisie précise sans court-circuiter l'autorité de haut niveau de l'opérateur, contrairement aux méthodes classiques d'autonomie partagée qui utilisent de simples attracteurs géométriques. Pour des applications concrètes, câblage automobile, assemblage électronique ou chirurgie assistée, la démonstration d'un gain mesurable en conditions utilisateur réelles est plus significative qu'un résultat de simulation. Le problème de manipulation des DLOs mobilise la communauté robotique depuis plus d'une décennie, avec des approches allant du contrôle par retour visuel pur aux modèles physiques réduits. AssistDLO se distingue en intégrant explicitement le profil de l'opérateur dans la stratégie d'assistance, une piste dite "user-aware shared autonomy" encore peu exploitée à ce niveau de rigueur expérimentale. Les prochaines étapes probables incluent l'extension à des câbles multiconducteurs et l'intégration sur des plateformes industrielles existantes, potentiellement en lien avec des travaux européens sur la cobotique flexible. La conclusion des auteurs est claire : aucune stratégie fixe ne peut couvrir l'ensemble du spectre opérateur-matériau, et l'autonomie adaptative n'est plus une option mais une nécessité.

RecherchePaper

1 source

3arXiv cs.RO

Téléopération en temps réel d'un robot humanoïde par capture de mouvement IMU avec validation sim-vers-réel

Une équipe de recherche a publié en mai 2026 un système complet de téléopération whole-body en temps réel pour robot humanoïde, décrit dans un préprint arXiv (2605.12347). Le système capture les mouvements d'un opérateur via une combinaison Virdyn à centrales inertielles (IMU full-body), puis les retransmet en continu sur un robot Unitree G1. Le pipeline de retargeting cinématique et de contrôle fonctionne sans tampon offline ni composant d'apprentissage automatique. La validation s'est déroulée en deux étapes : d'abord en simulation via le modèle MuJoCo du G1 (sim2sim), puis déployé sans aucune modification sur le robot physique (sim2real). Le répertoire de mouvements reproduits couvre la marche, la station debout, la position assise, les rotations, les courbettes et des gestes expressifs coordonnés de tout le corps. Le résultat le plus significatif est le transfert sim-to-real sans recalibration, un point d'échec classique où les paramètres calibrés en simulation s'effondrent face aux frictions réelles, aux latences de communication et aux erreurs de modèle. L'absence de composant d'apprentissage automatique rend le système déterministe et auditable, un argument concret pour les intégrateurs industriels ou les labos qui constituents des datasets de téléopération pour l'imitation learning. L'utilisation de matériel grand public (la combinaison Virdyn est commercialement disponible) plutôt qu'un système de mocap optique type Vicon abaisse significativement le ticket d'entrée pour construire des pipelines de collecte de démonstrations. La limitation est symétrique : sans apprentissage, l'adaptabilité à des morphologies très différentes reste contrainte par le retargeting cinématique. Le Unitree G1 est un humanoïde d'entrée de gamme commercialisé depuis 2024 autour de 16 000 dollars, ciblant explicitement la recherche et les démos industrielles. La téléopération whole-body est devenue un axe central de la course aux données pour les systèmes humanoïdes : Physical Intelligence (Pi-0), Figure et 1X s'appuient tous sur des démonstrations téléopérées pour entraîner leurs politiques. Sur l'approche IMU appliquée aux humanoïdes, des travaux similaires ont été publiés par des équipes chinoises sur le Booster T1 et l'Unitree H1. Ce préprint ne mentionne aucun déploiement industriel ni partenariat commercial, c'est une contribution académique de validation de concept, pas un produit expédié.

UELes laboratoires européens constituant des jeux de données de téléopération pour l'apprentissage par imitation (INRIA, CEA-List, LAAS-CNRS) peuvent adopter cette approche IMU sur matériel grand public pour abaisser significativement leur coût d'entrée.

RecherchePaper

1 source

4arXiv cs.RO

Système de téléopération à contrôle partagé par vision pour le bras robotique d'un robot quadrupède

Des chercheurs ont publié sur arXiv (identifiant 2508.14994, troisième révision) un système de téleopération à contrôle partagé pour un robot quadrupède équipé d'un bras manipulateur, ciblant les environnements dangereux ou inaccessibles. Le principe : une caméra externe couplée à un modèle d'apprentissage automatique détecte la position du poignet de l'opérateur en temps réel, puis traduit ces mouvements en commandes directes pour le bras robotique. Un planificateur de trajectoire intégré assure la sécurité en détectant et bloquant les collisions potentielles avec les obstacles environnants, ainsi que les auto-collisions entre le bras et le châssis du robot. Le système a été validé sur un robot physique réel, pas uniquement en simulation. Il s'agit d'un preprint académique, pas d'un produit commercialisé. Ce travail adresse un verrou connu dans l'intégration industrielle des robots à pattes : les interfaces joystick ou manette exigent un niveau d'expertise élevé et génèrent une charge cognitive importante pour l'opérateur, augmentant le risque de collision dans des espaces confinés ou dynamiques. En mappant directement les gestes naturels du bras humain vers le bras du robot, l'approche réduit la barrière à l'entrée et pourrait accélérer le déploiement de plateformes comme le Boston Dynamics Spot ARM ou l'ANYmal d'ANYbotics dans des scénarios d'inspection ou de maintenance à risque. La solution revendique un faible coût d'implémentation, ne nécessitant qu'une caméra standard plutôt qu'un équipement de capture de mouvement dédié ou un retour haptique coûteux. La téleopération de robots locomoteurs reste un champ en compétition dense. Les approches concurrentes incluent la commande par réalité virtuelle (Boston Dynamics, Apptronik), les exosquelettes (Sarcos, Shadow Robot) et les interfaces à vision stéréo immersive. Du côté académique, les modèles Visual-Language-Action (VLA) comme pi-0 de Physical Intelligence ou GR00T N2 de NVIDIA visent à réduire ou éliminer la téleopération au profit de l'autonomie embarquée. Ce travail se positionne dans une niche différente : augmenter la sécurité et l'intuitivité du contrôle humain plutôt que de le remplacer. Les prochaines étapes, non détaillées dans le preprint, concerneraient typiquement des tests de robustesse en conditions dégradées (faible luminosité, poussière) et une évaluation comparative des temps de cycle opérateur face aux interfaces existantes.

RecherchePaper

1 source