
Priorité aux gestes, voix assistée par LLM : téléopération 'Puppeteer' via un double virtuel en réalité augmentée
Une équipe de chercheurs a publié sur arXiv (2506.13189) une étude comparative portant sur la téléopération de robots via réalité augmentée. Leur système, baptisé "puppeteer", utilise un casque Meta Quest 3 pour permettre à un opérateur de piloter un robot physique en interagissant avec son jumeau virtuel superposé dans l'espace réel. Deux modalités ont été testées en protocole intra-sujet avec 42 participants : geste seul (GO) et combinaison voix assistée par grand modèle de langage (LLM) plus geste (VG), sur une tâche de pick-and-place avec correspondance de motifs. Dans la condition VG, la voix gérait la navigation de haut niveau tandis que le geste assurait la manipulation fine, selon une allocation séquentielle des rôles et non une interaction simultanée.
Les résultats montrent que la modalité geste seul offre actuellement un contrôle plus fiable et plus efficace pour les tâches à contrainte temporelle forte. L'ajout de commandes vocales via LLM introduit de la flexibilité mais génère une latence supplémentaire et des erreurs de reconnaissance qui augmentent la charge cognitive de l'opérateur. Ce constat nuance une hypothèse courante dans la communauté HRI (human-robot interaction) : l'accumulation de modalités n'est pas universellement bénéfique. Pour les intégrateurs et décideurs industriels, cela signifie que la multimodalité doit être traitée comme une stratégie adaptative, calibrée au profil de l'utilisateur et à la nature de la tâche. L'étude révèle par ailleurs que l'expertise robotique préalable des participants différencie significativement les performances et l'expérience utilisateur selon les conditions.
La téléopération par réalité augmentée s'inscrit dans un effort plus large visant à abaisser la barrière d'entrée au pilotage de robots pour des opérateurs non spécialisés. Des approches concurrentes incluent la téléopération en vue subjective (first-person), les interfaces haptiques et les méthodes d'apprentissage par démonstration directe. La métaphore "puppeteer" se distingue par l'usage d'un double virtuel colocalisé, distinct des flux vidéo classiques. Les auteurs formalisent leurs conclusions en un ensemble de directives de conception pour ce type d'interface, insistant sur la nécessité d'adapter dynamiquement les modalités disponibles au contexte d'usage. Les prochaines étapes naturelles concerneront des tests sur des robots à degrés de liberté (DOF) plus élevés et des environnements industriels réels, au-delà du cadre contrôlé de laboratoire.
Dans nos dossiers




