Aller au contenu principal
Priorité aux gestes, voix assistée par LLM : téléopération 'Puppeteer' via un double virtuel en réalité augmentée
RecherchearXiv cs.RO6sem

Priorité aux gestes, voix assistée par LLM : téléopération 'Puppeteer' via un double virtuel en réalité augmentée

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Une équipe de chercheurs a publié sur arXiv (2506.13189) une étude comparative portant sur la téléopération de robots via réalité augmentée. Leur système, baptisé "puppeteer", utilise un casque Meta Quest 3 pour permettre à un opérateur de piloter un robot physique en interagissant avec son jumeau virtuel superposé dans l'espace réel. Deux modalités ont été testées en protocole intra-sujet avec 42 participants : geste seul (GO) et combinaison voix assistée par grand modèle de langage (LLM) plus geste (VG), sur une tâche de pick-and-place avec correspondance de motifs. Dans la condition VG, la voix gérait la navigation de haut niveau tandis que le geste assurait la manipulation fine, selon une allocation séquentielle des rôles et non une interaction simultanée.

Les résultats montrent que la modalité geste seul offre actuellement un contrôle plus fiable et plus efficace pour les tâches à contrainte temporelle forte. L'ajout de commandes vocales via LLM introduit de la flexibilité mais génère une latence supplémentaire et des erreurs de reconnaissance qui augmentent la charge cognitive de l'opérateur. Ce constat nuance une hypothèse courante dans la communauté HRI (human-robot interaction) : l'accumulation de modalités n'est pas universellement bénéfique. Pour les intégrateurs et décideurs industriels, cela signifie que la multimodalité doit être traitée comme une stratégie adaptative, calibrée au profil de l'utilisateur et à la nature de la tâche. L'étude révèle par ailleurs que l'expertise robotique préalable des participants différencie significativement les performances et l'expérience utilisateur selon les conditions.

La téléopération par réalité augmentée s'inscrit dans un effort plus large visant à abaisser la barrière d'entrée au pilotage de robots pour des opérateurs non spécialisés. Des approches concurrentes incluent la téléopération en vue subjective (first-person), les interfaces haptiques et les méthodes d'apprentissage par démonstration directe. La métaphore "puppeteer" se distingue par l'usage d'un double virtuel colocalisé, distinct des flux vidéo classiques. Les auteurs formalisent leurs conclusions en un ensemble de directives de conception pour ce type d'interface, insistant sur la nécessité d'adapter dynamiquement les modalités disponibles au contexte d'usage. Les prochaines étapes naturelles concerneront des tests sur des robots à degrés de liberté (DOF) plus élevés et des environnements industriels réels, au-delà du cadre contrôlé de laboratoire.

Dans nos dossiers

À lire aussi

Visualiser le contrôle d'impédance en réalité augmentée pour la téléopération : conception et évaluation utilisateur
1arXiv cs.RO 

Visualiser le contrôle d'impédance en réalité augmentée pour la téléopération : conception et évaluation utilisateur

Une équipe de recherche présente une interface de téléopération en réalité augmentée conçue pour compenser l'absence de retour haptique sur les manettes de contrôle bas coût. Le système affiche visuellement la pose cible du contrôleur d'impédance ainsi que son écart par rapport à la position réelle de chaque effecteur du robot, ce qui permet à l'opérateur de visualiser en temps réel les forces générées par le contrôleur sans matériel haptique coûteux. Les chercheurs ont testé cette visualisation lors d'une étude de manipulation bidextre impliquant 17 participants, chargés de repositionner une boîte à plusieurs reprises, avec et sans l'affichage AR. Résultat mesuré : le temps d'exécution baisse de 24% sur les tâches de levage où le contrôle de force est critique, mais aucun effet significatif n'apparaît sur les tâches de glissement, où la précision de force compte moins. Cette étude s'attaque à un problème concret pour l'industrie robotique : la téléopération de tâches riches en contacts (assemblage, manutention, manipulation fine) reste difficile quand l'interface ne renvoie que du mouvement, sans sensation de force. Or l'équipement haptique complet reste cher et peu répandu sur les plateformes de téléopération grand public, notamment les casques et manettes VR utilisés pour la collecte de données d'apprentissage ou le pilotage à distance de bras robotiques. Démontrer qu'un simple retour visuel en AR peut améliorer la performance sur les tâches sensibles à la force, sans capteurs haptiques additionnels, ouvre une voie low-cost pour fiabiliser la téléopération, un enjeu direct pour les entreprises qui collectent des données de démonstration destinées à l'entraînement de modèles de manipulation robotique. Le travail s'inscrit dans un courant de recherche plus large sur l'interaction homme-robot en téléopération, où la question du retour de force sans haptique reste ouverte depuis des années, notamment pour les architectures à contrôle d'impédance largement utilisées en manipulation à deux bras. En l'absence de details sur une application industrielle immédiate, il s'agit ici d'un résultat de recherche évalué en laboratoire, pas d'un produit déployé, mais qui fournit une piste méthodologique exploitable par les équipes développant des interfaces de téléopération pour la collecte de données ou l'opération à distance de robots manipulateurs.

RecherchePaper
1 source
Entraînement de robots par LLM : génération automatisée de données via l'augmentation de démonstrations
2arXiv cs.RO 

Entraînement de robots par LLM : génération automatisée de données via l'augmentation de démonstrations

Des chercheurs de Carnegie Mellon University ont publié LLM Trainer (arXiv:2509.20070v2), un pipeline entièrement automatisé capable de transformer une poignée de démonstrations humaines, aussi peu qu'une seule, en un large jeu de données pour l'apprentissage par imitation robotique. Le système décompose la génération de nouvelles démonstrations en deux étapes : une annotation hors-ligne qui extrait des keyframes, des objets saillants et des relations pose-objet à partir des trajectoires originales, puis un retargeting de keyposes en ligne qui adapte ces keyframes à un nouvel environnement à partir d'une simple observation initiale. Le pipeline déforme ensuite géométriquement la trajectoire originale pour en produire une nouvelle, l'exécute sur le robot, et ne conserve les données que si l'exécution est concluante. Pour optimiser la qualité des annotations, réutilisables d'une scène à l'autre, l'équipe intègre un mécanisme de Thompson sampling qui améliore significativement le taux de succès. Les validations ont été conduites sur un bras Franka Emika Panda. L'enjeu est structurant pour l'imitation learning en robotique industrielle : le goulot d'étranglement reste la collecte coûteuse de démonstrations humaines. LLM Trainer propose de contourner ce problème en mobilisant la connaissance du monde embarquée dans les LLMs pour générer des variantes de scènes plausibles sans intervention humaine supplémentaire. Les résultats montrent que la méthode d'annotation LLM surpasse systématiquement des baselines conçues par des experts humains. L'approche d'ensemble, combinant un plan feed-forward LLM optimisé et un contrôleur par imitation en feedback, ouvre une piste vers des politiques plus robustes à la variabilité des environnements réels, ce qui intéresse directement les intégrateurs confrontés à des lignes de production hétérogènes. Ce travail s'inscrit dans une tendance forte en manipulation robotique : réduire la dépendance aux données humaines via l'augmentation synthétique, après des approches comme RoboAgent, DemoAugment ou les pipelines sim-to-real de Google DeepMind. Carnegie Mellon reste un acteur central de cet espace, aux côtés de Stanford (Mobile ALOHA), Berkeley (RoboVerse) et du MIT. Pour l'heure, LLM Trainer est uniquement validé sur un seul modèle de bras dans des conditions de laboratoire, ce qui laisse ouverte la question du passage à l'échelle vers des robots humanoïdes ou des environnements moins structurés. La version v2 publiée sur arXiv suggère des révisions post-soumission, probablement en vue d'une conférence comme CoRL 2025 ou ICRA 2026.

RecherchePaper
1 source
Contrôle par assimilation d'intention pour un suivi précis à impédance variable en téléopération
3arXiv cs.RO 

Contrôle par assimilation d'intention pour un suivi précis à impédance variable en téléopération

Une équipe de chercheurs a publié sur arXiv (réf. 2605.07037) un nouveau paradigme de contrôle pour la télé-opération robotique baptisé IAC (Intention Assimilation Control), conçu pour résoudre le compromis fondamental entre précision de suivi et sécurité. Dans les systèmes maître-esclave classiques, le robot suiveur est attiré vers la position du meneur par un effet ressort : une rigidité élevée assure le suivi mais expose l'environnement à des forces dangereuses, tandis qu'une rigidité faible préserve la sécurité au détriment de la précision. IAC contourne ce problème en estimant la position cible du meneur, c'est-à-dire son intention de mouvement, plutôt que sa position instantanée, et en la transmettant au suiveur. L'impédance peut ainsi être ajustée en temps réel par l'opérateur ou modulée automatiquement selon les contraintes de la tâche. Le système a été validé sur deux manipulateurs à 7 degrés de liberté (DOF) au travers de quatre expériences : suivi libre, interaction avec un ballon, insertion cheville-trou (peg insertion) et polissage de surface avec retour de force. Les résultats montrent qu'IAC surpasse la tele-impedance control (TIC) classique sur les trois métriques clés : précision de suivi, taux de complétion des tâches et temps d'exécution. L'enjeu concret est réel pour les intégrateurs opérant en environnements contraints (chirurgie assistée, manipulation de pièces fragiles, intervention en milieu à risque), où la rigidité excessive du robot représente un danger direct. En dissociant la compliance perçue par l'environnement de la fidélité du suivi, IAC permet à l'opérateur de moduler l'impédance selon son intention à chaque instant sans sacrifier la précision du mouvement. Il faut noter que les tâches testées restent relativement simples et que ces résultats proviennent d'un preprint non encore soumis à révision par les pairs. Le contrôle en impédance variable pour la télé-opération est un axe de recherche actif depuis plusieurs décennies, mais la plupart des approches obligent l'opérateur à arbitrer entre précision et compliance. Des laboratoires comme le DLR (Allemagne) et le LIRMM (Montpellier, France) ont contribué significativement à ce domaine. IAC s'inscrit dans la continuité des travaux sur l'estimation d'intention en temps réel, une approche qui gagne du terrain à mesure que les applications avancées se multiplient, notamment en chirurgie robotique et en intervention nucléaire. Aucune entreprise n'est associée à ces travaux, qui relèvent de la recherche académique pure. Les prochaines étapes naturelles concernent la validation sur des tâches industrielles réelles et l'intégration dans des plateformes commerciales de télé-opération existantes.

UELe LIRMM (Montpellier) est cité comme contributeur historique du domaine ; les applications en intervention nucléaire et en chirurgie robotique représentent des débouchés naturels pour les équipes de recherche françaises et européennes actives dans la téléopération.

RecherchePaper
1 source
Interface cerveau-robot en réalité augmentée pour la manipulation généraliste de bras robotique
4arXiv cs.RO 

Interface cerveau-robot en réalité augmentée pour la manipulation généraliste de bras robotique

Des chercheurs ont déposé sur arXiv (identifiant 2606.16413) un système baptisé AR BRI, pour "Augmented Reality Brain-Robot Interface", permettant à un utilisateur de contrôler un bras robotique via un casque de réalité augmentée couplé à une interface cerveau-machine EEG. Le contrôle repose sur deux modalités complémentaires : le suivi oculaire (eye-tracking) pour désigner l'objet cible dans la scène, et l'imagerie motrice (l'utilisateur imagine un geste physique, ce qui génère un signal EEG détectable) pour déclencher l'action. Des overlays visuels contextuels "Place" et "Use" guident l'utilisateur étape par étape dans un cadre de co-autonomie, où le robot prend en charge l'exécution bas-niveau tandis que l'humain conserve l'intentionnalité. Une étude de faisabilité avec 18 participants sains a couvert trois séquences d'activités quotidiennes : boire, ouvrir un tiroir et utiliser un four. Le score SUS (System Usability Scale) obtenu dépasse 70, seuil qualifié de "Good" selon la classification standard. Ce résultat est notable non pour sa performance brute, mais pour la démonstration d'un paradigme généraliste. Les systèmes BCI-robot existants sont typiquement conçus pour une tâche unique et fixe ; ici, la combinaison eye-tracking et imagerie motrice avec overlays AR permet d'enchaîner plusieurs tâches séquentielles sans reconfiguration du système. Pour les intégrateurs spécialisés en assistance robotique, cela représente un pas vers des interfaces plus flexibles, réduisant potentiellement le coût de développement par cas d'usage. Il faut néanmoins nuancer : l'évaluation ne porte que sur des participants sains, pas sur la population cible (personnes atteintes de handicap moteur), ce qui laisse entière la question centrale des performances en conditions réelles. Le projet s'inscrit dans la tendance des BCI non-invasives pour la commande robotique, par opposition aux approches implantées comme Neuralink ou BrainGate, qui obtiennent de meilleures performances sur des cohortes beaucoup plus restreintes. Les auteurs annoncent des évaluations futures avec la population concernée, notamment des personnes atteintes de SLA ou de lésions médullaires. Aucun partenaire industriel ni calendrier de commercialisation n'est mentionné : il s'agit d'un prototype de recherche académique au stade de preuve de concept, documenté sur ar-bri-manip.github.io.

RecherchePaper
1 source