RecherchearXiv cs.RO6sem

Téléopération bilatérale à compliance avec captation de pose et de force à 6-DOF

1 source couvre ce sujet·Source originale ↗·

Résumé IASource uniqueImpact UE

Une équipe de chercheurs propose, dans un preprint arXiv publié en mai 2026, une architecture de téléopération bilatérale cartésienne construite autour d'un nouvel effecteur terminal bas coût baptisé Delta6. Ce composant compact intègre à la fois la mesure de pose et d'effort sur 6 degrés de liberté (6-DOF) via une conception compliante, et se monte côté opérateur (leader) comme côté robot (follower). La plateforme repose sur le middleware WinGs Operating Studio (WOS), conçu pour être agnostique au matériel, et chaque bras équipé du Delta6 se comporte alors comme un actionneur élastique en série (SEA) 6-DOF complet. Les tests ont été menés sur un tandem Lite6/FR3 cadencé à 150 Hz: le système maintient une stabilité de suivi sous des délais de réseau allant jusqu'à 120 ± 40 ms avec 1 % de perte de paquets, reproduit fidèlement la raideur virtuelle prescrite en contact, et présente une signature énergétique favorable dans des tests de type passivité.

L'intérêt technique de l'approche réside dans deux ruptures simultanées. D'abord, les systèmes bilatéraux actuels exigent des capteurs force/couple rigides six axes onéreux (plusieurs milliers d'euros l'unité) et des boucles de contrôle en temps réel à l'échelle du kilohertz; le Delta6 compliante ouvre une voie vers des coûts nettement inférieurs. Ensuite, la décorrélation explicite de trois échelles temporelles, I/O matériel, boucle d'impédance/admittance intermédiaire, messages de téléopération basse cadence, permet de piloter des bras hétérogènes avec la même couche applicative, ce qui est un avantage concret pour les intégrateurs gérant des parcs robotiques multi-constructeurs. Le filtre biquad coupe-bande 6D côté leader limite les oscillations dues aux résonances mécaniques, point souvent négligé dans les démonstrateurs académiques.

La téléopération bilatérale connaît un regain d'intérêt fort depuis 2024, portée par la collecte de données haptiques pour l'apprentissage par imitation sur robots humanoïdes. Des acteurs comme Force Dimension (Suisse) ou Haption (France), spécialiste européen des interfaces à retour d'effort, proposent des solutions commerciales mature mais coûteuses et souvent propriétaires. WOS se positionne comme une couche d'abstraction ouverte pouvant faciliter l'intégration sur des bras Franka, UFactory ou autres. Ce travail reste à ce stade un preprint non évalué par les pairs, sans déploiement industriel annoncé; la robustesse en conditions réelles (surfaces inconnues, perturbations dynamiques) reste à valider hors du banc de test contrôlé.

Impact France/UE

Haption (France), acteur européen de référence des interfaces à retour d'effort, est directement concurrencé par cette approche bas coût et agnostique au matériel qui propose une alternative ouverte aux solutions propriétaires coûteuses qu'il commercialise.

Dans nos dossiers

arXiv cs.RO

À lire aussi

1arXiv cs.RO

Un cadre de téléopération bilatérale pour la manipulation dextérique

Une équipe de chercheurs publie, dans un preprint arXiv déposé en juin 2026 (arXiv:2606.15434), un système modulaire de téleopération bilatérale conçu pour la manipulation dextre en environnements réels à fort contact. L'architecture proposée couple une interface côté opérateur à un bras robotique compliant et à une main mécanique dextre côté robot, dans une boucle de contrôle unifiée. Quatre fonctionnalités centrales sont documentées : le retargeting de posture de main par positions (adaptation des commandes d'une main humaine vers une main robotique de morphologie différente), la commande différentielle du bras, le retour haptique multi-échelle, et un mécanisme de contrôle partagé pour stabiliser les phases de manipulation en contact. Le framework est validé sur une tâche réelle de manipulation dextre, sans que les métriques de performance - latence, temps de cycle, taux de succès - ne soient communiquées dans le résumé public disponible. L'intérêt principal de ce travail pour les équipes de recherche et les intégrateurs ne réside pas dans les performances brutes du système de téleopération lui-même, mais dans sa vocation déclarée de plateforme de collecte de démonstrations haute qualité pour l'apprentissage par imitation (learning from demonstration). À l'heure où les architectures VLA (Vision-Language-Action) - comme pi0 de Physical Intelligence ou GR00T N2 de NVIDIA - exigent des datasets massifs de trajectoires expertes en manipulation fine, la qualité du pipeline de collecte devient un goulot d'étranglement critique. Les auteurs identifient aussi trois problèmes de conception restant ouverts : le mismatch cross-embodiment (écart morphologique entre la main de l'opérateur et celle du robot), la granularité du retour haptique, et le dosage optimal du contrôle partagé. Ce framework s'inscrit dans une tendance de fond visant à standardiser l'infrastructure de collecte de données téléopérées, dans la lignée du système ALOHA de Stanford ou de la plateforme UMI. Les acteurs européens comme Enchanted Tools (France) ou les équipes robotique de l'INRIA travaillent sur des problématiques similaires de couplage haptique et de retargeting pour la manipulation fine. Ce preprint ne présente pas de chiffres de déploiement ni de partenariats industriels annoncés : il s'agit d'une contribution académique amont, dont la suite logique serait la publication d'un dataset de démonstrations et de benchmarks comparatifs sur des tâches de manipulation standardisées.

UELes équipes françaises (Enchanted Tools, INRIA) travaillent sur des problématiques similaires de couplage haptique et de retargeting, ce framework pourrait alimenter leurs pipelines de collecte de démonstrations pour entraîner des modèles VLA.

RecherchePaper

1 source

2arXiv cs.RO

Contrôle par assimilation d'intention pour un suivi précis à impédance variable en téléopération

Une équipe de chercheurs a publié sur arXiv (réf. 2605.07037) un nouveau paradigme de contrôle pour la télé-opération robotique baptisé IAC (Intention Assimilation Control), conçu pour résoudre le compromis fondamental entre précision de suivi et sécurité. Dans les systèmes maître-esclave classiques, le robot suiveur est attiré vers la position du meneur par un effet ressort : une rigidité élevée assure le suivi mais expose l'environnement à des forces dangereuses, tandis qu'une rigidité faible préserve la sécurité au détriment de la précision. IAC contourne ce problème en estimant la position cible du meneur, c'est-à-dire son intention de mouvement, plutôt que sa position instantanée, et en la transmettant au suiveur. L'impédance peut ainsi être ajustée en temps réel par l'opérateur ou modulée automatiquement selon les contraintes de la tâche. Le système a été validé sur deux manipulateurs à 7 degrés de liberté (DOF) au travers de quatre expériences : suivi libre, interaction avec un ballon, insertion cheville-trou (peg insertion) et polissage de surface avec retour de force. Les résultats montrent qu'IAC surpasse la tele-impedance control (TIC) classique sur les trois métriques clés : précision de suivi, taux de complétion des tâches et temps d'exécution. L'enjeu concret est réel pour les intégrateurs opérant en environnements contraints (chirurgie assistée, manipulation de pièces fragiles, intervention en milieu à risque), où la rigidité excessive du robot représente un danger direct. En dissociant la compliance perçue par l'environnement de la fidélité du suivi, IAC permet à l'opérateur de moduler l'impédance selon son intention à chaque instant sans sacrifier la précision du mouvement. Il faut noter que les tâches testées restent relativement simples et que ces résultats proviennent d'un preprint non encore soumis à révision par les pairs. Le contrôle en impédance variable pour la télé-opération est un axe de recherche actif depuis plusieurs décennies, mais la plupart des approches obligent l'opérateur à arbitrer entre précision et compliance. Des laboratoires comme le DLR (Allemagne) et le LIRMM (Montpellier, France) ont contribué significativement à ce domaine. IAC s'inscrit dans la continuité des travaux sur l'estimation d'intention en temps réel, une approche qui gagne du terrain à mesure que les applications avancées se multiplient, notamment en chirurgie robotique et en intervention nucléaire. Aucune entreprise n'est associée à ces travaux, qui relèvent de la recherche académique pure. Les prochaines étapes naturelles concernent la validation sur des tâches industrielles réelles et l'intégration dans des plateformes commerciales de télé-opération existantes.

UELe LIRMM (Montpellier) est cité comme contributeur historique du domaine ; les applications en intervention nucléaire et en chirurgie robotique représentent des débouchés naturels pour les équipes de recherche françaises et européennes actives dans la téléopération.

RecherchePaper

1 source

3arXiv cs.RO

Estimation de la pose 6-DOF d'un objet à partir d'un seul contact tactile

Une équipe de recherche publie sur arXiv (réf. 2606.28899) YOTO, pour "You Only Touch Once", un système d'estimation de pose 6-DoF fondé exclusivement sur le toucher. Contrairement aux approches visuelles classiques, YOTO reconstruit la position et l'orientation complète d'un objet à partir d'une seule paire de contacts tactiles simultanés, sans nécessiter d'historique de manipulation. Chaque contact est modélisé comme un nuage de points 3D local, puis localisé sur la surface de l'objet par un réseau coarse-to-fine. Les deux contacts localisés, combinés aux poses calibrées des capteurs, alimentent un solveur SVD en forme fermée, conscient des normales de surface, qui restitue la pose 6-DoF en une seule passe. Le réseau est préentraîné sur des patches tactiles virtuels générés depuis le modèle 3D de l'objet, puis affiné avec un petit nombre de contacts réels, réduisant significativement les besoins en données terrain. Les expériences portent sur quatre objets aux géométries variées avec des capteurs GelSight, et incluent une évaluation comparative entre reconstructions issues de scans mobiles grand public et modèles CAO de référence. Ce travail s'attaque à un angle mort bien documenté de la manipulation robotique : les méthodes visuelles de pose estimation échouent systématiquement en cas d'occlusion, d'éclairage défavorable, ou face à des surfaces réfléchissantes et transparentes, conditions courantes en environnement industriel réel. L'approche à contact unique sans historique constitue un avantage pratique majeur, car elle élimine les séquences d'exploration multi-contacts et s'intègre dans des boucles de manipulation courtes. YOTO surpasse les baselines visuelles et géométriques testées dans les scénarios où la perception visuelle est dégradée. La compatibilité avec des scans mobiles plutôt que des modèles CAO précis abaisse la barrière d'intégration pour des objets non catalogués, un point non négligeable pour les intégrateurs industriels. L'estimation de pose par capteurs tactiles de type GelSight est un axe de recherche actif depuis les travaux pionniers du MIT et de l'entreprise éponyme GelSight Inc. Les méthodes antérieures nécessitaient généralement plusieurs contacts successifs ou un historique de manipulation pour converger ; YOTO rompt avec cette contrainte. Sur le plan compétitif, les pipelines visuels basés sur des modèles de fondation (MegaPose, FoundPose, benchmarks BOP) restent dominants en conditions nominales, mais leur robustesse aux surfaces dégradées est limitée, c'est précisément là que le toucher devient complémentaire. Le code, les modèles entraînés et le jeu de données GelSight seront publiés à l'acceptation de l'article. À ce stade, il s'agit d'un preprint arXiv sans déploiement annoncé ni partenaire industriel identifié.

RecherchePaper

1 source

4arXiv cs.RO

Agent à base d'affordances : orchestration de compétences avec vérification intégrée

Un préprint publié sur arXiv le 1er mai 2026 (identifiant 2605.00663) présente l'Affordance Agent Harness, un système d'orchestration de modules d'IA conçu pour résoudre l'un des problèmes les plus coriaces de la robotique de manipulation : l'affordance grounding, c'est-à-dire la capacité d'un agent à identifier précisément où et comment interagir avec un objet dans une scène réelle. Le défi est que les zones d'action pertinentes sont souvent petites, partiellement occultées, réfléchissantes ou visuellement ambiguës. L'architecture proposée est un système en boucle fermée qui chaîne plusieurs modules spécialisés, détection, segmentation, imagination d'interaction, via un composant baptisé Router, capable de sélectionner et de paramétrer dynamiquement les modules selon la difficulté de chaque instance. Un module Verifier évalue ensuite la fiabilité des preuves accumulées à partir de trois critères : cohérence interne du système, stabilité multi-échelle, et suffisance des évidences. Si ces seuils ne sont pas atteints, des tentatives ciblées sont relancées avant qu'un module final fusionne l'ensemble pour produire la prédiction. Les expériences sur plusieurs benchmarks d'affordance montrent une meilleure frontière de Pareto précision-coût que les pipelines fixes, avec moins d'appels de modules et une latence réduite, bien que l'article ne fournisse pas de chiffres absolus dans le résumé. L'intérêt de cette approche tient à son principe de vérification avant engagement : là où les pipelines fixes traitent toutes les images de la même façon et accumulent les erreurs en cascade, l'Affordance Agent Harness décide en temps réel si les preuves collectées sont suffisantes pour se commettre. C'est une réponse directe au problème dit du "demo-to-reality gap" en robotique : les systèmes qui fonctionnent bien en conditions contrôlées échouent face à l'ambiguïté réelle. La mémoire épisodique intégrée permet en outre de capitaliser sur les objets récurrents, ce qui est pertinent dans des environnements industriels répétitifs. Pour un intégrateur ou un COO industriel, cela signifie moins d'interventions humaines pour les cas limites et un coût d'inférence maîtrisé, deux contraintes centrales pour le passage à l'échelle. Ce travail s'inscrit dans une tendance forte depuis 2024 : combiner des modèles fondationnels de vision (VLMs, SAM-type pour la segmentation) dans des architectures d'agents modulaires pour la perception robotique. Des systèmes concurrents comme RoboPoint, SpatialVLM ou les approches VLA (Vision-Language-Action) de Physical Intelligence (Pi-0) cherchent également à résoudre l'ancrage spatial pour la manipulation. La différence revendiquée ici est le contrôle explicite du coût d'inférence et la capacité de récupération ciblée en cas d'erreur intermédiaire, plutôt qu'un modèle bout-en-bout. Aucun partenaire industriel ni calendrier de déploiement n'est mentionné dans ce préprint, il s'agit à ce stade d'une contribution de recherche, avec une page projet publique. Les prochaines étapes naturelles seraient une validation sur des robots physiques en conditions non structurées, ce que l'article ne documente pas encore.

RecherchePaper

1 source