Aller au contenu principal
Apprentissage d'une manipulation dextérique robuste en main à partir de capteurs articulaires avec un transformeur proprioceptif
RecherchearXiv cs.RO7h

Apprentissage d'une manipulation dextérique robuste en main à partir de capteurs articulaires avec un transformeur proprioceptif

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Des chercheurs publient sur arXiv (2605.21330, mai 2026) le Proprioceptive Transformer (PT), une architecture de contrôle pour la manipulation dextre en main fondée exclusivement sur les capteurs articulaires, sans vision ni retour tactile. Testée sur la main ténosynoviale ORCA, l'approche réalise une rotation continue de cube à une vitesse 3,1 fois supérieure aux méthodes de référence, et estime la position de l'objet avec une erreur quadratique moyenne (RMSE) inférieure de 23,4 % à celle d'un perceptron multicouche (MLP). La politique de contrôle est obtenue par distillation enseignant-élève : une politique enseignante est d'abord entraînée par apprentissage par renforcement avec accès privilégié à l'état de l'objet, puis ses connaissances sont distillées vers le PT, qui opère uniquement sur l'historique de positions et de vitesses articulaires.

Ce résultat questionne une hypothèse largement répandue dans le domaine : la nécessité d'une perception externe pour fermer la boucle d'estimation d'état lors de manipulations en main. Les encodeurs articulaires sont présents sur toutes les mains robotiques, y compris les architectures ténosynoviales où la transmission élastique complique l'estimation de la posture réelle des doigts. Que le Transformer extraie implicitement des informations extrinsèques à partir de patterns temporels proprioceptifs constitue une validation partielle du sim-to-real appliqué à la manipulation dextre, un problème longtemps considéré non résolu à l'échelle réelle. La robustesse sur des objets de géométrie variable ou sous charge perturbée reste à démontrer : le preprint ne rapporte de résultats que sur le cube, et les métriques de vitesse de rotation manquent de contexte sur les conditions expérimentales exactes.

La manipulation dextre en main est un problème ouvert depuis les années 1990, relancé par OpenAI Dactyl (2019) qui combinait vision externe et simulation massivement distribuée. Les approches concurrentes recourent aujourd'hui à des capteurs tactiles haute résolution (Shadow Hand avec BioTac, Leap Hand, GelSight sur Allegro) ou à des pipelines vision-langage-action de type Pi-0 ou GR00T N2. L'ORCA hand, plateforme académique à actionnement par tendons, reste moins présente dans les benchmarks publiés que l'Allegro ou la Shadow Hand, ce qui limite la comparaison directe avec l'état de l'art. Le preprint ne mentionne ni partenaires industriels ni calendrier de transfert : il s'agit d'une contribution de recherche fondamentale, sans déploiement annoncé.

À lire aussi

Apprentissage d'une variété d'actions par priors latents multi-vues pour la manipulation robotique
1arXiv cs.RO 

Apprentissage d'une variété d'actions par priors latents multi-vues pour la manipulation robotique

Une équipe de chercheurs publie sur arXiv (preprint 2605.11832, mai 2026) une méthode adressant deux limites structurelles des modèles Vision-Language-Action (VLA) appliqués à la manipulation robotique : l'ambiguïté de profondeur issue des capteurs monoculaires, et l'inefficacité de l'apprentissage d'actions par régression classique. La première contribution, le G3T (Geometry-Guided Gated Transformer), exploite un modèle de diffusion multi-vues pré-entraîné pour synthétiser des représentations latentes de nouvelles perspectives, alignées sous contrainte géométrique 3D, avec filtrage adaptatif du bruit d'occlusion. La seconde, l'Action Manifold Learning (AML), remplace la régression sur des cibles non structurées, bruit ou champ de vitesse, approches dominantes depuis Diffusion Policy (2023), par une prédiction directe sur la variété des actions valides. Testée sur les benchmarks LIBERO et RoboTwin 2.0, ainsi que sur des tâches en robot réel, la méthode affiche des taux de succès supérieurs aux baselines état de l'art actuelles. L'enjeu est précis : la quasi-totalité des déploiements industriels de manipulateurs n'embarquent qu'une caméra RGB, sans LiDAR ni stéréovision. Sans profondeur fiable, les VLA peinent à estimer distances et tailles relatives, ce qui dégrade directement la précision de préhension en conditions réelles. Le G3T propose de contourner ce manque sans ajout matériel, maintenant les contraintes hardware à un niveau réaliste pour l'intégration. L'AML, de son côté, questionne un paradigme issu des travaux sur la diffusion en robotique : prédire directement sur la variété d'actions valides pourrait réduire la variance d'entraînement et accélérer la convergence. Les résultats semblent valider l'hypothèse, bien qu'un preprint reste à soumettre à peer-review pour être pleinement crédité, les métriques annoncées sont issues des propres expériences des auteurs, sans reproductions indépendantes publiées à ce stade. Ce travail s'inscrit dans la course aux VLA généralistes ouverte par RT-2 (Google DeepMind, 2023), avec pour concurrents directs OpenVLA (UC Berkeley), π0 de Physical Intelligence et GR00T N2 de NVIDIA. RoboTwin 2.0, l'un des benchmarks retenus, cible spécifiquement la manipulation bi-manuelle de précision, parmi les scénarios les plus exigeants du domaine. Aucun partenariat industriel ni calendrier de déploiement n'est mentionné dans le preprint ; l'impact concret dépendra des reproductions indépendantes et d'une éventuelle intégration dans des frameworks ouverts comme LeRobot (Hugging Face). Le code et la page projet sont annoncés disponibles publiquement.

RechercheOpinion
1 source
Quand l'état absolu échoue : évaluation des encodages proprioceptifs pour une manipulation robuste
2arXiv cs.RO 

Quand l'état absolu échoue : évaluation des encodages proprioceptifs pour une manipulation robuste

Une équipe de chercheurs publie sur arXiv (référence 2605.13067) une étude systématique sur l'encodage de l'état proprioceptif des robots pour améliorer la robustesse des politiques de manipulation de bout en bout. Le constat de départ est précis : les politiques entraînées avec des données en conditions contrôlées échouent fréquemment lors du déploiement réel, notamment lorsque le référentiel du robot change entre l'entraînement et l'inférence. Les auteurs évaluent plusieurs stratégies d'encodage des positions et angles articulaires, depuis les représentations absolues classiques jusqu'à des formulations relatives, et identifient qu'un référentiel relatif défini à l'épisode, c'est-à-dire ancré sur l'état initial des articulations au début de chaque séquence de tâche, offre le meilleur compromis entre performance nominale et généralisation hors distribution. Ces résultats sont validés sur un banc d'essai physique en conditions réalistes, avec des expériences multi-configurations sur robot réel. L'enjeu industriel est concret : les robots à cadre de référence mobile (bras montés sur AMR, robots repositionnables sur ligne, cobots déplacés entre postes) représentent une part croissante des déploiements, mais les politiques end-to-end existantes, y compris les VLA (Vision-Language-Action models) récents comme pi-0 ou GR00T N2, sont généralement entraînées avec des hypothèses de cadre fixe. Cette étude fournit une piste d'implémentation directement exploitable sans modifier l'architecture du modèle ni relancer de collecte de données massive : changer simplement la convention d'encodage proprioceptif suffit à améliorer la robustesse out-of-distribution. C'est un résultat rare dans la littérature VLA, qui tend à préconiser le scaling de données comme seule réponse à la distribution shift. Ce travail s'inscrit dans une tendance de fond : après l'emballement autour des politiques diffusion et des modèles fondation pour la robotique en 2023-2024, la communauté revient sur des questions d'ingénierie bas-niveau souvent négligées. La proprioception, longtemps traitée comme un signal trivial, redevient un sujet de recherche actif face aux exigences du déploiement réel. Aucun partenaire industriel n'est mentionné dans l'abstract, ce qui en fait une contribution académique ouverte, sans timeline de productisation annoncée. Les prochaines étapes logiques seraient des tests avec des architectures VLA complètes et des configurations de bases mobiles plus variées.

RechercheOpinion
1 source
HoMMI : apprentissage de la manipulation mobile corps entier à partir de démonstrations humaines
3arXiv cs.RO 

HoMMI : apprentissage de la manipulation mobile corps entier à partir de démonstrations humaines

Une équipe de chercheurs a publié sur arXiv (arXiv:2603.03243v2) HoMMI, pour Whole-Body Mobile Manipulation Interface, un framework d'apprentissage par imitation permettant à un robot mobile de maîtriser la manipulation bimanuelle et la navigation à partir de démonstrations humaines réalisées sans robot. Le principe : un opérateur humain porte une interface portative héritée du projet UMI (Universal Manipulation Interface), enrichie d'une caméra égocentrique capturant le contexte global de la scène (position dans l'espace, état de l'environnement). Ces données brutes alimentent une politique apprise, transférée ensuite sur un robot à corps entier (bras, torse, base mobile) sans que celui-ci n'ait été présent lors de la collecte. La difficulté centrale que HoMMI cherche à résoudre est l'"embodiment gap" : la différence morphologique et sensorielle entre humain et robot rend le transfert de politique difficile, particulièrement en perception égocentrique où les champs de vue et hauteurs d'oeil divergent fortement. Les auteurs proposent trois briques techniques pour combler cet écart : une représentation visuelle agnostique à l'embodiment, une représentation d'action "head relaxed" qui neutralise les variations de mouvement de tête, et un contrôleur corps entier réalisant les trajectoires main-oeil sous contraintes physiques du robot. Ces choix permettent des tâches longue-séquence mobilisant navigation, perception active et coordination bimanuelle, le type de scénario que les architectures Vision-Language-Action (VLA) comme pi-0 de Physical Intelligence ou GR00T N2 de NVIDIA visent également à résoudre. Les résultats, présentés sous forme de vidéos sur hommi-robot.github.io, restent à valider en conditions non contrôlées et sur des benchmarks standardisés. HoMMI s'inscrit dans la continuité directe du projet UMI (Columbia/Stanford, 2024), qui avait popularisé la collecte portable de démonstrations pour la manipulation fixe sur table. L'extension au robot mobile ajoute la dimension navigation, saut de complexité majeur pour le sim-to-real et la généralisation hors laboratoire. Les approches concurrentes incluent Mobile ALOHA (Stanford), les pipelines de distillation de données de Physical Intelligence, et les travaux de manipulation bimanuelle ALOHA/ACT de Berkeley. HoMMI reste à ce stade un preprint arXiv sans déploiement industriel annoncé ni métriques de taux de succès publiées, une limite habituelle des publications en robotique d'apprentissage avant revue par les pairs.

RecherchePaper
1 source
Apprentissage de la prise-et-dépose dynamique pour un manipulateur à pattes
4arXiv cs.RO 

Apprentissage de la prise-et-dépose dynamique pour un manipulateur à pattes

Des chercheurs ont publié le 21 mai 2026 sur arXiv (réf. 2605.15713) un framework d'apprentissage par renforcement hiérarchique permettant à un robot quadrupède équipé d'un bras à 6 degrés de liberté (6-DOF) d'effectuer des tâches de pick-and-place dynamiques avec des charges allant jusqu'à 2,3 kg en simulation et 1,3 kg en environnement réel. Le système intègre un module explicite d'estimation de masse qui adapte en temps réel le contrôle whole-body en fonction du poids de l'objet saisi. En simulation, le taux de succès atteint 86,05 %. Sur six scénarios réels combinant variations de taille, de masse et de hauteur de dépôt, le système affiche un taux de succès moyen de 73,3 % dans un espace de travail vertical allant du sol à des surfaces à 1,1 m de hauteur, avec un temps d'exécution moyen de 4,06 secondes par cycle. Ce résultat est notable pour deux raisons techniques. D'abord, le système exécute locomotion et manipulation en simultané, abandonnant l'approche séquentielle (se déplacer, s'arrêter, saisir) qui dominait les travaux antérieurs et limitait la cadence opérationnelle. Ensuite, le module d'estimation de masse compense dynamiquement les variations de charge, ce qui est un prérequis pour tout déploiement industriel réel où les objets ne sont pas homogènes. La chute de performance entre simulation et réel (de 86 % à 73 %) illustre que le sim-to-real gap n'est pas encore résolu, mais reste dans une plage acceptable pour des scénarios semi-contrôlés. Les charges manipulées restent modestes comparées aux bras industriels fixes, et les vidéos de démonstration sélectionnées ne couvrent pas de conditions adverses (surfaces glissantes, occlusions). Le robot quadrupède mobile doté d'un bras manipulateur est un segment en forte croissance, porté par des plateformes commerciales comme le Spot d'Boston Dynamics (avec son bras optionnel), l'ANYmal d'ANYbotics, ou le B2 d'Unitree couplé à des bras tiers. Ce travail de recherche, non affilié à un produit commercial annoncé, s'inscrit dans la lignée des travaux sur les manipulateurs mobiles à pattes publiés ces deux dernières années par ETH Zurich, CMU et des équipes chinoises. La prochaine étape attendue dans ce domaine est la généralisation à des objets non rigides ou à géométrie inconnue, ainsi qu'une intégration de la perception visuelle en boucle fermée pour réduire la dépendance aux modèles d'objet préenregistrés.

RecherchePaper
1 source