EaDex : un cadre de manipulation dextérique…

47

1arXiv cs.RO

EgoSteer : un système complet pour la manipulation dextre pilotable à partir de vidéos égocentriques

Des chercheurs publient EgoSteer, un système complet destiné à rendre les mains robotiques dextres pilotables par instructions en langage naturel, à partir de vidéos égocentriques humaines (arXiv:2607.09701). Le dispositif repose sur trois briques : EgoSmith, un pipeline de données qui a curé 9,6 mille heures de vidéos égocentriques filmées en conditions réelles pour constituer un corpus de pré-entraînement de haute qualité, avec un débit neuf fois supérieur et une précision meilleure que les méthodes précédentes ; une pile robotique unifiée gérant téléopération et correction humaine en boucle ; et EgoSteer lui-même, un modèle vision-langage-action (VLA) enrichi d'un modèle du monde, entraîné sur une infrastructure optimisée. Le système exécute des instructions en langage libre sur plus de 40 tâches distinctes, avec récupération après échec, dextérité fine et capacité de généralisation. Après un pré-entraînement sur données humaines suivi d'un ancrage par post-entraînement robotique et d'un raffinement DAgger, le modèle s'adapte en few-shot à des tâches longues et complexes comme le pliage de boîtes, avec un taux de réussite supérieur à 75% sur deux plateformes robotiques différentes. Le code, les données et le modèle sont mis en open-source sur egosteer.github.io. Ce travail s'attaque directement au principal goulot d'étranglement des mains robotiques dextres : l'absence de données de démonstration à grande échelle, alignées avec le langage et précises au niveau de l'action. En démontrant qu'un pré-entraînement massif sur vidéos humaines non robotiques peut ensuite être ancré efficacement sur robot réel avec relativement peu de données, l'équipe apporte un signal concret sur le transfert vidéo-vers-robot à l'échelle, un sujet central pour les intégrateurs et laboratoires qui cherchent à réduire le coût de collecte de démonstrations téléopérées. La généralisation cross-embodiment et la récupération après échec restent des points faibles connus des VLA actuels ; les résultats annoncés ici, à évaluer au-delà des tâches et conditions choisies par les auteurs, vont dans le sens d'un rapprochement entre démonstrations en laboratoire et usage réel. Le manque de données dextres de qualité freine depuis plusieurs années l'extension des architectures VLA, popularisées par des modèles généralistes comme Pi-0 ou GR00T, au-delà des bras et pinces simples vers des mains multi-doigts. EgoSteer s'inscrit dans cette course à l'échelle des données, aux côtés d'efforts similaires chez les acteurs de l'humanoïde et de la manipulation dextre. L'ouverture complète du code, du modèle et du jeu de données constitue la prochaine étape logique pour permettre une réplication indépendante des résultats annoncés.

IA physiqueActu

1 source

T-Rex : manipulation dextérique à réaction tactile

42

2arXiv cs.RO

T-Rex : manipulation dextérique à réaction tactile

Une équipe de chercheurs vient de publier T-Rex (Tactile-Reactive Dexterous Manipulation), un système d'apprentissage robotique qui intègre le retour tactile dans un modèle Vision-Language-Action (VLA) pour la manipulation dextre. Pour entraîner le système, les auteurs ont constitué un dataset de 100 heures de données tactiles à haute fréquence, collectées via une méthode centrée sur des primitives motrices élémentaires afin de maximiser l'efficacité de la collecte. L'architecture proposée, baptisée variable-rate Mixture-of-Transformers (MoT), est couplée à un encodeur tactile temporel de type VQ-VAE qui compresse les signaux tactiles à fréquence élevée sans saturer le flux de traitement du VLA de base. Validé sur 12 tâches de manipulation nécessitant un contrôle de force précis ou la gestion d'objets déformables, T-Rex affiche un taux de succès supérieur de plus de 30 % à celui du meilleur modèle concurrent testé. Ce résultat est significatif parce que les VLA actuels, dont Pi-0 de Physical Intelligence, OpenVLA ou les variantes de GR00T de NVIDIA, ignorent généralement le canal tactile ou se limitent à des encodeurs statiques incapables de capter la dynamique du contact en temps réel. Or, c'est précisément cette réactivité tactile qui distingue la dextérité humaine : ajuster la prise sur un objet glissant, détecter un défaut de surface, moduler la force sur un emballage souple. T-Rex démontre qu'il est possible de greffer un flux tactile à haute fréquence sur un VLA préentraîné sans dégrader ses capacités visuolinguistiques, ce qui ouvre la voie à une intégration progressive dans des pipelines d'apprentissage existants plutôt qu'à une refonte complète de l'architecture. La raison pour laquelle le tactile restait sous-exploité dans les VLA tient à trois obstacles cumulatifs : rareté des données tactiles diversifiées, contraintes architecturales des transformeurs optimisés pour la vision, et absence de benchmarks standardisés. T-Rex s'attaque aux trois simultanément, ce qui distingue ce travail des contributions précédentes comme DIGIT ou GelSight couplées à des politiques RL classiques. Dans le paysage concurrentiel, les acteurs spécialisés en capteurs tactiles (Contactile, Tac Sensing, BioTac) pourraient trouver dans ce framework un argument pour accélérer l'adoption hardware. Le code, le dataset et les poids du modèle ne sont pas encore mentionnés comme publics au moment de la soumission arXiv ; leur disponibilité conditionne la reproductibilité et l'impact réel de ce travail au-delà du laboratoire.

IA physiqueOpinion

1 source

Manipulation dextérique multi-doigts guidée par le langage grâce à la compliance physique et la commutation de contrôleurs

37

3arXiv cs.RO

Manipulation dextérique multi-doigts guidée par le langage grâce à la compliance physique et la commutation de contrôleurs

Une équipe de chercheurs a publié sur arXiv (référence 2410.14022v2) une architecture de contrôle combinant des modèles Vision-Langage-Action (VLA) à grande échelle avec des politiques d'imitation légères pour la manipulation dextère multi-doigts. Le système repose sur une main robotique anthropomorphique propriétaire à 13 degrés de liberté (DOF), dotée d'une compliance mécanique modulable au niveau des doigts. Le cœur de l'approche est un contrôleur à commutation piloté par événements : le VLA assure la planification de haut niveau à partir d'instructions en langage naturel, tandis que des politiques dextères légères, entraînées par imitation sur des sous-tâches spécifiques, prennent le relais pour l'exécution précise. Les transitions entre les deux niveaux sont déclenchées par des signaux d'événement que le VLA apprend à prédire lui-même après fine-tuning sur un volume minimal de démonstrations. Ce travail s'attaque à un verrou bien identifié du secteur : les VLA (Pi-0, OpenVLA, GR00T N2) excellent en planification multi-tâches mais opèrent typiquement avec des préhenseurs pince à 2 DOF, insuffisants pour la manipulation fine. À l'inverse, les politiques d'imitation pour mains multi-doigts restent cantonnées à des tâches étroitement définies, sans généralisation par langage. En montrant que la compliance matérielle, soit la capacité d'une main à absorber passivement les perturbations de contact, améliore la stabilité sans complexifier le contrôle logiciel, les auteurs fournissent un argument concret en faveur de la co-conception hardware-software, encore trop souvent négligée dans la course au sim-to-real. La modularité revendiquée, à savoir l'ajout de nouvelles compétences ou le changement de main sans réentraîner le VLA, constitue une propriété potentiellement intéressante pour les intégrateurs industriels, même si les conditions d'évaluation restent strictement laboratoire. L'approche s'inspire de la "two-channel hypothesis" du contrôle moteur humain, qui distingue la planification corticale des réflexes spinaux. Sur le plan concurrentiel, elle se positionne face aux travaux de Physical Intelligence (Pi-0), de Google DeepMind sur la manipulation dextère, et aux architectures ACT ou Diffusion Policy appliquées à des mains haute-DOF. Ni institution d'appartenance ni métriques de performance chiffrées ne figurent dans l'abstract disponible, ce qui limite toute évaluation externe sérieuse de la contribution. La prochaine étape crédible serait une validation sur des benchmarks standardisés comme YCB et une comparaison directe avec des mains tierces commerciales, pour confirmer que la cross-embodiment claim tient hors du cadre contrôlé des auteurs.

IA physiqueOpinion

1 source

Apprendre une politique robotique généralisable à partir de vidéos de démonstration humaine

42

4arXiv cs.RO

Apprendre une politique robotique généralisable à partir de vidéos de démonstration humaine

Des chercheurs présentent dans un preprint arXiv (2505.20795, soumis en mai 2025) un framework en deux étapes permettant à un robot d'apprendre une nouvelle tâche de manipulation en regardant simplement une vidéo de démonstration humaine, sans collecter de données de téléopération ni effectuer de fine-tuning du modèle. Le système repose d'abord sur un modèle de génération vidéo entraîné par cross-prediction sur un dataset mixte humain-robot, pour construire une représentation latente commune aux deux modalités. Ensuite, une perte contrastive prototypique ("prototypical contrastive loss") aligne cet espace de représentation avec un espace d'action partagé entre humain et robot. À l'inférence, une vidéo de démonstration humaine sert directement de prompt : le robot exécute la tâche correspondante sans aucune adaptation. Les validations portent sur des tâches de manipulation dextre en environnement réel. L'enjeu industriel est direct : la collecte de données de téléopération reste le goulot d'étranglement majeur du robot learning, coûteuse, lente, dépendante d'opérateurs qualifiés. Si l'approche tient à l'échelle, elle réduirait drastiquement le coût d'onboarding d'une nouvelle tâche, passant de plusieurs heures de collecte à quelques secondes de vidéo. C'est précisément le type de capacité qui intéresse les intégrateurs industriels et les startups d'AMR cherchant à déployer des politiques généralisables sans retraining continu. Cela dit, le papier reste un preprint académique : les résultats portent sur un nombre limité de tâches de manipulation, et l'absence de métriques comparatives détaillées (nombre de démonstrations, taux de succès absolu, diversité des saisies) rend l'évaluation de la robustesse difficile à ce stade. La question du "demonstration gap" humain-robot est travaillée depuis plusieurs années, notamment via les travaux sur les video-language-action models (VLA) et des approches comme ACT ou Diffusion Policy chez des labos comme Stanford, CMU, ou encore Physical Intelligence (Pi-0). L'originalité ici réside dans le découplage explicite entre représentation et action via la cross-prediction, plutôt que l'alignement direct de trajectoires. Des acteurs comme 1X, Sanctuary AI ou Figure (avec son modèle Helix) explorent des pistes similaires côté industriel. La prochaine étape logique pour cette ligne de recherche est la généralisation à des objets non vus et à des scènes plus encombrées, deux conditions qui font souvent échouer les approches zero-shot en déploiement réel.

IA physiqueOpinion

1 source

EaDex : un cadre de manipulation dextérique multi-plateforme à partir de démonstrations à faible coût

À lire aussi

EgoSteer : un système complet pour la manipulation dextre pilotable à partir de vidéos égocentriques

T-Rex : manipulation dextérique à réaction tactile

Manipulation dextérique multi-doigts guidée par le langage grâce à la compliance physique et la commutation de contrôleurs

Apprendre une politique robotique généralisable à partir de vidéos de démonstration humaine