Aller au contenu principal
RecherchearXiv cs.RO2h

La translation comme action passerelle : transférer des compétences de manipulation de l'humain au robot

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Une équipe de chercheurs a publié en juin 2026 (arXiv:2606.28133) une méthode pour transférer des compétences de manipulation humaine vers des robots bi-manuels à pinces parallèles, sans passer par une télé-opération coûteuse. Le principe repose sur une représentation d'action dite "pont" : plutôt que de capturer les 6 degrés de liberté (6DoF) du poignet humain rotations incluses, les auteurs n'utilisent que la translation relative du poignet dans le repère de la caméra tête initiale. Cet espace d'action minimal est partagé par les humains et les robots, ce qui élimine la principale source de bruit : l'estimation de la pose rotative d'une main humaine reste imprécise, et les schémas de contact des doigts diffèrent fondamentalement de ceux d'une pince parallèle. Un modèle vision-language-action (VLA) de type Pi-0 est ensuite entraîné avec des tokens d'action entrelacés et un masquage d'attention pour gérer l'absence de certaines composantes selon l'embodiment considéré.

Le résultat central est que cette représentation "translation seule" transfère les connaissances de manipulation humaine vers le robot bien plus efficacement que les actions humaines bruitées en 6DoF, et que la performance scale avec la quantité de données humaines disponibles. Les expériences restent confinées à un ensemble de tâches bi-manuelles en laboratoire, ce qui invite à la prudence avant toute généralisation. Pour les intégrateurs B2B cherchant à exploiter des vidéos non instrumentées pour former des robots d'assemblage ou de manutention, c'est une validation de principe utile : les données humaines bon marché deviennent exploitables à condition de définir soigneusement l'espace d'action appris. Cela suggère que la conception de la représentation importe autant que le volume de données brutes.

Ce travail s'inscrit dans la course à l'apprentissage cross-embodiment à partir de données humaines peu coûteuses, un front ouvert depuis que RT-2 (Google DeepMind, 2023) a popularisé les VLA multi-modaux. Physical Intelligence a lancé Pi-0 début 2025 comme modèle fondation bi-manuel ; ce papier en adopte l'architecture pour valider une hypothèse d'embodiment transfer distincte. Les concurrents directs incluent OpenVLA (Berkeley), AgiBot World et GR00T N2 (NVIDIA), qui explorent chacun des espaces d'action universels différents. La limite naturelle de cette approche reste les tâches impliquant des rotations fines ou des contacts précis, un angle que les auteurs n'abordent pas encore.

À lire aussi

Adaptation mutuelle dans le co-transport humain-robot avec incertitude sur les préférences humaines
1arXiv cs.RO 

Adaptation mutuelle dans le co-transport humain-robot avec incertitude sur les préférences humaines

Une équipe de chercheurs a publié en mars 2025 sur arXiv (référence 2503.08895) un cadre unifié de co-transport humain-robot fondé sur l'adaptation mutuelle, visant à résoudre un problème central de la robotique collaborative physique : comment un robot peut-il s'adapter en temps réel à un partenaire humain dont les préférences de trajectoire sont incertaines, et réciproquement ? L'article propose trois contributions distinctes. Plutôt que de fixer a priori les paramètres comportementaux du partenaire, les auteurs modélisent une distribution de probabilité sur l'ensemble des préférences possibles. Ils introduisent ensuite une mesure d'obstination (stubbornness) variant dans le temps, qui détermine dynamiquement si le robot doit mener la trajectoire ou céder la direction à l'humain lorsque celui-ci manifeste une préférence forte et persistante au-delà d'un seuil défini. Enfin, une stratégie d'optimisation de posture s'applique au niveau du contrôle bas-niveau pour compenser les comportements imprévisibles quand l'humain prend les commandes. Le cadre a été validé auprès de vingt participants, complété par des simulations comparatives. Ce travail adresse un verrou technique majeur pour les robots collaboratifs physiques en logistique, industrie et assistance à la personne : l'écart entre les modèles humains supposés et la variabilité réelle des opérateurs. En introduisant une modélisation probabiliste plutôt que déterministe des préférences, le framework évite le blocage classique des systèmes à paramètres fixes qui échouent dès que l'humain dévie du comportement anticipé. Pour un intégrateur ou un COO industriel, le signal concret est que des robots de co-manutention pourraient s'adapter à différents opérateurs sans reprogrammation, réduisant les coûts de déploiement multi-site. La bascule dynamique entre modes "robot meneur" et "humain meneur" offre par ailleurs une flexibilité opérationnelle utile dans des contextes où l'ergonomie ou la sécurité prime sur l'optimisation de trajectoire. Le co-transport physique humain-robot reste peu industrialisé comparé aux AMR ou aux cobots de type Universal Robots et FANUC CRX. Les approches antérieures à impédance variable ou fondées sur des modèles de jeu de Stackelberg avaient posé des bases théoriques, mais butaient sur la rigidité des hypothèses comportementales. Ce papier s'inscrit dans une tendance plus large à intégrer l'incertitude humaine dans la boucle de contrôle, direction explorée notamment par le MIT CSAIL et, en France, par l'INRIA au travers de travaux sur la planification collaborative. Les prochaines étapes probables incluent des validations en environnement industriel réel et l'extension à des tâches multi-étapes, où la gestion de l'obstination sur des horizons temporels plus longs constituera un défi supplémentaire.

UEL'INRIA mène des travaux sur la planification collaborative dans la même direction, positionnant la recherche française pour contribuer à des solutions de co-manutention adaptatives qui pourraient bénéficier aux intégrateurs industriels européens à moyen terme.

RecherchePaper
1 source
Démystifier la conception de l'espace d'action pour les politiques de manipulation robotique
2arXiv cs.RO 

Démystifier la conception de l'espace d'action pour les politiques de manipulation robotique

Une étude empirique de grande envergure, publiée sur arXiv (référence 2602.23408), apporte les premières réponses systématiques à une question restée sans réponse rigoureuse dans la communauté de la manipulation robotique : comment concevoir l'espace d'action d'une politique apprise par imitation ? Les chercheurs ont conduit plus de 13 000 déploiements réels sur un robot bimanuel, entraîné et évalué plus de 500 modèles sur quatre scénarios distincts, en examinant deux axes structurants : l'axe temporel (représentations absolues vs. incrémentales, dites "delta") et l'axe spatial (espace articulaire, ou joint-space, vs. espace opérationnel, ou task-space). Le résultat principal est sans ambiguïté : les représentations delta, qui encodent des variations de position plutôt que des positions cibles absolues, améliorent systématiquement les performances d'apprentissage. Sur l'axe spatial, joint-space et task-space révèlent des forces complémentaires : le premier favorise la stabilité du contrôle, le second facilite la généralisation à de nouveaux scénarios. Ces résultats ont une portée directe pour les équipes qui développent des politiques robotiques en production. Jusqu'ici, le choix de l'espace d'action relevait d'heuristiques héritées ou de conventions propres à chaque laboratoire, sans base empirique solide. L'étude montre que ce choix n'est pas accessoire : il conditionne fondamentalement le paysage d'optimisation de l'apprentissage par imitation, bien davantage que ce que supposait la littérature. Pour un intégrateur ou un ingénieur concevant un système de manipulation industrielle, la recommandation est désormais claire : préférer les delta actions par défaut, et arbitrer entre joint-space et task-space selon que la priorité est la stabilité du suivi de trajectoire ou la robustesse face à la variabilité des tâches. Ces conclusions sont directement applicables aux architectures VLA (Vision-Language-Action), qui dominent actuellement la recherche en politiques généralisables. Ce travail intervient dans un contexte où la course à la mise à l'échelle des données et des modèles concentre la majorité des ressources de recherche. Des systèmes comme pi-0 (Physical Intelligence), ACT ou Diffusion Policy ont popularisé l'imitation learning comme voie principale vers la manipulation généraliste, et des acteurs comme Figure AI, 1X ou Apptronik misent sur ces architectures pour leurs déploiements industriels. Pourtant, la conception de l'espace d'action restait guidée par des choix hérités des années 2010, faute d'étude comparative à grande échelle. En comblant ce manque avec une rigueur rare, les auteurs posent une base méthodologique qui devrait informer la prochaine génération de politiques bimanuelle et les benchmarks de comparaison entre systèmes.

RechercheOpinion
1 source
Contrôle robuste aux distributions via l'inférence de Stein pour la manipulation au contact
3arXiv cs.RO 

Contrôle robuste aux distributions via l'inférence de Stein pour la manipulation au contact

Une équipe de chercheurs publie sur arXiv (référence 2605.19029) une méthode de contrôle robuste pour la manipulation robotique en contact riche, domaine couvrant la saisie, l'assemblage et l'insertion précise d'objets. Le travail formalise le problème comme une optimisation de contrôle robuste aux distributions (distributionally robust control), résolue via l'inférence variationnelle de Stein, une technique probabiliste déterministe issue du machine learning bayésien. Les contrôleurs qui en résultent modélisent explicitement l'incertitude paramétrique liée aux contacts, sans nécessiter les volumes massifs de données d'entraînement qu'exigent les approches data-driven modernes. Les résultats expérimentaux rapportés indiquent une robustesse améliorée jusqu'à un facteur 3 par rapport aux méthodes classiques à base de modèles, sur une gamme de tâches avec incertitude paramétrique large. Ce chiffre est à nuancer : il provient des propres benchmarks des auteurs, sans validation indépendante. La manipulation en contact riche reste l'un des goulots d'étranglement critiques pour le déploiement de robots industriels polyvalents. Les approches VLA (Vision-Language-Action models), comme pi-0 de Physical Intelligence, offrent une flexibilité remarquable mais se dégradent fortement lorsque les données d'entraînement sont rares, ce qui limite leur adoption dans des environnements industriels où les jeux de données sont difficiles à constituer. Les contrôleurs classiques à base de modèles, à l'inverse, sont computationnellement efficaces mais peinent à représenter l'incertitude task-sensitive, c'est-à-dire celle qui impacte réellement la performance sur une tâche précise. L'approche proposée tente de combler ce fossé en injectant une modélisation probabiliste flexible dans le cadre déterministe des contrôleurs classiques, un compromis potentiellement attractif pour les intégrateurs industriels cherchant fiabilité sans pipeline de données massif. Ce travail s'inscrit dans une tendance académique cherchant à réconcilier le model-based engineering (Boston Dynamics, ABB) et les learned policies (Physical Intelligence avec pi-0, Google DeepMind avec ses architectures GR00T-style). L'inférence variationnelle de Stein, popularisée par Liu et Wang en 2016, est ici adaptée au contrôle optimal, ce qui représente une contribution méthodologique notable. Le résumé disponible ne mentionne ni déploiements réels ni partenaires industriels, signalant clairement un stade de recherche fondamentale, probablement conduite en simulation ou sur bancs d'essai de laboratoire. Une validation sur des plateformes hardware standardisées comme les bras Franka Emika ou UR10, dont les propriétés de contact sont bien documentées, constituerait la prochaine étape logique avant toute perspective d'industrialisation.

RecherchePaper
1 source
3PoinTr : apprentissage de la manipulation robotique à partir de vidéos humaines non contraintes
4arXiv cs.RO 

3PoinTr : apprentissage de la manipulation robotique à partir de vidéos humaines non contraintes

Une équipe de chercheurs a publié sur arXiv (2603.08485) une méthode baptisée 3PoinTr permettant d'entraîner des politiques de manipulation robotique à partir de vidéos humaines non contraintes, sans recourir à de coûteuses démonstrations téléopérées. Le principe repose sur la prédiction de trajectoires 3D denses de points de scène (point tracks) : un transformer léger dit "visibility-aware" apprend, depuis des vidéos d'humains en train de manipuler des objets librement, comment chaque point de la scène devrait se déplacer. Une politique robotique multitâche en boucle fermée extrait ensuite les priors d'action pertinents depuis ces trajectoires prédites. Avec seulement 20 démonstrations robot étiquetées en action, 3PoinTr surpasse les meilleures baselines de behavioral cloning et de vidéo-préentraînement de 25,0 points de pourcentage en tâches réelles et de 29,6 points en simulation. Ce résultat est notable parce qu'il s'attaque à l'un des goulots d'étranglement structurels du domaine : le coût prohibitif de la collecte de données robot. Les approches existantes de video-pretraining imposent typiquement que l'humain "joue le robot", mouvements chorégraphiés, keypoints prédéfinis, annotations manuelles ou positions de préhension connues. 3PoinTr supprime ces contraintes et exploite des vidéos naturalistes, ce qui élargit considérablement le corpus exploitable (YouTube, vidéos industrielles, données de formation existantes). La gestion des occlusions partielles via la supervision sur les points partiellement occultés représente une avancée technique précise par rapport aux baselines : le transformer conserve un signal d'apprentissage même quand la main ou l'outil masque une partie de la scène. Le travail s'inscrit dans une tendance plus large des Visual-Language-Action models (VLA) et des approches fondées sur les représentations 2D/3D pour le transfert sim-to-real, en compétition directe avec des méthodes comme Track2Act, RoboTAP ou ATM (Action Tracking from Motion). Il se distingue par le passage explicite à la 3D et le faible volume de données supervisées requis. La page projet est disponible chez Adam Hung (adamhung60.github.io/3PoinTr), mais aucune annonce de déploiement industriel ou de partenariat n'est associée à cette publication : il s'agit d'un résultat de recherche, pas d'un produit commercialisé.

RecherchePaper
1 source