La translation comme action passerelle : transférer des compétences de manipulation de l'humain au robot
Une équipe de chercheurs a publié en juin 2026 (arXiv:2606.28133) une méthode pour transférer des compétences de manipulation humaine vers des robots bi-manuels à pinces parallèles, sans passer par une télé-opération coûteuse. Le principe repose sur une représentation d'action dite "pont" : plutôt que de capturer les 6 degrés de liberté (6DoF) du poignet humain rotations incluses, les auteurs n'utilisent que la translation relative du poignet dans le repère de la caméra tête initiale. Cet espace d'action minimal est partagé par les humains et les robots, ce qui élimine la principale source de bruit : l'estimation de la pose rotative d'une main humaine reste imprécise, et les schémas de contact des doigts diffèrent fondamentalement de ceux d'une pince parallèle. Un modèle vision-language-action (VLA) de type Pi-0 est ensuite entraîné avec des tokens d'action entrelacés et un masquage d'attention pour gérer l'absence de certaines composantes selon l'embodiment considéré.
Le résultat central est que cette représentation "translation seule" transfère les connaissances de manipulation humaine vers le robot bien plus efficacement que les actions humaines bruitées en 6DoF, et que la performance scale avec la quantité de données humaines disponibles. Les expériences restent confinées à un ensemble de tâches bi-manuelles en laboratoire, ce qui invite à la prudence avant toute généralisation. Pour les intégrateurs B2B cherchant à exploiter des vidéos non instrumentées pour former des robots d'assemblage ou de manutention, c'est une validation de principe utile : les données humaines bon marché deviennent exploitables à condition de définir soigneusement l'espace d'action appris. Cela suggère que la conception de la représentation importe autant que le volume de données brutes.
Ce travail s'inscrit dans la course à l'apprentissage cross-embodiment à partir de données humaines peu coûteuses, un front ouvert depuis que RT-2 (Google DeepMind, 2023) a popularisé les VLA multi-modaux. Physical Intelligence a lancé Pi-0 début 2025 comme modèle fondation bi-manuel ; ce papier en adopte l'architecture pour valider une hypothèse d'embodiment transfer distincte. Les concurrents directs incluent OpenVLA (Berkeley), AgiBot World et GR00T N2 (NVIDIA), qui explorent chacun des espaces d'action universels différents. La limite naturelle de cette approche reste les tâches impliquant des rotations fines ou des contacts précis, un angle que les auteurs n'abordent pas encore.
Dans nos dossiers




