Aller au contenu principal
RecherchearXiv cs.RO1h

Human2Any : transfert humain-robot via planification compositionnelle avec contraintes

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Une équipe de chercheurs a publié en juin 2026 Human2Any, un framework d'apprentissage conçu pour transférer des démonstrations humaines vers des robots sans nécessiter de données d'entraînement collectées directement sur le robot cible. Le principe central repose sur l'extraction de priors d'interaction centrés sur les objets à partir de vidéos de mains humaines, en représentant la manipulation non pas par les mouvements du bras, mais par la relation cinématique entre objets, ce qui change dans la scène, indépendamment de qui ou quoi produit ce changement. Ces priors sont ensuite composés avec un module de raisonnement de faisabilité côté robot et un planificateur de mouvement, permettant l'adaptation à différentes morphologies robotiques, géométries de scène et configurations de tâches. Les expériences réelles ont été menées sur deux plateformes distinctes : un bras Franka Emika en configuration tabletop, et un robot humanoïde mobile RBY-1, tous deux opérant sur des tâches de manipulation sans avoir reçu d'exemples robot dans le contexte cible.

Ce résultat est significatif parce qu'il attaque directement le goulot d'étranglement le plus coûteux du pipeline robotique actuel : la collecte de données de démonstration sur le robot réel. Les approches VLA (Vision-Language-Action) dominantes, comme celles de Physical Intelligence (pi0) ou de Google DeepMind, s'appuient sur des téléopérations massives ou des simulations intensives pour construire des datasets robot-specific. Human2Any propose une voie alternative : lever l'hypothèse que les priors doivent être ancrés dans l'embodiment. La capacité démontrée à transférer vers un humanoïde mobile comme le RBY-1, dont la cinématique et les degrés de liberté diffèrent radicalement d'un bras fixe, suggère une généralisation inter-embodiment qui, si elle se confirme à plus grande échelle, réduirait les barrières à l'entrée pour les intégrateurs sans accès à des flottes de robots pour la collecte.

Sur le plan académique, Human2Any s'inscrit dans un courant de recherche en plein essor autour du retargeting humain-robot, aux côtés de travaux comme UMI (Universal Manipulation Interface) de Stanford ou OKAMI et HumanPlus de Berkeley, qui exploitent tous la vidéo humaine comme signal de supervision bon marché. La distinction revendiquée ici est l'abstraction complète de l'embodiment via la représentation objet-objet, plutôt qu'un retargeting cinématique direct. Le projet est disponible sur human2any.github.io. La prochaine étape logique sera de mesurer si ces priors tiennent face à une plus grande diversité d'objets, de saisies, et de configurations de scène non vues à l'entraînement.

Impact France/UE

L'utilisation du bras Franka Emika (fabricant allemand) comme plateforme de validation confère une pertinence marginale pour les intégrateurs européens, mais l'impact concret reste limité à la veille académique pour les équipes R&D robotique en France et en UE.

À lire aussi

La translation comme action passerelle : transférer des compétences de manipulation de l'humain au robot
1arXiv cs.RO 

La translation comme action passerelle : transférer des compétences de manipulation de l'humain au robot

Une équipe de chercheurs a publié en juin 2026 (arXiv:2606.28133) une méthode pour transférer des compétences de manipulation humaine vers des robots bi-manuels à pinces parallèles, sans passer par une télé-opération coûteuse. Le principe repose sur une représentation d'action dite "pont" : plutôt que de capturer les 6 degrés de liberté (6DoF) du poignet humain rotations incluses, les auteurs n'utilisent que la translation relative du poignet dans le repère de la caméra tête initiale. Cet espace d'action minimal est partagé par les humains et les robots, ce qui élimine la principale source de bruit : l'estimation de la pose rotative d'une main humaine reste imprécise, et les schémas de contact des doigts diffèrent fondamentalement de ceux d'une pince parallèle. Un modèle vision-language-action (VLA) de type Pi-0 est ensuite entraîné avec des tokens d'action entrelacés et un masquage d'attention pour gérer l'absence de certaines composantes selon l'embodiment considéré. Le résultat central est que cette représentation "translation seule" transfère les connaissances de manipulation humaine vers le robot bien plus efficacement que les actions humaines bruitées en 6DoF, et que la performance scale avec la quantité de données humaines disponibles. Les expériences restent confinées à un ensemble de tâches bi-manuelles en laboratoire, ce qui invite à la prudence avant toute généralisation. Pour les intégrateurs B2B cherchant à exploiter des vidéos non instrumentées pour former des robots d'assemblage ou de manutention, c'est une validation de principe utile : les données humaines bon marché deviennent exploitables à condition de définir soigneusement l'espace d'action appris. Cela suggère que la conception de la représentation importe autant que le volume de données brutes. Ce travail s'inscrit dans la course à l'apprentissage cross-embodiment à partir de données humaines peu coûteuses, un front ouvert depuis que RT-2 (Google DeepMind, 2023) a popularisé les VLA multi-modaux. Physical Intelligence a lancé Pi-0 début 2025 comme modèle fondation bi-manuel ; ce papier en adopte l'architecture pour valider une hypothèse d'embodiment transfer distincte. Les concurrents directs incluent OpenVLA (Berkeley), AgiBot World et GR00T N2 (NVIDIA), qui explorent chacun des espaces d'action universels différents. La limite naturelle de cette approche reste les tâches impliquant des rotations fines ou des contacts précis, un angle que les auteurs n'abordent pas encore.

RechercheOpinion
1 source
Transfert de trajectoires humain-robot centré sur la main à partir de vidéos via localisation de contacts en monde ouvert
2arXiv cs.RO 

Transfert de trajectoires humain-robot centré sur la main à partir de vidéos via localisation de contacts en monde ouvert

Des chercheurs ont publié sur arXiv (arXiv:2606.10743, juin 2026) HOWTransfer, un cadre algorithmique centré sur la main pour transférer des démonstrations humaines filmées en trajectoires exécutables par un bras robotique. Le système fonctionne en trois étapes : reconstruction 3D temporellement cohérente du mouvement du poignet humain, localisation automatique des intervalles de contact main-objet à partir de cues visuels d'interaction, puis génération d'hypothèses de saisie en pince parallèle (parallel-jaw grasp) propagées le long de la trajectoire du poignet. Une phase finale d'édition raffine l'alignement de contact et produit plusieurs variantes exécutables depuis une seule vidéo de démonstration. Sur un ensemble de tâches de manipulation variées, le système atteint 86 % de taux de succès et est préféré aux trajectoires téléopérées dans une étude comparative en aveugle. Ce résultat mérite attention parce qu'il attaque directement le goulot d'étranglement principal du learning from demonstration (LfD) : collecter suffisamment de données de qualité. La téléopération reste coûteuse, lente et non scalable en industrie ; si un système peut extraire des trajectoires robotes directement depuis des vidéos de travailleurs humains filmés sur une chaîne d'assemblage ou en entrepôt, le coût d'entrée pour déployer de la manipulation apprise s'effondre. Fait notable : HOWTransfer ne s'appuie pas sur des descripteurs d'objets prédéfinis ni sur un tracking d'état explicite, ce qui le rend potentiellement généraliste sur des objets non vus. Le 86 % de succès annoncé est encourageant, mais les conditions expérimentales exactes (diversité des objets, profondeur de la caméra, nombre de tâches, robot cible) ne sont pas précisées dans le résumé, ce qui justifie une lecture du papier complet avant toute intégration industrielle. Le transfert de démonstration humaine vers robot via vidéo est un domaine en pleine effervescence depuis 2022-2023, porté par des travaux comme DROID, RoboAgent ou les approches VLA (Vision-Language-Action) de Google DeepMind et Physical Intelligence (Pi-0). HOWTransfer se distingue en adoptant une approche sans modèle de langage ni segmentation objet, ce qui le rend plus léger mais aussi plus fragile sur les scènes encombrées. Aucune affiliation industrielle ni partenariat de déploiement n'est mentionné : il s'agit pour l'instant d'un preprint académique, pas d'un produit. Les prochaines étapes naturelles seraient une validation sur des robots commerciaux (Franka, UR, ou humanoïdes comme Figure 03 ou Unitree G1) et une évaluation sur des benchmarks standardisés comme RLBench ou LIBERO pour situer la performance par rapport à l'état de l'art.

RecherchePaper
1 source
Détection de contact active pour un transfert d'objet robuste de robot à humain
3arXiv cs.RO 

Détection de contact active pour un transfert d'objet robuste de robot à humain

Une équipe de chercheurs propose une méthode de détection de contact active pour fiabiliser les transferts d'objets de robot à humain, publiée en prépublication sur arXiv (2605.04610, mai 2026). Au lieu d'attendre passivement un signal de saisie, le robot génère des micro-mouvements exploratoires et mesure les forces appliquées en retour par l'humain : une saisie ferme produit des forces dans plusieurs directions, un contact accidentel non. Le système repose sur un modèle bayésien linéaire par morceaux qui estime la probabilité de chaque état de contact à partir de ces réponses en force. Testé avec 12 participants sur 30 objets rigides variés, il atteint un taux de succès de 97,5 %, soit plus de 30 points au-dessus des deux approches passives utilisées comme référence. Les applications visées vont du robot d'assistance à domicile (servir un verre) au bloc opératoire (passer un instrument chirurgical). Ce résultat est significatif car la généralisation inter-objets est précisément le point dur des approches passives (tactile, force/couple) : elles peinent à distinguer saisie ferme et contact fortuit face à la diversité des formes, des masses et des comportements humains. L'active sensing force une perturbation contrôlée qui rend les états ambigus séparables. Pour les intégrateurs et les décideurs industriels, l'enjeu est directement lié à la sécurité : dans un environnement collaboratif ou chirurgical, un relâchement prématuré peut causer un incident grave. Un taux de 97,5 % commence à entrer dans la plage exploitable pour des assistants robotiques en conditions réelles, même si le périmètre du test reste limité (objets rigides, 12 sujets, conditions de laboratoire). La question du handover robot-humain est active en recherche depuis plusieurs années, portée notamment par les domaines de l'assistance à la personne et de la chirurgie robotique. Ce papier est une prépublication non encore évaluée par les pairs, et l'abstract ne mentionne ni institution ni partenaire industriel, ce qui rend difficile l'évaluation de sa trajectoire vers un déploiement réel. Aucune intégration commerciale n'est annoncée. Les suites logiques incluent des tests sur objets déformables ou non rigides, une validation en conditions cliniques contrôlées, et une intégration dans des plateformes à retour d'effort comme les cobots ou les mains de robots humanoïdes qui commencent à offrir les interfaces mécaniques nécessaires à ce type de dialogue haptique.

RecherchePaper
1 source
Adaptation mutuelle dans le co-transport humain-robot avec incertitude sur les préférences humaines
4arXiv cs.RO 

Adaptation mutuelle dans le co-transport humain-robot avec incertitude sur les préférences humaines

Une équipe de chercheurs a publié en mars 2025 sur arXiv (référence 2503.08895) un cadre unifié de co-transport humain-robot fondé sur l'adaptation mutuelle, visant à résoudre un problème central de la robotique collaborative physique : comment un robot peut-il s'adapter en temps réel à un partenaire humain dont les préférences de trajectoire sont incertaines, et réciproquement ? L'article propose trois contributions distinctes. Plutôt que de fixer a priori les paramètres comportementaux du partenaire, les auteurs modélisent une distribution de probabilité sur l'ensemble des préférences possibles. Ils introduisent ensuite une mesure d'obstination (stubbornness) variant dans le temps, qui détermine dynamiquement si le robot doit mener la trajectoire ou céder la direction à l'humain lorsque celui-ci manifeste une préférence forte et persistante au-delà d'un seuil défini. Enfin, une stratégie d'optimisation de posture s'applique au niveau du contrôle bas-niveau pour compenser les comportements imprévisibles quand l'humain prend les commandes. Le cadre a été validé auprès de vingt participants, complété par des simulations comparatives. Ce travail adresse un verrou technique majeur pour les robots collaboratifs physiques en logistique, industrie et assistance à la personne : l'écart entre les modèles humains supposés et la variabilité réelle des opérateurs. En introduisant une modélisation probabiliste plutôt que déterministe des préférences, le framework évite le blocage classique des systèmes à paramètres fixes qui échouent dès que l'humain dévie du comportement anticipé. Pour un intégrateur ou un COO industriel, le signal concret est que des robots de co-manutention pourraient s'adapter à différents opérateurs sans reprogrammation, réduisant les coûts de déploiement multi-site. La bascule dynamique entre modes "robot meneur" et "humain meneur" offre par ailleurs une flexibilité opérationnelle utile dans des contextes où l'ergonomie ou la sécurité prime sur l'optimisation de trajectoire. Le co-transport physique humain-robot reste peu industrialisé comparé aux AMR ou aux cobots de type Universal Robots et FANUC CRX. Les approches antérieures à impédance variable ou fondées sur des modèles de jeu de Stackelberg avaient posé des bases théoriques, mais butaient sur la rigidité des hypothèses comportementales. Ce papier s'inscrit dans une tendance plus large à intégrer l'incertitude humaine dans la boucle de contrôle, direction explorée notamment par le MIT CSAIL et, en France, par l'INRIA au travers de travaux sur la planification collaborative. Les prochaines étapes probables incluent des validations en environnement industriel réel et l'extension à des tâches multi-étapes, où la gestion de l'obstination sur des horizons temporels plus longs constituera un défi supplémentaire.

UEL'INRIA mène des travaux sur la planification collaborative dans la même direction, positionnant la recherche française pour contribuer à des solutions de co-manutention adaptatives qui pourraient bénéficier aux intégrateurs industriels européens à moyen terme.

RecherchePaper
1 source