Aller au contenu principal
ZeroWBC : apprentissage de l'interaction naturelle corps entier pour humanoïdes à partir de données égocentrées humaines
RecherchearXiv cs.RO3h

ZeroWBC : apprentissage de l'interaction naturelle corps entier pour humanoïdes à partir de données égocentrées humaines

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Une équipe de recherche a publié sur arXiv (référence 2603.09170v2) ZeroWBC, un cadre d'apprentissage du contrôle corporel complet pour robots humanoïdes qui se passe entièrement de données de télé-opération. Le système apprend à partir de vidéos égocentrées humaines -- c'est-à-dire filmées du point de vue d'un opérateur -- associées à des annotations de mouvement corps-entier et de texte. Concrètement, une image initiale prise en vue subjective est combinée à une instruction en langage naturel ; un modèle vision-langage (VLM) affiné génère alors des tokens de mouvement humain futur, qui sont décodés en trajectoires continues et retargetés vers le robot humanoïde. Ces mouvements de référence, accompagnés des trajectoires de la racine et des parties clés du corps, alimentent ensuite une politique de suivi de mouvement interactif. Les expériences ont été conduites sur le robot Unitree G1, un humanoïde compact commercialisé à environ 16 000 dollars.

L'apport central de ZeroWBC réside dans l'élimination du coût de collecte des données de télé-opération, traditionnellement un verrou majeur pour l'apprentissage du contrôle corps-entier à grande échelle. En exploitant le stock immense de vidéos humaines égocentrées déjà disponibles, la méthode ouvre un paradigme de scalabilité que les approches par démonstration robotique directe ne peuvent pas égaler facilement. L'introduction d'une récompense de suivi orientée interaction -- qui priorise l'alignement global des trajectoires tout en préservant la naturalité du mouvement -- tente de combler le gap entre génération de gestes plausibles et exécution physiquement cohérente. C'est un résultat de recherche académique, pas un produit déployé en production : les vidéos présentées montrent des comportements variés en scène statique, mais les conditions réelles d'un environnement industriel dynamique n'ont pas été testées.

ZeroWBC s'inscrit dans un courant plus large de méthodes "zéro-démonstration robot" qui cherchent à transférer la richesse des données humaines vers des systèmes incarnés, à l'instar des travaux sur les politiques visuomotrices à base de VLA (Vision-Language-Action). Sur le terrain concurrent, des approches comme ACT, UMI ou les pipelines de diffusion de Physical Intelligence (Pi-0) misent encore largement sur la télé-opération directe ou les données simulées. Unitree, constructeur chinois dont le G1 est l'une des plateformes humanoïdes les plus accessibles du marché, bénéficie ici d'une visibilité croissante comme banc d'essai académique de référence. Les prochaines étapes naturelles seraient d'étendre ZeroWBC à des scènes dynamiques, de tester la robustesse en dehors du labo, et d'évaluer si le sim-to-real tient face à la variabilité réelle des interactions objet-robot.

À lire aussi

Rhythm : apprentissage du contrôle interactif corps entier pour deux robots humanoïdes
1arXiv cs.RO 

Rhythm : apprentissage du contrôle interactif corps entier pour deux robots humanoïdes

Des chercheurs ont publié en mars 2026 sur arXiv un framework baptisé Rhythm, conçu pour piloter simultanément deux robots humanoïdes Unitree G1 en interaction physique directe. Le système repose sur trois composants : un module IAMR (Interaction-Aware Motion Retargeting) qui génère des références de mouvement réalistes à partir de captures de données humaines, une politique d'apprentissage par renforcement IGRL (Interaction-Guided Reinforcement Learning) qui modélise les dynamiques de contact couplées via des récompenses basées sur des graphes, et un pipeline de transfert sim-to-real permettant de déployer ces comportements sur robots physiques. Les comportements validés incluent l'accolade et la danse synchronisée entre deux G1, transférés de simulation vers le monde réel. Il s'agit d'un travail académique, pas d'un produit commercialisé. L'intérêt technique est dans la résolution du problème de contact couplé multi-corps : quand deux humanoïdes se touchent, les efforts mécaniques se propagent en boucle entre les deux chaînes cinématiques, rendant le contrôle instable. Rhythm aborde ce problème par des récompenses graph-based qui capturent explicitement l'interaction entre les deux agents, plutôt que de traiter chaque robot indépendamment. Pour un intégrateur ou un ingénieur robotique, c'est une validation que le sim-to-real fonctionne même pour des dynamiques de contact bilatérales, un verrou qui bloquait la plupart des approches multi-robots à manipulation physique. Cela ouvre la voie à des tâches collaboratives exigeant une coordination fine, comme le port de charges lourdes à deux, le transfert d'objets ou l'assemblage bimanuel étendu. Le robot Unitree G1 est une plateforme commerciale accessible (environ 16 000 dollars), ce qui donne à ces résultats une reproductibilité supérieure aux travaux sur robots propriétaires. Dans la course aux humanoïdes, les acteurs comme Figure (Figure 03), Tesla (Optimus Gen 3), Physical Intelligence (Pi-0) et Boston Dynamics se concentrent sur des déploiements unitaires en environnement industriel ; la coordination physique entre deux humanoïdes reste un espace peu exploré commercialement. Rhythm ne s'inscrit pas encore dans une roadmap produit annoncée, mais la disponibilité du code sur arXiv et le choix du G1 suggèrent une communauté de recherche qui converge vers la standardisation des plateformes, préfigurant des pilotes industriels à horizon 18-36 mois.

RecherchePaper
1 source
HoMMI : apprentissage de la manipulation mobile corps entier à partir de démonstrations humaines
2arXiv cs.RO 

HoMMI : apprentissage de la manipulation mobile corps entier à partir de démonstrations humaines

Une équipe de chercheurs a publié sur arXiv (arXiv:2603.03243v2) HoMMI, pour Whole-Body Mobile Manipulation Interface, un framework d'apprentissage par imitation permettant à un robot mobile de maîtriser la manipulation bimanuelle et la navigation à partir de démonstrations humaines réalisées sans robot. Le principe : un opérateur humain porte une interface portative héritée du projet UMI (Universal Manipulation Interface), enrichie d'une caméra égocentrique capturant le contexte global de la scène (position dans l'espace, état de l'environnement). Ces données brutes alimentent une politique apprise, transférée ensuite sur un robot à corps entier (bras, torse, base mobile) sans que celui-ci n'ait été présent lors de la collecte. La difficulté centrale que HoMMI cherche à résoudre est l'"embodiment gap" : la différence morphologique et sensorielle entre humain et robot rend le transfert de politique difficile, particulièrement en perception égocentrique où les champs de vue et hauteurs d'oeil divergent fortement. Les auteurs proposent trois briques techniques pour combler cet écart : une représentation visuelle agnostique à l'embodiment, une représentation d'action "head relaxed" qui neutralise les variations de mouvement de tête, et un contrôleur corps entier réalisant les trajectoires main-oeil sous contraintes physiques du robot. Ces choix permettent des tâches longue-séquence mobilisant navigation, perception active et coordination bimanuelle, le type de scénario que les architectures Vision-Language-Action (VLA) comme pi-0 de Physical Intelligence ou GR00T N2 de NVIDIA visent également à résoudre. Les résultats, présentés sous forme de vidéos sur hommi-robot.github.io, restent à valider en conditions non contrôlées et sur des benchmarks standardisés. HoMMI s'inscrit dans la continuité directe du projet UMI (Columbia/Stanford, 2024), qui avait popularisé la collecte portable de démonstrations pour la manipulation fixe sur table. L'extension au robot mobile ajoute la dimension navigation, saut de complexité majeur pour le sim-to-real et la généralisation hors laboratoire. Les approches concurrentes incluent Mobile ALOHA (Stanford), les pipelines de distillation de données de Physical Intelligence, et les travaux de manipulation bimanuelle ALOHA/ACT de Berkeley. HoMMI reste à ce stade un preprint arXiv sans déploiement industriel annoncé ni métriques de taux de succès publiées, une limite habituelle des publications en robotique d'apprentissage avant revue par les pairs.

RecherchePaper
1 source
Apprentissage de politiques ancrées en simulation pour la manipulation bimanuelle de corde à partir de données de téléopération humaine
3arXiv cs.RO 

Apprentissage de politiques ancrées en simulation pour la manipulation bimanuelle de corde à partir de données de téléopération humaine

Une équipe de recherche publie sur arXiv (ref. 2605.16043) une étude comparative sur la manipulation bimanuelle de cordes par robot, en se concentrant sur la tâche de démêlage de nœuds. Les chercheurs ont entraîné deux politiques de contrôle basées sur le framework ACT (Action Chunking with Transformers) à partir des mêmes données de télé-opération humaine : la première reçoit en entrée deux flux vidéo RGB provenant de caméras montées sur les poignets du robot, la seconde utilise un état 3D particulaire de la corde, extrait par fusion multi-vues puis propagé dans un simulateur xPBD (eXtended Position-Based Dynamics). Évaluée en boucle ouverte sur une configuration de corde inédite, la politique à base d'état réduit l'erreur L1 de 30,8 % sur l'action initiale de saisie et de traction, par rapport à son homologue visuelle. Ce résultat isole une cause souvent sous-estimée des échecs de généralisation en apprentissage par imitation : non pas l'architecture du réseau ni le volume de données, mais l'espace d'observation lui-même. Les objets linéaires déformables (DLO) comme les câbles et les cordes posent un problème d'auto-occultation fréquente sous caméra ego-centrique, rendant la perception purement visuelle peu robuste sur des configurations non vues à l'entraînement. En ancrant la représentation dans un état physique cohérent simulé par xPBD, les chercheurs comblent partiellement ce "gap d'observabilité" entre pixels bruts et état mécanique réel, ouvrant la voie à un apprentissage plus efficace en données depuis un faible nombre de démonstrations humaines. La manipulation de DLOs est un problème ouvert de longue date en robotique, car leur espace de configuration est théoriquement infini-dimensionnel. L'approche par télé-opération bimanuelle est bien établie depuis les travaux sur ACT (Stanford/Berkeley, 2023), mais sa dépendance à de grands volumes de données limite la scalabilité industrielle. Cette étude s'inscrit dans un courant qui cherche à compenser le manque de données par une meilleure structure de représentation, comparable aux travaux sur les VLA (Vision-Language-Action models) mais ici centré sur la physique plutôt que le langage. Les prochaines étapes naturelles incluent la validation en boucle fermée et l'évaluation sur des câbles industriels, contexte où des acteurs comme Cobot Systems ou des labos européens spécialisés câblage automobile pourraient trouver un intérêt direct.

UEImpact indirect : les équipementiers et laboratoires européens spécialisés dans le câblage automobile pourraient exploiter cette approche pour réduire le volume de données de téléopération requis, un goulot d'étranglement réel dans ce secteur.

RecherchePaper
1 source
Suivi du visage ou du corps pour l'interaction humain-robot : un jeu de données égocentrique
4arXiv cs.RO 

Suivi du visage ou du corps pour l'interaction humain-robot : un jeu de données égocentrique

Des chercheurs ont publié en juin 2026 sur arXiv (arXiv:2606.03694) une évaluation systématique des méthodes de suivi visuel pour la robotique sociale, en s'appuyant sur un jeu de données original capturé via le robot social Furhat. L'enjeu central est la continuité d'identification des utilisateurs pendant une interaction : lorsqu'un robot perd de vue son interlocuteur, même brièvement, il peut confondre deux personnes distinctes, phénomène désigné sous le terme "identity switch" (IDSW). L'étude compare deux approches (suivi par le visage versus suivi par le corps entier) et évalue l'effet de deux mécanismes complémentaires : la mémoire spatiale étendue et la réidentification par apparence (ReID). Le pipeline optimisé qui en résulte réduit les IDSW de 49 %, limitant ainsi les ruptures de dialogue entre humains et robots. Les résultats mettent en lumière une tension technique inattendue : la ReID améliore substantiellement la stabilité du suivi corporel, mais dégrade celui du visage en raison d'une sensibilité aux angles de profil. Ce comportement antagoniste n'est pas anodin pour les intégrateurs de systèmes HRI, qui ne peuvent pas transposer mécaniquement les mêmes optimisations à toutes les modalités de tracking. Plus fondamentalement, l'étude confirme que les modèles de vision par ordinateur les plus performants, conçus pour la vidéosurveillance ou la conduite autonome, ne couvrent pas les contraintes propres à la robotique sociale : occlusions mutuelles entre interlocuteurs, mouvements brusques, sorties et rentrées dans le champ de vision à courte distance. Le fossé entre démo contrôlée et déploiement réel reste ouvert pour les systèmes HRI en environnements denses. Furhat Robotics, entreprise suédoise spécialisée dans les robots conversationnels à tête projetée, fournit ici la plateforme matérielle, ce qui oriente naturellement l'évaluation vers les contextes face-à-face rapprochés. Dans le secteur plus large de la perception pour l'interaction humain-robot, des laboratoires académiques européens comme l'INRIA ou TU Delft, ainsi que des acteurs industriels tels SoftBank Robotics, travaillent sur des problématiques proches. Le point de friction central souligné par les auteurs reste l'absence de benchmarks publics capturant des occlusions denses à courte distance : sans jeux de données nativement sociaux, la validation des modèles de perception HRI demeure partielle. Les prochaines étapes naturelles consisteraient à tester ce pipeline sur d'autres plateformes et en conditions multi-utilisateurs réelles.

UEFurhat Robotics (Suède, UE) fournit la plateforme matérielle de l'étude, et l'INRIA est cité parmi les laboratoires européens travaillant sur des problématiques similaires, ce qui ancre ces avancées en perception HRI dans l'écosystème de recherche européen.

RecherchePaper
1 source