Aller au contenu principal
Simulation de l'expérience sensorimotrice du nourrisson par transfert de mouvements vers des humanoïdes
RecherchearXiv cs.RO7sem

Simulation de l'expérience sensorimotrice du nourrisson par transfert de mouvements vers des humanoïdes

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UETake éditorial

Une équipe de recherche a déposé sur arXiv (référence 2604.27583) un framework permettant de simuler l'expérience sensorimotrice multimodale de nourrissons en retransférant leurs mouvements sur des robots humanoïdes physiques et virtuels. À partir d'une seule vidéo, la méthode extrait le squelette de l'enfant et estime sa pose 3D complète image par image, puis mappe ces trajectoires sur quatre plateformes : le robot physique iCub et trois simulateurs virtuels, pyCub, EMFANT et MIMo. La relecture de ces mouvements retransférés génère des flux multisensoriels synthétiques couvrant la proprioception (articulations et muscles), le sens du toucher et la vision. Pour l'embodiment le mieux adapté morphologiquement, la précision de retargeting atteint moins d'un centimètre, ce qui permet une annotation automatisée fine des comportements moteurs.

L'intérêt de ce travail dépasse la robotique développementale stricte. La plupart des approches de motion retargeting existantes se limitent à reproduire la cinématique, ignorant la richesse sensorielle associée au mouvement humain. Ce framework produit des streams proprioceptifs et tactiles synchronisés avec la vision, un type de donnée rare susceptible d'alimenter l'entraînement de modèles VLA (Vision-Language-Action) qui peinent encore à généraliser hors du domaine simulé. Sur le plan médical, la capacité à annoter automatiquement des comportements moteurs depuis une simple vidéo, puis à les comparer quantitativement à un avatar robot, ouvre une voie crédible pour la détection précoce de troubles du neurodéveloppement, autisme, paralysie cérébrale, sans recourir à une instrumentation directe de l'enfant.

Le robot iCub, développé par l'IIT (Istituto Italiano di Tecnologia, Gênes) depuis 2004 et déployé dans plus de 30 laboratoires mondiaux, constitue la plateforme physique de référence de l'étude, sa morphologie proche d'un enfant de 3-4 ans en faisant un candidat naturel. La précision sub-centimétrique annoncée vaut pour les séquences les mieux alignées morphologiquement : les auteurs ne publient pas de métriques globales sur corpus complet, ce qui invite à une lecture prudente de la performance générale. Dans l'espace concurrent, des équipes comme Meta AI (SAPIENS) ou ETH Zurich (SMPL-X) travaillent sur la reconstruction posturale dense, mais sans l'orientation développementale ni la multimodalité sensorielle de cette approche. Le code est publié en open source sur GitHub sous le dépôt ctu-vras/motion-retargeting.

Impact France/UE

L'IIT (Gênes, Italie), créateur de la plateforme iCub utilisée comme référence physique de l'étude, consolide le positionnement européen dans la robotique développementale et la génération de données multimodales pour l'entraînement de modèles VLA.

💬 Le point de vue du dev

Ce qui m'a accroché, c'est pas le robot qui rejoue les gestes d'un nourrisson, c'est la donnée synthétique que ça produit : proprio, toucher et vision synchronisés depuis une simple vidéo, c'est rare et c'est exactement ce dont les VLA ont besoin pour généraliser hors labo. L'application médicale (détection précoce de troubles moteurs sans coller des capteurs partout sur un bébé) est probablement le cas d'usage le plus sérieux à court terme. Reste à voir les métriques sur corpus complet, les auteurs ne les publient pas pour l'instant.

Dans nos dossiers

À lire aussi

MotionDisco : découverte de mouvements pour la loco-manipulation extrême des robots humanoïdes
1arXiv cs.RO 

MotionDisco : découverte de mouvements pour la loco-manipulation extrême des robots humanoïdes

Des chercheurs ont publié sur arXiv (réf. 2606.06139, juin 2026) MotionDisco, un cadre méthodologique capable de générer automatiquement des séquences de mouvements corps entier pour robots humanoïdes, sans recourir à la téleopération ni au retargeting de mouvements humains. Le système couple une recherche évolutionnaire guidée par un grand modèle de langage (LLM) sur des séquences d'interactions de contact, un optimiseur de trajectoire cinodynamique séquentiel et une stratégie d'élagage. Les trajectoires ainsi découvertes servent à entraîner des politiques de suivi par apprentissage par renforcement (RL), déployées ensuite sur un robot humanoïde physique dans des tâches de loco-manipulation longue durée. Des études d'ablation documentent que la recherche guidée par LLM produit des trajectoires corps entier cohérentes sur plusieurs tâches à long horizon impliquant des contacts riches avec l'environnement. L'enjeu principal est de contourner la téleopération, aujourd'hui le principal mode d'acquisition de données pour les humanoïdes en manipulation, approche coûteuse et difficile à passer à l'échelle. La difficulté est fondamentalement combinatoire: le nombre d'interactions de contact possibles croît exponentiellement avec l'horizon temporel et le nombre d'objets en scène. En automatisant la découverte de compétences, MotionDisco ouvre une voie potentiellement scalable pour les intégrateurs industriels sans infrastructure de téleopération. Le transfert sim-to-real sur robot physique est démontré, ce qui distingue ce travail de nombreuses contributions demeurant en simulation. Les auteurs revendiquent une première mondiale: la découverte et le déploiement de compétences humanoïdes loco-manipulation longue durée par recherche évolutionnaire entièrement automatisée, une affirmation qui reste à valider indépendamment par la communauté. Ce travail s'inscrit dans un paysage où les principaux acteurs humanoïdes, tels que Figure (Figure 03), Tesla (Optimus Gen 3), Physical Intelligence (pi0), Unitree et NVIDIA (GR00T N2), misent massivement sur la téleopération et les démonstrations humaines pour entraîner leurs politiques de manipulation. L'utilisation d'un LLM comme moteur de recherche pour guider l'exploration de contacts s'apparente aux travaux récents sur les VLA (Vision-Language-Action models), mais positionnée en amont comme générateur de curriculum plutôt que comme politique de contrôle direct. Aucun partenaire industriel ni calendrier de déploiement n'est mentionné dans l'article, qui demeure une contribution de recherche fondamentale sans affiliation ou plateforme matérielle spécifiée. Les extensions naturelles porteraient sur des scènes multi-objets plus complexes et la validation sur une gamme élargie de plateformes humanoïdes commerciales.

RecherchePaper
1 source
Téléopération en temps réel d'un robot humanoïde par capture de mouvement IMU avec validation sim-vers-réel
2arXiv cs.RO 

Téléopération en temps réel d'un robot humanoïde par capture de mouvement IMU avec validation sim-vers-réel

Une équipe de recherche a publié en mai 2026 un système complet de téléopération whole-body en temps réel pour robot humanoïde, décrit dans un préprint arXiv (2605.12347). Le système capture les mouvements d'un opérateur via une combinaison Virdyn à centrales inertielles (IMU full-body), puis les retransmet en continu sur un robot Unitree G1. Le pipeline de retargeting cinématique et de contrôle fonctionne sans tampon offline ni composant d'apprentissage automatique. La validation s'est déroulée en deux étapes : d'abord en simulation via le modèle MuJoCo du G1 (sim2sim), puis déployé sans aucune modification sur le robot physique (sim2real). Le répertoire de mouvements reproduits couvre la marche, la station debout, la position assise, les rotations, les courbettes et des gestes expressifs coordonnés de tout le corps. Le résultat le plus significatif est le transfert sim-to-real sans recalibration, un point d'échec classique où les paramètres calibrés en simulation s'effondrent face aux frictions réelles, aux latences de communication et aux erreurs de modèle. L'absence de composant d'apprentissage automatique rend le système déterministe et auditable, un argument concret pour les intégrateurs industriels ou les labos qui constituents des datasets de téléopération pour l'imitation learning. L'utilisation de matériel grand public (la combinaison Virdyn est commercialement disponible) plutôt qu'un système de mocap optique type Vicon abaisse significativement le ticket d'entrée pour construire des pipelines de collecte de démonstrations. La limitation est symétrique : sans apprentissage, l'adaptabilité à des morphologies très différentes reste contrainte par le retargeting cinématique. Le Unitree G1 est un humanoïde d'entrée de gamme commercialisé depuis 2024 autour de 16 000 dollars, ciblant explicitement la recherche et les démos industrielles. La téléopération whole-body est devenue un axe central de la course aux données pour les systèmes humanoïdes : Physical Intelligence (Pi-0), Figure et 1X s'appuient tous sur des démonstrations téléopérées pour entraîner leurs politiques. Sur l'approche IMU appliquée aux humanoïdes, des travaux similaires ont été publiés par des équipes chinoises sur le Booster T1 et l'Unitree H1. Ce préprint ne mentionne aucun déploiement industriel ni partenariat commercial, c'est une contribution académique de validation de concept, pas un produit expédié.

UELes laboratoires européens constituant des jeux de données de téléopération pour l'apprentissage par imitation (INRIA, CEA-List, LAAS-CNRS) peuvent adopter cette approche IMU sur matériel grand public pour abaisser significativement leur coût d'entrée.

RecherchePaper
1 source
Génération automatique d'arbres de comportement par VLM pour le transfert réel-vers-simulation via perception active
3arXiv cs.RO 

Génération automatique d'arbres de comportement par VLM pour le transfert réel-vers-simulation via perception active

Une équipe de chercheurs propose dans un article arXiv (2601.08454) un pipeline Real2Sim piloté par l'intention, qui automatise la construction d'environnements de simulation physiquement précis à partir d'une instruction en langage naturel. Un modèle vision-langage (VLM) analyse une observation visuelle et une description de simulation incomplète pour identifier le sous-ensemble minimal de paramètres physiques manquants (masse des objets, géométrie de surface, friction), puis génère automatiquement un arbre de comportement (Behavior Tree, BT) composé de primitives motrices et sensorielles atomiques pour les acquérir par interaction physique avec l'environnement. Les expériences ont été conduites sur un bras Franka Emika Panda à contrôle en couple (7 DOF), manipulateur standard en recherche robotique. Les résultats indiquent des gains d'efficacité opérationnelle significatifs par rapport aux méthodes d'exploration exhaustive, validés par des études d'ablation sur plusieurs VLMs de référence, mais les chiffres précis de performance ne sont pas fournis dans l'abstract, ce qui limite la comparabilité externe. L'apport principal est le remplacement de pipelines d'identification système manuels par une stratégie sémantique : au lieu d'explorer exhaustivement l'environnement, le système ne collecte que les données pertinentes pour la tâche demandée, réduisant les interactions redondantes. Pour les équipes travaillant sur des jumeaux numériques industriels, cela représente un gain potentiel en temps de calibration avant déploiement. Le BT joue également un rôle de filtre de sécurité déterministe : sa hiérarchie réactive intercepte les hallucinations du VLM et prévient les anomalies physiques dangereuses, ce qui est non-négligeable pour une application en conditions réelles. Cette combinaison, intelligence sémantique du VLM associée à la robustesse déterministe du BT, constitue l'aspect architectural le plus notable du travail. La construction de simulations fidèles au réel est un verrou classique du déploiement robotique : un jumeau numérique mal calibré amplifie le sim-to-real gap qui dégrade les politiques apprises en simulation, problème central pour les VLA (Vision-Language-Action) actuels. Côté concurrence, Physical Intelligence (pi0), Google DeepMind (successeurs de RT-2) et des projets open-source comme LeRobot de Hugging Face investissent tous dans des pipelines sim-to-real plus robustes. L'utilisation des BT comme couche d'interprétabilité face aux modèles génératifs s'inscrit dans une tendance plus large visant à rendre les LLM/VLM compatibles avec des contraintes de sécurité industrielle. Les prochaines étapes logiques seraient d'étendre le pipeline à des robots mobiles ou des plateformes humanoïdes, et de publier des benchmarks complets permettant une comparaison rigoureuse avec les méthodes d'identification système existantes.

RecherchePaper
1 source
Optimisation du débit de communication adaptatif pour la téléopération XR sans fil de robots humanoïdes en transfert simulation-réel
4arXiv cs.RO 

Optimisation du débit de communication adaptatif pour la téléopération XR sans fil de robots humanoïdes en transfert simulation-réel

Une équipe publie sur arXiv (identifiant 2605.19293, mai 2026) un framework pour optimiser le taux de communication lors de la téléopération sans fil de robots humanoïdes en réalité étendue (XR). Le système enchaîne quatre modules : échantillonnage, transmission, interpolation et reconstruction des trajectoires motrices. L'objectif est de minimiser la consommation d'énergie radio tout en maintenant la précision de reconstruction, via un contrôle du taux d'échantillonnage par dimension (dimension-wise sampling-rate control). Collecter du feedback physique en temps réel étant coûteux à grande échelle, les auteurs entraînent en simulateur et corrigent le décalage sim-to-real via un algorithme PPO (proximal policy optimization) enrichi d'une pondération par ratio de densité et d'une régularisation par région de confiance (trust-region). Le tout repose sur une caractérisation théorique PAC-Bayes qui formalise les effets du biais d'encodeur, de la déviation en échantillons finis et de l'estimation du ratio de densité. Les expériences s'appuient sur un dataset public de téléopération humanoïde, testées sur différents canaux sans fil et profils de trajectoires dynamiques. La téléopération XR est aujourd'hui le principal vecteur de collecte de démonstrations humanoïdes, données indispensables à l'entraînement des politiques VLA et de diffusion. L'overhead radio des transmissions haute fréquence constitue un frein réel à la scalabilité de ces pipelines. En réduisant la consommation énergétique du lien sans fil sans dégrader la qualité des trajectoires reconstruites, ce travail adresse un problème opérationnel concret : déployer des cellules de téléopération en grand nombre dans des environnements à bande passante contrainte, entrepôts ou ateliers de production. La caractérisation PAC-Bayes représente une première formalisation théorique de l'adaptation sim-to-real appliquée spécifiquement à la couche communication, offrant aux équipes une base pour calibrer ces systèmes à l'échelle. La collecte de démonstrations est devenue l'enjeu stratégique central de la robotique humanoïde depuis 2024-2025. Physical Intelligence (pi0), Figure, Unitree et leurs concurrents investissent massivement dans des setups de téléopération, casques VR, exosquelettes et Apple Vision Pro inclus, pour alimenter leurs modèles VLA. L'adaptation sim-to-real reste un verrou ouvert que traitent aussi des équipes chez DeepMind, Stanford (Mobile ALOHA) et Carnegie Mellon. Ce papier est une contribution algorithmique et théorique sur couche communication, ni un produit ni un déploiement : les résultats sont validés sur dataset public, sans partenariat industriel annoncé. La prochaine étape logique serait une intégration dans un pipeline de collecte existant chez un fabricant d'humanoïdes, pour mesurer les gains réels en conditions opérationnelles.

RecherchePaper
1 source