Aller au contenu principal
IA physiquearXiv cs.RO2h

Any2Any : transfert efficace entre plateformes pour le suivi corporel complet de robots humanoïdes

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Une équipe de chercheurs publie sur arXiv (réf. 2605.23733) une méthode baptisée Any2Any pour transférer des modèles de whole-body tracking (WBT) entre différentes plateformes humanoïdes sans réentraînement complet. Le WBT désigne la capacité d'un robot humanoïde à reproduire fidèlement des mouvements complexes sur l'ensemble du corps, et constitue aujourd'hui un composant clé des pipelines de contrôle humanoïde. Any2Any procède en deux étapes: un alignement cinématique entre robot source et robot cible, puis une adaptation dynamique par fine-tuning paramétrique léger (PEFT) appliqué aux seuls modules sensibles à la dynamique du mouvement. Résultat annoncé: le transfert de modèles Sonic préentraînés sur le Unitree G1 vers deux robots de LimX Robotics, le LimX Oli et le LimX Luna, en mobilisant seulement 1% des données et du calcul nécessaires à un entraînement complet from scratch, avec des performances de suivi comparables ou supérieures.

Si ces chiffres se confirment en conditions réelles, Any2Any s'attaque à l'un des principaux verrous économiques du marché humanoïde: le coût de redéveloppement du contrôle moteur bas-niveau pour chaque nouvelle plateforme. Entraîner un modèle WBT from scratch mobilise aujourd'hui d'importants volumes de données simulées et de GPU-heures, ce qui pénalise les robots à faible volume ou en phase de prototype. Un ratio de 1% de ressources représente, si validé, un changement structurel dans l'économie du développement robotique. Cette approche conforte également l'hypothèse d'un "foundation model" pour le contrôle moteur humanoïde: un modèle préentraîné sur une plateforme bien documentée pourrait devenir un socle réutilisable par des intégrateurs tiers, réduisant la barrière à l'entrée pour les acteurs disposant de ressources computationnelles limitées.

Le WBT humanoïde concentre une concurrence intense, avec les travaux de Physical Intelligence autour de Pi-0, les modèles GR00T N2 de NVIDIA, et les pipelines internes de Figure AI et Agility Robotics. Unitree, acteur chinois prolixe en publications open-source, fournit son G1 comme base de préentraînement dans un nombre croissant de travaux académiques. LimX Robotics, moins médiatisé, développe humanoïdes et quadrupèdes et joue ici le rôle de cible de validation. Any2Any reste cependant un preprint arXiv sans validation industrielle publiée, et les démonstrations vidéo sélectionnées dans ce type de soumission ne reflètent pas nécessairement les performances moyennes en environnement non contrôlé. Les prochaines étapes logiques seraient une validation sur des tâches de manipulation en milieu réel et une intégration dans des pipelines open-source existants.

À lire aussi

HEX : experts alignés sur les humanoïdes pour la manipulation corps entier multi-plateforme
1arXiv cs.RO 

HEX : experts alignés sur les humanoïdes pour la manipulation corps entier multi-plateforme

Des chercheurs ont publié HEX (Humanoid-Aligned Experts for Cross-Embodiment Whole-Body Manipulation), un cadre de contrôle robotique déposé sur arXiv (arXiv:2604.07993v2) en avril 2026. HEX cible un problème structurel dans le déploiement des humanoïdes bipèdes de grande taille : la majorité des modèles Vision-Language-Action (VLA) existants traitent les membres du robot de façon indépendante, ce qui rend le contrôle à haute dimension (de nombreux degrés de liberté, ou DoF) instable et peu généralisable. Pour y répondre, HEX introduit une représentation d'état universelle alignée sur l'anatomie humanoïde, conçue pour l'apprentissage à grande échelle sur des plateformes hétérogènes. Son prédicteur proprioceptif unifié basé sur un Mixture-of-Experts (MoE) modélise la coordination corps entier et la dynamique temporelle de mouvement à partir de trajectoires issues de multiples morphologies robotiques. Pour l'encodage visuel temporel, HEX utilise des tokens d'historique légers résumant les observations passées sans réencodage redondant des images, puis fusionne indices visuels et langagiers avec la dynamique proprioceptive via un mécanisme de fusion résiduelle à portes et une tête d'action par flow-matching. Ce cadre adresse un goulet d'étranglement réel dans les VLA appliqués aux humanoïdes : le cloisonnement bras/jambes/torse empêche une coordination fluide et pénalise les tâches à réaction rapide ou à horizon long (planification multi-étapes). Les expériences sur tâches de manipulation réelles montrent que HEX atteint des taux de succès et une capacité de généralisation de l'état de l'art, précisément dans ces deux régimes critiques pour un déploiement industriel. La capacité à transférer des politiques entre morphologies hétérogènes (cross-embodiment) réduit également le coût de collecte de données par plateforme, un argument concret pour les intégrateurs. HEX s'inscrit dans une course dense au contrôle humanoïde haute fidélité. Pi0 de Physical Intelligence a popularisé le flow-matching pour la génération d'actions continues ; GR00T N2 de NVIDIA et Helix de Figure AI misent sur l'apprentissage en simulation massive. OpenVLA reste la référence open-source. HEX se distingue par son MoE dédié à la proprioception multi-corps, absent des architectures concurrentes. L'article étant un preprint arXiv révisé (v2), les résultats restent à confirmer par évaluation indépendante ; aucune affiliation institutionnelle ni timeline de déploiement n'est précisée dans le résumé public.

IA physiqueOpinion
1 source
SONIC : un système de suivi du mouvement étendu pour le contrôle corporel intégral des humanoïdes
2arXiv cs.RO 

SONIC : un système de suivi du mouvement étendu pour le contrôle corporel intégral des humanoïdes

Des chercheurs présentent SONIC (arXiv:2511.07820), un modèle fondateur pour le contrôle corporel complet de robots humanoïdes, construit autour d'une mise à l'échelle agressive le long de trois axes : la capacité réseau (de 1,2 million à 42 millions de paramètres), le volume de données (plus de 100 millions de frames issues de 700 heures de capture de mouvement) et le calcul (21 000 heures GPU). La tâche centrale est le suivi de mouvement (motion tracking), utilisé comme proxy d'entraînement pour inculquer des priors sur le mouvement humain sans ingénierie manuelle de récompenses. Deux applications aval sont démontrées : un planificateur cinématique temps réel reliant le suivi de mouvement à des tâches de navigation, et un espace de tokens unifié permettant à une seule politique de gérer à la fois la téléopération VR et des modèles vision-langage-action (VLA). Dans ce second mode, le système réalise de la loco-manipulation autonome en coordonnant simultanément position des mains et des pieds. L'apport principal est d'étendre les lois de scaling, jusqu'ici réservées aux grands modèles de langage, au contrôle humanoïde à corps complet. Les auteurs montrent que les performances progressent de manière régulière avec la quantité de données et le calcul, et que les politiques apprises généralisent à des mouvements non vus à l'entraînement, sans nécessiter de reward shaping manuel. Pour les intégrateurs, l'interface unifiée VR-VLA dans un seul modèle réduit le coût d'adaptation entre téléopération humaine et autonomie. Il convient néanmoins de noter qu'il s'agit d'une publication académique, non d'un produit déployé, et que les démonstrations vidéo sélectionnées ne permettent pas encore d'évaluer la robustesse en conditions industrielles réelles. SONIC s'inscrit dans une course au scaling qui agite l'ensemble de la filière humanoïde. Physical Intelligence a publié Pi-0, un modèle VLA polyvalent ; NVIDIA a lancé GR00T N2 en s'appuyant sur des données synthétiques massives ; Figure et Tesla visent des architectures propriétaires à grande échelle avec Optimus Gen 3. Les 42 millions de paramètres de SONIC restent modestes comparés aux VLA les plus ambitieux, et le travail ne mentionne pas d'affiliation à un fabricant de robot ni de calendrier de déploiement physique. La prochaine étape logique serait une validation sur hardware réel avec des évaluations quantitatives standardisées, un exercice que les benchmarks émergents du secteur commencent tout juste à formaliser.

IA physiqueOpinion
1 source
BifrostUMI : des démonstrations sans robot pour la manipulation corps entier des humanoïdes
3arXiv cs.RO 

BifrostUMI : des démonstrations sans robot pour la manipulation corps entier des humanoïdes

Une équipe de chercheurs a publié le 6 mai 2026 BifrostUMI (arXiv:2605.03452), un framework de collecte de données sans robot dédié à l'entraînement de politiques visuomotrices full-body pour robots humanoïdes. Le principe : un opérateur humain équipé d'un casque VR léger réalise des démonstrations manuelles, capturées sous forme de trajectoires de points-clés (keypoints) épars, tandis que des caméras montées au niveau des poignets enregistrent simultanément les données visuelles. Ces données multimodales alimentent ensuite un réseau de politique haut niveau qui apprend à prédire les trajectoires futures conditionnées aux features visuelles observées. Un pipeline de retargeting traduit ensuite ces trajectoires sur la morphologie du robot cible, qui les exécute via un contrôleur corps entier (whole-body controller). L'efficacité du framework est validée sur deux scénarios expérimentaux distincts, sans que les auteurs ne précisent les benchmarks quantitatifs de performance (temps de cycle, taux de succès par tâche) dans le résumé disponible. L'enjeu est direct pour quiconque tente de scaler l'entraînement d'humanoïdes : la télé-opération robotique reste le goulot d'étranglement principal de la collecte de données. Elle exige un accès permanent au hardware, un opérateur qualifié, et génère un flux de données lent et coûteux. BifrostUMI découple complètement la phase de démonstration du robot physique, ce qui ouvre la possibilité de collecter des démonstrations en masse, avec n'importe quel opérateur humain, dans n'importe quel environnement, sans mobiliser la plateforme mécanique. C'est précisément le verrou que les acteurs du secteur cherchent à lever : Figure AI, Physical Intelligence (pi) ou Apptronik dépendent tous de pipelines de collecte lents et onéreux. Si le sim-to-real gap reste un défi ouvert, l'approche keypoint avec retargeting propose une voie alternative au full imitation learning vidéo, en s'appuyant sur une représentation compacte et plus robuste aux variations morphologiques entre démonstrateur et robot. BifrostUMI s'inscrit directement dans la lignée de l'Universal Manipulation Interface (UMI) développé par Stanford, qui avait montré qu'un graspeur instrumenté suffit à générer des démonstrations transférables. Les auteurs étendent ce paradigme au corps entier des humanoïdes, un saut de complexité significatif donné le nombre de degrés de liberté à contrôler. Sur le marché, Physical Intelligence mise sur Pi-0 et ses variantes pour des politiques générales entraînées sur données téléopérées, tandis que Boston Dynamics, Unitree et Fourier Intelligence investissent massivement en infrastructure de télé-op. BifrostUMI, en tant que preprint non encore évalué par les pairs, reste une preuve de concept académique, sans déploiement industriel annoncé ni timeline de commercialisation. Les prochaines étapes naturelles seraient une évaluation comparative sur des benchmarks standardisés (RoboSuite, DROID) et une validation sur plusieurs morphologies humanoïdes différentes.

IA physiqueOpinion
1 source
AutoSpatial : raisonnement vision-langage pour la navigation sociale des robots humanoïdes par apprentissage spatial efficace
4arXiv cs.RO 

AutoSpatial : raisonnement vision-langage pour la navigation sociale des robots humanoïdes par apprentissage spatial efficace

Une équipe de recherche a publié AutoSpatial (arXiv:2503.07557), une méthode destinée à améliorer la capacité des modèles de vision-langage (VLM) à raisonner dans l'espace pour la navigation sociale des robots, c'est-à-dire la capacité d'un robot à se déplacer en présence d'humains de façon naturelle et sûre. La technique combine une supervision manuelle minimale avec un étiquetage automatique à grande échelle de paires de questions-réponses visuelles (VQA). Un protocole d'entraînement en deux rounds hiérarchiques permet au modèle d'acquérir à la fois une compréhension globale d'une scène et une analyse fine des détails. L'évaluation a mobilisé trois juges LLM (GPT-4o, Gemini 2.0 Flash et Claude 3.5 Sonnet) en validation croisée, complétés par des évaluateurs humains. Les gains mesurés sur les bases de référence sont de +10,71% en perception et prédiction, +16,26% en raisonnement, +20,50% en sélection d'action et +18,73% en capacité d'explication, par rapport à des modèles entraînés uniquement sur données annotées manuellement. Le résultat le plus pertinent pour les intégrateurs et les décideurs industriels est celui sur l'action : +20,50%, qui est le composant directement lié au comportement réel du robot. Le goulot d'étranglement classique de la navigation sociale reste l'annotation manuelle, coûteuse et peu scalable. AutoSpatial propose une voie d'auto-étiquetage qui réduit significativement ce frein, ce qui ouvre la possibilité de monter en volume de données sans exploser les coûts. Cela renforce également l'hypothèse que les VLA (Vision-Language-Action models) peuvent progresser par la donnée synthétique plutôt que par la seule supervision humaine. Un point de prudence méthodologique : les scores de performance sont évalués par d'autres LLM, ce qui introduit un biais circulaire potentiel que l'article ne discute pas en profondeur. La navigation sociale est un problème ouvert depuis plusieurs années, au croisement de la robotique de service et des modèles fondation. Les VLM ont montré des lacunes persistantes en raisonnement spatial, notamment pour estimer des distances, anticiper les trajectoires humaines ou interpréter des scènes encombrées. AutoSpatial s'inscrit dans une dynamique plus large incluant des travaux comme RT-2, OpenVLA ou le récent GR00T N2 de NVIDIA, qui cherchent tous à injecter du raisonnement langagier dans la boucle de contrôle robot. La méthode présentée reste pour l'instant un résultat de recherche sans déploiement terrain annoncé. Les prochaines étapes naturelles seraient une validation dans des environnements réels peuplés et une comparaison directe avec des architectures VLA de type diffusion comme Pi-0 de Physical Intelligence.

IA physiqueActu
1 source