Aller au contenu principal
OMG : génération de mouvements omnimodaux pour le contrôle généraliste des humanoïdes
IA physiquearXiv cs.RO3h

OMG : génération de mouvements omnimodaux pour le contrôle généraliste des humanoïdes

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Une équipe de chercheurs a déposé le 10 juin 2026 sur arXiv (ref. 2606.10340) un système baptisé OMG, Omni-Modal Motion Generation, conçu pour le contrôle whole-body généraliste des robots humanoïdes. L'architecture adopte une structure hiérarchique inspirée du système moteur biologique : un module supérieur de génération de mouvement basé sur la diffusion joue le rôle de "cerveau" planificateur, tandis qu'un contrôleur de suivi réactif bas niveau fait office de "cervelet". Ce cerveau est conditionnable simultanément sur du langage naturel, des signaux audio et des mouvements de référence humains. Le système s'appuie sur un pipeline de curation, filtrage et labellisation de données conçu pour couvrir un large spectre de comportements whole-body. Les auteurs revendiquent des performances state-of-the-art sur les benchmarks de contrôle humanoïde généraliste, ainsi qu'un comportement de scaling en fonction de la taille du modèle, deux propriétés clés pour qui veut construire un foundation model robotique.

L'intérêt de OMG tient à son traitement simultané de deux limitations structurelles du domaine : d'un côté, les politiques spécialisées actuelles exigent un reward engineering intensif et ne généralisent pas au-delà de quelques skills ; de l'autre, les motion trackers existants peinent à intégrer de nouvelles modalités d'entrée sans refonte architecturale. En conditionnant un unique modèle sur des entrées multimodales extensibles, le papier prolonge la logique des VLA (Vision-Language-Action models) vers la génération de mouvement full-body. Si les résultats survivent à l'évaluation externe, cela plaiderait pour qu'un seul modèle généraliste remplace plusieurs politiques spécialisées par déploiement, un argument commercial direct pour les intégrateurs. Point de vigilance : il s'agit d'un preprint non évalué par les pairs, sans données de déploiement physique publiées à ce stade.

Le papier s'inscrit dans une course active autour du contrôle humanoïde généraliste. Physical Intelligence a publié Pi-0 et Pi-0.5 autour d'architectures diffusion-based, NVIDIA a présenté GR00T N2 comme backbone transformer pour whole-body control, et Figure déploie Helix sur ses plateformes H1/H2 dans des environnements d'entrepôt. L'abstract ne mentionne ni institution d'origine ni robot physique cible, ce qui rend la comparaison directe avec ces systèmes impossible à ce stade. Les prochaines étapes naturelles seraient une soumission à CoRL ou RSS 2026 et une validation sur hardware réel, deux éléments absents de la publication actuelle.

À lire aussi

Contrôle corps entier généraliste et adaptable pour la locomotion de divers humanoïdes
1arXiv cs.RO 

Contrôle corps entier généraliste et adaptable pour la locomotion de divers humanoïdes

Des chercheurs ont publié sur arXiv (référence 2602.05791) un framework baptisé XHugWBC, conçu pour entraîner un contrôleur de locomotion whole-body universel sur une large distribution de morphologies humanoïdes, puis le déployer en zero-shot sur des robots non vus durant l'entraînement. Les expériences couvrent douze humanoïdes simulés et sept robots réels. Le système repose sur trois briques techniques : une randomisation morphologique physiquement cohérente (masse des segments, longueur des membres, inertie), des espaces d'observation et d'action alignés sémantiquement entre châssis hétérogènes, et une architecture de politique qui encode explicitement les propriétés morphologiques et dynamiques de chaque instance. L'entraînement est unique, "one-time training" : aucun fine-tuning par robot n'est requis à l'inférence. L'enjeu industriel est direct. Aujourd'hui, chaque équipe robotique entraîne ses contrôleurs de locomotion depuis zéro pour chaque châssis, ce qui représente des semaines de simulation et d'itérations sim-to-real. XHugWBC déplace ce coût vers une phase d'entraînement généraliste unique, ouvrant la voie à un modèle de déploiement où un intégrateur peut adopter un nouveau châssis humanoïde sans reconstruire l'intégralité de sa stack de contrôle. La validation sur sept robots physiques est plus convaincante que les résultats purement simulés habituels, même si la nature exacte des tâches testées et les taux de succès détaillés ne figurent pas dans le résumé disponible. La capacité de transfert zero-shot sur morphologies inédites renforce l'hypothèse que les biais structuraux appris sur distributions larges surpassent les politiques spécialisées sur certains régimes de locomotion, ce que le secteur débattait encore il y a dix-huit mois. Ce travail s'inscrit dans un mouvement vers les contrôleurs dits "fondation" pour la robotique incarnée. En manipulation, des systèmes comme pi-0 (Physical Intelligence) ou GR00T N2 (NVIDIA) ont déjà exploré la généralisation cross-embodiment sur bras et effecteurs; l'extension à la locomotion whole-body humanoïde est plus contrainte par la stabilité dynamique. Les acteurs du secteur, Figure Robotics (Figure 03), Unitree (G1, H1), Agility Robotics (Digit), Fourier Intelligence et 1X Technologies, maintiennent tous des pipelines de contrôle propriétaires et spécialisés. Si XHugWBC tient ses promesses à l'échelle, il réduirait significativement la barrière à l'entrée pour les nouveaux constructeurs, notamment les acteurs européens comme Enchanted Tools (Mirokaï) ou Wandercraft, qui ne disposent pas des ressources d'entraînement des géants américains. Le preprint n'a pas encore fait l'objet d'une évaluation par les pairs.

UELes constructeurs humanoïdes français Wandercraft et Enchanted Tools (Mirokaï) sont explicitement identifiés comme bénéficiaires potentiels, ce framework pouvant réduire significativement leurs coûts d'entraînement de locomotion sans nécessiter les ressources des géants américains.

IA physiqueOpinion
1 source
ExoActor : génération de vidéos exocentriques pour le contrôle généralisable d'humanoïdes interactifs
2arXiv cs.RO 

ExoActor : génération de vidéos exocentriques pour le contrôle généralisable d'humanoïdes interactifs

Un framework de contrôle humanoïde baptisé ExoActor a été publié en preprint sur arXiv (2604.27711, avril 2026) par une équipe proposant d'utiliser la génération vidéo en vue tierce comme interface unifiée de commande robotique. Le principe : à partir d'une instruction textuelle et du contexte visuel de la scène, ExoActor génère une vidéo synthétique d'exécution plausible, extrait les cinématiques humaines correspondantes, puis les transmet à un contrôleur de mouvement généraliste pour produire une séquence comportementale exécutable. Le pipeline complet, implémenté de bout en bout, est évalué sur des scénarios inédits sans collecte additionnelle de données réelles. L'intérêt de l'approche réside dans la manière dont elle attaque un verrou central du contrôle humanoïde : modéliser des comportements riches en interactions entre le robot, son environnement et les objets manipulés, tout en capturant simultanément contexte spatial, dynamiques temporelles et intention de tâche. Plutôt qu'un VLA classique mappant directement observations vers actions, ExoActor intercale une représentation vidéo comme espace latent intermédiaire, dont la capacité de généralisation provient de grands modèles vidéo pré-entraînés à l'échelle. Si les résultats de généralisation sont confirmés sur des benchmarks indépendants, cela ouvrirait une alternative sérieuse à la collecte coûteuse de données de téléopération que supportent actuellement des acteurs comme Figure AI, Agility Robotics ou 1X Technologies. Cette publication s'inscrit dans un courant cherchant à court-circuiter les démonstrations réelles via des modèles génératifs. Elle dialogue avec Pi-0 de Physical Intelligence (diffusion sur flux d'actions), GR00T N2 de NVIDIA (entraîné sur données humaines synthétiques et réelles), ainsi qu'avec UniSim et IRASim qui utilisent la synthèse vidéo comme simulateur de politique. La spécificité d'ExoActor est l'usage explicite d'une perspective exocentrique, vue tierce personne, là où d'autres approches travaillent en vue égocentrique. Les auteurs reconnaissent les limitations actuelles, notamment la qualité de l'estimation de mouvement humain à partir de vidéo synthétique. Aucun déploiement industriel ni partenariat commercial n'est annoncé : ExoActor reste à ce stade une contribution académique.

IA physiqueOpinion
1 source
SONIC : un système de suivi du mouvement étendu pour le contrôle corporel intégral des humanoïdes
3arXiv cs.RO 

SONIC : un système de suivi du mouvement étendu pour le contrôle corporel intégral des humanoïdes

Des chercheurs présentent SONIC (arXiv:2511.07820), un modèle fondateur pour le contrôle corporel complet de robots humanoïdes, construit autour d'une mise à l'échelle agressive le long de trois axes : la capacité réseau (de 1,2 million à 42 millions de paramètres), le volume de données (plus de 100 millions de frames issues de 700 heures de capture de mouvement) et le calcul (21 000 heures GPU). La tâche centrale est le suivi de mouvement (motion tracking), utilisé comme proxy d'entraînement pour inculquer des priors sur le mouvement humain sans ingénierie manuelle de récompenses. Deux applications aval sont démontrées : un planificateur cinématique temps réel reliant le suivi de mouvement à des tâches de navigation, et un espace de tokens unifié permettant à une seule politique de gérer à la fois la téléopération VR et des modèles vision-langage-action (VLA). Dans ce second mode, le système réalise de la loco-manipulation autonome en coordonnant simultanément position des mains et des pieds. L'apport principal est d'étendre les lois de scaling, jusqu'ici réservées aux grands modèles de langage, au contrôle humanoïde à corps complet. Les auteurs montrent que les performances progressent de manière régulière avec la quantité de données et le calcul, et que les politiques apprises généralisent à des mouvements non vus à l'entraînement, sans nécessiter de reward shaping manuel. Pour les intégrateurs, l'interface unifiée VR-VLA dans un seul modèle réduit le coût d'adaptation entre téléopération humaine et autonomie. Il convient néanmoins de noter qu'il s'agit d'une publication académique, non d'un produit déployé, et que les démonstrations vidéo sélectionnées ne permettent pas encore d'évaluer la robustesse en conditions industrielles réelles. SONIC s'inscrit dans une course au scaling qui agite l'ensemble de la filière humanoïde. Physical Intelligence a publié Pi-0, un modèle VLA polyvalent ; NVIDIA a lancé GR00T N2 en s'appuyant sur des données synthétiques massives ; Figure et Tesla visent des architectures propriétaires à grande échelle avec Optimus Gen 3. Les 42 millions de paramètres de SONIC restent modestes comparés aux VLA les plus ambitieux, et le travail ne mentionne pas d'affiliation à un fabricant de robot ni de calendrier de déploiement physique. La prochaine étape logique serait une validation sur hardware réel avec des évaluations quantitatives standardisées, un exercice que les benchmarks émergents du secteur commencent tout juste à formaliser.

IA physiqueOpinion
1 source
EgoPriMo : génération de mouvement égocentrique pour le contrôle interactif d'humanoïdes
4arXiv cs.RO 

EgoPriMo : génération de mouvement égocentrique pour le contrôle interactif d'humanoïdes

Des chercheurs ont publié le 9 juin 2026 sur arXiv (réf. 2606.08495) EgoPriMo, un cadre unifié d'apprentissage de prior de mouvement pour robots humanoïdes, entraîné exclusivement à partir de démonstrations humaines en vue égocentrique (caméra portée sur la personne). Le système prend en entrée une séquence vidéo égocentrique et un prompt texte, puis reconstruit, génère ou prédit des mouvements corps entier au format SMPL (Skinned Multi-Person Linear model, le standard académique de représentation du squelette humain). L'architecture centrale est un Triple-stream Diffusion Transformer (DiT) qui modélise conjointement la dynamique corporelle, le contexte visuel égocentriique et le langage naturel via un seul checkpoint partagé, des masques de conditionnement de tâche routant les trois cas d'usage sans architecture distincte. Évalué sur les datasets Nymeria et EgoExo4D, EgoPriMo surpasse UniEgoMotion sur la génération égocentrique, et les trajectoires SMPL produites ont été exécutées avec succès sur le contrôleur humanoïde Unitree (probablement G1 ou H1). Il s'agit d'un papier de recherche, pas d'un déploiement industriel. L'intérêt de cette approche tient à son vecteur de données : les vidéos égocentrique humaines (Nymeria, EgoExo4D) sont disponibles à grande échelle, contrairement aux démonstrations téléopérées sur robots qui restent coûteuses et lentes à collecter. En utilisant le langage comme signal de contrôle haut niveau plutôt que comme spécification complète du mouvement, EgoPriMo vise la généralisation comportementale sans avoir à décrire exhaustivement chaque trajectoire, ce qui est l'un des verrous historiques des systèmes VLA (Vision-Language-Action). Le fait qu'un seul checkpoint gère reconstruction, génération et prévision simplifie le déploiement et réduit la dette de maintenance. La validation sur Unitree démontre une transition sim-to-real partielle, bien qu'aucun chiffre de robustesse en environnement non contrôlé ne soit communiqué dans l'abstract. Ce travail s'inscrit dans une compétition dense autour des priors de mouvement pour humanoïdes. Physical Intelligence (Pi-0), NVIDIA (GR00T N2) et Figure (03) investissent massivement dans des pipelines VLA capables de généraliser à des tâches variées. L'originalité d'EgoPriMo est de contourner la dépendance aux données robot en exploitant l'observation humaine égocentrique, une direction explorée également par des travaux issus de CMU et Stanford sur l'imitation via vidéo. Le choix de Unitree comme cible hardware est cohérent avec sa diffusion large dans les labos académiques. Les prochaines étapes naturelles seraient une validation en environnement semi-industriel et une intégration dans une boucle de contrôle fermée, deux dimensions absentes de ce preprint.

RechercheOpinion
1 source