
OMG : génération de mouvements omnimodaux pour le contrôle généraliste des humanoïdes
Une équipe de chercheurs a déposé le 10 juin 2026 sur arXiv (ref. 2606.10340) un système baptisé OMG, Omni-Modal Motion Generation, conçu pour le contrôle whole-body généraliste des robots humanoïdes. L'architecture adopte une structure hiérarchique inspirée du système moteur biologique : un module supérieur de génération de mouvement basé sur la diffusion joue le rôle de "cerveau" planificateur, tandis qu'un contrôleur de suivi réactif bas niveau fait office de "cervelet". Ce cerveau est conditionnable simultanément sur du langage naturel, des signaux audio et des mouvements de référence humains. Le système s'appuie sur un pipeline de curation, filtrage et labellisation de données conçu pour couvrir un large spectre de comportements whole-body. Les auteurs revendiquent des performances state-of-the-art sur les benchmarks de contrôle humanoïde généraliste, ainsi qu'un comportement de scaling en fonction de la taille du modèle, deux propriétés clés pour qui veut construire un foundation model robotique.
L'intérêt de OMG tient à son traitement simultané de deux limitations structurelles du domaine : d'un côté, les politiques spécialisées actuelles exigent un reward engineering intensif et ne généralisent pas au-delà de quelques skills ; de l'autre, les motion trackers existants peinent à intégrer de nouvelles modalités d'entrée sans refonte architecturale. En conditionnant un unique modèle sur des entrées multimodales extensibles, le papier prolonge la logique des VLA (Vision-Language-Action models) vers la génération de mouvement full-body. Si les résultats survivent à l'évaluation externe, cela plaiderait pour qu'un seul modèle généraliste remplace plusieurs politiques spécialisées par déploiement, un argument commercial direct pour les intégrateurs. Point de vigilance : il s'agit d'un preprint non évalué par les pairs, sans données de déploiement physique publiées à ce stade.
Le papier s'inscrit dans une course active autour du contrôle humanoïde généraliste. Physical Intelligence a publié Pi-0 et Pi-0.5 autour d'architectures diffusion-based, NVIDIA a présenté GR00T N2 comme backbone transformer pour whole-body control, et Figure déploie Helix sur ses plateformes H1/H2 dans des environnements d'entrepôt. L'abstract ne mentionne ni institution d'origine ni robot physique cible, ce qui rend la comparaison directe avec ces systèmes impossible à ce stade. Les prochaines étapes naturelles seraient une soumission à CoRL ou RSS 2026 et une validation sur hardware réel, deux éléments absents de la publication actuelle.
Dans nos dossiers




