
HoloMotion-1 : rapport technique
Un rapport technique déposé sur arXiv (2605.15336) présente HoloMotion-1, un modèle fondateur de mouvement pour robots humanoïdes conçu pour le suivi de posture corps entier en mode zero-shot, sans adaptation spécifique à la tâche cible. L'originalité du système tient à son corpus hybride : des mouvements reconstruits par vision à partir de vidéos "in-the-wild" constituent la principale source de diversité comportementale, tandis que des données de motion capture (MoCap) soigneusement sélectionnées assurent une supervision haute fidélité. Architecturalement, HoloMotion-1 s'appuie sur un Transformer Mixture-of-Experts (MoE) à activation sparse avec inférence par KV-cache pour le contrôle temps réel, complété par une stratégie d'entraînement sur séquences longues. Testé sur plusieurs benchmarks de mouvement non vus à l'entraînement, le modèle se transfère directement sur un robot humanoïde physique sans fine-tuning additionnel.
Le transfert zero-shot vers hardware réel est l'affirmation la plus structurante du rapport : la majorité des approches de contrôle humanoïde exigent jusqu'ici un ajustement pour chaque morphologie ou environnement de déploiement, ce qui freine la généralisation industrielle. L'usage massif de vidéos in-the-wild comme source d'entraînement, plutôt que du MoCap en laboratoire, est une rupture méthodologique potentielle qui élargit le spectre de comportements appris sans nécessiter d'infrastructure de capture coûteuse. L'architecture MoE avec KV-cache emprunte à l'outillage des grands modèles de langage pour répondre aux contraintes de latence du contrôle embarqué temps réel. Le résumé mentionne une amélioration significative de la précision de tracking sur benchmarks, sans préciser les marges numériques.
L'affiliation des auteurs n'est pas indiquée dans ce résumé arXiv, ce qui est inhabituel pour un rapport technique de cette envergure. HoloMotion-1 s'inscrit dans un espace concurrentiel actif : NVIDIA a publié GR00T N2 pour le contrôle généraliste d'humanoïdes, Physical Intelligence (pi_0) entraîne des politiques multi-tâche sur données hétérogènes, et plusieurs laboratoires comme CMU, UCB ou ETH Zurich travaillent sur le transfert sim-to-real. La notion de "modèle fondateur de mouvement" réutilisable sur plusieurs plateformes s'inscrit dans la tendance à standardiser les couches de contrôle bas niveau des humanoïdes. La prochaine étape logique serait la validation multi-morphologies sur des plateformes comme Unitree H1/G1, Fourier GR1 ou Agility Digit, et des tests en conditions industrielles réelles.
Le zero-shot sur hardware réel, c'est l'assertion qui fait tout le travail ici. Si ça tient vraiment sans fine-tuning par morphologie, c'est une rupture nette avec ce qu'on voit d'habitude, où chaque robot demande son propre round d'adaptation. Bémol quand même : pas d'affiliation indiquée sur l'arXiv, les marges numériques absentes, ça sent le papier un peu pressé.




