Libérer des mouvements expressifs infinis chez les quadrupèdes via des priors vidéo génératifs
Des chercheurs ont publié le 29 juin 2026 sur arXiv (2606.28237) un pipeline nommé Uni-Mo, capable de générer automatiquement des mouvements expressifs pour robots quadrupèdes sans recourir à des animaux réels comme source de données. Le système enchaîne trois étapes : un LLM produit des descriptions textuelles de mouvements, un modèle de diffusion vidéo synthétise les comportements correspondants sous forme de séquences visuelles, puis ces vidéos sont converties en trajectoires 3D servant à entraîner des politiques de suivi déployées sur un Unitree Go2. Pour stabiliser les générations vidéo naturellement instables sur la durée, les auteurs introduisent une "Identity Consistency Loss" qui impose une cohérence d'apparence du robot entre les frames. Le jeu de données résultant, Quad-Imaginarium (disponible en open source sur GitHub), regroupe 7 488 séquences de mouvements annotées en langage naturel, couvrant 18,5 heures de comportements acrobatiques et expressifs. Sur 392 mouvements tirés aléatoirement et testés physiquement sur un Go2 réel, le taux de succès de déploiement atteint 96,7 %, contre 97,6 % en simulation sur l'ensemble du dataset.
Ce résultat est notable parce qu'il contourne une hypothèse tacite qui plombait les approches précédentes : faire passer les données de mouvement par un corps animal réel, ce qui rendait la collecte dépendante d'animaux coopératifs, la reconstruction fragile selon les espèces, et le retargeting mal posé face aux incompatibilités morphologiques. En traitant la rareté des données comme un problème de génération plutôt que de capture, Uni-Mo démontre qu'un pipeline entièrement synthétique peut atteindre un taux sim-to-real supérieur à 96 %, ce qui valide empiriquement l'hypothèse que la diffusion vidéo peut servir de simulateur comportemental crédible pour la robotique quadrupède. Pour les intégrateurs et décideurs B2B, cela signifie potentiellement une voie vers des robots compagnons ou d'inspection aux comportements riches, sans infrastructure de motion capture animale.
Le champ du mouvement quadrupède expressif est dominé par des approches d'imitation sur données réelles (Boston Dynamics, ANYbotics, Unitree lui-même) ou de retargeting depuis des séquences canines capturées en laboratoire. Uni-Mo s'inscrit dans une tendance émergente qui mobilise les générateurs vidéo comme oracles de physique approximative, après des travaux similaires dans le domaine humanoïde (notamment autour de Pi-0 de Physical Intelligence et des pipelines VLA). L'Unitree Go2, robot grand public à moins de 3 000 dollars, est ici utilisé comme plateforme de validation, ce qui renforce la reproductibilité de l'approche. Les prochaines étapes probables incluent l'extension à des morphologies différentes et l'intégration de retours proprioceptifs pour fermer la boucle en temps réel.
Dans nos dossiers




