
L'action latente axée sur le mouvement permet l'entraînement VLA multi-morphologie depuis des vidéos subjectives humaines
Une équipe de chercheurs a publié un cadre d'entraînement basé sur des actions latentes permettant de former des modèles VLA (Vision-Language-Action) généralistes à partir de vidéos égocentriques humaines non annotées, sous l'identifiant arXiv:2606.18955. L'architecture centrale, baptisée Hybrid Disentangled VQ-VAE, décompose les dynamiques de mouvement des arrière-plans environnementaux via des masques physiques et construit un codebook d'actions multi-embodiment. Pré-entraîné exclusivement sur des vidéos humaines sans étiquettes d'action, le modèle ne requiert que 50 trajectoires robotiques annotées pour s'adapter à un embodiment cible, contre des milliers généralement exigés par les approches concurrentes. Les résultats, validés en simulation et en environnement réel, affichent des performances comparables aux meilleurs modèles VLA entraînés sur des jeux de données massifs et entièrement annotés. Une stratégie de découplage intention-perception complète l'architecture : le backbone VLM prédit l'intention d'action tandis qu'un encodeur visuel gelé distinct fournit les caractéristiques propres à l'état courant à un module expert d'action, réduisant ainsi les hallucinations d'action.
Ce travail s'attaque directement au principal goulot d'étranglement du domaine : la rareté des données robotiques avec annotations de haute fidélité. Les vidéos humaines égocentriques, abondantes sur internet et capturant une grande diversité environnementale, restaient jusqu'ici inexploitables dans les paradigmes d'entraînement classiques faute de labels d'action. Descendre à 50 trajectoires pour l'adaptation aval représente un changement d'ordre de grandeur pour les intégrateurs industriels qui n'ont ni la logistique ni le budget pour constituer des datasets robotiques à grande échelle. Le codebook cross-embodiment ouvre en outre la voie à des modèles fondamentaux transférables entre différentes morphologies de robots, ce qui répond à l'un des reproches récurrents faits aux approches VLA : leur faible généralisation inter-plateforme.
Le contexte concurrentiel est dense. Pi-0 de Physical Intelligence, GR00T N2 de NVIDIA et OpenVLA visent tous à former des modèles VLA généralistes, mais s'appuient principalement sur des datasets robotiques annotés comme OpenX-Embodiment ou des jeux propriétaires. Des travaux antérieurs comme UniSim ou des approches de pré-entraînement sur vidéo internet avaient déjà exploré cette direction sans atteindre ce niveau de frugalité en données. Ce preprint arXiv reste à ce stade une contribution de recherche : pas de déploiement industriel annoncé, pas de partenariat déclaré. Les prochaines étapes naturelles seraient une évaluation sur des benchmarks standardisés comme LIBERO ou RoboSuite, et une validation sur une palette plus large de morphologies robotiques réelles.
Dans nos dossiers




