
Being-H0.7 : un modèle du monde-action en perspective égocentrique
Being-H0.7, un modèle de contrôle robotique publié sur arXiv début mai 2026 (référence 2605.00078), introduit une architecture dite "latent world-action model" pour les politiques robotiques généralisées. Le système repose sur une conception à double branche : une branche "prior" déployable en production, qui infère des états latents à partir de l'observation courante, et une branche "posterior" réservée à l'entraînement, qui enrichit ces états avec des embeddings issus d'observations futures. À l'inférence, seule la branche prior est active, sans génération de frames vidéo. Évalué sur six benchmarks de simulation standard et des tâches en environnement réel, Being-H0.7 atteint des performances à l'état de l'art ou comparables aux meilleurs modèles du moment.
Le problème central que résout cette architecture est bien documenté dans la communauté VLA (Visual-Language-Action) : une supervision trop sparse sur les actions pousse les modèles à apprendre des correspondances raccourcies, sans représentation interne des dynamiques physiques, des contacts ni de la progression de la tâche. Les tentatives antérieures d'intégrer des world models au contrôle robotique passaient par la prédiction en espace pixel, ce qui multiplie le coût computationnel à l'entraînement et à l'inférence, et oblige le modèle à modéliser des détails visuels sans valeur pour la décision motrice. Being-H0.7 contourne ce goulot en imposant le raisonnement futur dans un espace latent compact, via des "latent queries" apprises intercalées entre le module de perception et la tête d'action. Le résultat est un modèle qui raisonne comme un world model pendant l'entraînement, mais se déploie avec la latence d'une politique VLA directe.
Les VLA généralisés ont connu une accélération significative depuis 2023, portée par RT-2 (Google DeepMind), OpenVLA (UC Berkeley) et Pi-0 (Physical Intelligence). Sur le front des world models appliqués à la robotique, des approches comme Dreamer ou les travaux de NVIDIA autour de GR00T N2 ont exploré la prédiction de trajectoires, au prix d'une complexité d'inférence élevée. Being-H0.7, dont l'affiliation institutionnelle n'est pas précisée dans l'abstract, se positionne dans cet espace avec un compromis différent : intégrer la connaissance du futur sans jamais le générer. Le suffixe "H" suggère un ciblage humanoïde, mais l'absence de métriques opérationnelles détaillées dans la prépublication invite à attendre la version complète avant toute comparaison chiffrée définitive.
Dans nos dossiers




