Aller au contenu principal
DiLA : modèles du monde à représentation d'actions latentes disentangled
RecherchearXiv cs.RO6sem

DiLA : modèles du monde à représentation d'actions latentes disentangled

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Un preprint déposé sur arXiv (2605.15725) introduit DiLA, un modèle de monde à actions latentes disentanglées. Les Latent Action Models (LAMs) existants apprennent des représentations d'actions depuis des vidéos non annotées en inférant des transitions entre frames consécutifs, mais souffrent d'un compromis documenté: plus l'abstraction de l'action est poussée, plus la fidélité de génération vidéo se dégrade. DiLA attaque ce problème par un disentanglement contenu/structure: un pathway dédié encode les layouts spatiaux (structure), un second gère les détails visuels (content). L'insight central est que le goulot d'étranglement prédictif propre aux LAMs agit comme levier naturel pour ce disentanglement, sans supervision explicite. Les auteurs documentent des améliorations sur quatre métriques: qualité de génération vidéo, transfert d'action, planification visuelle et interprétabilité de l'espace latent.

L'enjeu pratique pour la robotique et les modèles VLA (Vision-Language-Action) est direct: les données d'actions annotées restent coûteuses à collecter, et un modèle de monde capable d'extraire des représentations d'actions sémantiquement cohérentes depuis des vidéos brutes pourrait réduire cette dépendance. La capacité de transfert d'action est particulièrement pertinente pour le problème sim-to-real: un disentanglement robuste entre structure et contenu visuel facilite la généralisation de dynamiques apprises en simulation vers des environnements réels. Contrairement aux approches à deux étapes qui nécessitent un world model pré-entraîné en amont, DiLA s'entraîne de bout en bout, ce qui simplifie le pipeline et réduit les dépendances à des modèles tiers.

Les LAMs trouvent leur ancrage dans des travaux comme LAPO et les méthodes basées sur l'optical flow, dont DiLA cherche à dépasser les limites. L'approche s'inscrit dans un écosystème plus large de world models auto-supervisés qui inclut Dreamer (DeepMind), GAIA-1 (Wayve, conduite autonome) et UniSim. Aucun partenariat industriel ni déploiement n'est annoncé: c'est une contribution de recherche fondamentale. Les suites logiques incluent une validation sur des benchmarks robotiques standardisés (RLBench, Calvin) et une intégration dans des pipelines VLA tels qu'OpenVLA ou pi0 (Physical Intelligence), où des représentations d'actions latentes robustes constituent un composant clé pour la généralisation inter-tâche et inter-robot.

À lire aussi

LARA : alignement des représentations d'actions latentes pour les modèles vision-langage-action
1arXiv cs.RO 

LARA : alignement des représentations d'actions latentes pour les modèles vision-langage-action

Une équipe de recherche propose LARA (Latent Action Representation Alignment), un framework qui entraîne conjointement deux composants jusqu'ici séparés dans les modèles vision-langage-action (VLA) : le modèle d'action latente (LAM), qui apprend des représentations d'actions à partir de vidéos non annotées, et le modèle VLA lui-même. Jusqu'à présent, ces deux briques étaient optimisées indépendamment, ce qui limitait leurs bénéfices mutuels : le LAM restait déconnecté du contexte robotique réel, et le VLA était contraint par des représentations figées, sans possibilité d'ajustement. LARA aligne les deux via un mécanisme de représentation partagée, permettant au LAM d'apprendre à partir de trajectoires d'actions réelles pour éviter de capter de simples changements visuels sans pertinence (comme un déplacement de caméra), tandis que le VLA est régularisé par la dynamique prédictive du LAM pour réduire les hallucinations de trajectoires inefficaces. Les auteurs rapportent des gains moyens d'environ 10% en pré-entraînement, 5% en amélioration post-entraînement de modèles VLA déjà entraînés, et 15% en affinage du LAM seul, mesurés sur trois benchmarks de manipulation en simulation et un benchmark réel conçu spécifiquement pour l'évaluation. L'enjeu pour le secteur est la dépendance chronique des VLA à des jeux de données robotiques réels, coûteux et rares à grande échelle. Exploiter des vidéos humaines non étiquetées comme source de supervision, sans perdre en fiabilité, est une piste suivie par plusieurs laboratoires travaillant sur des modèles comme GR00T N2 ou Pi-0. Ce que suggère LARA, c'est que le goulot d'étranglement n'est pas seulement la quantité de données vidéo disponibles, mais la façon dont les représentations d'action apprises restent ou non ancrées dans la réalité physique du robot pendant l'entraînement conjoint. L'approche s'inscrit dans la lignée des travaux sur les Latent Action Models, qui cherchent depuis plusieurs années à combler l'écart entre l'abondance de vidéos web et la rareté des démonstrations robotiques annotées. Contrairement à une annonce produit, il s'agit ici d'un travail académique (version 2 d'un article déposé sur arXiv), sans déploiement industriel annoncé ni calendrier de commercialisation ; sa portée dépendra de sa reproductibilité et de son adoption par les équipes développant des VLA en conditions réelles.

RecherchePaper
1 source
RotVLA : action latente de rotation pour les modèles vision-langage-action (VLA)
2arXiv cs.RO 

RotVLA : action latente de rotation pour les modèles vision-langage-action (VLA)

Un groupe de chercheurs a publié en mai 2026 RotVLA (arXiv:2605.13403), un framework Vision-Language-Action (VLA) qui substitue la quantification discrète des modèles d'action latente (LAM) existants par une représentation continue dans l'espace de rotation SO(n). Entraîné sur plus de 1 700 heures de données robotiques multi-embodiment et de vidéos humaines, le modèle compte 1,7 milliard de paramètres. Son architecture associe un backbone de modèle vision-langage et une tête d'action par flow-matching, étendue en aval en un "action expert" unifié qui dénoise simultanément actions latentes et actions robot. Sur LIBERO, RotVLA atteint 98,2 % de taux de succès ; sur RoboTwin2.0, il obtient 89,6 % en configuration propre et 88,5 % en configuration randomisée, surpassant les modèles VLA antérieurs dans les deux cas. Des expériences sur des tâches de manipulation réelle confirment ces résultats hors simulation. L'enjeu est architectural : les LAMs actuels, basés sur des pipelines VQ-VAE ou similaires, induisent une reconstruction de frames souvent triviale et n'imposent aucune contrainte géométrique cohérente avec la physique du mouvement. En modélisant les actions latentes comme des éléments de SO(n), RotVLA garantit continuité et compositionnalité absentes des espaces discrets, avec un triplet frame learning qui force une dynamique temporelle non dégénérée. Pour les équipes d'intégration robotique, cela ouvre la voie à un modèle de fondation plus robuste au sim-to-real, l'un des goulots d'étranglement centraux des VLAs en conditions industrielles. L'approche suggère que la structure géométrique de l'espace d'action peut compter autant que l'échelle des données d'entraînement. Le domaine des politiques robotiques généralistes a été structuré par Pi-0 (Physical Intelligence, 2024) et GR00T N2 (NVIDIA, 2025), qui misaient sur des corpus cross-embodiment massifs pour entraîner des politiques généralisables. RotVLA s'inscrit dans cette lignée mais parie sur une représentation latente géométriquement structurée plutôt que sur le volume brut de paramètres, avec 1,7B contre plusieurs dizaines de milliards pour les modèles concurrents les plus ambitieux. Les scores LIBERO et RoboTwin2.0 sont des benchmarks académiques standardisés ; leur transposition sur des cellules industrielles réelles (bras collaboratifs, tri et picking) reste à démontrer. Aucun partenaire de déploiement ni calendrier commercial ne figure dans la publication : RotVLA est, à ce stade, une contribution de recherche.

RechercheOpinion
1 source
HARP-VLA : apprentissage de représentations alignées humain-robot pour modèle vision-langage-action
3arXiv cs.RO 

HARP-VLA : apprentissage de représentations alignées humain-robot pour modèle vision-langage-action

Des chercheurs ont publié le 31 mai 2026 HARP-VLA (Human-Robot Aligned Representation Learning for Vision-Language-Action), un framework de pré-entraînement conçu pour exploiter les vastes corpus de vidéos humaines dans l'apprentissage de politiques de manipulation robotique. Le coeur de l'approche repose sur deux composants entraînés conjointement : un encodeur visuel adapté aux robots et un modèle d'action latente. L'entraînement combine un petit nombre de démonstrations appariées humain-robot utilisées comme ponts inter-embodiment, et une quantité bien plus importante de vidéos non appariées des deux types comme supervision de dynamique. Sur le benchmark CALVIN ABC-D, HARP-VLA atteint un score moyen de 4,481 tâches consécutives réussies, et enregistre un gain de 7,1 points de pourcentage de taux de succès en conditions réelles par rapport à la meilleure baseline testée. Le problème que résout HARP est structurel pour tout le champ des VLA (Vision-Language-Action models) : les vidéos humaines sont abondantes et bon marché, mais les représentations visuelles qu'on en extrait sont mal alignées avec celles d'un robot, ce qui rend le co-entraînement inefficace voire contre-productif. Les modèles d'action latente existants, comme ceux utilisés dans les travaux sur UniPi ou Genie, réduisaient déjà le gap d'exécution en apprenant des abstractions d'action, mais restaient dépendants de features visuelles non alignées induisant des actions latentes domain-dépendantes. HARP introduit une perte d'alignement par discrimination relative de paires (source-relative pair-discriminative alignment loss) qui adapte les représentations robot vers la sémantique humaine sans effacer la discrimination inter-paires. Pour les intégrateurs et les équipes de recherche en manipulation, c'est un signal concret que le sim-to-real gap peut être partiellement adressé au niveau de la représentation, pas seulement du domaine de simulation. Ce travail s'inscrit dans une lignée de recherches sur l'apprentissage inter-embodiment qui a pris de l'ampleur depuis RT-2 (Google DeepMind, 2023) et OpenVLA (2024), lesquels montraient qu'un pré-entraînement sur données humaines ou web pouvait transférer vers des politiques robotiques. Les approches concurrentes directes incluent Octo, pi-0 de Physical Intelligence, et GR00T N2 de NVIDIA, tous confrontés à la même tension entre généralisation cross-embodiment et performance sur tâches précises. HARP se distingue en n'exigeant que peu de démonstrations appariées, ce qui réduit le coût de collecte de données. L'article reste pour l'instant une publication arXiv sans déploiement industriel annoncé, et les résultats en conditions réelles, bien que positifs, portent sur un nombre limité de configurations de manipulation.

RechercheOpinion
1 source
Robot mobile-manipulateur unifié : ABot-M0.5 présente un modèle d'action du monde
4arXiv cs.RO 

Robot mobile-manipulateur unifié : ABot-M0.5 présente un modèle d'action du monde

Voici la traduction/synthèse en français : Des chercheurs présentent ABot-M0.5, un nouveau "World Action Model" (WAM) conçu pour la manipulation mobile, cette capacité qui combine navigation et manipulation d'objets chez un robot généraliste. Publié sur arXiv début juillet 2026, l'article part d'un constat : les politiques VLA actuelles restent réactives et sans modélisation explicite du monde, tandis que les WAM existants sont mal adaptés à la manipulation mobile car ils traitent des séquences vidéo trop grossières, mélangent les actions de navigation et de manipulation, et entraînent leur dynamique inverse avec une supervision qui ne correspond pas aux conditions réelles d'inférence autorégressive. Pour y remédier, ABot-M0.5 introduit des "actions latentes intermédiaires" qui capturent les transitions visuelles locales et servent de pont entre les représentations vidéo et les commandes propres à chaque robot. Le modèle repose aussi sur une architecture de type Mixture-of-Transformers à deux niveaux, séparant les modalités et les sous-espaces d'action hétérogènes (déplacement de la base d'un côté, manipulation du bras de l'autre). Enfin, une stratégie d'entraînement baptisée "dream-forcing" entraîne progressivement la dynamique inverse sur des vidéos générées par le modèle lui-même plutôt que sur les seules trajectoires réelles, ce qui rapproche les conditions d'entraînement et de test. Les auteurs revendiquent des résultats état de l'art sur des benchmarks de manipulation mobile et de manipulation fine, tant sur le taux de réussite des tâches longues que sur la précision de contrôle. Pour l'industrie robotique, ce travail s'attaque à un problème connu et bloquant : l'accumulation d'erreurs lors des déplacements longs, causée par un décalage entre l'entraînement (sur trajectoires vérité terrain) et l'exécution réelle, où le robot doit composer avec ses propres erreurs qui s'accumulent. Si la méthode tient ses promesses au-delà des benchmarks internes, elle constituerait une avancée utile pour les intégrateurs visant des robots mobiles capables d'enchaîner navigation, saisie et dépose sur plusieurs étapes, un scénario bien plus exigeant que la simple manipulation statique sur table. Il s'agit toutefois d'un préprint arXiv non encore relu par les pairs, sans institution ni entreprise clairement identifiée dans le résumé, et les métriques de "état de l'art" reposent sur des comparaisons choisies par les auteurs eux-mêmes. Une réplication indépendante sera nécessaire avant de juger de la portée réelle de cette approche face aux autres travaux sur les modèles monde appliqués à la robotique.

RechercheActu
1 source