
LARA : alignement des représentations d'actions latentes pour les modèles vision-langage-action
Une équipe de recherche propose LARA (Latent Action Representation Alignment), un framework qui entraîne conjointement deux composants jusqu'ici séparés dans les modèles vision-langage-action (VLA) : le modèle d'action latente (LAM), qui apprend des représentations d'actions à partir de vidéos non annotées, et le modèle VLA lui-même. Jusqu'à présent, ces deux briques étaient optimisées indépendamment, ce qui limitait leurs bénéfices mutuels : le LAM restait déconnecté du contexte robotique réel, et le VLA était contraint par des représentations figées, sans possibilité d'ajustement. LARA aligne les deux via un mécanisme de représentation partagée, permettant au LAM d'apprendre à partir de trajectoires d'actions réelles pour éviter de capter de simples changements visuels sans pertinence (comme un déplacement de caméra), tandis que le VLA est régularisé par la dynamique prédictive du LAM pour réduire les hallucinations de trajectoires inefficaces. Les auteurs rapportent des gains moyens d'environ 10% en pré-entraînement, 5% en amélioration post-entraînement de modèles VLA déjà entraînés, et 15% en affinage du LAM seul, mesurés sur trois benchmarks de manipulation en simulation et un benchmark réel conçu spécifiquement pour l'évaluation.
L'enjeu pour le secteur est la dépendance chronique des VLA à des jeux de données robotiques réels, coûteux et rares à grande échelle. Exploiter des vidéos humaines non étiquetées comme source de supervision, sans perdre en fiabilité, est une piste suivie par plusieurs laboratoires travaillant sur des modèles comme GR00T N2 ou Pi-0. Ce que suggère LARA, c'est que le goulot d'étranglement n'est pas seulement la quantité de données vidéo disponibles, mais la façon dont les représentations d'action apprises restent ou non ancrées dans la réalité physique du robot pendant l'entraînement conjoint.
L'approche s'inscrit dans la lignée des travaux sur les Latent Action Models, qui cherchent depuis plusieurs années à combler l'écart entre l'abondance de vidéos web et la rareté des démonstrations robotiques annotées. Contrairement à une annonce produit, il s'agit ici d'un travail académique (version 2 d'un article déposé sur arXiv), sans déploiement industriel annoncé ni calendrier de commercialisation ; sa portée dépendra de sa reproductibilité et de son adoption par les équipes développant des VLA en conditions réelles.
Dans nos dossiers




