Aller au contenu principal
LARA : alignement des représentations d'actions latentes pour les modèles vision-langage-action
RecherchearXiv cs.RO3h

LARA : alignement des représentations d'actions latentes pour les modèles vision-langage-action

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Une équipe de recherche propose LARA (Latent Action Representation Alignment), un framework qui entraîne conjointement deux composants jusqu'ici séparés dans les modèles vision-langage-action (VLA) : le modèle d'action latente (LAM), qui apprend des représentations d'actions à partir de vidéos non annotées, et le modèle VLA lui-même. Jusqu'à présent, ces deux briques étaient optimisées indépendamment, ce qui limitait leurs bénéfices mutuels : le LAM restait déconnecté du contexte robotique réel, et le VLA était contraint par des représentations figées, sans possibilité d'ajustement. LARA aligne les deux via un mécanisme de représentation partagée, permettant au LAM d'apprendre à partir de trajectoires d'actions réelles pour éviter de capter de simples changements visuels sans pertinence (comme un déplacement de caméra), tandis que le VLA est régularisé par la dynamique prédictive du LAM pour réduire les hallucinations de trajectoires inefficaces. Les auteurs rapportent des gains moyens d'environ 10% en pré-entraînement, 5% en amélioration post-entraînement de modèles VLA déjà entraînés, et 15% en affinage du LAM seul, mesurés sur trois benchmarks de manipulation en simulation et un benchmark réel conçu spécifiquement pour l'évaluation.

L'enjeu pour le secteur est la dépendance chronique des VLA à des jeux de données robotiques réels, coûteux et rares à grande échelle. Exploiter des vidéos humaines non étiquetées comme source de supervision, sans perdre en fiabilité, est une piste suivie par plusieurs laboratoires travaillant sur des modèles comme GR00T N2 ou Pi-0. Ce que suggère LARA, c'est que le goulot d'étranglement n'est pas seulement la quantité de données vidéo disponibles, mais la façon dont les représentations d'action apprises restent ou non ancrées dans la réalité physique du robot pendant l'entraînement conjoint.

L'approche s'inscrit dans la lignée des travaux sur les Latent Action Models, qui cherchent depuis plusieurs années à combler l'écart entre l'abondance de vidéos web et la rareté des démonstrations robotiques annotées. Contrairement à une annonce produit, il s'agit ici d'un travail académique (version 2 d'un article déposé sur arXiv), sans déploiement industriel annoncé ni calendrier de commercialisation ; sa portée dépendra de sa reproductibilité et de son adoption par les équipes développant des VLA en conditions réelles.

À lire aussi

RotVLA : action latente de rotation pour les modèles vision-langage-action (VLA)
1arXiv cs.RO 

RotVLA : action latente de rotation pour les modèles vision-langage-action (VLA)

Un groupe de chercheurs a publié en mai 2026 RotVLA (arXiv:2605.13403), un framework Vision-Language-Action (VLA) qui substitue la quantification discrète des modèles d'action latente (LAM) existants par une représentation continue dans l'espace de rotation SO(n). Entraîné sur plus de 1 700 heures de données robotiques multi-embodiment et de vidéos humaines, le modèle compte 1,7 milliard de paramètres. Son architecture associe un backbone de modèle vision-langage et une tête d'action par flow-matching, étendue en aval en un "action expert" unifié qui dénoise simultanément actions latentes et actions robot. Sur LIBERO, RotVLA atteint 98,2 % de taux de succès ; sur RoboTwin2.0, il obtient 89,6 % en configuration propre et 88,5 % en configuration randomisée, surpassant les modèles VLA antérieurs dans les deux cas. Des expériences sur des tâches de manipulation réelle confirment ces résultats hors simulation. L'enjeu est architectural : les LAMs actuels, basés sur des pipelines VQ-VAE ou similaires, induisent une reconstruction de frames souvent triviale et n'imposent aucune contrainte géométrique cohérente avec la physique du mouvement. En modélisant les actions latentes comme des éléments de SO(n), RotVLA garantit continuité et compositionnalité absentes des espaces discrets, avec un triplet frame learning qui force une dynamique temporelle non dégénérée. Pour les équipes d'intégration robotique, cela ouvre la voie à un modèle de fondation plus robuste au sim-to-real, l'un des goulots d'étranglement centraux des VLAs en conditions industrielles. L'approche suggère que la structure géométrique de l'espace d'action peut compter autant que l'échelle des données d'entraînement. Le domaine des politiques robotiques généralistes a été structuré par Pi-0 (Physical Intelligence, 2024) et GR00T N2 (NVIDIA, 2025), qui misaient sur des corpus cross-embodiment massifs pour entraîner des politiques généralisables. RotVLA s'inscrit dans cette lignée mais parie sur une représentation latente géométriquement structurée plutôt que sur le volume brut de paramètres, avec 1,7B contre plusieurs dizaines de milliards pour les modèles concurrents les plus ambitieux. Les scores LIBERO et RoboTwin2.0 sont des benchmarks académiques standardisés ; leur transposition sur des cellules industrielles réelles (bras collaboratifs, tri et picking) reste à démontrer. Aucun partenaire de déploiement ni calendrier commercial ne figure dans la publication : RotVLA est, à ce stade, une contribution de recherche.

RechercheOpinion
1 source
HARP-VLA : apprentissage de représentations alignées humain-robot pour modèle vision-langage-action
2arXiv cs.RO 

HARP-VLA : apprentissage de représentations alignées humain-robot pour modèle vision-langage-action

Des chercheurs ont publié le 31 mai 2026 HARP-VLA (Human-Robot Aligned Representation Learning for Vision-Language-Action), un framework de pré-entraînement conçu pour exploiter les vastes corpus de vidéos humaines dans l'apprentissage de politiques de manipulation robotique. Le coeur de l'approche repose sur deux composants entraînés conjointement : un encodeur visuel adapté aux robots et un modèle d'action latente. L'entraînement combine un petit nombre de démonstrations appariées humain-robot utilisées comme ponts inter-embodiment, et une quantité bien plus importante de vidéos non appariées des deux types comme supervision de dynamique. Sur le benchmark CALVIN ABC-D, HARP-VLA atteint un score moyen de 4,481 tâches consécutives réussies, et enregistre un gain de 7,1 points de pourcentage de taux de succès en conditions réelles par rapport à la meilleure baseline testée. Le problème que résout HARP est structurel pour tout le champ des VLA (Vision-Language-Action models) : les vidéos humaines sont abondantes et bon marché, mais les représentations visuelles qu'on en extrait sont mal alignées avec celles d'un robot, ce qui rend le co-entraînement inefficace voire contre-productif. Les modèles d'action latente existants, comme ceux utilisés dans les travaux sur UniPi ou Genie, réduisaient déjà le gap d'exécution en apprenant des abstractions d'action, mais restaient dépendants de features visuelles non alignées induisant des actions latentes domain-dépendantes. HARP introduit une perte d'alignement par discrimination relative de paires (source-relative pair-discriminative alignment loss) qui adapte les représentations robot vers la sémantique humaine sans effacer la discrimination inter-paires. Pour les intégrateurs et les équipes de recherche en manipulation, c'est un signal concret que le sim-to-real gap peut être partiellement adressé au niveau de la représentation, pas seulement du domaine de simulation. Ce travail s'inscrit dans une lignée de recherches sur l'apprentissage inter-embodiment qui a pris de l'ampleur depuis RT-2 (Google DeepMind, 2023) et OpenVLA (2024), lesquels montraient qu'un pré-entraînement sur données humaines ou web pouvait transférer vers des politiques robotiques. Les approches concurrentes directes incluent Octo, pi-0 de Physical Intelligence, et GR00T N2 de NVIDIA, tous confrontés à la même tension entre généralisation cross-embodiment et performance sur tâches précises. HARP se distingue en n'exigeant que peu de démonstrations appariées, ce qui réduit le coût de collecte de données. L'article reste pour l'instant une publication arXiv sans déploiement industriel annoncé, et les résultats en conditions réelles, bien que positifs, portent sur un nombre limité de configurations de manipulation.

RechercheOpinion
1 source
AffordVLA : intégration de représentations d'affordance dans les modèles vision-langage-action (VLA) par alignement implicite de caractéristiques
3arXiv cs.RO 

AffordVLA : intégration de représentations d'affordance dans les modèles vision-langage-action (VLA) par alignement implicite de caractéristiques

Des chercheurs ont déposé en mai 2026 sur arXiv (arXiv:2605.17517) un papier présentant AffordVLA, un framework qui améliore la précision des modèles Vision-Langage-Action (VLA) en robotique de manipulation. Le problème central: les VLA actuels encodent l'apparence globale des objets mais peinent à localiser les zones d'interaction fonctionnelle, les affordances, telles que le point de préhension ou la surface de contact optimale. AffordVLA injecte ces représentations d'affordance directement dans les couches visuelles intermédiaires du VLA via un alignement implicite, sans annotation supplémentaire ni module de perception externe. Un "teacher" d'affordance zero-shot extrait des cartes fonctionnelles conditionnées par l'instruction en langage naturel, puis les aligne avec les représentations internes du modèle pendant l'entraînement. Les expériences en simulation et en environnement réel rapportent des performances supérieures aux baselines, avec un taux de succès en manipulation amélioré, sans que l'abstract ne publie de métriques absolues chiffrées. Ce gap entre apparence globale et localisation fonctionnelle est l'un des facteurs limitants du sim-to-real gap en manipulation non structurée: les systèmes réussissent en laboratoire contrôlé mais échouent dès que l'éclairage, le fond ou la pose de l'objet varient. En internalisant la perception d'affordance dans le VLA lui-même, AffordVLA évite les erreurs en cascade des architectures hybrides couplant un VLA à un module de segmentation externe, et n'alourdit pas le temps d'inférence, un critère déterminant pour les déploiements industriels en temps réel. La suppression de la dépendance aux masques annotés réduit également le coût de mise en données pour les intégrateurs, ce qui élargit la portée pratique de l'approche. AffordVLA s'inscrit dans l'accélération des travaux académiques autour des VLA depuis RT-2 (Google DeepMind, 2023), dans un secteur aujourd'hui dominé par des systèmes propriétaires comme Pi-0 (Physical Intelligence), GR00T N2 (NVIDIA) et Helix (Figure AI). Ce courant cherche à améliorer le grounding spatial sans refonte architecturale complète, une approche plus accessible pour les laboratoires sans les moyens de Physical Intelligence ou de Figure. Le papier reste un preprint non peer-reviewed; aucun partenariat industriel ni déploiement terrain n'est mentionné. La suite logique serait une validation sur des benchmarks standardisés comme BridgeV2 ou OpenX-Embodiment, et une intégration dans des pipelines open-source comme LeRobot ou OpenVLA.

RechercheOpinion
1 source
DiLA : modèles du monde à représentation d'actions latentes disentangled
4arXiv cs.RO 

DiLA : modèles du monde à représentation d'actions latentes disentangled

Un preprint déposé sur arXiv (2605.15725) introduit DiLA, un modèle de monde à actions latentes disentanglées. Les Latent Action Models (LAMs) existants apprennent des représentations d'actions depuis des vidéos non annotées en inférant des transitions entre frames consécutifs, mais souffrent d'un compromis documenté: plus l'abstraction de l'action est poussée, plus la fidélité de génération vidéo se dégrade. DiLA attaque ce problème par un disentanglement contenu/structure: un pathway dédié encode les layouts spatiaux (structure), un second gère les détails visuels (content). L'insight central est que le goulot d'étranglement prédictif propre aux LAMs agit comme levier naturel pour ce disentanglement, sans supervision explicite. Les auteurs documentent des améliorations sur quatre métriques: qualité de génération vidéo, transfert d'action, planification visuelle et interprétabilité de l'espace latent. L'enjeu pratique pour la robotique et les modèles VLA (Vision-Language-Action) est direct: les données d'actions annotées restent coûteuses à collecter, et un modèle de monde capable d'extraire des représentations d'actions sémantiquement cohérentes depuis des vidéos brutes pourrait réduire cette dépendance. La capacité de transfert d'action est particulièrement pertinente pour le problème sim-to-real: un disentanglement robuste entre structure et contenu visuel facilite la généralisation de dynamiques apprises en simulation vers des environnements réels. Contrairement aux approches à deux étapes qui nécessitent un world model pré-entraîné en amont, DiLA s'entraîne de bout en bout, ce qui simplifie le pipeline et réduit les dépendances à des modèles tiers. Les LAMs trouvent leur ancrage dans des travaux comme LAPO et les méthodes basées sur l'optical flow, dont DiLA cherche à dépasser les limites. L'approche s'inscrit dans un écosystème plus large de world models auto-supervisés qui inclut Dreamer (DeepMind), GAIA-1 (Wayve, conduite autonome) et UniSim. Aucun partenariat industriel ni déploiement n'est annoncé: c'est une contribution de recherche fondamentale. Les suites logiques incluent une validation sur des benchmarks robotiques standardisés (RLBench, Calvin) et une intégration dans des pipelines VLA tels qu'OpenVLA ou pi0 (Physical Intelligence), où des représentations d'actions latentes robustes constituent un composant clé pour la généralisation inter-tâche et inter-robot.

RechercheOpinion
1 source