Aller au contenu principal
Modèle MVP-LAM : apprentissage de représentations d'actions latentes centrées sur l'action par reconstruction multi-points de vue
IA physiquearXiv cs.RO7sem

Modèle MVP-LAM : apprentissage de représentations d'actions latentes centrées sur l'action par reconstruction multi-points de vue

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Une équipe de chercheurs a publié MVP-LAM (Multi-ViewPoint Latent Action Model), une méthode visant à améliorer le pré-entraînement des modèles vision-langage-action (VLA) à partir de vidéos humaines non étiquetées. Le problème ciblé : les actions latentes apprises depuis des vidéos mono-vue encodent des indices visuels propres à l'angle de caméra, plutôt que la sémantique réelle du mouvement. MVP-LAM impose un objectif de reconstruction inter-vues (cross-viewpoint reconstruction) : une action latente extraite depuis une caméra doit prédire l'évolution de la scène telle que vue depuis une autre caméra. Évalué sur le jeu de données Bridge V2, le modèle produit des actions latentes dont l'information mutuelle avec les vraies actions de référence dépasse celle des baselines, y compris en conditions hors-distribution. Ces représentations améliorées se traduisent par de meilleures performances de manipulation en aval sur plusieurs benchmarks standards. Le code et les checkpoints entraînés sont disponibles publiquement.

La contrainte géométrique multi-vues a un impact direct pour les intégrateurs : un modèle pré-entraîné sur des actions latentes robustes au changement de point de vue devrait mieux résister au gap entre démonstration et déploiement réel, notamment dans des cellules robotiques où la position des caméras diffère entre collecte de données et production. MVP-LAM valide aussi l'usage de larges corpus vidéo non supervisés (vidéos internet, archives industrielles) sans démonstrations téléopérées : la cohérence inter-vues remplace partiellement le signal proprioceptif, réduisant le coût de collecte des données d'entraînement.

Le pré-entraînement VLA depuis des vidéos non annotées s'inscrit dans la continuité de travaux comme RT-2 (Google DeepMind), UniPi, et plus récemment pi-0 (Physical Intelligence) ou OpenVLA. Ces approches partagent l'ambition d'exploiter des données vidéo à grande échelle pour doter les robots d'une compréhension généraliste du mouvement avant fine-tuning sur tâches spécifiques. MVP-LAM apporte une contribution méthodologique en renforçant la qualité des pseudo-labels d'action, une étape souvent négligée au profit de l'architecture des modèles aval. Il s'agit d'un travail académique sans déploiement industriel annoncé, mais dont la disponibilité du code facilite la reproduction et l'adaptation sur d'autres plateformes robotiques.

À lire aussi

XR-1 : vers des modèles VLA polyvalents par apprentissage de représentations vision-mouvement unifiées
1arXiv cs.RO 

XR-1 : vers des modèles VLA polyvalents par apprentissage de représentations vision-mouvement unifiées

Une équipe de recherche a publié XR-1 (X Robotic Model 1), un cadre d'apprentissage pour modèles vision-langage-action (VLA) conçu pour opérer sur des robots hétérogènes, disponible en preprint arXiv sous la référence 2511.02776v2. La contribution centrale est l'introduction des UVMC (Unified Vision-Motion Codes), une représentation latente discrète apprise via un VQ-VAE à double branche qui encode conjointement la dynamique visuelle et le mouvement robotique. L'entraînement suit trois étapes : apprentissage auto-supervisé des UVMC, pré-entraînement guidé par UVMC sur de grands ensembles de données cross-embodiment, puis fine-tuning spécifique à chaque tâche. XR-1 a été validé sur plus de 14 000 rollouts couvrant six morphologies robotiques différentes et plus de 120 tâches de manipulation. Les benchmarks affichent des performances supérieures à celles de π0.5, π0 (Physical Intelligence), RDT, UniVLA et GR00T-N1.5 (NVIDIA), avec une robustesse avérée face aux objets inconnus, variations d'arrière-plan, distracteurs et changements d'éclairage. L'enjeu que XR-1 cherche à résoudre est structurant pour le secteur : la généralisation cross-embodiment, soit la capacité d'un seul modèle à piloter des robots aux morphologies radicalement différentes à partir de données hétérogènes incluant des démonstrations humaines. Les approches précédentes encodaient soit la dynamique visuelle, soit les actions robotiques, rarement les deux conjointement. Le UVMC agit comme représentation intermédiaire unifiée entre observations et actions, réduisant le fossé entre sources de données disparates. Dépasser π0.5 et GR00T-N1.5 sur des évaluations en monde réel plutôt qu'en simulation constitue un signal sérieux, même si les benchmarks VLA restent notoires pour leur sensibilité aux conditions exactes d'évaluation et au choix des tâches de test. XR-1 s'inscrit dans la dynamique de recherche autour des fondations VLA généralisables, accélérée par l'essor des VLM et des grands ensembles de données robotiques publics comme Open X-Embodiment et BridgeData V2. Ses concurrents directs sont Physical Intelligence avec la famille π0/π0.5, NVIDIA Robotics avec GR00T N1.5, et les projets académiques RDT et UniVLA. Il s'agit à ce stade d'un preprint (version 2), pas d'un produit commercialisé : aucun partenariat industriel ni calendrier de déploiement n'est annoncé. La page projet est accessible sur xr-1-vla.github.io.

IA physiqueOpinion
1 source
CLAW : apprentissage de modèles du monde à actions latentes continues par régularisation latente adversariale
2arXiv cs.RO 

CLAW : apprentissage de modèles du monde à actions latentes continues par régularisation latente adversariale

Des chercheurs ont publié sur arXiv (2606.04130) un cadre d'apprentissage auto-supervisé baptisé CLAW (Continuous Latent Action World Models via Adversarial Latent Regularization), conçu pour apprendre simultanément un modèle du monde et des représentations d'actions latentes continues à partir de vidéos non annotées. La méthode ne nécessite aucun label d'action : elle s'appuie sur une régularisation adversariale des représentations latentes et sur la génération vidéo par diffusion pour inférer une structure sémantique des actions directement depuis les transitions visuelles observées. Le modèle d'action latente (LAM) et le modèle du monde sont entraînés conjointement en bout en bout, permettant au système de raisonner sur la façon dont les actions inférées induisent des transitions dans l'environnement. CLAW supporte deux modes d'utilisation : le clonage comportemental par imitation depuis l'observation, où les actions latentes extraites de vidéos brutes suffisent à reproduire un comportement, et la planification dirigée par objectif, où le système génère des séquences d'actions latentes puis les mappe vers des actions exécutables. L'enjeu central ici est l'accès aux données. La robotique souffre d'un déficit chronique de données d'entraînement annotées avec des paires (observation, action), car les capteurs proprioceptifs et la capture de mouvement sont coûteux. CLAW ouvre la voie à l'exploitation de vidéos tierces non instrumentées, comme des démonstrations humaines filmées ou des contenus web, pour entraîner des politiques et des planificateurs. Si les résultats se confirment hors laboratoire, cela réduit drastiquement le coût de collecte de données pour les intégrateurs robotiques et les équipes d'ingénierie travaillant sur le transfer sim-to-real. Les auteurs rapportent des performances supérieures aux méthodes existantes sur des tâches variées et plusieurs morphologies robotiques, bien que les benchmarks spécifiques et les métriques quantitatives détaillées ne soient pas accessibles dans l'abstract seul. CLAW s'inscrit dans un courant de recherche actif sur les modèles d'actions latentes (LAM), dont les travaux fondateurs incluent LAPO et des approches basées sur des modèles de dynamique inversale (IDM). Il se distingue en combinant génération par diffusion et régularisation adversariale là où ses prédécesseurs utilisaient souvent des encodeurs déterministes ou des VQ-VAE. Les concurrents directs dans l'espace des world models pour la robotique comprennent UniSim (Google DeepMind), GAIA-1 (Wayve) côté génération vidéo, et des approches VLA comme pi-0 (Physical Intelligence) ou GR00T N2 (NVIDIA) côté politique. CLAW se positionne en amont de ces pipelines, comme brique d'apprentissage de représentation plutôt que comme politique complète. Les prochaines étapes naturelles seront une validation sur des environnements physiques réels et l'intégration dans des boucles de fine-tuning pour des robots humanoïdes ou manipulateurs.

IA physiqueOpinion
1 source
CLAP : pré-entraînement contrastif par actions latentes pour l'apprentissage de modèles VLA à partir de vidéos humaines
3arXiv cs.RO 

CLAP : pré-entraînement contrastif par actions latentes pour l'apprentissage de modèles VLA à partir de vidéos humaines

Des chercheurs ont soumis sur arXiv (2601.04061v2, janvier 2026) un framework appelé CLAP, pour Contrastive Latent Action Pretraining, conçu pour entraîner des modèles Vision-Language-Action (VLA) généralistes à partir de vidéos humaines non étiquetées. Le pipeline repose sur deux étapes: un module Act-VAE construit d'abord un vocabulaire d'actions exécutables à partir de trajectoires robotiques existantes, puis un apprentissage contrastif aligne les transitions visuelles extraites de vidéos humaines sur ce vocabulaire latent, pseudo-étiquetant ainsi ces vidéos sans collecte téléopérée supplémentaire. Sur cette base, CLAP-NTP est entraîné comme VLA autorégressif combinant démonstrations robotiques réelles et vidéos humaines étiquetées. Pour le déploiement, CLAP-RF ajoute une tête à flux rectifié (Rectified Flow) permettant la prédiction de chunks d'actions continus à faible latence, couplée à une régularisation dite Knowledge Matching qui préserve les connaissances sémantiques préentraînées lors du fine-tuning sur domaine cible. L'obstacle central des VLA généralistes reste la rareté des données robotiques étiquetées face à l'abondance de vidéos humaines disponibles en ligne. Les approches antérieures de type Latent Action Models tentaient d'exploiter ces vidéos mais encodaient du bruit visuel plutôt que des compétences de manipulation réelles, un problème qualifié d'enchevêtrement visuel (visual entanglement). CLAP contourne cette limitation en ancrant l'espace latent sur des trajectoires physiquement fondées via l'apprentissage contrastif, sans reconstruire l'apparence. Pour les intégrateurs industriels, la promesse concrète est de réduire le coût de collecte téléopérée, estimé à plusieurs milliers de dollars par heure, tout en améliorant la généralisation à de nouveaux objets sans démonstrations robotiques exhaustives. Les résultats expérimentaux rapportés montrent de bonnes performances face aux baselines comparatives, mais la validation externe reste à confirmer. Le domaine des VLA est en pleine effervescence depuis l'émergence de Pi-0 (Physical Intelligence), GR00T N2 (NVIDIA), OpenVLA et Helix (Figure AI), tous confrontés à la même pénurie de données étiquetées exploitables. Google DeepMind a exploré des voies similaires avec des travaux comme UniSim. CLAP se distingue en proposant une approche plus physiquement ancrée que les méthodes purement génératives ou reconstructrices. Ce preprint n'a pas encore été évalué par les pairs et n'annonce aucun déploiement en production. Les prochaines étapes naturelles seraient une validation sur un éventail plus large de plateformes robotiques ainsi qu'une comparaison systématique avec les Diffusion Policies, méthodes actuellement dominantes sur les benchmarks Open X-Embodiment.

IA physiqueActu
1 source
Modèle d'action géométrique pour l'apprentissage de politiques robotiques
4arXiv cs.RO 

Modèle d'action géométrique pour l'apprentissage de politiques robotiques

Des chercheurs ont déposé le 16 juin 2026 sur arXiv (arXiv:2606.17046) le Geometric Action Model (GAM), une politique de manipulation robotique conditionnée par le langage naturel. L'architecture réutilise un modèle fondamental géométrique (GFM) pré-entraîné en le scindant en deux segments : les couches superficielles encodent les observations visuelles, tandis qu'un prédicteur causal inséré à la jonction génère des tokens latents futurs conditionnés sur les instructions textuelles, la proprioception et l'historique d'actions du robot. Les blocs restants du GFM décodent ensuite simultanément la géométrie future de la scène et les actions à exécuter via un backbone unique partagé. Sur une suite de benchmarks en simulation et sur robot réel incluant des tâches de manipulation en contact riche, GAM affiche selon ses auteurs une précision, une robustesse, une vitesse d'inférence et une compacité supérieures aux baselines VLA à large échelle actuellement en référence. Le problème central qu'adresse ce travail est le décalage entre les représentations 2D dominantes dans les VLA (vision-language-action models) et la nature tridimensionnelle des interactions physiques. Des systèmes comme Pi-0 et Pi0.5 (Physical Intelligence), GR00T N2 (NVIDIA) ou les modèles RT-X (Google DeepMind) opèrent principalement sur des espaces latents dérivés d'images 2D, ce qui les handicape pour les tâches de saisie précise, d'assemblage et de dépose sur surfaces contraintes. Ancrer la prédiction d'actions directement dans un espace géométrique 3D, avec une modification minimale du modèle fondamental sous-jacent, constitue le pari architectural de GAM. Si ces résultats résistent à une reproductibilité indépendante, ils valideraient l'hypothèse que des priors géométriques explicites améliorent la généralisation des politiques généralistes face au gap sim-to-real. Cette publication s'inscrit dans une course aux VLA généralistes lancée depuis RT-2 (Google DeepMind, 2023), où la majorité des acteurs industriels, dont Figure (Helix), Agility Robotics, 1X et Physical Intelligence, misent sur des transformers multimodaux sans encodage 3D explicite. En parallèle, plusieurs laboratoires académiques (Berkeley, Stanford, CMU) explorent l'intégration de représentations géométriques comme le Gaussian Splatting dans les politiques robotiques. GAM s'inscrit dans cette seconde tendance avec une proposition architecturale minimaliste. À ce stade, il s'agit d'un preprint arXiv non peer-reviewed, sans déploiement industriel ni partenariat hardware annoncé ; une validation sur des plateformes commerciales standards (UR, Franka) en dehors du laboratoire reste à démontrer.

IA physiqueOpinion
1 source