Aller au contenu principal
XR-1 : vers des modèles VLA polyvalents par apprentissage de représentations vision-mouvement unifiées
IA physiquearXiv cs.RO6sem

XR-1 : vers des modèles VLA polyvalents par apprentissage de représentations vision-mouvement unifiées

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Une équipe de recherche a publié XR-1 (X Robotic Model 1), un cadre d'apprentissage pour modèles vision-langage-action (VLA) conçu pour opérer sur des robots hétérogènes, disponible en preprint arXiv sous la référence 2511.02776v2. La contribution centrale est l'introduction des UVMC (Unified Vision-Motion Codes), une représentation latente discrète apprise via un VQ-VAE à double branche qui encode conjointement la dynamique visuelle et le mouvement robotique. L'entraînement suit trois étapes : apprentissage auto-supervisé des UVMC, pré-entraînement guidé par UVMC sur de grands ensembles de données cross-embodiment, puis fine-tuning spécifique à chaque tâche. XR-1 a été validé sur plus de 14 000 rollouts couvrant six morphologies robotiques différentes et plus de 120 tâches de manipulation. Les benchmarks affichent des performances supérieures à celles de π0.5, π0 (Physical Intelligence), RDT, UniVLA et GR00T-N1.5 (NVIDIA), avec une robustesse avérée face aux objets inconnus, variations d'arrière-plan, distracteurs et changements d'éclairage.

L'enjeu que XR-1 cherche à résoudre est structurant pour le secteur : la généralisation cross-embodiment, soit la capacité d'un seul modèle à piloter des robots aux morphologies radicalement différentes à partir de données hétérogènes incluant des démonstrations humaines. Les approches précédentes encodaient soit la dynamique visuelle, soit les actions robotiques, rarement les deux conjointement. Le UVMC agit comme représentation intermédiaire unifiée entre observations et actions, réduisant le fossé entre sources de données disparates. Dépasser π0.5 et GR00T-N1.5 sur des évaluations en monde réel plutôt qu'en simulation constitue un signal sérieux, même si les benchmarks VLA restent notoires pour leur sensibilité aux conditions exactes d'évaluation et au choix des tâches de test.

XR-1 s'inscrit dans la dynamique de recherche autour des fondations VLA généralisables, accélérée par l'essor des VLM et des grands ensembles de données robotiques publics comme Open X-Embodiment et BridgeData V2. Ses concurrents directs sont Physical Intelligence avec la famille π0/π0.5, NVIDIA Robotics avec GR00T N1.5, et les projets académiques RDT et UniVLA. Il s'agit à ce stade d'un preprint (version 2), pas d'un produit commercialisé : aucun partenariat industriel ni calendrier de déploiement n'est annoncé. La page projet est accessible sur xr-1-vla.github.io.

À lire aussi

Modèle MVP-LAM : apprentissage de représentations d'actions latentes centrées sur l'action par reconstruction multi-points de vue
1arXiv cs.RO 

Modèle MVP-LAM : apprentissage de représentations d'actions latentes centrées sur l'action par reconstruction multi-points de vue

Une équipe de chercheurs a publié MVP-LAM (Multi-ViewPoint Latent Action Model), une méthode visant à améliorer le pré-entraînement des modèles vision-langage-action (VLA) à partir de vidéos humaines non étiquetées. Le problème ciblé : les actions latentes apprises depuis des vidéos mono-vue encodent des indices visuels propres à l'angle de caméra, plutôt que la sémantique réelle du mouvement. MVP-LAM impose un objectif de reconstruction inter-vues (cross-viewpoint reconstruction) : une action latente extraite depuis une caméra doit prédire l'évolution de la scène telle que vue depuis une autre caméra. Évalué sur le jeu de données Bridge V2, le modèle produit des actions latentes dont l'information mutuelle avec les vraies actions de référence dépasse celle des baselines, y compris en conditions hors-distribution. Ces représentations améliorées se traduisent par de meilleures performances de manipulation en aval sur plusieurs benchmarks standards. Le code et les checkpoints entraînés sont disponibles publiquement. La contrainte géométrique multi-vues a un impact direct pour les intégrateurs : un modèle pré-entraîné sur des actions latentes robustes au changement de point de vue devrait mieux résister au gap entre démonstration et déploiement réel, notamment dans des cellules robotiques où la position des caméras diffère entre collecte de données et production. MVP-LAM valide aussi l'usage de larges corpus vidéo non supervisés (vidéos internet, archives industrielles) sans démonstrations téléopérées : la cohérence inter-vues remplace partiellement le signal proprioceptif, réduisant le coût de collecte des données d'entraînement. Le pré-entraînement VLA depuis des vidéos non annotées s'inscrit dans la continuité de travaux comme RT-2 (Google DeepMind), UniPi, et plus récemment pi-0 (Physical Intelligence) ou OpenVLA. Ces approches partagent l'ambition d'exploiter des données vidéo à grande échelle pour doter les robots d'une compréhension généraliste du mouvement avant fine-tuning sur tâches spécifiques. MVP-LAM apporte une contribution méthodologique en renforçant la qualité des pseudo-labels d'action, une étape souvent négligée au profit de l'architecture des modèles aval. Il s'agit d'un travail académique sans déploiement industriel annoncé, mais dont la disponibilité du code facilite la reproduction et l'adaptation sur d'autres plateformes robotiques.

IA physiqueOpinion
1 source
Vers des robots durables : affiner les modèles VLA par apprentissage par renforcement continu
2arXiv cs.RO 

Vers des robots durables : affiner les modèles VLA par apprentissage par renforcement continu

Une équipe de chercheurs publie sur arXiv (2602.10503, février 2026) une méthode de fine-tuning appelée LifeLong-RFT, conçue pour permettre aux modèles VLA (Vision-Language-Action) de s'adapter en continu à de nouvelles tâches sans effacer les précédentes. Les VLA, tels que pi-0 de Physical Intelligence ou OpenVLA, sont pré-entraînés sur des datasets massifs et variés, ce qui leur confère une bonne généralisation. Leur adaptation à des domaines spécifiques repose cependant majoritairement sur le Supervised Fine-Tuning (SFT), une approche qui exige de larges volumes de données tâche-spécifiques et souffre du catastrophic forgetting : le modèle oublie ses acquis antérieurs en assimilant de nouvelles compétences. LifeLong-RFT substitue au SFT un mécanisme de Reinforcement Fine-Tuning (RFT) indépendant de tout feedback environnemental en ligne et de tout reward model pré-entraîné. La méthode repose sur trois signaux de récompense combinés : le QACR (Quantized Action Consistency Reward), qui vérifie la cohérence de la prédiction d'actions dans l'espace discret ; le CTAR (Continuous Trajectory Alignment Reward), qui aligne les chunks d'actions continues sur des trajectoires de référence ; et le FCR (Format Compliance Reward), qui garantit la validité structurelle des sorties. Sur le benchmark LIBERO dédié à l'apprentissage continu, LifeLong-RFT affiche un gain de 22 points de taux de succès moyen par rapport au SFT, en n'utilisant que 20 % des données d'entraînement pour s'adapter à de nouvelles tâches. Les expériences couvrent SimplerEnv, LIBERO et des scénarios réels. Ce résultat s'attaque directement au principal frein à l'apprentissage continu en déploiement : la nécessité de réentraîner un modèle depuis un checkpoint dès qu'on veut lui enseigner une nouvelle opération. Le fait que LifeLong-RFT ne nécessite ni feedback en ligne (interactions réelles avec l'environnement, coûteuses et parfois dangereuses en production) ni reward model séparé réduit considérablement la barrière à l'adaptation terrain. Pour un intégrateur ou un COO industriel, cela signifie qu'un bras manipulateur ou un robot mobile basé VLA pourrait théoriquement apprendre de nouvelles tâches avec un cinquième des données actuellement nécessaires, sans régresser sur ses acquis. La validation partielle sur des tâches réelles renforce la crédibilité des résultats, même si le papier reste un preprint arXiv et que les conditions expérimentales real-world ne sont pas détaillées dans le résumé public. La course aux VLA comme politique unifiée pour la robotique généraliste s'est intensifiée depuis 2024 avec pi-0 (Physical Intelligence), OpenVLA (UC Berkeley), GR00T N2 (NVIDIA) et Helix (Figure AI), tous cherchant à résoudre l'adaptation domaine-spécifique avec un minimum de données supplémentaires. LifeLong-RFT s'inspire directement des techniques GRPO et RLHF qui ont transformé le post-training des LLMs, les transposant ici au niveau des chunks d'actions robotiques. Il se positionne comme un paradigme post-training alternatif au SFT, sans contrainte d'infrastructure lourde. Aucun déploiement ni partenariat industriel n'est annoncé : il s'agit d'une contribution académique avec page projet dédiée. Les suites naturelles incluent l'extension à des architectures VLA plus récentes et des benchmarks multi-tâches à plus longue durée, critères encore absents de cette évaluation.

IA physiqueOpinion
1 source
M3imic : apprentissage d'un contrôleur corps entier polyvalent pour l'imitation multimodale de mouvements
3arXiv cs.RO 

M3imic : apprentissage d'un contrôleur corps entier polyvalent pour l'imitation multimodale de mouvements

Des chercheurs de Renforce Dynamics ont publié le 5 juin 2026 sur arXiv un article présentant M3imic (Multi-Modal Mimic), un contrôleur corps entier destiné aux robots humanoïdes. L'objectif : unifier dans une seule politique d'apprentissage par renforcement trois types de références de mouvement jusqu'ici traités séparément, les trajectoires articulaires du robot (angles de joints), les trajectoires de pose humaine capturées par motion capture, et les poses d'effecteurs terminaux (end-effector poses). Le système exploite des encodeurs spécialisés par modalité pour projeter ces données hétérogènes dans un espace latent commun, puis entraîne une politique unique à grande échelle en simulation. Les expériences sont conduites sur le robot humanoïde Unitree G1 : en simulation, la politique atteint un taux de succès maximal de 98,42 % sur un jeu de test non vu, et un transfert sim-to-réel est démontré sans réentraînement spécifique à chaque modalité. Le code source est disponible publiquement sur GitHub. Le problème que M3imic cherche à résoudre est structurel : les contrôleurs corps entier existants traitent la locomotion et la manipulation comme deux domaines distincts, avec des formats de données incompatibles, des vecteurs denses d'angles articulaires d'un côté, des poses 6-DOF d'effecteurs creuses de l'autre. Forcer une seule politique à ingérer ces deux représentations sans architecture dédiée dégrade les performances. M3imic propose une solution architecturale rather than une solution de données : un espace latent partagé avec encodeurs par modalité, ce qui permet à une même politique de piloter aussi bien la marche que la manipulation sans compromis de performance. Pour les intégrateurs et équipes robotiques, cela réduit potentiellement le coût de développement en éliminant le besoin de pipelines parallèles par type de tâche. Le robot cible, le Unitree G1, est un humanoïde commercialisé depuis 2024 à environ 16 000 dollars, devenu une plateforme de référence pour la recherche en locomotion et loco-manipulation grâce à son accessibilité. Renforce Dynamics est un laboratoire ou startup dont M3imic constitue l'une des premières publications publiques. Dans le paysage concurrent, les approches comparables incluent les travaux de Berkeley Humanoid (Pi-0 de Physical Intelligence), les contrôleurs corps entier de CMU et ETH Zurich, et les politiques VLA de Figure AI, tous confrontés au même défi du sim-to-real gap sur tâches mixtes locomotion-manipulation. M3imic se positionne explicitement sur l'unification multimodale plutôt que sur la performance brute d'une seule tâche. Les prochaines étapes naturelles seraient des déploiements en environnement non structuré et une évaluation sur des humanoïdes à plus haute cinématique (plus de DOF, payload supérieur).

IA physiqueOpinion
1 source
UniJEPA : amélioration des politiques robotiques via l'apprentissage unifié de représentations continues et discrètes
4arXiv cs.RO 

UniJEPA : amélioration des politiques robotiques via l'apprentissage unifié de représentations continues et discrètes

Une équipe de chercheurs propose UniJEPA (arXiv:2510.10642, troisième révision), un framework de politique robotique généraliste pré-entraîné sur plus d'un million de vidéos de manipulation instruite issues d'internet, puis affiné sur des données collectées directement sur le robot cible. L'architecture repose sur une approche JEPA (Joint Embedding Predictive Architecture) étendue pour modéliser des représentations visuelles continues de haute dimension. Les résultats expérimentaux annoncent un gain de 9 % en environnements de simulation et de 12 % sur des tâches réelles hors-distribution par rapport aux méthodes de référence actuelles. Il s'agit d'un preprint de recherche, pas d'un déploiement industriel. L'enjeu central est un angle mort persistant dans les politiques VLA (Vision-Language-Action) : elles s'appuient soit sur des VLM (modèles de langage visuels, forts en compréhension sémantique) soit sur des modèles génératifs (forts en modélisation de dynamiques visuelles), rarement les deux simultanément. Pour un intégrateur ou un COO industriel, cela se traduit par des politiques qui peinent à s'adapter à un nouvel atelier, un nouvel éclairage ou de nouvelles pièces sans re-collecte de données coûteuse. Le gain de 12 % sur les tâches hors-distribution est précisément la métrique critique ici : elle mesure la capacité de généralisation sans données supplémentaires, le graal opérationnel pour tout déploiement multi-site. UniJEPA répond en apprenant des représentations prédictives continues des futurs états visuels, converties ensuite en tokens d'action, validant l'applicabilité des architectures JEPA, originellement développées par Yann LeCun et son équipe chez Meta AI (I-JEPA, V-JEPA), au domaine de la politique robotique. Ce travail s'inscrit dans un paysage VLA très actif : Pi-0 de Physical Intelligence (combinant diffusion et VLM), OpenVLA, Octo et les modèles RT-X de Google DeepMind constituent les concurrents directs les plus cités. UniJEPA se distingue par son ancrage dans les architectures unifiées compréhension-génération, un territoire également exploré par des modèles comme Janus de DeepSeek. Publié en version 3 sur arXiv, le papier n'a pas encore passé la révision par les pairs d'une conférence de référence (ICRA, CoRL, RSS), ce qui invite à une lecture prudente des chiffres annoncés, dont le contexte exact des benchmarks n'est pas détaillé dans le résumé. Les prochaines étapes naturelles seraient une validation sur des embodiments commerciaux et un benchmark élargi au-delà des simulateurs utilisés dans les expériences actuelles.

IA physiqueOpinion
1 source