Aller au contenu principal
Latent Bridge : prédiction de delta de caractéristiques pour une inférence efficace des modèles VLA à double système
IA physiquearXiv cs.RO7sem

Latent Bridge : prédiction de delta de caractéristiques pour une inférence efficace des modèles VLA à double système

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Une équipe de recherche publie sur arXiv (2605.02739) une méthode baptisée Latent Bridge, conçue pour accélérer l'inférence des modèles Vision-Language-Action (VLA) à double système, architecture qui combine un backbone de grand modèle de vision-langage (VLM) lent avec une tête d'action rapide. Le problème identifié : dans ce paradigme, le VLM doit s'exécuter à chaque pas de contrôle, même lorsque la scène visuelle évolue peu entre deux timesteps, ce qui crée un goulot d'étranglement computationnel majeur. Latent Bridge est un modèle léger entraîné pour prédire le delta des sorties du VLM entre deux appels, permettant à la tête d'action de fonctionner sur des features interpolées pendant que le backbone coûteux ne tourne que périodiquement. La méthode est validée sur deux VLAs architecturalement distincts : GR00T-N1.6 de NVIDIA (pont dans l'espace des features) et π0.5 de Physical Intelligence (pont sur le KV-cache). Sur quatre suites LIBERO, 24 tâches cuisine RoboCasa et la tâche ALOHA sim transfer-cube, Latent Bridge conserve 95 à 100 % des performances initiales tout en réduisant les appels VLM de 50 à 75 %, pour un gain net de 1,65x à 1,73x en vitesse d'exécution par épisode.

Ce résultat est structurellement important pour quiconque envisage de déployer des VLAs sur du matériel réel : jusqu'ici, la richesse sémantique des VLM se payait en latence, rendant difficile un contrôle à haute fréquence sur robots à ressources embarquées limitées. Le fait que la méthode fonctionne sur deux familles architecturales différentes, l'une opérant dans l'espace des features, l'autre sur le KV-cache, suggère une généralisation potentiellement large plutôt qu'une optimisation opportuniste. Le pipeline d'entraînement DAgger utilisé est task-agnostic et transfert sans modification entre benchmarks, ce qui réduit le coût d'adaptation. Il reste à noter que toutes les évaluations sont conduites en simulation ; l'écart sim-to-real n'est pas adressé dans ce travail, et les gains de vitesse annoncés restent à confirmer sur hardware physique.

GR00T-N1.6 est le modèle humanoïde de NVIDIA issu de la roadmap GR00T, tandis que π0.5 est la dernière itération du VLA de Physical Intelligence (ex-pi0), entreprise fondée par Sergey Levine et Chelsea Finn qui a levé 400 millions de dollars en 2024. Ces deux modèles représentent l'état de l'art des VLA duaux, face à des concurrents comme OpenVLA (Berkeley), RoboFlamingo ou les approches ACT/Diffusion Policy. La pression sur l'efficacité computationnelle devient un axe de différenciation croissant à mesure que les déploiements industriels à grande échelle approchent ; des travaux parallèles explorent la distillation et la quantification des VLM, mais Latent Bridge propose une voie orthogonale en exploitant la redondance temporelle plutôt qu'en compressant le modèle. La prochaine étape logique serait une validation sur plateforme physique, idéalement sur des robots comme Fourier GR-1 ou Figure 02 dont les équipes utilisent des pipelines VLA similaires.

À lire aussi

Prior global et cohérence locale : modèle VLA à double mémoire pour une manipulation robotique efficace
1arXiv cs.RO 

Prior global et cohérence locale : modèle VLA à double mémoire pour une manipulation robotique efficace

Une équipe de recherche publie sur arXiv (arXiv:2602.20200v2) OptimusVLA, un framework Vision-Language-Action (VLA) hiérarchique augmenté de deux modules de mémoire distincts : une Global Prior Memory (GPM) et une Local Consistency Memory (LCM). La GPM remplace le bruit gaussien isotrope standard, utilisé comme point de départ dans les politiques de diffusion, par des priors extraits de trajectoires sémantiquement similaires, réduisant ainsi le nombre d'évaluations de fonction (NFE) nécessaires au débruitage. La LCM, elle, modélise dynamiquement la séquence d'actions déjà exécutées pour contraindre la cohérence temporelle des prochains mouvements. Sur trois benchmarks de simulation, OptimusVLA atteint 98,6 % de taux de succès moyen sur LIBERO, améliore pi0 de 13,5 points sur CALVIN, et obtient 38 % sur le niveau Hard de RoboTwin 2.0. En évaluation réelle, il surpasse pi0 de 42,9 % sur la suite Généralisation et de 52,4 % sur la suite Long-horizon, avec un gain de vitesse d'inférence de 2,9x. Ces résultats pointent deux verrous concrets du paradigme VLA actuel : l'inefficacité computationnelle des politiques de diffusion à point de départ aléatoire, et l'amnésie des politiques réactives qui ignorent l'historique d'exécution. Le gain de 2,9x en inférence est significatif pour le déploiement temps-réel sur hardware embarqué. Le bond sur les tâches long-horizon (+52,4 % vs pi0) est probablement l'indicateur le plus pertinent pour les intégrateurs industriels, car les tâches réelles ne se réduisent pas à des gestes isolés. Il convient cependant de noter que l'article ne détaille pas le robot utilisé ni le nombre de scénarios testés en réel, ce qui limite l'évaluation indépendante de la portée de ces gains. Le modèle pi0, développé par Physical Intelligence (San Francisco), sert ici de référence principale dans la comparaison, ce qui illustre son statut de baseline de facto dans la recherche VLA en 2025. Le domaine compte également GR00T N2 de NVIDIA, OpenVLA ou encore les travaux de Google DeepMind, tous confrontés au même arbitrage efficacité/généralisation. OptimusVLA reste à ce stade un résultat de recherche préliminaire (preprint non évalué par les pairs), sans pipeline de déploiement ni partenaire industriel annoncé. La prochaine étape naturelle serait une validation sur une plateforme humanoïde commerciale avec des scénarios définis de façon indépendante.

IA physiqueOpinion
1 source
TTT-VLA : optimisation de prompts latents à l'inférence pour les modèles VLA
2arXiv cs.RO 

TTT-VLA : optimisation de prompts latents à l'inférence pour les modèles VLA

Des chercheurs ont publié le 3 juin 2026 un article (arXiv:2606.03127) proposant TTT-VLA, un cadre d'entraînement au moment du test (test-time training, TTT) spécifiquement conçu pour les modèles Vision-Langage-Action (VLA). La méthode repose sur ce qu'ils appellent l'Optimisation de Prompt Latent (LPO) : pendant la phase d'entraînement, un vecteur de prompt latent est appris via une tâche auxiliaire de proxy qui génère un signal d'auto-supervision. Lors du déploiement, seul ce prompt latent est réoptimisé à partir des données d'interaction collectées dans l'environnement réel, sans toucher aux poids du modèle de base. Les expériences sont conduites sur SimplerEnv, un benchmark de manipulation robotique simulée, et montrent des gains de taux de succès cohérents sur des scénarios monolithiques et multi-embodiment. L'intérêt principal pour l'industrie robotique tient à la nature du problème résolu : le décalage de distribution (distribution shift) entre l'environnement d'entraînement et le site de déploiement est l'un des freins les plus documentés au passage en production des VLA. TTT-VLA propose une voie d'adaptation légère, puisque seul le prompt est modifié et non la politique elle-même. L'analyse des résultats révèle que les gains proviennent principalement de la correction d'un petit nombre de décisions critiques dans la séquence d'action, et non d'un changement global de comportement. C'est un résultat conceptuellement intéressant : il suggère que l'inadaptation d'un VLA en production est localisée, ce qui rend les approches de correction chirurgicale potentiellement plus efficaces que les fine-tunings complets. Les VLA sont devenus un axe de recherche central depuis les travaux fondateurs sur RT-2 (Google DeepMind, 2023), et des modèles comme Pi-0 (Physical Intelligence), GR00T N2 (NVIDIA) ou OpenVLA (Berkeley) illustrent la course actuelle. Le problème du sim-to-real et de l'adaptation au domaine reste entier pour tous ces systèmes dès qu'ils quittent les environnements contrôlés. TTT-VLA s'inscrit dans une tendance plus large qui emprunte aux LLMs la notion d'adaptation au test-time, appliquée ici à la manipulation physique. Les expériences restent pour l'instant limitées à SimplerEnv, ce qui laisse ouverte la question du transfert vers des robots réels et des environnements industriels non structurés.

UELes laboratoires de robotique européens (INRIA, CEA-List) travaillant sur les VLA pourraient exploiter cette méthode d'adaptation légère pour réduire le sim-to-real gap sans fine-tuning complet, mais aucun acteur européen n'est impliqué directement dans ces travaux.

IA physiqueOpinion
1 source
Realtime-VLA FLASH : un cadre d'inférence spéculative pour les modèles VLA à base de diffusion
3arXiv cs.RO 

Realtime-VLA FLASH : un cadre d'inférence spéculative pour les modèles VLA à base de diffusion

Une équipe de chercheurs a publié le 19 mai 2025 sur arXiv (ref. 2605.13778) un cadre d'inférence baptisé Realtime-VLA FLASH, conçu pour réduire drastiquement la latence des modèles de type dVLA (diffusion-based vision-language-action). Le problème de départ est précis : chaque cycle d'inférence complète d'un dVLA prend typiquement 58,0 ms, ce qui est incompatible avec un replanning haute fréquence en conditions réelles. FLASH introduit un modèle "brouillon" léger qui génère des propositions d'actions, vérifiées en parallèle par l'Action Expert du modèle principal, composant dédié à la validation des séquences motrices. Un mécanisme de fallback "phase-aware" bascule automatiquement sur l'inférence complète lorsque la proposition brouillon est jugée insuffisamment fiable. Sur le benchmark LIBERO, la latence moyenne par tâche descend à 19,1 ms, soit une accélération de 3,04x, avec des cycles spéculatifs aussi rapides que 7,8 ms. Les auteurs valident également l'approche sur une tâche réelle de tri sur tapis convoyeur, environnement latency-critical par nature. L'intérêt industriel est direct : le goulot d'étranglement des VLA diffusion n'était pas leur capacité à généraliser, mais leur incapacité à répondre à la fréquence de contrôle des robots physiques (typiquement 10-50 Hz). Descendre sous les 20 ms de latence moyenne ouvre la voie à un déploiement sur des manipulateurs industriels ou des robots mobiles opérant en environnement dynamique. Ce que FLASH prouve concrètement, c'est que le "reality gap" des dVLA est au moins partiellement un problème d'architecture d'inférence, pas uniquement de données ou de sim-to-real. La méthode préserve les performances sur LIBERO sans compromis visible sur la fiabilité, ce qui est l'argument le plus solide de la publication, à condition que les auteurs rendent publics leurs taux de succès détaillés par tâche, absents du résumé. Les dVLA sont devenus un axe central de la robotique généraliste depuis les travaux de Physical Intelligence sur pi0 (2024) et de NVIDIA sur GR00T N2, qui reposent tous deux sur des architectures diffusion pour la génération d'actions. OpenVLA et d'autres approches autorégressives contournent ce problème différemment, au prix d'une expressivité moindre sur les tâches de manipulation fine. FLASH se positionne comme une surcouche d'optimisation compatible avec les dVLA existants, sans nécessiter de réentraînement complet du modèle principal, ce qui en fait un candidat naturel pour les équipes travaillant sur pi0 ou des architectures dérivées. Les prochaines étapes attendues sont une validation sur des systèmes à plus haute dynamique (robots bimanes, manipulation dextre) et une mesure de la dégradation sur des distributions out-of-distribution, point encore non traité dans cette version préprint.

UELes équipes de R&D européennes travaillant sur des architectures dVLA (dérivées de pi0 ou GR00T N2) pourraient intégrer FLASH comme couche d'optimisation sans réentraînement, mais aucun acteur ou institution français ou européen n'est impliqué dans la publication.

💬 Le vrai blocage des VLA diffusion, c'était pas leur capacité à généraliser, c'était les 58 ms par cycle d'inférence, trop lents pour du contrôle robot en temps réel. FLASH colle un modèle brouillon en avant-poste pour proposer l'action, le modèle principal vérifie en parallèle, et tu descends à 19 ms sans retoucher les poids. Ce que j'y lis surtout, c'est qu'une bonne partie du reality gap était un problème d'ingénierie d'inférence, pas de données ou de sim-to-real.

IA physiqueOpinion
1 source
QPILOTS : pilotage efficace par fonction Q à l'inférence pour les politiques de flux
4arXiv cs.RO 

QPILOTS : pilotage efficace par fonction Q à l'inférence pour les politiques de flux

Des chercheurs publient QPILOTS (arXiv:2606.14801, juin 2026), une méthode permettant d'optimiser à l'inférence les politiques de diffusion et de flow-matching sans modifier leurs poids. Le problème central : appliquer l'apprentissage par renforcement basé sur la différence temporelle (TD-RL) à ces générateurs d'actions multi-étapes provoque des instabilités numériques lors du backpropagation à travers la chaîne de débruitage. QPILOTS laisse la politique originale intacte et l'oriente à chaque étape de débruitage via le gradient d'un critique de valeur Q. L'astuce clé : plutôt que d'évaluer le critique sur l'action intermédiaire bruitée (où ses prédictions sont peu fiables), la méthode projette cet état vers une estimation de l'action finale propre, puis calcule le gradient à ce point stable. Deux variantes sont proposées : QPILOTS-U utilise une approximation rapide en point unique, QPILOTS-M tire des échantillons postérieurs différentiables via un réseau auxiliaire appris. Sur un benchmark standard offline-to-online RL couvrant 50 tâches, QPILOTS atteint 90 % de taux de succès moyen, meilleure performance agrégée du comparatif. Appliquée à un modèle fondation Vision-Language-Action (VLA) pré-entraîné et gelé, la méthode surpasse ou égale les approches concurrentes sur six tâches de manipulation en simulation. L'enjeu est concret pour quiconque développe des politiques de manipulation basées sur la diffusion. Les solutions actuelles face au problème de gradient imposent chacune un compromis lourd : abandonner l'information de gradient, distiller la politique en un acteur one-step moins expressif, ou relancer un cycle de fine-tuning à chaque amélioration du critique. QPILOTS propose une quatrième voie compatible avec les modèles fondation gelés, ce qui le rend particulièrement pertinent dans un secteur où Pi-0 (Physical Intelligence) et GR00T N2 (NVIDIA) sont déployés comme bases pré-entraînées. Pouvoir piloter ces modèles via RL sans re-entraînement réduit drastiquement le coût d'adaptation à de nouvelles tâches, et apporte un argument concret au débat sur le "sim-to-real gap" des VLAs : le steering à l'inférence pourrait suffire là où le fine-tuning est prohibitif. QPILOTS s'inscrit dans la lignée des travaux sur les Diffusion Policies (Chi et al., 2023, Columbia) et des méthodes comme DDPO qui cherchent à coupler RL et processus de débruitage. Le terrain concurrent inclut les approches de distillation (simplifiantes) et les méthodes de reward-guided sampling déjà appliquées aux VLAs. À noter : cet article reste un preprint en simulation uniquement, sans validation sur hardware réel ni annonce de déploiement industriel. La robustesse des résultats à 90 % sur 50 tâches est encourageante, mais l'évaluation se limite à des environnements simulés, et les performances en conditions réelles, notamment la latence induite par l'étape de projection à chaque débruitage, restent à démontrer.

IA physiqueOpinion
1 source