RecherchearXiv cs.RO6sem

BlockVLA : accélérer les modèles VLA autorégressifs par affinage avec diffusion par blocs

1 source couvre ce sujet·Source originale ↗·

Résumé IASource uniqueImpact UE

Une équipe de recherche propose BlockVLA, un framework publié en preprint sur arXiv (identifiant 2605.13382, mai 2026) qui adapte des modèles Vision-Language-Action (VLA) autorégressifs préentraînés en politiques de diffusion discrète efficaces via un paradigme de "diffusion par blocs". Plutôt que de décoder les tokens d'action séquentiellement, BlockVLA maintient les dépendances autorégressives au niveau des blocs tout en activant un débruitage parallèle au sein de chaque bloc. Ce mécanisme permet la réutilisation du cache KV (key-value) sur les blocs complétés, réduisant le coût des itérations de débruitage (NFE, number of function evaluations) sans sacrifier la cohérence causale globale. Évalué sur les benchmarks LIBERO et SimplerEnv, le modèle atteint une accélération d'inférence de 3,3x par rapport aux baselines de diffusion discrète standards, et converge significativement plus vite à l'entraînement, avantage particulièrement marqué sur les tâches longues et complexes.

Ce résultat touche directement l'un des verrous opérationnels du déploiement industriel des VLA : la latence d'inférence. Un modèle autorégressif classique décode les tokens d'action un à un, imposant des délais incompatibles avec un contrôle robotique haute fréquence. La réduction du budget de calcul à l'entraînement est également notable d'un point de vue pratique : elle compresse les cycles d'adaptation d'un modèle à une nouvelle tâche, ce qui peut peser dans les décisions d'intégration. Cela dit, les évaluations restent cantonnées à des environnements simulés standard, sans validation en boucle fermée sur robot physique, ce qui laisse ouverte la question du sim-to-real gap.

BlockVLA s'inscrit dans un mouvement plus large visant à rendre les grands VLA exploitables en conditions réelles. Des modèles comme OpenVLA, Pi-0 de Physical Intelligence ou GR00T N2 de NVIDIA ont démontré des capacités généralisées impressionnantes, mais restent freinés par leur vitesse d'inférence. De l'autre côté, les politiques de diffusion continues, popularisées par Diffusion Policy (Chi et al., 2023), offrent une génération parallèle mais peinent à capitaliser sur les poids de backbone de langage préentraînés à grande échelle. BlockVLA tente de combler ce fossé via un fine-tuning ciblé sur un backbone AR existant, sans nécessiter un réentraînement complet. Il s'agit à ce stade d'un preprint académique sans déploiement annoncé sur hardware réel, mais les gains mesurés sur benchmarks de référence en font une contribution à suivre pour les équipes travaillant sur le déploiement haute cadence de politiques visuomotrices.

Dans nos dossiers

NVIDIA GR00T Physical Intelligence — π0 OpenVLA / RT-X arXiv cs.RO

À lire aussi

1arXiv cs.RO

Mise en cache adaptative par blocs pour accélérer les politiques de diffusion

Une équipe de chercheurs a publié sur arXiv (2506.13456) BAC, pour Block-wise Adaptive Caching, une méthode d'accélération de l'inférence pour Diffusion Policy. Le principe : mettre en cache les features d'action intermédiaires générées lors des étapes répétitives de débruitage (denoising), puis les réutiliser sélectivement selon un schéma adaptatif au niveau de chaque bloc du transformeur. Résultat annoncé : jusqu'à 3x de speedup à l'inférence, sans dégradation des performances en génération d'action. BAC est training-free et compatible avec les architectures Diffusion Policy à base de transformeur ainsi qu'avec les modèles vision-language-action (VLA). Les expériences couvrent plusieurs benchmarks robotiques standards, sans déploiement matériel réel annoncé dans ce papier. L'enjeu est direct pour le déploiement industriel : Diffusion Policy est l'une des approches les plus solides pour le contrôle visuomoteur de robots manipulateurs, mais son coût computationnel élevé la rend impraticable en contrôle temps-réel embarqué. Un facteur 3x sans re-training représente un gain opérationnel concret, il suffit d'intégrer BAC sur un modèle existant déjà entraîné. Deux mécanismes y contribuent : un Adaptive Caching Scheduler qui identifie les pas de temps optimaux pour rafraîchir le cache en maximisant la similarité globale des features, et un Bubbling Union Algorithm qui corrige la propagation d'erreurs entre blocs FFN (Feed-Forward Network), principale limite des approches naïves de caching. Diffusion Policy, introduite par Chi et al. en 2023, s'est imposée comme référence pour la manipulation précise, mais son inférence multi-step la pénalise face aux politiques autorégressives ou MLP sur les contraintes de latence. Les techniques d'accélération des modèles de diffusion conçues pour la génération d'images (DDIM, DeepCache) ne se transfèrent pas directement à la robotique en raison de divergences architecturales et de la nature séquentielle des données d'action, c'est précisément le gap que BAC prétend combler. La méthode est compatible avec les VLA récents comme pi-0 (Physical Intelligence) ou GR00T N2 (NVIDIA), ce qui lui confère un périmètre d'application large sur l'écosystème actuel. La validation reste cependant limitée aux benchmarks simulés ; une confirmation sur hardware réel en conditions d'inférence embarquée sera nécessaire pour évaluer l'impact opérationnel réel.

RecherchePaper

1 source

2arXiv cs.RO

ROAD-VLA : adaptation en ligne robuste par auto-distillation pour les modèles vision-langage-action

Une équipe de chercheurs publie fin juin 2026 ROAD-VLA (arXiv:2606.25800), un cadre d'adaptation en ligne des modèles VLA (Vision-Language-Action) par auto-distillation guidée par avantage. Les VLA, à l'image de Pi-0 (Physical Intelligence), GR00T N2 (NVIDIA) ou RT-2 (Google DeepMind), traduisent directement une entrée visuelle et une instruction en langage naturel en séquences d'actions robotiques. Le problème : affiner un tel modèle pré-entraîné sur de nouvelles tâches via apprentissage par renforcement (RL) génère des récompenses trop éparses pour superviser des politiques autoregressives de haute dimension. ROAD-VLA y répond en construisant un "enseignant proximal" dans l'espace des actions, perturbant les logits des tokens d'action avec des estimations d'avantage calibrées pour convertir des récompenses rares en supervision dense token par token. Évalué sur sept environnements de manipulation robotique, en distribution et hors distribution, le framework surpasse PPO (Proximal Policy Optimization, référence RL standard) dans la quasi-totalité des configurations. La découverte la plus saillante est l'existence d'un "modality gap" : les enseignants textuels conditionnés sur des démonstrations, des expériences récupérées ou des plans de haut niveau s'avèrent systématiquement inefficaces pour adapter les politiques d'action VLA. C'est une contradiction directe avec une hypothèse répandue selon laquelle le guidage symbolique ou langagier peut servir de supervision fiable lors du fine-tuning RL. ROAD-VLA démontre que la supervision doit opérer dans l'espace des actions, pas dans l'espace du langage. Pour un intégrateur déployant des bras manipulateurs basés sur VLA, cela ouvre une voie d'adaptation au domaine sans collecter de nouvelles démonstrations massives : le modèle se corrige via son propre comportement et les signaux de récompense de l'environnement réel. Le paradigme VLA a pris son essor avec RT-2 (Google DeepMind, 2023), puis s'est accéléré via Pi-0 (Physical Intelligence, 2024), GR00T N2 (NVIDIA, 2025) et Helix (Figure AI), accompagnés d'une vague de publications académiques. L'adaptation post-déploiement, soit ajuster un modèle généraliste à une géométrie de préhension spécifique ou à un flux industriel précis sans tout ré-entraîner, est désormais identifiée comme le verrou opérationnel suivant par les équipes terrain. Ce travail reste une annonce académique (arXiv, juin 2026), pas un produit livré ni un déploiement industriel réel, et la validation sur robots physiques en conditions industrielles reste à conduire. Aucun acteur français ou européen n'est impliqué dans cette recherche.

RechercheOpinion

1 source

3arXiv cs.RO

V-VLAPS : planification guidée par valeur pour les modèles vision-langage-action (VLA)

Des chercheurs proposent V-VLAPS (Value-Guided Vision-Language-Action Planning and Search), une méthode qui augmente les modèles VLA (Vision-Language-Action) d'un signal de valeur appris pour améliorer la planification en manipulation robotique. Les VLA encodent perception visuelle, langage et commande motrice pour générer des actions, mais leur comportement purement réactif se dégrade hors distribution d'entraînement ou sur des tâches à horizon long. V-VLAPS ajoute une tête de valeur légère (value head), entraînée sur des trajectoires hors-ligne (offline rollouts), qui prédit les retours Monte Carlo et guide un MCTS (Monte Carlo Tree Search) vers les branches de plus haute valeur. Sur les cinq suites du benchmark LIBERO, V-VLAPS égale la baseline sans valeur au budget de recherche standard ; avec un budget élargi, il la dépasse dans toutes les suites, avec +6 points de pourcentage sur LIBERO-Object et +4 points sur LIBERO-10. L'apport central est de démontrer que les représentations internes des VLA encodent non seulement des informations sur l'échec d'une trajectoire (déjà documenté dans la littérature), mais peuvent aussi estimer la valeur pendant la planification. Cela ouvre une voie pragmatique pour les intégrateurs : renforcer des politiques VLA existantes sans réentraînement complet, par simple ajout d'une tête de valeur et d'un budget de recherche accru. L'analyse révèle toutefois une limite claire : la majorité des échecs durs sont des timeouts au niveau racine, là où les valeurs prédites restent peu différenciées, ce qui plafonne le gain observé et indique que le signal de valeur est encore insuffisamment discriminant en début de trajectoire. Ce travail (préprint arXiv, janvier 2026) s'inscrit dans une série de méthodes cherchant à coupler la puissance générative des VLA modernes (RT-2, OpenVLA, Pi-0 de Physical Intelligence, GR00T N2 de NVIDIA) avec des mécanismes de planification structurée, face aux approches concurrentes par world models et diffusion planifiante. Les résultats sont obtenus uniquement en simulation sur LIBERO et ne sont pas encore validés sur robot réel, limite classique de ce type de contribution arxiv. La prochaine étape naturelle est une évaluation sim-to-real pour vérifier si le signal de valeur appris se transfère hors simulation, notamment sur des tâches à contacts complexes ou en environnement non structuré.

RechercheOpinion

1 source

4arXiv cs.RO

D-CLING : affinage conditionné par la profondeur pour les modèles fondation de navigation, avec préservation des connaissances antérieures

D-CLING est une méthode de fine-tuning pour les Navigation Foundation Models (NFM) présentée dans un preprint arXiv (2605.19690) par des chercheurs de Toyota Frontier Research Center. Les NFM sont des politiques visuomotrices entraînées sur de larges ensembles de données multi-robots, capables de naviguer dans des environnements variés. Le problème identifié est récurrent dans le déploiement terrain : adapter un NFM à un nouveau contexte par fine-tuning classique dégrade ses capacités, provoquant soit un évitement d'obstacles défaillant, soit une incapacité à atteindre les objectifs fixés. D-CLING s'inspire directement de ControlNet, l'architecture de contrôle conditionné développée pour les modèles de diffusion d'images, en attachant une copie entraînable du backbone pré-entraîné via des connexions résiduelles initialisées à zéro. Ce mécanisme permet au modèle d'acquérir des indices géométriques de profondeur sans écraser le prior pré-entraîné. Les évaluations en navigation réelle montrent une réduction significative des collisions et des interventions humaines sur des trajectoires longue distance. Le problème adressé est central pour la commercialisation des robots mobiles : les NFM généralistes sont puissants mais rarement utilisables sans adaptation sur un site spécifique. Le fine-tuning sur données locales provoque typiquement un phénomène d'érosion du prior, autrement dit l'oubli catastrophique des capacités acquises en pré-entraînement. En isolant l'apprentissage géométrique dans une branche parallèle non destructive, D-CLING préserve la généralisation du modèle de base tout en permettant une adaptation ciblée à la configuration caméra et à la géométrie de l'environnement. L'analyse offline montre que la méthode maintient, voire améliore, la prédiction d'actions au-delà du dataset de fine-tuning, un résultat structurant pour le continual learning en robotique mobile. Pour un intégrateur déployant des AMR avec une configuration optique non standard, cela ouvre une voie d'adaptation sans réentraînement complet du modèle. Toyota Frontier Research Center s'inscrit dans une dynamique plus large : plusieurs équipes industrielles cherchent à capitaliser sur les NFM généralistes issus de travaux de Google DeepMind, Stanford ou Berkeley, plutôt que de repartir de zéro par plateforme. Le transfert méthodologique depuis ControlNet illustre la porosité croissante entre la recherche en génération d'images et la robotique, notamment via les architectures à diffusion. Les concurrents directs incluent les adaptations LoRA appliquées aux politiques robotiques et les approches de domain adaptation sans ré-entraînement. D-CLING reste pour l'instant un preprint, sans benchmark standardisé publié ni déploiement à grande échelle annoncé ; les résultats sont prometteurs, mais la validation sur des environnements industriels diversifiés reste entière.

UEImpact indirect : les intégrateurs européens d'AMR déployant des modèles de navigation généralistes pourraient adopter cette méthode d'adaptation sans réentraînement complet, mais aucun acteur ou déploiement EU n'est impliqué à ce stade.

RechercheOpinion

1 source