
Qwen-VLA : un modèle vision-langage-action (VLA) unifié pour les tâches, environnements et morphologies de robots
Qwen-VLA, présenté en préprint arXiv par l'équipe Qwen d'Alibaba (arXiv:2605.30280, mai 2026), est un modèle de fondation incarné qui unifie dans un seul système la manipulation robotique, la navigation vision-et-langage et la prédiction de trajectoires. L'architecture étend la pile vision-langage de Qwen par un décodeur d'action basé sur un Diffusion Transformer (DiT), permettant de générer des actions continues en plus du raisonnement perceptif. L'entraînement joint combine trajectoires de manipulation réelles, démonstrations égocentrées humaines, données de simulation synthétique et jeux de données de navigation. Sur les benchmarks publiés, Qwen-VLA-Instruct atteint 97,9 % sur LIBERO, 86,1 %/87,2 % sur RoboTwin-Easy/Hard, 73,7 % sur Simpler-WidowX, et 69,0 % de taux de succès d'objectif sur R2R en navigation. En conditions réelles sur plateforme ALOHA, le modèle affiche 76,9 % de succès moyen hors-distribution (OOD) et 26,6 % en zéro-shot sur DOMINO, une tâche de manipulation dynamique.
La contribution principale est le "embodiment-aware prompt conditioning" : des descriptions textuelles propres à chaque robot spécifient morphologie et conventions de contrôle, permettant théoriquement à un seul jeu de poids de s'adapter à plusieurs plateformes sans réentraînement dédié. Pour les intégrateurs et les COO industriels, c'est directement le problème du cross-embodiment qui freine les déploiements à l'échelle. Les scores OOD sont pertinents mais méritent d'être nuancés : ils portent sur des environnements de laboratoire, et les 76,9 % sur ALOHA concernent une plateforme à deux bras en contexte contrôlé, pas un robot industriel en conditions de production. La sélection des séquences de démonstration dans les preprints arXiv est notoirement favorable aux cas réussis.
Qwen-VLA s'inscrit dans la course aux VLA généralistes, aux côtés de pi-0 de Physical Intelligence (spécialisé manipulation, 400 M$ levés), GR00T N2 de NVIDIA (cross-embodiment annoncé en 2025) et OpenVLA d'UC Berkeley. Son décodeur DiT le rapproche des approches diffusion-based de pi-0, par opposition aux méthodes token-based. Qwen étant déjà un modèle ouvert d'Alibaba largement adopté dans des stacks vision-langage, son extension à l'action physique offre aux équipes de recherche et d'intégration un point d'entrée solide pour le fine-tuning multi-tâche multi-robot. Aucun déploiement commercial n'est annoncé à ce stade : c'est un travail de recherche, pas un produit lancé.
Les équipes de recherche et d'intégration robotique européennes peuvent exploiter ce modèle ouvert Alibaba pour du fine-tuning multi-robot multi-tâche, mais aucun partenariat ni déploiement européen n'est annoncé.




