Aller au contenu principal
Qwen-VLA : un modèle vision-langage-action (VLA) unifié pour les tâches, environnements et morphologies de robots
IA physiquearXiv cs.RO20h

Qwen-VLA : un modèle vision-langage-action (VLA) unifié pour les tâches, environnements et morphologies de robots

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Qwen-VLA, présenté en préprint arXiv par l'équipe Qwen d'Alibaba (arXiv:2605.30280, mai 2026), est un modèle de fondation incarné qui unifie dans un seul système la manipulation robotique, la navigation vision-et-langage et la prédiction de trajectoires. L'architecture étend la pile vision-langage de Qwen par un décodeur d'action basé sur un Diffusion Transformer (DiT), permettant de générer des actions continues en plus du raisonnement perceptif. L'entraînement joint combine trajectoires de manipulation réelles, démonstrations égocentrées humaines, données de simulation synthétique et jeux de données de navigation. Sur les benchmarks publiés, Qwen-VLA-Instruct atteint 97,9 % sur LIBERO, 86,1 %/87,2 % sur RoboTwin-Easy/Hard, 73,7 % sur Simpler-WidowX, et 69,0 % de taux de succès d'objectif sur R2R en navigation. En conditions réelles sur plateforme ALOHA, le modèle affiche 76,9 % de succès moyen hors-distribution (OOD) et 26,6 % en zéro-shot sur DOMINO, une tâche de manipulation dynamique.

La contribution principale est le "embodiment-aware prompt conditioning" : des descriptions textuelles propres à chaque robot spécifient morphologie et conventions de contrôle, permettant théoriquement à un seul jeu de poids de s'adapter à plusieurs plateformes sans réentraînement dédié. Pour les intégrateurs et les COO industriels, c'est directement le problème du cross-embodiment qui freine les déploiements à l'échelle. Les scores OOD sont pertinents mais méritent d'être nuancés : ils portent sur des environnements de laboratoire, et les 76,9 % sur ALOHA concernent une plateforme à deux bras en contexte contrôlé, pas un robot industriel en conditions de production. La sélection des séquences de démonstration dans les preprints arXiv est notoirement favorable aux cas réussis.

Qwen-VLA s'inscrit dans la course aux VLA généralistes, aux côtés de pi-0 de Physical Intelligence (spécialisé manipulation, 400 M$ levés), GR00T N2 de NVIDIA (cross-embodiment annoncé en 2025) et OpenVLA d'UC Berkeley. Son décodeur DiT le rapproche des approches diffusion-based de pi-0, par opposition aux méthodes token-based. Qwen étant déjà un modèle ouvert d'Alibaba largement adopté dans des stacks vision-langage, son extension à l'action physique offre aux équipes de recherche et d'intégration un point d'entrée solide pour le fine-tuning multi-tâche multi-robot. Aucun déploiement commercial n'est annoncé à ce stade : c'est un travail de recherche, pas un produit lancé.

Impact France/UE

Les équipes de recherche et d'intégration robotique européennes peuvent exploiter ce modèle ouvert Alibaba pour du fine-tuning multi-robot multi-tâche, mais aucun partenariat ni déploiement européen n'est annoncé.

À lire aussi

VLA Foundry : un cadre unifié pour l'entraînement des modèles vision-langage-action
1arXiv cs.RO 

VLA Foundry : un cadre unifié pour l'entraînement des modèles vision-langage-action

Le laboratoire TRI-ML (Toyota Research Institute Machine Learning) publie VLA Foundry, un framework open-source qui unifie dans une seule base de code l'entraînement des modèles LLM, VLM et VLA (Vision-Language-Action). Jusqu'ici, la majorité des pipelines open-source de robotique apprenante se concentraient exclusivement sur l'étape d'entraînement à l'action, assemblant à la hâte des briques de préentraînement incompatibles entre elles. VLA Foundry propose à la place un continuum de bout en bout: du préentraînement linguistique jusqu'au fine-tuning spécialisé pour le contrôle moteur. Deux familles de modèles sont publiées simultanément: la première entraînée intégralement depuis zéro via le pipeline LLM→VLM→VLA, la seconde construite sur le backbone Qwen3-VL d'Alibaba. Les deux sont évalués en boucle fermée sur LBM Eval, un simulateur open-source et open-data de manipulation sur table. Sur les tâches multi-objets, le modèle fondé sur Qwen3-VL dépasse la baseline de façon significative, sans que TRI-ML ne quantifie précisément l'écart dans le résumé publié. Le code est disponible sur GitHub (TRI-ML/vla_foundry) et les poids sont libérés sur HuggingFace. Ce que VLA Foundry prouve concrètement, c'est que le choix du backbone VLM est un levier critique: partir d'un modèle vision-langage préentraîné et performant comme Qwen3-VL, plutôt que de construire une architecture robotique ad hoc, améliore substantiellement la politique de contrôle multi-tâches. Pour les équipes d'intégration et les chercheurs, cela valide une stratégie de transfert: exploiter les représentations génériques des grands VLMs commerciaux ou open-weights plutôt que de repartir de zéro. Par ailleurs, le fait que le modèle from-scratch atteigne les performances des travaux closed-source antérieurs de TRI-ML constitue un signal positif pour la reproductibilité de cette classe de modèles, souvent opaque dans la littérature. TRI-ML est l'un des laboratoires de robotique académique les plus actifs, avec une longue historique en apprentissage par renforcement et en manipulation. Dans la course aux VLA, il affronte désormais Physical Intelligence et son modèle pi0, Figure AI avec Helix, Google DeepMind (RT-2, et ses successeurs), ainsi que plusieurs startups émergentes. L'appui sur Qwen3-VL, un modèle produit par l'équipe Qwen d'Alibaba, illustre la tendance croissante à hybrider les avancées du monde NLP avec les contraintes du monde physique. Les prochaines étapes mentionnées incluent des améliorations d'outillage pour le simulateur LBM Eval et l'outil d'analyse STEP, deux contributions qui pourraient aider la communauté à standardiser l'évaluation des politiques robotiques en boucle fermée.

IA physiqueOpinion
1 source
USIM et U0 : un jeu de données et un modèle vision-langage-action pour robots sous-marins polyvalents
2arXiv cs.RO 

USIM et U0 : un jeu de données et un modèle vision-langage-action pour robots sous-marins polyvalents

Une équipe de chercheurs a publié USIM et U0, un dataset de simulation et un modèle vision-langage-action (VLA) conçus pour doter les robots sous-marins d'une intelligence généraliste multi-tâches. Le dataset USIM regroupe plus de 905 000 images issues de 2 275 trajectoires simulées, soit environ 25 heures d'interactions enregistrées sur le robot BlueROV2, un ROV à six degrés de liberté largement utilisé en recherche. Le modèle U0, entraîné sur ces données, est capable d'exécuter des tâches allant de la navigation par évitement d'obstacles à la manipulation mobile en trois dimensions, le tout piloté par des instructions en langage naturel. En évaluation, U0 atteint un taux de succès global de 43,1 % sur des tâches en ligne, soit une amélioration de 5,5 points de pourcentage par rapport aux meilleures baselines existantes (plafonnées à 37,6 %), avec des performances particulièrement élevées en navigation pure, où le taux monte à 87,5 %. L'erreur moyenne de prédiction d'action hors ligne est réduite à 0,0359. Ces résultats ont une portée directe pour les intégrateurs et opérateurs de systèmes sous-marins autonomes : ils démontrent qu'un modèle généraliste entraîné sur données synthétiques peut effectivement franchir le sim-to-real gap dans un environnement aussi contraignant que le milieu aquatique, où la visibilité est réduite, les courants perturbent la stabilité et les repères visuels sont ambigus. Pour le secteur, c'est une validation de l'approche VLA à l'échelle sous-marine, un domaine où la quasi-totalité des travaux antérieurs s'était cantonnée à des méthodes spécialisées tâche par tâche. L'intégration d'un module de perception convolution-attention (CAP) avec estimation de pose cible comme tâche auxiliaire renforce explicitement la conscience spatiale du modèle, ce qui est critique pour la manipulation en 3D dans des scènes non structurées. Jusqu'ici, la robotique sous-marine autonome reposait majoritairement sur des systèmes de contrôle classiques ou des réseaux de neurones entraînés sur des jeux de données tâche-spécifiques, souvent collectés en conditions réelles à coût élevé. L'approche USIM mise sur la synthèse de données simulées à grande échelle pour contourner ce goulot d'étranglement, une stratégie déjà validée en robotique terrestre par des frameworks comme IsaacGym ou Genesis. Du côté des concurrents directs, les travaux sur les robots sous-marins généralistes restent rares : les projets OpenDive ou les plateformes de Woods Hole Oceanographic Institution n'ont pas encore publié d'équivalent VLA. Aucun acteur européen n'est cité dans cet article, bien que des entreprises comme ECA Group (France) ou Saab Seaeye (Suède) opèrent sur le marché ROV industriel. Le papier, disponible sur arXiv (2510.07869v4), pose un cadre d'évaluation standardisé incluant métriques hors ligne et exécution en ligne, ce qui facilitera les comparaisons futures. Les prochaines étapes annoncées concernent le transfert vers des plateformes physiques et l'extension du dataset à des scénarios plus complexes.

UEImpact indirect potentiel pour des acteurs européens du ROV industriel comme ECA Group (France) ou Saab Seaeye (Suède), mais aucun partenariat ni déploiement européen n'est annoncé dans ce travail de recherche.

💬 43 % de succès global, bon, c'est le début. Mais 87 % en navigation pure et zéro données réelles collectées en mer, c'est la preuve que la stratégie simulation-à-grande-échelle fonctionne sous l'eau exactement comme en terrestre : plus besoin d'envoyer un ROV filmer des épaves pendant des mois pour constituer un dataset. ECA Group a un truc sérieux à surveiller.

IA physiqueOpinion
1 source
Agentic-VLA : adaptation en ligne efficace pour les modèles vision-langage-action
3arXiv cs.RO 

Agentic-VLA : adaptation en ligne efficace pour les modèles vision-langage-action

Une équipe de chercheurs présente Agentic-VLA, un framework d'entraînement agentique pour modèles Vision-Langage-Action (VLA), publié sur arXiv (2605.22896) fin mai 2026. L'approche repose sur trois mécanismes : une synthèse adaptative de récompenses qui génère dynamiquement des fonctions de récompense en décomposant les tâches complexes en sous-objectifs progressifs pour un apprentissage par curriculum ; une exploration guidée par le langage via un modèle critique qui structure la recherche de politique plutôt que de procéder par échantillonnage aléatoire ; et une mémoire d'expériences qui stocke des poids de politique pour amorcer l'adaptation à de nouvelles tâches similaires. Évalué sur le benchmark LIBERO, le framework affiche +12,3% sur les tâches longue portée, +28,5% en apprentissage one-shot, et un transfert inter-tâches passant de 0% à 31,2% sans démonstrations spécifiques aux tâches cibles. La convergence est 2,4 fois plus rapide que les méthodes d'adaptation en ligne existantes. Les résultats tiennent également sur RoboTwin 2.0, benchmark dual-bras, y compris en mode difficile randomisé. Ces performances s'attaquent à deux verrous bien identifiés du déploiement industriel des VLA : la mauvaise généralisation aux environnements non vus et la dépendance aux larges jeux de démonstrations coûteuses à collecter. Le chiffre de 31,2% de transfert sans démonstration est le plus significatif : il suggère qu'un système VLA pourrait s'adapter à une tâche inédite sans données étiquetées supplémentaires, cassant le cycle coûteux de collecte-retrain-validation. Le gain one-shot (+28,5%) est directement exploitable pour les intégrateurs robotiques qui opèrent dans des environnements variés avec peu de données disponibles. Si ces chiffres se confirment hors simulation, Agentic-VLA réduit le coût marginal de l'adaptation d'un robot à un nouveau cas d'usage, ce qui est le vrai goulot d'étranglement de la robotisation flexible. Les VLA sont des modèles combinant un encodeur vision-langage (de type LLaVA ou similaire) et un générateur d'actions motrices. Les références actuelles sont π0 de Physical Intelligence, OpenVLA et Octo. Leur talon d'Achille commun est le demo-to-reality gap : les politiques entraînées sur démonstrations se dégradent rapidement en conditions opérationnelles réelles. Agentic-VLA répond par l'adaptation en ligne continue plutôt que par pré-entraînement massif, ce qui est une orientation différente des approches à grandes données comme π0. L'article reste un preprint non relu par les pairs, sans validation sur robot physique rapportée, ce qui limite la portée immédiate des conclusions. La prochaine étape naturelle est une démonstration hardware en environnement non contrôlé.

💬 Le chiffre qui m'intéresse, c'est le 31,2% de transfert sans démonstration. Si ça tient hors simulation, ça règle le vrai problème de la robotique flexible : tu n'as plus à reconstruire un dataset complet pour chaque nouveau cas d'usage, le robot s'adapte. Reste à voir sur du vrai hardware, mais sur le papier c'est le bon angle d'attaque.

IA physiqueOpinion
1 source
Latent Reasoning VLA : pensée latente et prédiction pour les modèles vision-langage-action
4arXiv cs.RO 

Latent Reasoning VLA : pensée latente et prédiction pour les modèles vision-langage-action

Une équipe de chercheurs a publié sur arXiv (arXiv:2602.01166) LaRA-VLA, un nouveau cadre de modèles Vision-Language-Action (VLA) qui internalise le raisonnement multi-modal directement dans un espace latent continu, plutôt que de générer explicitement des chaînes de pensée textuelles (chain-of-thought, CoT) à l'inférence. Concrètement, là où les VLA actuels produisent des tokens de raisonnement discrets avant chaque décision motrice, LaRA-VLA effectue raisonnement et prédiction d'action dans un même espace latent, sans étape de génération textuelle intermédiaire. Les auteurs rapportent une réduction de la latence d'inférence pouvant atteindre 90 % par rapport aux approches CoT explicites, tout en surpassant les méthodes VLA de référence sur des benchmarks en simulation et sur des tâches de manipulation réelle à longue portée. Deux jeux de données CoT structurés ont été construits pour l'entraînement. L'entraînement suit un curriculum progressif : supervision d'abord textuelle et visuelle, puis transition vers un raisonnement purement latent, avant adaptation de ces dynamiques latentes au conditionnement de la génération d'actions. Ce résultat est significatif pour les intégrateurs et décideurs industriels parce qu'il s'attaque directement au principal goulot d'étranglement des VLA raisonnants : le coût computationnel du CoT à l'inférence rendait ces modèles inutilisables en temps réel sur du matériel embarqué. Un gain de 90 % de latence sans dégradation de performance change le rapport entre qualité de raisonnement et contrainte temps-réel, rendant crédible le déploiement de politiques robotiques expressives sur des bras industriels ou des humanoïdes sans serveur dédié au raisonnement. Cela contredit partiellement l'hypothèse que le raisonnement symbolique explicite est nécessaire pour gérer des tâches longues et multi-étapes. Les VLA, popularisés par des travaux comme RT-2 (Google DeepMind, 2023) puis Pi-0 (Physical Intelligence, 2024) et GR00T N2 (NVIDIA, 2025), cherchent à combiner compréhension sémantique et contrôle moteur dans un seul modèle. La tension entre performance de raisonnement et latence d'inférence est un sujet actif : d'autres approches comme les modèles de diffusion d'actions (Pi-0) contournent le problème différemment. LaRA-VLA propose une troisième voie, en fusionnant les deux flux dans l'espace latent. Le code et la page projet sont disponibles publiquement ; les prochaines étapes attendues sont des évaluations sur robots humanoïdes et des tests de robustesse hors distribution, domaines où le gap simulation-réalité reste le critère déterminant pour une adoption industrielle.

UECette réduction de latence d'inférence de 90 % ouvre la voie au déploiement de politiques VLA expressives sur du matériel embarqué, ce qui pourrait bénéficier aux équipes R&D et intégrateurs européens travaillant sur des bras industriels ou des humanoïdes sans infrastructure de calcul dédiée.

💬 90 % de latence en moins sur les VLA, c'est le genre de résultat qu'on attendait pour débloquer l'embarqué. Passer le raisonnement dans l'espace latent plutôt que de cracher des tokens CoT, c'est élégant, et les benchmarks semblent tenir. Reste le gap simulation-réalité, qui est toujours l'épreuve de vérité, et là aucun papier arXiv ne peut te garantir grand chose avant les tests sur du vrai matériel.

IA physiqueOpinion
1 source