
ThinkingVLA : raisonnement vision-langage entrelacé pour la manipulation robotique
Une équipe de chercheurs a publié sur arXiv (réf. 2606.17937, juin 2026) ThinkingVLA, un modèle VLA (Vision-Language-Action) conçu pour la manipulation robotique sur des séquences longues. L'architecture, de type Mixture-of-Transformers, intercale raisonnement textuel et visuel dans un unique processus génératif. Un Chain-of-Thought "forward" identifie le sous-objectif suivant et prédit l'état visuel cible correspondant ; un CoT "inverse" prend ensuite cette image générée comme entrée et infère les commandes motrices nécessaires pour l'atteindre. L'action finale est générée conditionnée sur ce contexte de raisonnement complet. Sur des benchmarks en simulation et en conditions réelles, ThinkingVLA surpasse les baselines de l'état de l'art, avec les gains les plus marqués sur les tâches à horizon temporel long.
La grande majorité des modèles VLA actuels, notamment Pi-0 de Physical Intelligence ou OpenVLA, projettent directement observations vers actions sans raisonnement explicite, ce qui les pénalise sur les séquences longues nécessitant planification spatiale et décomposition en sous-étapes. ThinkingVLA adresse ce "reasoning gap" en forçant le modèle à anticiper visuellement l'état du monde avant de dériver les commandes. Cette boucle d'inverse dynamics grounding visuel est, si elle se confirme à l'échelle sur des objets et environnements variés, une piste sérieuse pour réduire le fossé persistant entre démonstrations en laboratoire et robustesse opérationnelle hors domaine.
Les modèles VLA ont connu une accélération nette depuis 2024 avec RT-2 de Google DeepMind, Pi-0 de Physical Intelligence (lancé fin 2024), GR00T N2 de NVIDIA et Helix de Figure AI. L'ajout de CoT textuel dans les VLA est une tendance consolidée, mais ThinkingVLA se distingue par un CoT visuel explicite, soit la génération d'une image intermédiaire comme étape de raisonnement, ce qui implique une architecture bimodale plus coûteuse à l'inférence. Le travail est soumis en pre-print sans revue par les pairs à ce stade, sans partenariat industriel annoncé. Les prochains défis identifiés par le domaine concernent la généralisation hors distribution et la réduction du coût d'inférence pour un déploiement embarqué en temps réel.
Dans nos dossiers




