Aller au contenu principal
ThinkingVLA : raisonnement vision-langage entrelacé pour la manipulation robotique
RecherchearXiv cs.RO3h

ThinkingVLA : raisonnement vision-langage entrelacé pour la manipulation robotique

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Une équipe de chercheurs a publié sur arXiv (réf. 2606.17937, juin 2026) ThinkingVLA, un modèle VLA (Vision-Language-Action) conçu pour la manipulation robotique sur des séquences longues. L'architecture, de type Mixture-of-Transformers, intercale raisonnement textuel et visuel dans un unique processus génératif. Un Chain-of-Thought "forward" identifie le sous-objectif suivant et prédit l'état visuel cible correspondant ; un CoT "inverse" prend ensuite cette image générée comme entrée et infère les commandes motrices nécessaires pour l'atteindre. L'action finale est générée conditionnée sur ce contexte de raisonnement complet. Sur des benchmarks en simulation et en conditions réelles, ThinkingVLA surpasse les baselines de l'état de l'art, avec les gains les plus marqués sur les tâches à horizon temporel long.

La grande majorité des modèles VLA actuels, notamment Pi-0 de Physical Intelligence ou OpenVLA, projettent directement observations vers actions sans raisonnement explicite, ce qui les pénalise sur les séquences longues nécessitant planification spatiale et décomposition en sous-étapes. ThinkingVLA adresse ce "reasoning gap" en forçant le modèle à anticiper visuellement l'état du monde avant de dériver les commandes. Cette boucle d'inverse dynamics grounding visuel est, si elle se confirme à l'échelle sur des objets et environnements variés, une piste sérieuse pour réduire le fossé persistant entre démonstrations en laboratoire et robustesse opérationnelle hors domaine.

Les modèles VLA ont connu une accélération nette depuis 2024 avec RT-2 de Google DeepMind, Pi-0 de Physical Intelligence (lancé fin 2024), GR00T N2 de NVIDIA et Helix de Figure AI. L'ajout de CoT textuel dans les VLA est une tendance consolidée, mais ThinkingVLA se distingue par un CoT visuel explicite, soit la génération d'une image intermédiaire comme étape de raisonnement, ce qui implique une architecture bimodale plus coûteuse à l'inférence. Le travail est soumis en pre-print sans revue par les pairs à ce stade, sans partenariat industriel annoncé. Les prochains défis identifiés par le domaine concernent la généralisation hors distribution et la réduction du coût d'inférence pour un déploiement embarqué en temps réel.

À lire aussi

Raisonner en texte et en images : traces de raisonnement vision-langage entrelacées pour la manipulation robotique à long horizon
1arXiv cs.RO 

Raisonner en texte et en images : traces de raisonnement vision-langage entrelacées pour la manipulation robotique à long horizon

Des chercheurs ont publié sur arXiv (arXiv:2605.00438) un cadre de politique robotique appelé IVLR (Interleaved Vision-Language Reasoning), conçu pour la manipulation à horizon long. Le coeur du système est une représentation intermédiaire explicite, la "trace", qui alterne des sous-objectifs textuels avec des images-clés visuelles sur l'ensemble de la séquence de tâche. À l'inférence, un transformateur multimodal natif génère cette trace globale à partir de l'observation initiale et de l'instruction, la met en cache, puis conditionne un décodeur d'actions en boucle fermée. Sur le benchmark simulé LIBERO, IVLR atteint 95,5 % de taux de succès moyen, dont 92,4 % sur LIBERO-Long, et 59,4 % sur SimplerEnv-WidowX. L'absence de telles traces dans les jeux de données robotiques existants est contournée par une pseudo-supervision construite en segmentant temporellement des démonstrations et en les annotant automatiquement via un modèle vision-langage. Les ablations quantifient clairement la valeur de chaque modalité : sans trace, LIBERO-Long chute à 37,7 % ; une trace texte seule atteint 62,0 %, une trace visuelle seule 68,4 %, tandis que la trace entrelacée texte-image monte à 92,4 %. L'écart de 30 points entre la combinaison et les modalités isolées démontre que le raisonnement causal (texte) et les contraintes géométriques (image) sont complémentaires, pas substituables. C'est une contribution directe au débat sur la planification explicite versus latente dans les politiques VLA (Vision-Language-Action) : masquer la planification dans des états latents, comme le font la majorité des architectures actuelles, laisse une performance substantielle sur la table. IVLR s'inscrit dans un courant de politiques VLA à planification explicite, en concurrence avec des approches comme Pi-0 de Physical Intelligence ou GR00T N2 de NVIDIA, qui intègrent également des capacités de raisonnement multimodal. La méthode de pseudo-supervision est potentiellement impactante pour les équipes académiques : elle permet de réutiliser des datasets existants sans annotations humaines supplémentaires, abaissant le coût d'entrée à la recherche sur les longues séquences. Les tests de robustesse indiquent une dégradation modérée face aux perturbations d'exécution et aux traces partiellement masquées, mais les auteurs reconnaissent une limite claire : lorsque le plan global est incorrect ou obsolète, le système reste fragile. La prochaine étape logique est la mise à jour dynamique de la trace en cours d'exécution, et la validation sur robots physiques hors simulation.

UELes laboratoires académiques européens (INRIA, CEA-List) travaillant sur les politiques VLA pourraient directement réutiliser la méthode de pseudo-supervision pour annoter leurs datasets existants sans coût humain supplémentaire.

RechercheOpinion
1 source
ManiSoft : vers la manipulation vision-langage pour la robotique souple à continuum
2arXiv cs.RO 

ManiSoft : vers la manipulation vision-langage pour la robotique souple à continuum

Des chercheurs du laboratoire CoLa de l'université BUAA (Beijing University of Aeronautics and Astronautics) ont publié ManiSoft, un benchmark conçu pour évaluer la manipulation vision-langage sur des bras robotiques souples à continuum. Le jeu de données comprend 6 300 scènes générées automatiquement avec leurs trajectoires expertes correspondantes, réparties en quatre tâches progressives allant de la coordination basique de l'effecteur terminal jusqu'à l'évitement d'obstacles dans des environnements encombrés. Le simulateur développé pour l'occasion couple une dynamique de corps déformables réaliste avec des interactions riches en contact, grâce à une contrainte de force élastique. Le pipeline de génération de trajectoires fonctionne en deux étages : un planificateur de haut niveau décompose chaque tâche en séquences de waypoints, puis une politique d'apprentissage par renforcement de bas niveau génère les commandes de couple pour suivre ces waypoints. ManiSoft s'attaque à un angle mort réel de la recherche en manipulation robotique : la quasi-totalité des travaux sur les modèles vision-langage (VLA) cible des bras rigides à morphologie fixe, qui montrent leurs limites dans les espaces confinés ou encombrés. Les bras souples offrent une déformabilité naturellement adaptée à ces contextes, mais ils posent deux problèmes fondamentaux que le benchmark met en évidence : la proprioception peu fiable (le robot ne sait pas précisément où se trouve son propre corps) et l'actuation distribuée à bas niveau, incompatible avec les abstractions classiques des VLA. Les trois architectures de politiques évaluées obtiennent des résultats corrects en scènes propres, mais accusent une chute de performance significative dès que la randomisation des scènes augmente, ce qui souligne que le sim-to-real gap reste ouvert pour cette catégorie de robots. La robotique souple à continuum reste un domaine de recherche académique, loin des déploiements industriels à grande échelle qu'occupent les bras rigides de Fanuc, KUKA ou Universal Robots. Du côté des acteurs émergents, des startups comme Festo (avec ses bionics) ou des laboratoires européens explorent ces morphologies pour des applications chirurgicales et d'inspection en milieux contraints. ManiSoft ne vise pas pour l'instant à combler directement ce fossé industriel, mais à fournir une base d'évaluation reproductible pour comparer les approches. Le code et les données sont disponibles publiquement, ce qui devrait faciliter l'adoption par la communauté académique. Les prochaines étapes logiques seraient un transfert sim-to-real sur hardware physique et l'intégration de retour haptique pour corriger les dérives proprioceptives identifiées.

RechercheActu
1 source
Mag-VLA : modèle vision-langage-action pour la manipulation bimanuelle de microrobots à actionnement magnétique
3arXiv cs.RO 

Mag-VLA : modèle vision-langage-action pour la manipulation bimanuelle de microrobots à actionnement magnétique

Des chercheurs proposent Mag-VLA, un modèle vision-langage-action (VLA) conçu pour piloter des microrobots à actionnement magnétique via deux bras robotiques équipés d'aimants permanents. Le système adapte le backbone Qwen2.5-VL-7B par fine-tuning LoRA pour traiter des observations visuelles et des instructions en langage naturel, puis générer des trajectoires coordonnées pour les deux bras simultanément dans un espace de travail partagé. Pour structurer le contrôle multi-étapes, l'architecture intègre un classificateur de phase sensible au mouvement et un décodeur ACT (Action Chunking Transformer) conditionné par cette phase. L'équipe a constitué un jeu de données de manipulation téléopérée couvrant trois configurations de difficulté croissante. En expérimentation réelle, Mag-VLA atteint 90 % de taux de succès à l'approche toutes tâches confondues, et des taux de transport de 80 %, 70 % et 50 % selon la complexité de la tâche. Ce résultat compte parce que les microrobots magnétiques sont des candidats sérieux pour la chirurgie mini-invasive, délivrance ciblée de médicaments, navigation vasculaire, ophtalmologie, mais leur pilotage reste difficile en raison de l'actionnement indirect, des capteurs limités et des interactions magnétiques non linéaires. Mag-VLA montre que le paradigme VLA, jusqu'ici évalué principalement sur des bras industriels ou des humanoïdes à l'échelle centimétrique, peut s'étendre au microscale. La coordination bimanuelle permet notamment la réorientation du microrobot, une opération difficilement réalisable avec un seul actionneur magnétique. Les études d'ablation du papier confirment que le décodeur ACT surpasse significativement les têtes d'action génératives alternatives, ce qui valide les choix architecturaux. Le contrôle de microrobots magnétiques est un axe de recherche actif depuis une quinzaine d'années, porté notamment par des groupes à l'ETH Zurich et au Max Planck Institute for Intelligent Systems, via des contrôleurs classiques ou de l'apprentissage par renforcement spécialisé, sans généralisation par langage naturel. L'essor des VLA macroscopiques comme pi0 de Physical Intelligence ou OpenVLA ouvre une voie transférable que Mag-VLA tente de valider à l'échelle micrométrique. Il s'agit pour l'instant d'un preprint académique (arXiv 2605.28486), sans partenaire industriel ni horizon de déploiement clinique annoncé. Les prochaines étapes logiques incluent des tests en milieu fluidique in vitro, la réduction de la latence du décodeur pour un contrôle temps réel, et la généralisation à un éventail plus large de géométries de microrobots.

UELe Max Planck Institute für Intelligente Systeme (Allemagne) est un acteur historique du contrôle de microrobots magnétiques ; une validation clinique de Mag-VLA renforcerait à terme la compétitivité européenne en chirurgie robotique mini-invasive, mais aucun déploiement ni partenaire industriel EU n'est annoncé à ce stade.

RechercheOpinion
1 source
MARVL : guidage multi-étapes pour la manipulation robotique via des modèles vision-langage
4arXiv cs.RO 

MARVL : guidage multi-étapes pour la manipulation robotique via des modèles vision-langage

Des chercheurs ont publié MARVL (Multi-Stage Guidance for Robotic Manipulation via Vision-Language Models, arXiv:2602.15872), une méthode visant à automatiser la conception de fonctions de récompense dense pour l'apprentissage par renforcement (RL) appliqué à la manipulation robotique. L'approche repose sur l'affinage (fine-tuning) d'un modèle de vision-langage (VLM) pour améliorer sa cohérence spatiale et sémantique, puis décompose chaque tâche en sous-tâches séquentielles. Un mécanisme dit de projection de direction de trajectoire (task direction projection) renforce la sensibilité du signal de récompense aux progrès réels de l'agent. Évalué sur le benchmark Meta-World, référence standard pour les tâches de manipulation à récompenses éparses, MARVL surpasse les méthodes VLM-reward existantes en efficacité d'échantillonnage et en robustesse. La contribution centrale de MARVL est de corriger trois défauts chroniques des approches naïves de récompense par VLM : le désalignement entre signal de récompense et avancement réel de la tâche, la faiblesse du grounding spatial, et la compréhension insuffisante de la sémantique d'une tâche robotique. Pour les équipes de recherche en RL robotique, l'enjeu est concret : la conception manuelle de fonctions de récompense dense est coûteuse, non scalable, et constitue un goulot d'étranglement majeur dans le déploiement de nouveaux comportements. Si la méthode confirme ses performances sur des benchmarks plus larges, elle représenterait un pas vers l'automatisation du cycle de reward design, réduisant la dépendance aux ingénieurs spécialisés et accélérant l'itération expérimentale. Les VLMs utilisés comme superviseurs pour le RL robotique constituent un axe de recherche actif depuis 2023, porté notamment par des travaux comme EUREKA (OpenAI/NVIDIA) ou VLP. MARVL se distingue par son affinage ciblé du VLM et sa décomposition multi-étapes, là où EUREKA s'appuie sur un LLM pour générer du code de récompense sans fine-tuning préalable. La validation se limite pour l'instant à Meta-World, un environnement entièrement simulé ; aucun résultat sur robot physique n'est rapporté dans cette version, ce qui laisse ouverte la question du sim-to-real gap. Les suites naturelles incluront une évaluation sur des plateformes matérielles et des benchmarks plus récents comme RLBench ou ManiSkill.

RechercheOpinion
1 source