Aller au contenu principal
3DThinkVLA : doter les modèles VLA de représentations 3D latentes par co-entraînement guidé par raisonnement 3D
IA physiquearXiv cs.RO3h

3DThinkVLA : doter les modèles VLA de représentations 3D latentes par co-entraînement guidé par raisonnement 3D

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Des chercheurs ont publié le 4 juin 2026 sur arXiv (2506.04436) un framework dénommé 3DThinkVLA, conçu pour doter les modèles vision-language-action (VLA) d'un raisonnement spatial 3D implicite lors de la prédiction d'actions robotiques, sans recours à des capteurs de profondeur ni à la génération de texte à l'inférence. Le système articule trois composants opérant dans l'espace latent : un module de perception géométrique 3D qui aligne les features visuelles intermédiaires avec un modèle fondationnel 3D, un module de distillation de raisonnement en ligne utilisant un "reasoning anchor token" partagé, et un mécanisme d'intégration d'actions spatialement augmenté. À l'entraînement, le modèle apprend à raisonner spatialement depuis des prompts enseignants explicites ; au déploiement, seuls des adaptateurs légers sont conservés, le modèle fondationnel 3D et la branche enseignante étant élagués. Les auteurs déclarent des performances état-de-l'art sur les benchmarks LIBERO, LIBERO-PLUS et SimplerEnv, ainsi que sur des tâches de manipulation réelles.

L'apport principal est de découpler la perception géométrique 3D du raisonnement spatial de haut niveau pour les injecter à différents niveaux hiérarchiques, sans modifier l'architecture du backbone VLM. Ce découplage répond à un problème central des VLA actuels : leur tendance aux raccourcis d'action (action shortcuts) face aux relations spatiales complexes, ce qui dégrade les performances hors simulation. Le mécanisme d'anchor token transfère le raisonnement spatial implicitement, sans chain-of-thought au déploiement, réduisant la latence d'inférence. Pour les intégrateurs robotiques, cela ouvre la voie à des VLA plus robustes en manipulation de précision sans surcoût matériel. La méthode prévient également le catastrophic forgetting du VLM pré-entraîné, point critique lors du fine-tuning sur données robotiques spécialisées.

Les VLA ont connu une accélération depuis Pi-0 de Physical Intelligence fin 2024 et GR00T N2 de NVIDIA en 2025, mais la gestion du raisonnement 3D à partir d'images 2D reste un obstacle au déploiement industriel fiable, notamment pour l'assemblage et la manipulation fine. 3DThinkVLA s'inscrit dans une lignée de travaux concurrents, dont SpatialVLA et RoboVLMs, cherchant à injecter des priors géométriques sans alourdir l'inférence. Il convient de noter qu'il s'agit d'un preprint arXiv non encore évalué par les pairs, et que les benchmarks LIBERO et SimplerEnv sont des environnements de simulation standardisés dont les résultats ne garantissent pas les performances en conditions industrielles réelles. Aucun déploiement terrain ni partenariat commercial n'est annoncé à ce stade.

À lire aussi

DeepThinkVLA : renforcer les capacités de raisonnement des modèles VLA
1arXiv cs.RO 

DeepThinkVLA : renforcer les capacités de raisonnement des modèles VLA

Des chercheurs de l'équipe OpenBMB ont publié en avril 2026 DeepThinkVLA, un nouveau modèle Vision-Language-Action (VLA) qui intègre un raisonnement explicite de type Chain-of-Thought (CoT) pour améliorer les performances de manipulation robotique. Sur le benchmark LIBERO, le modèle atteint 97,0 % de taux de succès, 79,0 % sur LIBERO-Plus (contre 61,6 % pour pi0-FAST de Physical Intelligence), et 59,3 % sur RoboTwin 2.0, soit 21,7 points de plus que le meilleur concurrent testé. L'architecture repose sur un décodeur hybride à double mécanisme d'attention : attention causale pour la génération du langage, attention bidirectionnelle pour le décodage parallèle des actions. L'entraînement suit un pipeline en deux étapes, fine-tuning supervisé puis reinforcement learning avec récompenses éparses liées au succès de la tâche. Des expériences en conditions réelles sur robot physique complètent les résultats en simulation. L'apport principal n'est pas le modèle lui-même, mais le diagnostic rigoureux qu'il repose sur. Les auteurs identifient deux conditions nécessaires et suffisantes pour que le CoT soit utile dans un VLA. Première condition : l'alignement de décodage, c'est-à-dire que le texte de raisonnement et les commandes motrices ne peuvent pas partager le même décodeur autorégressif sans dégradation active des performances, quantifiée à -4,2 points de pourcentage. Deuxième condition : l'alignement causal, le raisonnement doit être optimisé en lien direct avec le succès de la tâche. Sans cela, un VLA entraîné avec CoT supervisé chute de 32,0 points sous distribution shift, quasi identique à la chute de 31,6 points d'un modèle sans raisonnement du tout. Ce résultat contredit l'hypothèse implicite de nombreux travaux récents : ajouter du CoT à un VLA sans ces deux conditions n'apporte rien, voire nuit. Le champ VLA connaît depuis 2024 une accélération intense, portée par des modèles comme pi0 (Physical Intelligence), OpenVLA (Berkeley), et RoboFlamingo. La plupart exploitent des fondations multimodales pré-entraînées mais traitent le raisonnement et l'action dans le même flux autorégressif, une limite que DeepThinkVLA adresse explicitement. OpenBMB est le groupe à l'origine de MiniCPM et CPM-Bee, actif dans les LLM compacts et les agents embarqués. Le code est disponible publiquement sur GitHub. La prochaine étape naturelle sera de valider ces gains sur des tâches de manipulation longue durée et en environnements non structurés, là où l'écart sim-to-real reste le vrai obstacle à la commercialisation.

IA physiqueActu
1 source
LaST-R1 : renforcement de l'action par raisonnement latent physique adaptatif pour les modèles VLA
2arXiv cs.RO 

LaST-R1 : renforcement de l'action par raisonnement latent physique adaptatif pour les modèles VLA

Des chercheurs ont publié le 29 avril 2026 sur arXiv (2604.28192) un nouveau cadre pour les modèles Vision-Langage-Action (VLA) baptisé LaST-R1, accompagné d'un algorithme d'apprentissage par renforcement inédit appelé LAPO (Latent-to-Action Policy Optimization). Le système atteint un taux de succès moyen de 99,8 % sur le benchmark de manipulation robotique LIBERO, après un unique épisode d'imitation supervisée en guise d'amorçage. En déploiement réel sur quatre tâches complexes, dont des configurations monobranche et bras-double, LAPO améliore les performances de 44 % par rapport à la politique issue de cet amorçage initial. L'apport central de LaST-R1 est de relier explicitement le raisonnement sur la physique à la génération d'actions, là où les approches existantes traitaient ces deux étapes séparément. Les VLA actuels raisonnent soit en langage naturel (coûteux en latence et discret), soit dans un espace latent continu, mais dans les deux cas par imitation statique, sans capacité d'adaptation par essais-erreurs. LAPO co-optimise simultanément le processus de raisonnement latent et la production d'actions via du renforcement en ligne, ce qui améliore la modélisation du monde physique et la robustesse en environnement interactif. Un mécanisme de "latent Chain-of-Thought adaptatif" permet en outre au modèle d'ajuster dynamiquement son horizon de raisonnement selon la complexité de la situation, sans coût fixe à chaque pas. Il s'agit d'une annonce académique sous forme de preprint, pas encore d'un produit embarqué sur robot commercial. Ce travail s'inscrit dans la course à la généralisation des VLA, portée ces derniers mois par des modèles comme Pi-0 de Physical Intelligence, GR00T N2 de NVIDIA ou OpenVLA. L'un des verrous récurrents du secteur est l'écart simulation-réalité (sim-to-real gap) et la difficulté à faire converger rapidement un modèle en conditions réelles sans millions d'épisodes supervisés. LaST-R1 revendique une convergence significativement accélérée grâce à l'optimisation jointe du raisonnement latent, une piste que suivent aussi des équipes européennes travaillant sur l'apprentissage par renforcement pour la manipulation, notamment dans l'orbite des laboratoires universitaires français. Les prochaines étapes naturelles seront la validation sur des benchmarks plus diversifiés (AgiBot World, RLBench) et l'intégration dans des plateformes matérielles commerciales.

UELes laboratoires français et européens travaillant sur la manipulation robotique par apprentissage par renforcement peuvent s'appuyer sur l'approche LAPO pour réduire leur dépendance aux grandes quantités de données supervisées, accélérant potentiellement leurs cycles de recherche.

IA physiqueOpinion
1 source
Guide, Pense, Agit : le raisonnement incarné interactif dans les modèles vision-langage-action (VLA)
3arXiv cs.RO 

Guide, Pense, Agit : le raisonnement incarné interactif dans les modèles vision-langage-action (VLA)

Des chercheurs ont déposé sur arXiv (arXiv:2605.13632, mai 2026) GTA-VLA (Guide, Think, Act), un framework Vision-Language-Action interactif qui permet d'injecter des indices visuels explicites dans le raisonnement d'un robot avant l'exécution. Contrairement aux VLA classiques qui appliquent un mapping direct perception-action appris sur données d'entraînement, GTA-VLA introduit une étape de raisonnement spatial conditionné : l'opérateur peut fournir des points d'affordance, des boîtes englobantes ou des trajectoires dessinées sur l'image, que le modèle intègre dans une chaîne de pensée (Chain-of-Thought, CoT) avant de générer les commandes motrices. Une tête d'action légère ("reactive action head") assure ensuite l'exécution. Sur le benchmark SimplerEnv WidowX en conditions in-domain, le système atteint un taux de succès de 81,2 %, présenté comme état de l'art sur cette tâche. Les auteurs rapportent qu'une seule interaction visuelle suffit à améliorer substantiellement les performances sous perturbations visuelles ou ambiguïtés spatiales hors distribution (OOD). Ce résultat pointe une limite structurelle des VLA actuels : leur fragilité face aux shifts de distribution, c'est-à-dire dès que l'environnement de déploiement diffère des données d'entraînement. Les approches CoT existantes exposent le raisonnement intermédiaire mais restent aveugles à la guidance humaine, rendant la reprise sur erreur difficile sans réentraînement. GTA-VLA propose une troisième voie : maintenir l'autonomie du modèle tout en ouvrant un canal de correction humain minimal, ciblé sur l'espace visuel. Pour un intégrateur industriel, c'est un argument concret contre le demo-to-reality gap : si le robot échoue, l'opérateur désigne visuellement l'objet cible plutôt que de réécrire une instruction texte. La métrique de 81,2 % sur SimplerEnv mérite toutefois d'être contextualisée : ce benchmark reste un environnement simulé contrôlé, et aucun résultat sur hardware réel n'est communiqué dans le papier. GTA-VLA s'inscrit dans l'effervescence des architectures VLA depuis Pi-0 de Physical Intelligence, GR00T N2 de NVIDIA ou Helix de Figure AI, qui ont tous cherché à coupler raisonnement de haut niveau et exécution robotique fluide. L'apport spécifique est de rendre ce raisonnement "steerable" via des priors spatiaux explicites, là où Pi-0 ou GR00T N2 restent essentiellement autonomes une fois déployés. Publié en preprint non encore évalué par des pairs, le papier ne mentionne ni déploiement sur plateforme physique ni partenariats industriels annoncés. Les prochaines étapes naturelles seraient une validation sur manipulateurs réels (WidowX physique, Franka) et une évaluation de la robustesse de l'interface de guidance en conditions industrielles réelles.

IA physiqueOpinion
1 source
Régularisation contrastive des représentations pour les modèles vision-langage-action (VLA)
4arXiv cs.RO 

Régularisation contrastive des représentations pour les modèles vision-langage-action (VLA)

Une équipe de chercheurs propose RS-CL (Robot State-aware Contrastive Loss), une nouvelle méthode de régularisation des représentations pour les modèles Vision-Language-Action (VLA), publiée dans une pré-publication arXiv (2510.01711v3, troisième révision). Le principe : ajouter une perte contrastive légère qui aligne les représentations internes du modèle sur les états proprioceptifs du robot, en utilisant les distances relatives entre ces états comme supervision douce. Cette composante s'intègre sans modification architecturale aux pipelines VLA existants et vient compléter l'objectif classique de prédiction d'actions. Sur le benchmark RoboCasa-Kitchen, RS-CL porte le meilleur modèle existant à 69,7 % de taux de succès. Sur des tâches réelles de manipulation en conditions difficiles, le gain est de 45,0 % à 58,3 %, soit plus de treize points d'écart. Ce résultat pointe une faiblesse structurelle des VLA actuels : hérités de Visual Language Models pré-entraînés sur des données web, leurs espaces de représentation sont optimisés pour la compréhension visuelle et linguistique, pas pour le contrôle moteur. RS-CL s'attaque directement à ce désalignement sans réentraîner le backbone ni alourdir significativement l'inférence. Pour les intégrateurs et les équipes de recherche appliquée, cela signifie qu'un gain de plus de treize points sur des tâches réelles est accessible via un simple ajout à la fonction de perte, sans refonte du pipeline. C'est une avancée sur la question du sim-to-real et du gap entre benchmarks synthétiques et déploiements effectifs, même si les conditions exactes des évaluations réelles ne sont pas détaillées dans le résumé. Les VLA constituent un axe de recherche actif depuis l'émergence de modèles comme RT-2 (Google DeepMind, 2023), OpenVLA, et plus récemment Pi-0 (Physical Intelligence) ou GR00T N2 (NVIDIA). Ces modèles partagent la même architecture de base : un VLM pré-entraîné auquel on greffe une tête de prédiction d'actions. RS-CL s'inscrit dans une tendance plus large visant à mieux ancrer ces modèles dans la physique du robot plutôt que dans la sémantique du langage. Les prochaines étapes naturelles seraient de tester la méthode sur d'autres benchmarks standardisés (LIBERO, OpenX-Embodiment) et sur des plateformes humanoïdes où la proprioception joue un rôle encore plus central.

IA physiqueOpinion
1 source