MPCoT : raisonnement latent multi-chemin guidé…

TEXEDO : mise à l'échelle à l'inférence pour la génération de mouvements humanoïdes guidée par le langage et le contrôleur

45

1arXiv cs.RO

TEXEDO : mise à l'échelle à l'inférence pour la génération de mouvements humanoïdes guidée par le langage et le contrôleur

Des chercheurs ont publié TEXEDO, un cadre d'inférence pour améliorer la génération de mouvements de robots humanoïdes guidée par texte, sans réentraîner le modèle sous-jacent. Présenté sur arXiv (2606.22998) et validé en déploiement réel sur un Unitree G1, le système génère plusieurs mouvements candidats à partir d'un prompt textuel, puis sélectionne le meilleur via un modèle de récompense à deux composantes : un vérificateur de faisabilité dynamique, distillé depuis des simulations de contrôleurs whole-body pour prédire l'exécutabilité physique, et un vérificateur d'alignement sémantique dans un espace d'embedding partagé texte-mouvement. La faisabilité physique est imposée comme contrainte dure ; l'alignement sémantique sert d'objectif de sélection parmi les candidats valides. Les résultats montrent des améliorations en fidélité de tracking et en cohérence textuelle, en simulation comme sur le G1 en conditions réelles. Ce travail adresse une limite structurelle des générateurs actuels : entraînés sur des données de mouvements humains re-ciblés vers des morphologies robotiques, ils ignorent les contraintes propres aux contrôleurs physiques réels, équilibre, dynamiques de contact, limites d'actuation, modes de défaillance spécifiques à chaque plateforme. Des mouvements "sémantiquement plausibles" s'avèrent ainsi souvent inexécutables sur le matériel, un écart bien documenté dans la communauté robotique. TEXEDO applique à la génération de mouvements le principe de "test-time compute scaling" popularisé par les LLMs de type o1 ou o3 : allouer du calcul supplémentaire à l'inférence plutôt qu'au réentraînement. Pour un intégrateur ou un ingénieur robotique, cela signifie qu'un générateur existant peut être amélioré en déploiement sans pipeline de fine-tuning coûteux, ce qui est un argument pratique solide. TEXEDO s'inscrit dans la compétition autour de la programmation des robots par langage naturel, face à des approches VLA (Vision-Language-Action) end-to-end comme pi-0 de Physical Intelligence ou GR00T N2 de NVIDIA. La distinction clé est que TEXEDO cible exclusivement la couche de génération de mouvements, en amont du contrôleur, sans chercher à unifier perception, langage et action dans un seul modèle. Le Unitree G1, humanoïde commercial répandu dans les labos de recherche autour de 16 000 dollars, sert ici de banc de test réel, ce qui renforce la portée des résultats par rapport à des évaluations purement simulées. La suite logique serait d'étendre le cadre à d'autres plateformes humanoïdes et d'autres familles de générateurs préentraînés.

💬 Le test-time compute scaling arrive en robotique physique, et c'est une direction que j'attendais : tu peux améliorer un générateur de mouvements existant à l'inférence, sans pipeline de fine-tuning, ce que les approches VLA end-to-end comme pi-0 ne proposent pas. Validé sur un vrai G1, pas en sim. Reste à voir si ça généralise à d'autres plateformes.

IA physiqueOpinion

1 source

E-TTS : un nouveau cadre de mise à l'échelle au moment de l'inférence pour la manipulation robotique

42

2arXiv cs.RO

E-TTS : un nouveau cadre de mise à l'échelle au moment de l'inférence pour la manipulation robotique

Des chercheurs présentent sur arXiv (2606.27268, juin 2026) E-TTS, un cadre de mise à l'échelle à l'inférence (test-time scaling) pour la manipulation robotique, applicable en surcouche de modèles vision-language-action (VLA) existants sans réentraînement ni collecte de données supplémentaire. Le framework repose sur deux mécanismes : un échantillonnage conjoint raisonnement-action avec notation par paires, et un tampon d'historique (history buffer) qui stocke les observations passées pour contextualiser les décisions d'action. Contrairement aux méthodes TTS en boucle ouverte, E-TTS intègre du feedback durant l'inférence via un mécanisme de raffinement itératif en boucle fermée, piloté par des vérificateurs vision-langage. Les auteurs rapportent des gains jusqu'à 33,14 % en simulation et 26,62 % en conditions réelles, mesurés sur 4 benchmarks, 6 environnements, 3 morphologies de robots et 4 modèles VLA de base. L'enjeu est de transposer à la robotique ce qui a fonctionné pour les LLMs : amplifier les capacités à l'inférence sans modifier les poids du modèle. Le défi spécifique aux robots est que les tâches sont séquentielles et longues : une observation instantanée ne suffit pas pour choisir la bonne action, contrairement à une requête texte isolée. En partageant un buffer d'historique entre les modules de raisonnement et de vérification d'action, E-TTS comble un angle mort des méthodes TTS précédentes pour l'embodied AI. Le fait que le gain tienne en conditions réelles (26,62 %) et pas seulement en simulation est un signal positif sur le sim-to-real gap, même si les conditions exactes de ces expériences en monde réel méritent examen dans le papier complet. Le test-time scaling a émergé avec les architectures o1 et o3 d'OpenAI et les approches chain-of-thought pour les LLMs, avant d'être progressivement exploré pour les VLA robotiques. E-TTS s'inscrit dans ce mouvement que les auteurs eux-mêmes qualifient d'"early attempts", ce qui situe honnêtement le niveau de maturité. L'architecture modulaire et plug-and-play est conçue pour s'adapter à des VLA variés, ce qui pourrait faciliter l'adoption par des équipes travaillant sur des modèles comme pi0 (Physical Intelligence), GR00T N2 (NVIDIA) ou OpenVLA. Le papier ne mentionne ni déploiement industriel ni partenariat avec un constructeur de robots : il reste une preuve de concept académique dont la validation sur des tâches industrielles réelles (assemblage, palettisation) constituerait l'étape suivante naturelle.

💬 Ce qui change ici, c'est le buffer. Appliquer le test-time scaling à un robot, c'est pas aussi simple qu'à un LLM : un bras qui visse en étape 7 ne peut pas raisonner sur une observation instantanée, il lui faut les étapes précédentes pour contextualiser. Que les gains tiennent à 26 % en conditions réelles et pas seulement en sim, c'est le seul résultat qui compte pour l'instant.

IA physiqueOpinion

1 source

Fiez-vous à vos instincts : RL à l'inférence guidé par la confiance pour les modèles VLA

42

3arXiv cs.RO

Fiez-vous à vos instincts : RL à l'inférence guidé par la confiance pour les modèles VLA

Des chercheurs ont publié le 30 juin 2026 sur arXiv (ref. 2506.29892) un framework d'apprentissage par renforcement baptisé T²VLA (Test-time VLA), conçu pour améliorer les modèles Vision-Language-Action sans recourir à aucun signal de récompense externe. Le principe central repose sur une observation empirique : dans les VLA à actions discrètes, les trajectoires générées avec un niveau de confiance interne plus élevé ont statistiquement une probabilité nettement supérieure de réussir la tâche. T²VLA exploite cette propriété en utilisant la similarité de chaque trajectoire produite avec des démonstrations expertes à haute confiance comme signal de récompense intrinsèque. Le framework intègre un mécanisme appelé Confidence-Driven Dual Expert Bootstrapping, qui arbitre dynamiquement entre un Local Pseudo-Expert (favorisant l'exploration locale) et un Global Expert Pool (garantissant la stabilité de l'entraînement). Les expériences portent sur les benchmarks LIBERO et RoboTwin, deux environnements de référence en manipulation robotique simulée, et couvrent plusieurs architectures VLA dont OpenVLA-OFT et la série pi (pi-0, pi-0.5). L'intérêt pratique de T²VLA est de supprimer le principal frein au déploiement du RL pour les robots incarnés : la nécessité d'instrumenter l'environnement avec des détecteurs de succès ou des fonctions de récompense prédéfinies. En robotique industrielle ou logistique, concevoir ces signaux externes est coûteux, fragile, et souvent impossible hors d'un laboratoire contrôlé. Le fait que le modèle puisse s'auto-améliorer à partir de ses propres évaluations internes représente un changement de paradigme potentiellement significatif pour le sim-to-real : les résultats publiés montrent que T²VLA dépasse les baselines supervisées et s'approche des performances d'un RL oracle (disposant des vraies récompenses), ce qui suggère que le signal intrinsèque capture bien la qualité des trajectoires. Il convient néanmoins de noter que les évaluations restent pour l'instant confinées à des environnements simulés, et l'écart sim-to-real sur du matériel réel n'est pas abordé dans ce papier. T²VLA s'inscrit dans une dynamique plus large autour des VLA généralistes, portée notamment par Physical Intelligence (pi-0), DeepMind (RT-2), et les équipes autour d'OpenVLA. Ces modèles combinent vision, langage et contrôle moteur dans une architecture unifiée, mais leur amélioration post-déploiement butait jusqu'ici sur la nécessité d'un retour environnemental explicite. Le framework proposé est décrit comme agnostique à l'architecture, ce qui facilite théoriquement son intégration sur les VLA existants. Les auteurs ne mentionnent pas de partenaire industriel ni de timeline de déploiement réel, et le travail reste au stade de preuve de concept académique sur simulateurs ; des validations sur robots physiques et en conditions de variabilité industrielle seront déterminantes pour confirmer la portée opérationnelle de l'approche.

IA physiqueOpinion

1 source

Guide, Pense, Agit : le raisonnement incarné interactif dans les modèles vision-langage-action (VLA)

42

4arXiv cs.RO

Guide, Pense, Agit : le raisonnement incarné interactif dans les modèles vision-langage-action (VLA)

Des chercheurs ont déposé sur arXiv (arXiv:2605.13632, mai 2026) GTA-VLA (Guide, Think, Act), un framework Vision-Language-Action interactif qui permet d'injecter des indices visuels explicites dans le raisonnement d'un robot avant l'exécution. Contrairement aux VLA classiques qui appliquent un mapping direct perception-action appris sur données d'entraînement, GTA-VLA introduit une étape de raisonnement spatial conditionné : l'opérateur peut fournir des points d'affordance, des boîtes englobantes ou des trajectoires dessinées sur l'image, que le modèle intègre dans une chaîne de pensée (Chain-of-Thought, CoT) avant de générer les commandes motrices. Une tête d'action légère ("reactive action head") assure ensuite l'exécution. Sur le benchmark SimplerEnv WidowX en conditions in-domain, le système atteint un taux de succès de 81,2 %, présenté comme état de l'art sur cette tâche. Les auteurs rapportent qu'une seule interaction visuelle suffit à améliorer substantiellement les performances sous perturbations visuelles ou ambiguïtés spatiales hors distribution (OOD). Ce résultat pointe une limite structurelle des VLA actuels : leur fragilité face aux shifts de distribution, c'est-à-dire dès que l'environnement de déploiement diffère des données d'entraînement. Les approches CoT existantes exposent le raisonnement intermédiaire mais restent aveugles à la guidance humaine, rendant la reprise sur erreur difficile sans réentraînement. GTA-VLA propose une troisième voie : maintenir l'autonomie du modèle tout en ouvrant un canal de correction humain minimal, ciblé sur l'espace visuel. Pour un intégrateur industriel, c'est un argument concret contre le demo-to-reality gap : si le robot échoue, l'opérateur désigne visuellement l'objet cible plutôt que de réécrire une instruction texte. La métrique de 81,2 % sur SimplerEnv mérite toutefois d'être contextualisée : ce benchmark reste un environnement simulé contrôlé, et aucun résultat sur hardware réel n'est communiqué dans le papier. GTA-VLA s'inscrit dans l'effervescence des architectures VLA depuis Pi-0 de Physical Intelligence, GR00T N2 de NVIDIA ou Helix de Figure AI, qui ont tous cherché à coupler raisonnement de haut niveau et exécution robotique fluide. L'apport spécifique est de rendre ce raisonnement "steerable" via des priors spatiaux explicites, là où Pi-0 ou GR00T N2 restent essentiellement autonomes une fois déployés. Publié en preprint non encore évalué par des pairs, le papier ne mentionne ni déploiement sur plateforme physique ni partenariats industriels annoncés. Les prochaines étapes naturelles seraient une validation sur manipulateurs réels (WidowX physique, Franka) et une évaluation de la robustesse de l'interface de guidance en conditions industrielles réelles.

IA physiqueOpinion

1 source

MPCoT : raisonnement latent multi-chemin guidé par la récompense pour VLA avec mise à l'échelle à l'inférence

À lire aussi

TEXEDO : mise à l'échelle à l'inférence pour la génération de mouvements humanoïdes guidée par le langage et le contrôleur

E-TTS : un nouveau cadre de mise à l'échelle au moment de l'inférence pour la manipulation robotique

Fiez-vous à vos instincts : RL à l'inférence guidé par la confiance pour les modèles VLA

Guide, Pense, Agit : le raisonnement incarné interactif dans les modèles vision-langage-action (VLA)