E-TTS : un nouveau cadre de mise à l'échelle au moment de l'inférence pour la manipulation robotique
Des chercheurs présentent sur arXiv (2606.27268, juin 2026) E-TTS, un cadre de mise à l'échelle à l'inférence (test-time scaling) pour la manipulation robotique, applicable en surcouche de modèles vision-language-action (VLA) existants sans réentraînement ni collecte de données supplémentaire. Le framework repose sur deux mécanismes : un échantillonnage conjoint raisonnement-action avec notation par paires, et un tampon d'historique (history buffer) qui stocke les observations passées pour contextualiser les décisions d'action. Contrairement aux méthodes TTS en boucle ouverte, E-TTS intègre du feedback durant l'inférence via un mécanisme de raffinement itératif en boucle fermée, piloté par des vérificateurs vision-langage. Les auteurs rapportent des gains jusqu'à 33,14 % en simulation et 26,62 % en conditions réelles, mesurés sur 4 benchmarks, 6 environnements, 3 morphologies de robots et 4 modèles VLA de base.
L'enjeu est de transposer à la robotique ce qui a fonctionné pour les LLMs : amplifier les capacités à l'inférence sans modifier les poids du modèle. Le défi spécifique aux robots est que les tâches sont séquentielles et longues : une observation instantanée ne suffit pas pour choisir la bonne action, contrairement à une requête texte isolée. En partageant un buffer d'historique entre les modules de raisonnement et de vérification d'action, E-TTS comble un angle mort des méthodes TTS précédentes pour l'embodied AI. Le fait que le gain tienne en conditions réelles (26,62 %) et pas seulement en simulation est un signal positif sur le sim-to-real gap, même si les conditions exactes de ces expériences en monde réel méritent examen dans le papier complet.
Le test-time scaling a émergé avec les architectures o1 et o3 d'OpenAI et les approches chain-of-thought pour les LLMs, avant d'être progressivement exploré pour les VLA robotiques. E-TTS s'inscrit dans ce mouvement que les auteurs eux-mêmes qualifient d'"early attempts", ce qui situe honnêtement le niveau de maturité. L'architecture modulaire et plug-and-play est conçue pour s'adapter à des VLA variés, ce qui pourrait faciliter l'adoption par des équipes travaillant sur des modèles comme pi0 (Physical Intelligence), GR00T N2 (NVIDIA) ou OpenVLA. Le papier ne mentionne ni déploiement industriel ni partenariat avec un constructeur de robots : il reste une preuve de concept académique dont la validation sur des tâches industrielles réelles (assemblage, palettisation) constituerait l'étape suivante naturelle.




