Aller au contenu principal
IA physiquearXiv cs.RO2h

E-TTS : un nouveau cadre de mise à l'échelle au moment de l'inférence pour la manipulation robotique

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Des chercheurs présentent sur arXiv (2606.27268, juin 2026) E-TTS, un cadre de mise à l'échelle à l'inférence (test-time scaling) pour la manipulation robotique, applicable en surcouche de modèles vision-language-action (VLA) existants sans réentraînement ni collecte de données supplémentaire. Le framework repose sur deux mécanismes : un échantillonnage conjoint raisonnement-action avec notation par paires, et un tampon d'historique (history buffer) qui stocke les observations passées pour contextualiser les décisions d'action. Contrairement aux méthodes TTS en boucle ouverte, E-TTS intègre du feedback durant l'inférence via un mécanisme de raffinement itératif en boucle fermée, piloté par des vérificateurs vision-langage. Les auteurs rapportent des gains jusqu'à 33,14 % en simulation et 26,62 % en conditions réelles, mesurés sur 4 benchmarks, 6 environnements, 3 morphologies de robots et 4 modèles VLA de base.

L'enjeu est de transposer à la robotique ce qui a fonctionné pour les LLMs : amplifier les capacités à l'inférence sans modifier les poids du modèle. Le défi spécifique aux robots est que les tâches sont séquentielles et longues : une observation instantanée ne suffit pas pour choisir la bonne action, contrairement à une requête texte isolée. En partageant un buffer d'historique entre les modules de raisonnement et de vérification d'action, E-TTS comble un angle mort des méthodes TTS précédentes pour l'embodied AI. Le fait que le gain tienne en conditions réelles (26,62 %) et pas seulement en simulation est un signal positif sur le sim-to-real gap, même si les conditions exactes de ces expériences en monde réel méritent examen dans le papier complet.

Le test-time scaling a émergé avec les architectures o1 et o3 d'OpenAI et les approches chain-of-thought pour les LLMs, avant d'être progressivement exploré pour les VLA robotiques. E-TTS s'inscrit dans ce mouvement que les auteurs eux-mêmes qualifient d'"early attempts", ce qui situe honnêtement le niveau de maturité. L'architecture modulaire et plug-and-play est conçue pour s'adapter à des VLA variés, ce qui pourrait faciliter l'adoption par des équipes travaillant sur des modèles comme pi0 (Physical Intelligence), GR00T N2 (NVIDIA) ou OpenVLA. Le papier ne mentionne ni déploiement industriel ni partenariat avec un constructeur de robots : il reste une preuve de concept académique dont la validation sur des tâches industrielles réelles (assemblage, palettisation) constituerait l'étape suivante naturelle.

À lire aussi

PhysMem : mise à l'échelle de la mémoire physique pour la manipulation robotique
1arXiv cs.RO 

PhysMem : mise à l'échelle de la mémoire physique pour la manipulation robotique

PhysMem, un cadre mémoire présenté sur arXiv (identifiant 2502.20323, version 5 actualisée au printemps 2026), propose une approche permettant aux planificateurs robotiques basés sur des modèles vision-langage (VLM) d'acquérir des connaissances physiques au moment de l'exécution, sans modifier les paramètres du modèle. Le système enregistre les interactions, génère des hypothèses sur les propriétés physiques observées, les soumet à vérification par des gestes ciblés, puis n'intègre que les hypothèses validées pour guider les décisions futures. Évalué sur trois tâches de manipulation réelle et des benchmarks de simulation avec quatre architectures VLM distinctes, PhysMem atteint 76 % de succès sur une tâche contrôlée d'insertion de brique, contre 23 % pour une récupération directe d'expérience. Sur des sessions de déploiement de 30 minutes, les performances progressent de façon consistante au fil du temps. L'apport central de PhysMem réside dans la séparation entre récupération et vérification. Les approches classiques de mémoire épisodique supposent que les expériences passées s'appliquent directement à la situation courante, ce qui produit des échecs dès que les conditions physiques changent, même marginalement. PhysMem brise ce cycle en testant activement chaque hypothèse avant de l'exploiter, une propriété critique pour les environnements industriels où surfaces, matériaux et tolérances varient d'un poste à l'autre. Pour les intégrateurs et les décideurs B2B, cela ouvre la voie à des robots capables de s'adapter à de nouveaux objets ou environnements sans cycle de réentraînement coûteux. L'écart de 53 points de pourcentage entre les deux modes illustre que le problème n'est pas la mémoire en soi, mais la rigidité de son application directe. Les VLM comme planificateurs robotiques ont été popularisés par des travaux comme SayCan (Google DeepMind), Code as Policies, ou plus récemment pi0 de Physical Intelligence, qui ont démontré une capacité de raisonnement abstrait sur les tâches. Leur limite persistante reste l'incapacité à modéliser les propriétés physiques spécifiques d'objets particuliers, un obstacle majeur à la généralisation hors laboratoire. PhysMem s'inscrit dans un mouvement plus large vers le test-time adaptation en robotique, distinct du fine-tuning classique et complémentaire des approches VLA (Vision-Language-Action). À noter: les résultats publiés portent sur des tâches de laboratoire contrôlées, et aucun déploiement industriel n'est annoncé à ce stade. Les suites logiques incluent des tests sur des horizons de déploiement plus longs et des tâches impliquant des objets déformables ou des matériaux à comportement incertain, là où les hypothèses physiques sont les plus difficiles à abstraire.

IA physiquePaper
1 source
Échantillonnage guidé à l'inférence par un vérificateur de progression des tâches pour la manipulation robotique
2arXiv cs.RO 

Échantillonnage guidé à l'inférence par un vérificateur de progression des tâches pour la manipulation robotique

Une équipe de recherche publie TapSampling (arXiv:2605.25547, mai 2026), un cadre plug-and-play d'échantillonnage au moment de l'inférence pour la manipulation robotique. Là où la majorité des travaux du domaine cherchent à améliorer les performances en augmentant la taille des données d'entraînement ou des modèles, TapSampling explore un axe différent : l'exploitation du calcul disponible à l'inférence. Le système repose sur deux composants. D'abord, un Action-VAE qui projette les actions générées par la politique dans un espace latent de faible dimension via une distribution postérieure compressée, permettant de tirer un nombre arbitraire d'actions candidates approximant la distribution réelle. Ensuite, un vérificateur sémantique qui reformule la sélection d'actions comme une prédiction de progression de tâche (task-progress outcome prediction), en exploitant la structure séquentielle intrinsèque des jeux de données robotiques pour choisir l'action la plus prometteuse de façon interprétable. L'intérêt principal réside dans l'agnosticisme vis-à-vis de la politique sous-jacente : TapSampling s'applique sans fine-tuning additionnel à des modèles généralistes existants, qu'ils soient basés sur la diffusion ou sur des architectures autorégressives. Les expériences présentées en simulation et en conditions réelles montrent des améliorations qualifiées de « substantielles » sur plusieurs politiques généralistes, bien que l'abstract ne fournisse pas de chiffres précis de taux de réussite, ce qui invite à la prudence avant de juger de l'ampleur réelle des gains. Pour les ingénieurs robotique et les intégrateurs, l'approche ouvre la possibilité d'améliorer des politiques déjà déployées sans réentraînement, en ajoutant simplement un surcoût computationnel à l'inférence. Ce travail s'inscrit dans une tendance plus large consistant à transposer le test-time compute scaling, popularisé par les grands modèles de langage (OpenAI o1, DeepSeek-R1), vers la robotique embodied. D'autres approches comparables incluent le Best-of-N sampling avec des modèles de récompense appris séparément, ainsi que les méthodes de vérification intégrées dans des politiques comme Pi-0 (Physical Intelligence) ou GR00T N2 (NVIDIA). TapSampling se distingue par un vérificateur ancré dans la progression de tâche plutôt que dans une récompense exogène, ce qui lui confère une meilleure lisibilité sémantique. Le code et les modèles sont mis à disposition via la page projet des auteurs, ce qui permettra une reproduction et une évaluation indépendante des résultats annoncés.

IA physiqueActu
1 source
Vidéo : le cerveau robotique de Genesis permet une manipulation au niveau humain et un entraînement à grande échelle
3Interesting Engineering 

Vidéo : le cerveau robotique de Genesis permet une manipulation au niveau humain et un entraînement à grande échelle

Genesis AI a présenté GENE-26.5, un modèle de fondation robotique conçu pour doter les robots de capacités de manipulation au niveau humain. La vidéo de démonstration publiée par l'entreprise montre des robots accomplissant une séquence culinaire de 20 étapes (couper des tomates, casser un oeuf d'une seule main, coordonner les deux bras pendant la cuisson), ainsi que la préparation d'un smoothie avec service en l'air, des tâches de laboratoire (pipettage, transfert de liquides), du câblage pour assemblage électronique, la résolution d'un Rubik's Cube en manipulation aérienne continue, et l'interprétation d'une pièce de piano rapide. Pour alimenter l'entraînement du modèle, l'entreprise a développé un gant haptique équipé d'une peau électronique à capteurs tactiles, établissant une correspondance 1:1:1 entre la main humaine, le gant et la main robotique. Genesis revendique un coût matériel cent fois inférieur aux solutions de télé-opération conventionnelles, et une efficacité de collecte de données cinq fois supérieure. Le moteur de données associé intègre également des vidéos égocentriques issues de caméras portables et des vidéos publiques centrées sur l'activité humaine. Ces résultats, s'ils se confirment en environnement réel non contrôlé, représentent une avancée potentiellement significative sur l'un des verrous les plus tenaces de la robotique : l'écart d'incarnation (embodiment gap) entre les mains humaines et robotiques, qui limite depuis des années la transférabilité des données d'entraînement. La cartographie 1:1 glove-to-robot est une approche déjà explorée par des acteurs comme Physical Intelligence (pi-0) et plusieurs laboratoires académiques, mais Genesis revendique une démonstration à une échelle et une polyvalence inédites. Pour les intégrateurs industriels et les décideurs cherchant à automatiser des tâches non structurées (assemblage fin, préparation culinaire en volume, logistique d'entrepôt), la promesse d'un système généraliste capable d'apprendre directement des gestes humains quotidiens, sans retraining extensif, représenterait un changement de paradigme. Il faut toutefois noter que les démonstrations sont des vidéos éditées, sans données indépendantes sur le taux d'échec, les conditions d'éclairage, ou la reproductibilité en cycle de production continu. Genesis AI s'inscrit dans un segment en forte concurrence avec Physical Intelligence (pi-0, Berkeley), Figure AI (Figure 03, déployé avec BMW), Tesla (Optimus Gen 3), NVIDIA (GR00T N2) et Apptronik (Apollo). L'approche par gant haptique à bas coût rappelle les travaux d'Enchanted Tools, acteur français du service robotique, qui mise également sur la capture de mouvement humain pour réduire le coût d'entraînement. Genesis n'a pas encore annoncé de déploiements industriels confirmés ni de partenariats nominatifs : GENE-26.5 reste à ce stade une annonce de produit accompagnée d'une démonstration vidéo, pas un système disponible commercialement. L'entreprise indique prévoir le déploiement de ses gants en milieu de travail réel via des partenariats industriels, avec pour objectif de constituer une bibliothèque de compétences humaines à grande échelle pour l'entraînement robotique.

IA physiqueActu
1 source
TEXEDO : mise à l'échelle à l'inférence pour la génération de mouvements humanoïdes guidée par le langage et le contrôleur
4arXiv cs.RO 

TEXEDO : mise à l'échelle à l'inférence pour la génération de mouvements humanoïdes guidée par le langage et le contrôleur

Des chercheurs ont publié TEXEDO, un cadre d'inférence pour améliorer la génération de mouvements de robots humanoïdes guidée par texte, sans réentraîner le modèle sous-jacent. Présenté sur arXiv (2606.22998) et validé en déploiement réel sur un Unitree G1, le système génère plusieurs mouvements candidats à partir d'un prompt textuel, puis sélectionne le meilleur via un modèle de récompense à deux composantes : un vérificateur de faisabilité dynamique, distillé depuis des simulations de contrôleurs whole-body pour prédire l'exécutabilité physique, et un vérificateur d'alignement sémantique dans un espace d'embedding partagé texte-mouvement. La faisabilité physique est imposée comme contrainte dure ; l'alignement sémantique sert d'objectif de sélection parmi les candidats valides. Les résultats montrent des améliorations en fidélité de tracking et en cohérence textuelle, en simulation comme sur le G1 en conditions réelles. Ce travail adresse une limite structurelle des générateurs actuels : entraînés sur des données de mouvements humains re-ciblés vers des morphologies robotiques, ils ignorent les contraintes propres aux contrôleurs physiques réels, équilibre, dynamiques de contact, limites d'actuation, modes de défaillance spécifiques à chaque plateforme. Des mouvements "sémantiquement plausibles" s'avèrent ainsi souvent inexécutables sur le matériel, un écart bien documenté dans la communauté robotique. TEXEDO applique à la génération de mouvements le principe de "test-time compute scaling" popularisé par les LLMs de type o1 ou o3 : allouer du calcul supplémentaire à l'inférence plutôt qu'au réentraînement. Pour un intégrateur ou un ingénieur robotique, cela signifie qu'un générateur existant peut être amélioré en déploiement sans pipeline de fine-tuning coûteux, ce qui est un argument pratique solide. TEXEDO s'inscrit dans la compétition autour de la programmation des robots par langage naturel, face à des approches VLA (Vision-Language-Action) end-to-end comme pi-0 de Physical Intelligence ou GR00T N2 de NVIDIA. La distinction clé est que TEXEDO cible exclusivement la couche de génération de mouvements, en amont du contrôleur, sans chercher à unifier perception, langage et action dans un seul modèle. Le Unitree G1, humanoïde commercial répandu dans les labos de recherche autour de 16 000 dollars, sert ici de banc de test réel, ce qui renforce la portée des résultats par rapport à des évaluations purement simulées. La suite logique serait d'étendre le cadre à d'autres plateformes humanoïdes et d'autres familles de générateurs préentraînés.

💬 Le test-time compute scaling arrive en robotique physique, et c'est une direction que j'attendais : tu peux améliorer un générateur de mouvements existant à l'inférence, sans pipeline de fine-tuning, ce que les approches VLA end-to-end comme pi-0 ne proposent pas. Validé sur un vrai G1, pas en sim. Reste à voir si ça généralise à d'autres plateformes.

IA physiqueOpinion
1 source