
ELASTIC : passage à l'échelle adaptatif du calcul en temps de test pour l'apprentissage efficace de politiques de contrôle génératives
Un nouvel article de recherche publié sur arXiv (identifiant 2606.31132) présente ELASTIC, un algorithme conçu pour optimiser le calcul mobilisé au moment de l'exécution par les politiques de contrôle génératives, notamment les diffusion policies et les modèles vision-langage-action (VLA) de type flow-based. Ces politiques peuvent allouer davantage de ressources selon deux axes : la mise à l'échelle séquentielle, qui augmente le nombre d'étapes de débruitage pour affiner une action, et la mise à l'échelle parallèle, qui échantillonne plusieurs actions candidates pour explorer différents modes de la distribution. ELASTIC formule ce choix comme un meta-processus de décision markovien : une meta-politique observe l'état du robot et décide, à chaque itération de débruitage, combien d'étapes séquentielles et d'échantillons parallèles allouer, entraînée par apprentissage par renforcement sans accès aux données d'entraînement de la politique de base. Sur des benchmarks de manipulation simulés avec des diffusion policies, ELASTIC domine au sens de Pareto les approches à budget fixe ou à échelle unique. En conditions réelles, avec le modèle VLA pi-0.5, la méthode égale les performances d'un "best-of-10" (dix tentatives échantillonnées) tout en réduisant la latence de 34%.
L'enjeu dépasse la seule performance de laboratoire : l'allocation de calcul test-time reste aujourd'hui largement empirique, fixée à la main selon la tâche. Un mécanisme qui adapte automatiquement l'effort de calcul, par exemple en explorant davantage lors d'une phase de saisie éloignée de l'objet puis en resserrant la précision près du contact, s'attaque directement au compromis latence/fiabilité qui freine le déploiement industriel des VLA. Pour les intégrateurs, cela ouvre la voie à des politiques capables de s'exécuter plus vite sans sacrifier le taux de réussite, un point critique pour des cycles de production.
Le travail s'inscrit dans la lignée des recherches sur le test-time scaling, déjà popularisé en robotique par les diffusion policies et par des modèles comme GR00T N2 ou Pi-0 de Physical Intelligence, dont pi-0.5 sert justement de base expérimentale ici. Les auteurs ne précisent pas de calendrier de déploiement industriel ; il s'agit pour l'instant d'un résultat de recherche destiné à orienter la conception des futures architectures VLA plutôt qu'un produit prêt à intégrer.
Dans nos dossiers




