Pilotage sans mise à jour par politique directe via des vérificateurs
Une équipe de recherche a présenté UF-OPS (Update-Free On-Policy Steering), une méthode permettant d'améliorer les politiques robotiques d'imitation sans modifier leurs paramètres. Le constat de départ est bien documenté : les politiques de Behavior Cloning (BC), entraînées par imitation de démonstrations humaines, sont souvent fragiles et peinent à réaliser des manipulations précises. UF-OPS contourne ce problème en entraînant des fonctions vérificatrices (verifiers) à partir des données de rollout collectées lors d'une première évaluation de la politique, puis en les utilisant à l'exécution pour orienter en temps réel le modèle de base vers les actions les plus prometteuses. Sur 5 tâches réelles de manipulation, la méthode affiche un gain moyen de 49 % sur le taux de succès par rapport à la politique de base, sans aucune mise à jour des poids du réseau principal. Les expériences couvrent à la fois des environnements simulés et des configurations réelles.
L'intérêt industriel est double. D'abord, la compatibilité avec des politiques "boîte noire" : UF-OPS fonctionne sur des diffusion policies sans accès aux gradients, ce qui le rend applicable à des modèles tiers ou pré-entraînés, un avantage concret pour les intégrateurs qui ne contrôlent pas le pipeline d'entraînement. Ensuite, l'architecture découple amélioration et entraînement : là où les approches classiques nécessitent de recollecte de données ou du fine-tuning, UF-OPS pilote à l'inférence. Cela illustre une tendance plus large empruntée aux LLMs, où le compute à l'inférence (test-time compute) compense les limites du modèle de base. Le gain de 49 % est significatif, mais la méthode n'est évaluée que sur 5 tâches, ce qui appelle à la prudence sur la généralisation à des scénarios industriels variés.
Le Behavior Cloning reste l'une des approches dominantes en robotique depuis que des travaux comme ACT (Action Chunking Transformer) ou les diffusion policies de Chi et al. (2023) ont démontré leur efficacité sur des tâches dextres. UF-OPS s'inscrit dans un courant de recherche actif visant à rendre ces politiques plus robustes sans coût d'entraînement additionnel, aux côtés d'approches concurrentes comme l'augmentation de données, le fine-tuning en ligne ou le RL post-déploiement. Les prochaines étapes naturelles seraient l'évaluation sur des tâches multi-étapes, des environnements non structurés, et la comparaison avec des méthodes de steering guidé déjà connues dans la littérature LLM (Best-of-N sampling, MCTS guidé par verifier). Aucun déploiement industriel ni partenaire n'est mentionné dans la publication.



