
RL résiduel centré sur les objets pour l'amélioration zéro-shot des VLA en transfert simulation-réel
Des chercheurs de Microsoft Research ont publié fin juin 2026 un framework baptisé Object-Centric Residual RL (arXiv:2606.18953), conçu pour améliorer la robustesse des modèles Vision-Language-Action (VLA) dans des tâches de manipulation physique précise. Le principe : entraîner une politique correctrice en simulation pure, basée non pas sur des images mais sur les poses des objets, puis la transférer directement sur un robot réel sans aucun fine-tuning supplémentaire. Sur un bras Franka Research 3 (FR3), la méthode fait passer le taux de succès moyen de 42 % à 76 % en zero-shot sur cinq tâches de manipulation, avec une politique résiduelle entraînée exclusivement en simulation, avec injection de bruit de pose et dropout. Le processus inclut également le rejeu des démonstrations de télé-opération en simulation pour entraîner un VLA "jumeau" simulé, auquel la politique résiduelle est ensuite couplée avant transfert zero-shot.
L'enjeu est direct pour les intégrateurs et les équipes de déploiement robotique : les VLA actuels, qu'il s'agisse de Pi-0 (Physical Intelligence), d'OpenVLA ou des modèles RT de Google, généralisent bien à travers des tâches variées mais accumulent des erreurs d'exécution lors d'interactions physiques précises (pincements, insertions, assemblages) où la précision millimétrique est requise. Les approches concurrentes butent sur un trilemme classique : les méthodes à états privilégiés nécessitent une distillation coûteuse pour le déploiement, les méthodes basées image souffrent du fossé visuel sim-to-réel, et le RL en conditions réelles reste coûteux et risqué pour le matériel. En substituant les poses d'objets aux images comme espace d'observation, le framework crée une représentation compacte et cohérente entre simulation et réalité, suffisamment légère pour un transfert zero-shot fiable. Autre résultat notable : les rollouts améliorés peuvent être réutilisés pour ré-entraîner le VLA de base, ouvrant une boucle d'auto-amélioration sans télé-opération supplémentaire.
Le sim-to-real gap est un problème structurel qui freine la commercialisation des robots polyvalents depuis plusieurs années, et les VLA n'y échappent pas malgré leurs capacités de généralisation linguistique. Cette publication s'inscrit dans une dynamique de recherche intense où Physical Intelligence (Pi-0, Pi-0 FAST), Figure AI et 1X Technologies tentent chacun de réduire cet écart par des voies différentes : données réelles massives, domain randomization, ou standardisation du hardware. Microsoft Research, moins visible sur le déploiement commercial que ces acteurs, confirme ici un axe de recherche sur la correction post-entraînement des fondations robotiques par RL simulé. La page projet est publiée en accès ouvert sur le site de Microsoft Research ; aucun partenariat industriel ni timeline de déploiement n'est mentionné dans la publication, qui reste pour l'heure une contribution académique.
La précision millimétrique, c'est là où tous les VLA craquent en conditions réelles. Microsoft Research contourne le problème par le bon bout : en travaillant sur des poses d'objets plutôt que sur des images, le fossé visuel sim-to-real disparaît, et on monte de 42 % à 76 % de succès sur un Franka réel, zero-shot. Aucun partenaire industriel dans la publication pour l'instant, mais l'approche est solide.
Dans nos dossiers




