Aller au contenu principal
RL résiduel centré sur les objets pour l'amélioration zéro-shot des VLA en transfert simulation-réel
IA physiquearXiv cs.RO1h

RL résiduel centré sur les objets pour l'amélioration zéro-shot des VLA en transfert simulation-réel

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UETake éditorial

Des chercheurs de Microsoft Research ont publié fin juin 2026 un framework baptisé Object-Centric Residual RL (arXiv:2606.18953), conçu pour améliorer la robustesse des modèles Vision-Language-Action (VLA) dans des tâches de manipulation physique précise. Le principe : entraîner une politique correctrice en simulation pure, basée non pas sur des images mais sur les poses des objets, puis la transférer directement sur un robot réel sans aucun fine-tuning supplémentaire. Sur un bras Franka Research 3 (FR3), la méthode fait passer le taux de succès moyen de 42 % à 76 % en zero-shot sur cinq tâches de manipulation, avec une politique résiduelle entraînée exclusivement en simulation, avec injection de bruit de pose et dropout. Le processus inclut également le rejeu des démonstrations de télé-opération en simulation pour entraîner un VLA "jumeau" simulé, auquel la politique résiduelle est ensuite couplée avant transfert zero-shot.

L'enjeu est direct pour les intégrateurs et les équipes de déploiement robotique : les VLA actuels, qu'il s'agisse de Pi-0 (Physical Intelligence), d'OpenVLA ou des modèles RT de Google, généralisent bien à travers des tâches variées mais accumulent des erreurs d'exécution lors d'interactions physiques précises (pincements, insertions, assemblages) où la précision millimétrique est requise. Les approches concurrentes butent sur un trilemme classique : les méthodes à états privilégiés nécessitent une distillation coûteuse pour le déploiement, les méthodes basées image souffrent du fossé visuel sim-to-réel, et le RL en conditions réelles reste coûteux et risqué pour le matériel. En substituant les poses d'objets aux images comme espace d'observation, le framework crée une représentation compacte et cohérente entre simulation et réalité, suffisamment légère pour un transfert zero-shot fiable. Autre résultat notable : les rollouts améliorés peuvent être réutilisés pour ré-entraîner le VLA de base, ouvrant une boucle d'auto-amélioration sans télé-opération supplémentaire.

Le sim-to-real gap est un problème structurel qui freine la commercialisation des robots polyvalents depuis plusieurs années, et les VLA n'y échappent pas malgré leurs capacités de généralisation linguistique. Cette publication s'inscrit dans une dynamique de recherche intense où Physical Intelligence (Pi-0, Pi-0 FAST), Figure AI et 1X Technologies tentent chacun de réduire cet écart par des voies différentes : données réelles massives, domain randomization, ou standardisation du hardware. Microsoft Research, moins visible sur le déploiement commercial que ces acteurs, confirme ici un axe de recherche sur la correction post-entraînement des fondations robotiques par RL simulé. La page projet est publiée en accès ouvert sur le site de Microsoft Research ; aucun partenariat industriel ni timeline de déploiement n'est mentionné dans la publication, qui reste pour l'heure une contribution académique.

💬 Le point de vue du dev

La précision millimétrique, c'est là où tous les VLA craquent en conditions réelles. Microsoft Research contourne le problème par le bon bout : en travaillant sur des poses d'objets plutôt que sur des images, le fossé visuel sim-to-real disparaît, et on monte de 42 % à 76 % de succès sur un Franka réel, zero-shot. Aucun partenaire industriel dans la publication pour l'instant, mais l'approche est solide.

À lire aussi

SimWeaver : transfert simulation-réel RGB sans entraînement pour la manipulation d'objets déformables
1arXiv cs.RO 

SimWeaver : transfert simulation-réel RGB sans entraînement pour la manipulation d'objets déformables

Une équipe de recherche présente SimWeaver (arXiv:2606.15338), un système capable d'entraîner des politiques VLA (Vision-Language-Action) en environnement simulé uniquement, puis de les déployer directement sur un robot réel sans aucun affinage sur données réelles. Entraîné sur seulement 200 démonstrations simulées par tâche, SimWeaver atteint plus de 80% de succès par tâche et 91% de taux moyen sur cinq tâches de manipulation d'objets déformables incluant la manipulation de sacs plastique et la saisie de tissu de soie, sans téleopération ni calibration spécifique à chaque tâche. Sur la tâche de saisie de soie, la politique sim-entraînée atteint 100% de succès sous des variations visuelles importantes, là où les baselines entraînées sur données réelles chutent entre 9% et 70%. Le coût par trajectoire est réduit de deux ordres de grandeur par rapport aux approches requérant des données terrain. Ce résultat est notable parce que le sim-to-real pour objets déformables en entrée RGB brute est resté largement non résolu jusqu'ici. La physique des corps mous (tissus, sacs, fils) est notoirement difficile à simuler fidèlement, et l'écart simulation-réalité se traduit généralement par des politiques qui échouent dès le déploiement. SimWeaver contourne ce problème avec une augmentation photométrique tenant compte du pipeline ISP (Image Signal Processor) de la caméra, ce qui réduit le fossé visuel sans nécessiter de données réelles. Pour un intégrateur ou un COO industriel travaillant sur des lignes de conditionnement, de tri textile ou de logistique e-commerce, la réduction du coût de collecte de données et l'absence de recalibration par tâche représentent un levier économique concret. Le problème de la manipulation déformable concentre depuis plusieurs années une part croissante de la recherche en robotique, portée par des applications telles que la préparation de commandes en entrepôt (Exotec, HAI Robotics) ou l'assemblage textile. Les approches précédentes mobilisaient soit des capteurs de profondeur, soit d'importantes campagnes de téleopération pour construire des datasets réels. SimWeaver s'appuie sur quatre modules complémentaires : un simulateur physique calibré (SimWeaver-Sim), un générateur d'assets à partir d'une seule image (SimWeaver-Asset), un synthétiseur de trajectoires déterministe topologie-aware (SimWeaver-Syn) et un protocole de transfer sim-to-real avec augmentation ISP (SimWeaver-Real). Le code et un sous-ensemble d'assets représentatifs seront publiés en open source, ce qui positionne ce travail comme une infrastructure potentielle pour la communauté. Aucun partenaire industriel ni timeline de déploiement commercial n'est mentionné à ce stade : il s'agit d'une contribution académique, pas d'un produit annoncé.

UELa publication open-source de SimWeaver pourrait bénéficier aux intégrateurs robotiques français et européens actifs dans la logistique e-commerce et le tri textile, en réduisant drastiquement le coût de collecte de données pour la manipulation d'objets déformables.

💬 Le sim-to-real sur des objets déformables, c'était le mur que tout le monde contournait faute de physique fiable. 100% de succès sur la soie en sim seul, là où les modèles entraînés sur données réelles tombent entre 9 et 70%, c'est le genre de résultat qui force à prendre ça au sérieux. Bon, c'est encore académique et sans partenaire industriel annoncé, mais le code sort en open source, alors on verra vite si ça tient hors benchmark.

IA physiqueOpinion
1 source
Au-delà de l'imitation : co-entraînement simulation-réel par apprentissage par renforcement pour les modèles VLA
2arXiv cs.RO 

Au-delà de l'imitation : co-entraînement simulation-réel par apprentissage par renforcement pour les modèles VLA

Une équipe de chercheurs propose RL-Co (RL-based sim-real Co-training), un framework d'entraînement combinant simulation et données réelles via l'apprentissage par renforcement pour les modèles VLA (Vision-Language-Action). Publié sur arXiv (ref. 2602.12628, version 4), le travail s'articule en deux étapes : une phase de préchauffage par fine-tuning supervisé (SFT) sur un mélange de démonstrations réelles et simulées, suivie d'un fine-tuning par RL en simulation avec une perte supervisée auxiliaire sur données réelles pour ancrer la politique et prévenir l'oubli catastrophique. Évalué sur quatre tâches de manipulation sur table en conditions réelles, RL-Co affiche une progression de +24% du taux de succès sur l'architecture OpenVLA et de +20% sur π0.5, développé par Physical Intelligence, par rapport à un entraînement supervisé classique sur données réelles uniquement. L'intérêt de cette approche dépasse les chiffres de performance bruts. La quasi-totalité des méthodes actuelles de co-entraînement sim-réel traite la simulation comme une source statique de démonstrations, sans exploiter les interactions en boucle fermée que ces environnements rendent possibles à grande échelle. RL-Co brise cette limite en tirant parti de l'exploration dynamique en simulation, ce qui se traduit par une meilleure généralisation aux variations de tâches non vues à l'entraînement et une efficacité accrue sur les données réelles, réduisant concrètement le besoin en démonstrations coûteuses sur robot physique. Pour les intégrateurs et les équipes R&D, c'est une voie d'entraînement plus économique sans compromis sur les performances terrain. Le défi du transfert simulation-réel reste l'un des obstacles structurants au déploiement de robots généralistes. Les modèles VLA ont connu une accélération notable depuis 2024, portée par OpenVLA (Stanford/UC Berkeley, open-source), la série π0/π0.5 de Physical Intelligence, fondée par d'anciens chercheurs de Google DeepMind et Stanford, et les travaux de Google DeepMind autour de RT-2 et ses successeurs. RL-Co s'inscrit dans une tendance de fond visant à remplacer la supervision pure par des boucles d'interaction actives dans des simulateurs de plus en plus fidèles. La prochaine étape naturelle sera l'extension à des tâches plus complexes et à des environnements moins structurés que la table de laboratoire, condition nécessaire pour valider l'approche à l'échelle industrielle.

💬 La vraie limite du sim-réel jusqu'ici, c'est qu'on traitait la simulation comme une banque de démonstrations statiques. RL-Co casse ça : le modèle explore en boucle fermée dans le simulateur, et ça se voit avec +24% sur OpenVLA et +20% sur π0.5 en conditions réelles. La table de labo c'est pas une chaîne de prod, mais c'est clairement la bonne direction pour réduire le besoin en données robotiques coûteuses.

IA physiqueOpinion
1 source
Générer du réalisme à partir de simulation : transfert vidéo efficace pour l'augmentation de données VLA
3arXiv cs.RO 

Générer du réalisme à partir de simulation : transfert vidéo efficace pour l'augmentation de données VLA

Début mai 2026, une équipe de chercheurs a publié (arXiv:2605.02757) un framework d'augmentation de données pour les modèles vision-language-action (VLA), visant le fossé visuel persistant entre simulation et données réelles. Le pipeline, nommé "Seeing Realism from Simulation", convertit des vidéos simulées en séquences d'apparence réaliste via trois étapes: segmentation sémantique vidéo pour extraire des conditions structurées, réécriture de légendes pour diversifier les environnements, puis application d'un modèle de transfert vidéo conditionnel. Pour rendre l'approche scalable, les auteurs introduisent un mécanisme de réutilisation de features de diffusion (recycler les tokens vidéo entre timesteps adjacents) et un coreset sampling qui sélectionne un sous-ensemble compact sous contrainte computationnelle. Sur les benchmarks Robotwin 2.0 et LIBERO-Plus, le framework améliore RDT-1B de 8% et le modèle pi-0 de Physical Intelligence de 5,1%. Le code est disponible en open source sur GitHub. Ces gains pointent un goulot d'étranglement réel de l'industrie: collecter des vidéos de manipulation réelles à grande échelle est coûteux et lent, alors que la simulation offre une scalabilité quasi-illimitée mais dégrade systématiquement les performances en déploiement. Si l'on peut transformer des données simulées en données visuellement réalistes en préservant les labels d'action, on dispose d'un levier de scaling à faible coût. Le fait que pi-0, déjà entraîné sur des millions de trajectoires réelles, gagne encore 5,1% indique une complémentarité avec les pipelines de collecte existants plutôt qu'une substitution. Cela dit, les auteurs ne publient aucun chiffre concret sur la réduction du temps de génération, ce qui laisse ouverte la question de viabilité à l'échelle industrielle. Ce travail s'inscrit dans la course aux modèles fondation pour la robotique, où Physical Intelligence (pi-0, pi-0.5) et les équipes derrière RDT-1B font figure de références. LIBERO et Robotwin 2.0 sont devenus les benchmarks standard pour comparer ces architectures VLA en conditions contrôlées. Contrairement aux approches de domain randomization ou au style transfer image par image, l'utilisation d'un modèle vidéo diffusion-based préserve la cohérence temporelle, critique pour les tâches de manipulation multi-étapes. Les prochaines étapes naturelles incluent l'extension à des environnements moins structurés et des horizons de tâche plus longs, là où le fossé sim-to-real reste le plus prononcé et où la diversité des légendes réécrites sera la plus déterminante.

IA physiqueOpinion
1 source
OFlow : flux temporel centré sur les objets pour une manipulation robotique robuste
4arXiv cs.RO 

OFlow : flux temporel centré sur les objets pour une manipulation robotique robuste

Des chercheurs ont publié le 24 avril 2026 OFlow, un framework destiné à améliorer la robustesse des modèles Vision-Language-Action (VLA) dans les tâches de manipulation robotique. L'approche, présentée dans un preprint arXiv (2604.17876), repose sur deux mécanismes combinés : un module de prédiction temporelle par flow matching, qui anticipe l'évolution de la scène avant d'agir, et une représentation centrée sur les objets pertinents pour la tâche, qui filtre les variations visuelles sans intérêt. Ces deux composants partagent un même espace latent sémantique, à partir duquel la génération des actions continues est conditionnée. Les évaluations couvrent quatre environnements de référence, LIBERO, LIBERO-Plus, MetaWorld et SimplerEnv, ainsi que des expériences en conditions réelles, et montrent des gains de robustesse et de taux de succès par rapport aux baselines VLA standards. Le verrou que tente de lever OFlow est bien identifié dans la communauté : les VLAs actuels raisonnent image par image, sans modèle explicite de ce qui va se passer ni de quels objets comptent vraiment. En séparant les cues visuels liés à la tâche des variations de fond (éclairage, texture, pose de la caméra), OFlow produit des représentations plus stables sous distribution shift, c'est-à-dire lorsque les conditions réelles diffèrent du training data. Pour les intégrateurs et les équipes de déploiement industriel, c'est un point critique : la fragilité des VLAs face aux écarts de conditions est l'un des principaux obstacles à leur passage en production. Les résultats sur SimplerEnv et les tâches réelles sont particulièrement scrutés, car ce benchmark est conçu pour tester explicitement ce gap sim-to-real. OFlow s'inscrit dans une vague de travaux cherchant à doter les VLAs d'une forme de planification implicite, après des modèles comme pi0 (Physical Intelligence) ou GR00T N2 (NVIDIA) qui misent sur des architectures diffusion ou flux pour la génération d'actions. L'originalité revendiquée ici est l'unification dans un espace latent commun, plutôt que d'ajouter des modules séparés. Il s'agit pour l'instant d'un preprint non relu par des pairs, et les benchmarks utilisés, LIBERO notamment, sont bien maîtrisés par la communauté mais n'impliquent pas de robots déployés en production. Les prochaines étapes naturelles seront la validation sur des plateformes hardware variées et une comparaison directe avec les approches concurrentes sur des scénarios industriels réels.

IA physiqueOpinion
1 source