
Au-delà de l'imitation : co-entraînement simulation-réel par apprentissage par renforcement pour les modèles VLA
Une équipe de chercheurs propose RL-Co (RL-based sim-real Co-training), un framework d'entraînement combinant simulation et données réelles via l'apprentissage par renforcement pour les modèles VLA (Vision-Language-Action). Publié sur arXiv (ref. 2602.12628, version 4), le travail s'articule en deux étapes : une phase de préchauffage par fine-tuning supervisé (SFT) sur un mélange de démonstrations réelles et simulées, suivie d'un fine-tuning par RL en simulation avec une perte supervisée auxiliaire sur données réelles pour ancrer la politique et prévenir l'oubli catastrophique. Évalué sur quatre tâches de manipulation sur table en conditions réelles, RL-Co affiche une progression de +24% du taux de succès sur l'architecture OpenVLA et de +20% sur π0.5, développé par Physical Intelligence, par rapport à un entraînement supervisé classique sur données réelles uniquement. L'intérêt de cette approche dépasse les chiffres de performance bruts. La quasi-totalité des méthodes actuelles de co-entraînement sim-réel traite la simulation comme une source statique de démonstrations, sans exploiter les interactions en boucle fermée que ces environnements rendent possibles à grande échelle. RL-Co brise cette limite en tirant parti de l'exploration dynamique en simulation, ce qui se traduit par une meilleure généralisation aux variations de tâches non vues à l'entraînement et une efficacité accrue sur les données réelles, réduisant concrètement le besoin en démonstrations coûteuses sur robot physique. Pour les intégrateurs et les équipes R&D, c'est une voie d'entraînement plus économique sans compromis sur les performances terrain. Le défi du transfert simulation-réel reste l'un des obstacles structurants au déploiement de robots généralistes. Les modèles VLA ont connu une accélération notable depuis 2024, portée par OpenVLA (Stanford/UC Berkeley, open-source), la série π0/π0.5 de Physical Intelligence, fondée par d'anciens chercheurs de Google DeepMind et Stanford, et les travaux de Google DeepMind autour de RT-2 et ses successeurs. RL-Co s'inscrit dans une tendance de fond visant à remplacer la supervision pure par des boucles d'interaction actives dans des simulateurs de plus en plus fidèles. La prochaine étape naturelle sera l'extension à des tâches plus complexes et à des environnements moins structurés que la table de laboratoire, condition nécessaire pour valider l'approche à l'échelle industrielle.

















































