Z-1 : apprentissage par renforcement efficace pour les modèles vision-langage-action
Des chercheurs présentent Z-1, un framework de post-entraînement par apprentissage par renforcement (RL) pour les modèles Vision-Language-Action (VLA) à base de flow matching, décrit dans un article publié sur arXiv (2606.31846v1). Construit sur l'architecture π0.5 de Physical Intelligence, Z-1 s'appuie uniquement sur les démonstrations publiques RoboCasa pour la phase de fine-tuning supervisé (SFT), puis applique une stratégie de Group Relative Policy Optimization (GRPO) tâche par tâche sur 24 tâches standard du benchmark RoboCasa. Pour rendre cette optimisation en ligne plus stable et efficace, les auteurs combinent quatre techniques: construction de rollouts à préfixe partagé, branchement arborescent des trajectoires, calibration des récompenses tenant compte de la complétion des tâches, et entraînement conjoint sélectif du modèle vision-langage et de l'"Action Expert". Résultat: un taux de réussite moyen de 80,6% sur les 24 tâches, soit un gain de 13,2 points par rapport au modèle SFT de départ, et une performance supérieure aux meilleurs modèles publiés jusqu'ici.
L'enjeu dépasse le simple gain de benchmark. La grande majorité des politiques VLA actuelles restent bridées par le behavior cloning ou le SFT sur données figées, une approche qui plafonne dès que le robot rencontre une situation absente des démonstrations. En montrant qu'un post-entraînement RL structuré peut améliorer significativement une politique flow-based sans données de démonstration privées supplémentaires, Z-1 apporte un argument concret en faveur du RL comme étape standard après le SFT, plutôt qu'une simple option de recherche. Pour les équipes qui entraînent des VLA pour la manipulation robotique, cela suggère une voie pour corriger les échecs récurrents d'une politique sans repasser par une collecte de données coûteuse.
Le travail s'inscrit dans la lignée des modèles génération π (π0, π0.5 de Physical Intelligence) et fait écho aux efforts similaires chez GR00T N2 (NVIDIA) ou Helix (Figure AI), qui cherchent tous à faire passer les VLA du stade de la démonstration à celui d'une robustesse exploitable en conditions réelles. GRPO, popularisé dans l'entraînement de modèles de langage, est ici adapté aux contraintes du contrôle continu. Les auteurs présentent Z-1 comme une preuve de concept méthodologique, sans annoncer de déploiement matériel ni de calendrier commercial.
Dans nos dossiers




