Feat2Go : estimation de valeur par ancrage visuel pour l'apprentissage par renforcement incarné
Feat2Go est un framework de recherche présenté sur arXiv (2605.30795, mai 2026) qui s'attaque à un verrou persistant dans l'entraînement des modèles vision-langage-action (VLA) : générer automatiquement des signaux de récompense denses pour l'apprentissage par renforcement (RL) sur des tâches de manipulation longue portée. Le système décompose automatiquement un épisode robotique en étapes sémantiques via un clustering orienté tendances, puis mesure la progression par similarité au niveau patch entre l'état courant et des sous-objectifs visuels extraits d'un world model visuel pré-entraîné. Un modèle de valeur incarné prédit ensuite ce progrès à partir de l'observation et de l'instruction textuelle, et le signal est utilisé pour reformuler les récompenses terminales lors de l'optimisation de politique, sans ingénierie manuelle des récompenses. Les résultats sur deux benchmarks de référence sont nets : sur ManiSkill3, OpenVLA-OFT passe d'un taux de succès hors distribution de 17,5 % à 82,9 % tout en maintenant 96,9 % en distribution ; sur RoboTwin 2.0, Feat2Go atteint 88,8 % de succès moyen en domain randomization, dépassant les méthodes RL antérieures. Le framework est compatible avec PPO et GRPO, et couvre manipulation bras unique et bras bimanuels.
L'intérêt de cette contribution est qu'elle attaque un problème structurel du RL robotique : soit on conçoit à la main des fonctions de récompense tâche par tâche, soit on reste captif de lourds datasets d'imitation. Feat2Go contourne ces deux contraintes en extrayant automatiquement un signal de progrès granulaire depuis un world model, ce qui le rend théoriquement compatible avec des architectures VLA existantes sans modification majeure du pipeline. Un saut de 17,5 % à 82,9 % hors distribution représente un écart brut significatif, mais il faut souligner que ces chiffres restent obtenus en simulation : la chaîne sim-to-real n'est pas validée sur hardware réel, une limite habituelle mais non négligeable.
Cette approche s'inscrit dans une tendance large où le RL sert de couche de fine-tuning au-dessus de fondations VLA pré-entraînées, après des travaux récents comme π0 de Physical Intelligence, GROOT N2 de NVIDIA, ou les architectures de 1X et Figure AI. La question du signal de récompense était le chaînon manquant dans ce paradigme ; Feat2Go propose une réponse agnostique au modèle. Aucun partenariat industriel ni déploiement terrain n'est annoncé, la contribution restant académique à ce stade.
Dans nos dossiers




