
RoboEvolve : co-évolution planificateur-simulateur pour la manipulation robotique avec peu de données
RoboEvolve est un framework de recherche publié en preprint arXiv (réf. 2605.13775, mai 2025) dont l'objectif est de résoudre la rareté des données d'interaction physique alignées sur les tâches de manipulation robotique. Le système couple un planificateur basé sur un modèle vision-langage (VLM) et un simulateur basé sur un modèle de génération vidéo (VGM) dans une boucle co-évolutive auto-renforçante, opérant à partir de seulement 500 images non annotées, soit une réduction de 50x par rapport aux baselines entièrement supervisées. Le mécanisme alterne une phase d'exploration diurne, qui génère des trajectoires ancrées physiquement via une récompense multi-granulaire à contrôle sémantique, et une phase de consolidation nocturne, qui exploite les échecs "near-miss" pour stabiliser l'optimisation de politique. Les résultats publiés indiquent une amélioration de 30 points absolus sur les planificateurs de base, une hausse de 48 % du taux de succès des simulateurs, et un apprentissage continu robuste sans oubli catastrophique.
Ces chiffres adressent directement le principal verrou économique des pipelines de manipulation à grande échelle : la collecte de données téléopérées, qui freine aujourd'hui des systèmes commerciaux comme Pi-0 (Physical Intelligence), GR00T N2 (NVIDIA) ou Helix (Figure AI). La co-évolution VLM-VGM contourne deux limitations bien documentées : les VLM seuls souffrent d'un désalignement sémantique-spatial (compréhension correcte de la tâche mais imprécision dans le positionnement 3D), tandis que les VGM seuls produisent des hallucinations physiques (vidéos synthétiques qui violent les contraintes physiques réelles). Un curriculum progressif automatique fait évoluer le système d'actions atomiques simples vers des tâches composites complexes, approche concrète au problème de généralisation hiérarchique encore non résolu à l'échelle commerciale.
Ce travail s'inscrit dans une tendance émergente visant à substituer la génération synthétique de données à la collecte terrain coûteuse, tendance accélérée depuis Diffusion Policy (2023) et l'essor des modèles VLA (vision-language-action). Le résumé disponible ne précise ni affiliation institutionnelle des auteurs ni plateforme matérielle de validation, une limite importante avant tout transfert industriel. Aucun déploiement physique ni partenariat constructeur n'est annoncé : RoboEvolve reste à ce stade une contribution académique dont la transposition sim-to-real sur hardware réel reste entièrement à démontrer.
Dans nos dossiers




