
EvoScene-VLA : croyances de scène évolutives dans le décodeur d'action pour un contrôle robot par blocs
Une équipe de chercheurs a déposé sur arXiv (réf. 2605.21862) EvoScene-VLA, une nouvelle architecture de contrôle robotique pour les politiques vision-langage-action (VLA) en mode "chunked", où le robot planifie plusieurs gestes à la fois plutôt qu'une seule commande par observation. Sur 31 tâches de manipulation du benchmark RoboTwin, le système atteint 89,1 % de réussite en évaluation fixe (contre 87,2 % pour les baselines) et 88,5 % en évaluation aléatoire (contre 86,1 %). Des tests sur le robot réel Galaxea R1-Lite confirment que l'architecture surpasse l'ensemble des approches comparées. Le mécanisme central est un "préfixe de scène" récurrent : un vecteur compact et géométriquement informé, mis à jour après chaque chunk d'actions, qui transporte l'état de la scène d'un appel au modèle au suivant.
L'apport technique comble un angle mort structurel des VLA chunkées actuelles : celles-ci reconditionent chaque séquence d'actions uniquement sur l'observation visuelle instantanée, sans tenir compte des modifications de géométrie induites par les gestes précédents, contacts, occultations ou déplacements d'objets. Les approches spatiales (amélioration de la géométrie par frame) et temporelles (agrégation de frames passées) n'adressent pas ce problème entre les appels au VLM. EvoScene-VLA maintient un prior de scène persistant et mis à jour après chaque action : le modèle fusionne l'observation fraîche avec ce prior, produit le chunk suivant, et génère une mise à jour compacte de la scène. Pour les intégrateurs travaillant sur la manipulation dextre ou les séquences longues, c'est une démonstration que l'architecture du décodeur peut être déterminante, indépendamment du volume de données d'entraînement.
Ce preprint s'inscrit dans la vague de recherche post-π0 (Physical Intelligence) et GR00T N2 (NVIDIA), où les VLA passent du stade académique à celui de politiques testées sur hardware réel. Le Galaxea R1-Lite est une plateforme de recherche de la startup chinoise Galaxea Robotics, positionnée comme alternative ouverte aux robots de labo propriétaires. La publication ne mentionne ni partenaire industriel ni calendrier de déploiement commercial : il s'agit d'une contribution académique, pas d'une annonce produit. Les gains restent modestes en valeur absolue, autour de deux points sur RoboTwin, et les deux modules d'entraînement auxiliaires (Scene Predictor et Geometric Anchor) sont abandonnés à l'inférence, signe d'une conception orientée efficacité au déploiement. La prochaine étape naturelle serait une évaluation sur des tâches out-of-distribution ou en environnement industriel non structuré.
Dans nos dossiers




