Voir, Planifier, Revenir en arrière : des modèles VLA sensibles à la progression pour une manipulation robotique robuste
Une équipe de chercheurs propose SPR (See, Plan, Rewind), un framework de type vision-language-action (VLA) conçu pour rendre la manipulation robotique plus robuste face aux échecs d'exécution. Publié sur arXiv (arXiv:2506.09292v2), le système découpe chaque tâche en sous-objectifs spatiaux intermédiaires, puis opère en boucle fermée selon trois étapes : observer l'état courant et le prochain jalon, planifier une trajectoire vers le waypoint 2D suivant, et rembobiner vers un état récupérable si la progression stagne. Sur le benchmark LIBERO, SPR dépasse la ligne de base MolmoAct de 5 points de pourcentage. Sur LIBERO-Plus, une variante plus exigeante qui introduit des instructions et des états initiaux inédits, SPR affiche la plus faible dégradation de performance parmi les modèles testés, surpassant OpenVLA-OFT et UniVLA sur les scénarios hors-distribution.
Ce que SPR apporte concrètement, c'est un mécanisme de récupération d'erreur intégré qui ne nécessite ni données d'entraînement supplémentaires, ni modèle auxiliaire dédié. C'est un point non trivial : la plupart des systèmes VLA actuels échouent silencieusement quand la séquence d'actions diverge, sans capacité à détecter le blocage et à se repositionner. La mesure explicite du progrès par jalons intermédiaires permet ici au modèle de savoir où il en est dans la tâche, ce qui adresse directement l'un des verrous principaux du déploiement industriel : la robustesse à l'imprévu. Les résultats sur LIBERO-Plus constituent une validation partielle de la résistance hors-distribution, même si les benchmarks simulés restent éloignés des contraintes physiques réelles.
Le domaine des VLA pour la robotique de manipulation connaît une accélération marquée depuis 2023, avec des modèles comme RT-2 (Google DeepMind), OpenVLA (Berkeley), et plus récemment UniVLA et les variantes OFT d'OpenVLA. SPR se positionne dans ce paysage en ajoutant une couche de monitoring de progression là où ses concurrents restent en boucle ouverte ou délèguent la récupération à des modules séparés. Aucun déploiement physique ni partenariat industriel n'est mentionné dans ce preprint : il s'agit d'une contribution de recherche académique, avec des validations entièrement en simulation. La prochaine étape naturelle serait une évaluation sur robot physique pour quantifier le sim-to-real gap que les chiffres LIBERO ne permettent pas de mesurer.
Dans nos dossiers



