
Action par primitives visuelles
Une équipe de chercheurs a publié en mai 2026 sur arXiv (réf. 2605.22183) AVP, Action with Visual Primitives, une nouvelle architecture end-to-end pour la manipulation robotique généraliste. Le système repose sur une séparation explicite des responsabilités : le modèle de vision-langage (VLM) infère l'état cible de la prochaine étape et génère des tokens dits "visuels primitifs", qui conditionnent ensuite un module d'action basé sur le flow matching, supervisé par la cinématique de l'effecteur final. Sur des tâches réelles de pick-and-place, AVP améliore le taux de succès de 27,61 % par rapport à pi_0.5, le modèle de référence de Physical Intelligence, avec des gains mesurés en efficacité de données, en généralisation spatiale et compositionnelle, ainsi qu'en transfert à de nouveaux objets.
L'enjeu central que pointe ce travail est celui de l'enchevêtrement des objectifs d'apprentissage dans les VLA actuels : dans les architectures dominantes, compréhension du langage, analyse spatiale de la scène et contrôle moteur sont fondus dans un seul passage forward, forçant le module d'action à réapprendre des capacités perceptives déjà présentes dans le VLM préentraîné. AVP découple ce pipeline via une interface à base de tokens visuels primitifs, ce qui réduit la redondance d'apprentissage et améliore l'efficacité des données d'entraînement, un facteur critique dans un domaine où la collecte de démonstrations robotiques reste coûteuse. L'amélioration de 27,61 % sur pi_0.5, si elle se confirme sur des benchmarks plus larges, représente un écart significatif pour des intégrateurs industriels qui évaluent des solutions de manipulation flexible.
Les modèles VLA ont connu une accélération notable depuis 2024 avec l'émergence de pi0 et pi0.5 (Physical Intelligence), GR00T N2 (NVIDIA) et Helix (Figure AI), tous positionnés sur la manipulation généraliste. La tendance dominante jusqu'ici consistait à empiler VLM et head d'action en bout de chaîne, héritant des représentations visuelles sans structuration intermédiaire. AVP propose une voie alternative en introduisant une représentation symbolique intermédiaire, les visual primitives, comme pont entre perception et action. Le papier reste un preprint sans validation externe à ce stade ; les expériences sont conduites sur des tâches de pick-and-place, ce qui limite la portée des conclusions à des scénarios de manipulation relativement contraints. Les prochaines étapes naturelles seront une extension à des tâches à longue horizon temporel et une comparaison sur des benchmarks standardisés comme LIBERO ou Open X-Embodiment.
Dans nos dossiers




