L'injection directe d'un point 3D ancré dans la tête d'action débloque la généralisation spatiale et des tâches
Des chercheurs ont publié fin juin 2026 (arXiv:2606.27663) une méthode légère pour améliorer la généralisation des modèles Vision-Language-Action (VLA) en manipulation robotique. Le module proposé représente le signal d'ancrage spatial en 3D, calcule son déplacement relatif au préhenseur, et injecte l'embedding résultant directement dans la tête d'action via une normalisation de couche adaptative (AdaLN). Concrètement, c'est un MLP à deux couches qui n'exige aucune modification du backbone préentraîné ni du pipeline d'entraînement. Sur le benchmark LIBERO-PRO, appliqué à GR00T-N1.6 de NVIDIA, le taux de succès moyen passe de 31,2 à 77,5 points sous perturbation de tâche (+46,3 points) et de 28,1 à 60,2 points sous perturbation de position (+32,1 points). Des gains comparables sont mesurés sur π0.5 de Physical Intelligence, ce qui valide l'approche sur deux architectures distinctes.
Les VLA souffrent de deux formes structurelles de fragilité à l'inférence : la généralisation spatiale, lorsqu'un objet cible se trouve à une position non vue à l'entraînement, et la généralisation de tâche, lorsqu'une instruction légèrement reformulée dans un contexte visuel familier fait chuter la politique. Les approches précédentes par prompting textuel ou visuel avec coordonnées 2D en pixels s'avèrent insuffisantes. Ce travail identifie le vrai levier : ni la richesse du prompt, ni l'ajout de capteurs, mais la représentation 3D de l'ancrage et son point d'injection en bout de chaîne, directement dans la tête d'action. Pour les intégrateurs industriels, cela signifie qu'un VLA déjà déployé peut théoriquement être augmenté de ce module sans réentraînement complet, ouvrant la voie à des adaptations sur des lignes de production à géométrie variable.
Ce résultat s'inscrit dans une course intense à la généralisation en manipulation dextère. Physical Intelligence a sorti π0 puis π0.5 sur des données multi-tâches à grande échelle ; NVIDIA déploie GR00T N1.6 et prépare GR00T N2 pour des capacités humanoïdes. D'autres méthodes d'ancrage spatial comme SpatialVLA ou RoboPoint cherchaient déjà à résoudre ce problème via des coordonnées 2D ou des cartes de profondeur ; ce travail tranche le débat en faveur de la 3D injectée en bout de chaîne. À ce stade, c'est un résultat de recherche validé uniquement en simulation sur LIBERO-PRO ; le passage au réel, sur des robots physiques en environnement industriel, reste à démontrer.




