
G³VLA : biais inductif géométrique pour les modèles vision-langage-action (VLA)
Un preprint arXiv déposé fin juin 2026 présente G³VLA, un module géométrique plug-in pour les modèles VLA (Vision-Language-Action), conçu pour corriger un angle mort structurel de ces architectures : leurs tokens visuels sont encodés en coordonnées image 2D, sans exploiter la géométrie calibrée des caméras du robot. Dans les configurations multi-caméras, où intrinsèques et extrinsèques sont pourtant parfaitement connus, les vues sont traitées comme des images indépendantes, effaçant toute information de profondeur et de position relative. G³VLA injecte cette géométrie calibrée via trois composantes : des ray embeddings conditionnés sur les paramètres intrinsèques, un encodage positionnel projectif baptisé PRoPE, et une fusion cross-view bidirectionnelle. Aucun capteur de profondeur n'est requis : la supervision géométrique s'appuie soit sur des point maps ground-truth, soit sur des prédictions du modèle π³X filtrées par seuil de confiance. Le module a été instancié sur π₀ (Physical Intelligence) puis validé sur π₀.₅ et GR00T 1.5 de NVIDIA, avec des évaluations sur les suites LIBERO, RoboCasa24, RoboTwin2.0 et sur robot réel.
Les gains obtenus sont réguliers sur l'ensemble des benchmarks, les améliorations les plus prononcées concernant les tâches dites spatialement sensibles : manipulation d'objets proches, désambiguïsation de positions relatives, réponse à des instructions impliquant des relations 3D précises. Pour un intégrateur ou un décideur industriel, le point central est la compatibilité : G³VLA s'ajoute sans modifier l'espace d'action ni l'objectif d'imitation du VLA hôte, le rendant portable vers des systèmes existants sans réentraînement complet. L'analyse comparative sur GR00T 1.5 livre un enseignement architectural : le transfert de géométrie est maximal quand les tokens géométriques ont accès direct au pathway de génération d'actions, et non positionnés en périphérie du flux.
G³VLA s'inscrit dans la recherche post-RT-2 autour des VLA généralistes, portée par Physical Intelligence avec π₀ (2024) et NVIDIA avec la famille GR00T (N1, N2, 1.5). Ces modèles ont prouvé une généralisation hors distribution convaincante, mais leur faiblesse reconnue reste la précision spatiale fine, là où les réseaux end-to-end apprennent des heuristiques visuelles sans véritable compréhension 3D. Des travaux concurrents comme SpatialVLA (2025) explorent des voies similaires d'injection de géométrie. Du côté européen, des acteurs spécialisés dans la manipulation de précision, comme Enchanted Tools ou Wandercraft, pourraient tirer parti de ce type de module si intégré dans des VLAs open-source. Le code source n'est pas encore disponible, mais une page projet en ligne laisse anticiper une publication prochaine.
Des équipes françaises spécialisées en manipulation de précision, comme Enchanted Tools ou Wandercraft, pourraient intégrer ce module géométrique dans leurs pipelines VLA open-source pour améliorer la précision spatiale fine de leurs robots, dès la publication du code source.
Les VLA passent à côté d'informations géométriques que les caméras calibrées donnent pourtant gratuitement, et ça se paie en précision spatiale. G³VLA corrige ça en plug-in, sans modifier l'espace d'action ni forcer un réentraînement, ce qui le rend applicable à des systèmes déjà en production. Reste à voir si Enchanted Tools ou Wandercraft suivent dès que le code sort.
Dans nos dossiers




