
GeneralVLA-2 : reconstruction géométrique et mémoire structurée pour la planification robotique
Une équipe de recherche affiliée au groupe AIGeeks a publié le 17 juin 2026 sur arXiv (2506.17480) GeneralVLA-2, une version améliorée de son système généraliste vision-langage-action (VLA) pour la planification de trajectoires robotiques. L'architecture de base, GeneralVLA, convertit des instructions en langage naturel et des observations RGB-D en chemins 3D pour l'effecteur terminal d'un robot. GeneralVLA-2 apporte deux contributions distinctes: GeoFuse-MV3D, une branche de reconstruction 3D multi-vues guidée par des a priori géométriques, qui remplace la reconstruction monoculaire SAM3D sujette aux hallucinations de pose; et une refonte du KnowledgeBank en système de mémoire à long terme avec métadonnées explicites de qualité, confiance, cycle de vie et détection de conflits. Sur le benchmark GSO-30, GeoFuse-MV3D réduit la Chamfer Distance de 2,20 % et le LPIPS de 2,02 % par rapport à la baseline MV-SAM3D, tout en améliorant PSNR et SSIM de respectivement 2,36 % et 1,03 %. Le KnowledgeBank gouverné gagne 4,53 points sur Terminal-Bench SR et 3,73 points sur SWE-Bench Verified par rapport à ReasoningBank, tout en réduisant les erreurs d'assertion (AS) de 4,95 % et 5,65 %.
Ces améliorations s'attaquent à deux verrous concrets du pipeline VLA industriel: la qualité des représentations 3D d'objets en manipulation, et la fiabilité de la mémoire épisodique pour la réutilisation d'expériences. La reconstruction 3D monoculaire reste un point de défaillance majeur dans les déploiements réels, car une pose hallucinée en amont se propage directement en erreur de préhension. L'approche multi-vues avec fusion géométrique ciblée (visual-hull, raffinement axial, préservation de l'apparence) adresse ce problème de façon plus contrôlée. Les gains restent cependant modestes sur les métriques reportées, et il convient de noter qu'il s'agit d'un preprint sans peer review, avec des évaluations sur benchmarks laboratoire sans validation sur robot physique dans des conditions industrielles.
GeneralVLA-1 avait posé l'interface hiérarchique langage-to-trajectory comme abstraction centrale pour les systèmes généralistes; cette version 2 consolide les fondations plutôt que d'étendre le périmètre. Dans l'espace VLA, les travaux concurrents incluent Pi-0 (Physical Intelligence), GR00T N2 (NVIDIA), et OpenVLA (Berkeley), qui ciblent eux aussi le sim-to-real et la généralisation multi-tâche. La publication du code sur GitHub suggère une démarche de recherche ouverte, sans annonce de déploiement industriel ni partenariat opérationnel associé. Les prochaines étapes naturelles seraient une validation sur robot réel et des benchmarks de manipulation comparables à ceux de RoboMimic ou LIBERO.




