
ReSiReg : vers une sémantique spatialement cohérente pour les tâches robotiques guidées par le langage
Des chercheurs ont déposé sur arXiv (2606.19088) ReSiReg, une méthode de reconstruction de features visant à corriger l'incohérence spatiale des embeddings denses produits par les Vision-Language Models (VLM) utilisés en robotique. Le constat de départ est documenté : les VLM de type ViT-B produisent des représentations sémantiques bruitées et spatialement incohérentes, ce qui compromet la localisation d'objets dans un espace 3D à partir d'instructions en langage naturel. ReSiReg regroupe les activations intermédiaires en prototypes visuels, dérive pour chacun des descripteurs linguistiques, puis reconstruit chaque patch comme un mélange pondéré de ces embeddings prototype. L'évaluation porte sur des benchmarks de segmentation sémantique ouverte (OVSS) et de cartographie 3D sur plusieurs backbones, complétée par des tests qualitatifs sur des scènes de manipulation réelle ; les auteurs proposent également un modèle compact à 25 millions de paramètres, contre 86M pour un ViT-B standard, avec des performances déclarées compétitives.
Ce problème d'incohérence spatiale est un frein concret pour les intégrateurs : les pipelines VLA (Vision-Language-Action) doivent actuellement empiler des composants supplémentaires comme SAM, des filtres de profondeur et des post-traitements pour stabiliser les activations avant de les transmettre au contrôleur. Corriger le problème au niveau du feature lui-même simplifie cette chaîne, et le modèle 25M constitue un argument direct pour le déploiement embarqué sur hardware contraint. Nuance importante : les résultats qualitatifs illustrent des "activations plus cohérentes spatialement", mais sans métriques systématiques chiffrées permettant une comparaison directe avec l'existant.
ReSiReg s'inscrit dans un effort plus large d'adaptation des VLM généralistes au contexte robotique, après des travaux comme LERF ou CLIP-Fields qui ancrent les embeddings linguistiques dans des représentations 3D. La méthode opère en amont, sur la représentation 2D dense, et se veut agnostique au backbone, à la différence de solutions comme OpenMask3D ou les approches Distilled Feature Fields. L'article est à l'état de preprint non révisé par les pairs ; le code est annoncé sur resireg.github.io. Les suites naturelles incluent une évaluation sur des benchmarks de manipulation de référence (RLBench, LIBERO) et une intégration dans des architectures VLA de bout en bout telles que Pi-0 ou OpenVLA.
Dans nos dossiers




