Dialogue multi-agents à plusieurs tours pour la reconstruction collaborative améliore légèrement les performances des VLM en raisonnement spatial
Une équipe de chercheurs a publié sur arXiv (identifiant 2605.31387) une étude évaluant les capacités des modèles vision-langage (VLM) dans des tâches de reconstruction collaborative en plusieurs tours de dialogue. Le protocole repose sur un cadre multi-agents où deux VLMs communiquent via le langage pour reconstruire une structure cible à partir d'entrées visuelles et textuelles. Les chercheurs ont testé des modèles open-weight et des modèles propriétaires selon plusieurs paramètres : modalités d'entrée, représentations d'image (entières ou décomposées), et formats de description de la cible. Résultat principal : les VLMs peinent à raisonner spatialement sur des représentations visuelles, et les gains obtenus grâce au dialogue multi-tours restent modestes. Le titre lui-même ne cache pas l'ambivalence : "improves VLM performance... but only barely".
Ce résultat est significatif pour les équipes qui intègrent des pipelines VLM ou VLA (Vision-Language-Action) dans des systèmes robotiques. La recherche confirme que la compréhension spatiale visuelle, pourtant centrale pour des robots opérant en environnements non structurés, reste un point faible structurel des VLMs actuels. Fait notable pour les intégrateurs : les représentations textuelles détaillées de la structure cible surpassent systématiquement les représentations purement visuelles, quelle que soit la modalité testée. Autrement dit, pour une tâche d'assemblage collaboratif, une description sémantique structurée s'avère plus fiable que de laisser le modèle interpréter une image de référence. Les représentations d'images décomposées, où la scène est fragmentée en éléments distincts, améliorent les performances mais ne comblent pas l'écart.
Ce travail s'inscrit dans un courant de recherche croissant autour des agents VLM pour la robotique collaborative, stimulé par des architectures comme RT-2 de Google DeepMind, Pi-0 de Physical Intelligence ou GR00T N2 de NVIDIA, qui font le pari que des VLMs pré-entraînés peuvent généraliser à des tâches robotiques complexes via du fine-tuning ou du prompting. L'étude nuance cet optimisme en exposant les limites actuelles du raisonnement spatial ancré (grounded), particulièrement dans des scénarios de dialogue interactif. Les pistes identifiées incluent l'amélioration des mécanismes de grounding spatial et le raffinement des représentations d'images dans les boucles de dialogue multi-agents, des axes qui intéressent directement les labos travaillant sur la manipulation en environnements non structurés.
Dans nos dossiers




