SpaceTools : raisonnement spatial augmenté par des outils via apprentissage par renforcement interactif double
Une équipe de chercheurs a publié, début juin 2026 sur arXiv, les travaux sur SpaceTools, un modèle de vision-langage (VLM) entraîné à coordonner plusieurs outils de perception spatiale via un nouveau cadre d'apprentissage par renforcement baptisé DIRL (Double Interactive Reinforcement Learning). Le système s'appuie sur des outils standards de perception robotique comme les estimateurs de profondeur, les modèles de segmentation et les estimateurs de pose, que le VLM apprend à orchestrer de manière autonome sans pipeline fixe. La validation expérimentale porte sur trois benchmarks de compréhension spatiale, RoboSpatial-Home, BLINK et BOP-ASK, où SpaceTools atteint l'état de l'art, avec des gains de +12 points de pourcentage sur RoboSpatial par rapport à un fine-tuning supervisé standard (SFT) et +16 points par rapport à un RL mono-outil de référence. Les tests en manipulation réelle ont été conduits sur un bras robotique à 7 degrés de liberté (7-DOF).
L'enjeu central adressé par ces travaux est le fossé entre la compréhension visuelle qualitative des VLMs actuels et la précision métrique exigée par les applications embarquées. Les VLMs savent décrire une scène, mais peinent à répondre à des questions du type "à quelle distance exacte se trouve cet objet" ou "quel est l'angle de rotation optimal pour saisir cette pièce", ce qui bloque leur intégration dans des systèmes de manipulation industrielle. DIRL résout ce problème en deux phases : une phase d'enseignement qui combine des démonstrations issues d'un spécialiste mono-outil et des traces générées par un modèle frontier utilisant tous les outils disponibles, suivie d'une phase d'exploration où le modèle affine lui-même la coordination multi-outils par RL interactif. Ce résultat contredit l'hypothèse selon laquelle le multi-tool reasoning via RL serait inaccessible en raison de l'explosion combinatoire de l'espace de recherche.
Ces travaux s'inscrivent dans la dynamique plus large d'intégration des VLMs dans la robotique embodied, un axe de recherche en forte croissance depuis les travaux SayCan (Google, 2022) et RT-2 (DeepMind, 2023). Sur le front concurrent, des approches comme ToolkenGPT ou des pipelines handcrafted restent prisonniers de séquences d'outils prédéfinies, tandis que SpaceTools apprend à choisir dynamiquement ses outils. Il s'agit pour l'instant d'un preprint de recherche, sans déploiement industriel annoncé, et les vidéos de manipulation sur le bras 7-DOF restent des démonstrations lab-controlled dont la généralisation en conditions réelles reste à confirmer. Le code et les détails sont accessibles via la page projet spacetools.github.io.
Dans nos dossiers




