Vers un raisonnement par trace spatiale dans les modèles vision-langage pour la robotique
Une équipe de chercheurs présente RoboTracer, un modèle de vision-langage (VLM) 3D permettant aux robots de tracer des trajectoires dans l'espace physique en raisonnant sur des mesures métriques concrètes. Publié en version 3 sur arXiv (2512.13660, décembre 2025), le système combine référencement spatial 3D et mesure de distance via un encodeur universel et un décodeur à supervision par régression, affiné d'abord en apprentissage supervisé (SFT) puis par renforcement (RFT) avec des récompenses intermédiaires sensibles aux métriques. Le dataset d'entraînement TraceSpatial regroupe 30 millions de paires question-réponse sur scènes intérieures, extérieures et de manipulation, avec des chaînes de raisonnement atteignant 9 étapes. Sur le benchmark TraceSpatial-Bench introduit par les auteurs, RoboTracer atteint 79,1 % de taux de succès moyen et dépasse Gemini-2.5-Pro de 36 points de précision. Le système a été validé sur bras UR5 (Universal Robots) et humanoïde G1 (Unitree) dans des scènes réelles encombrées.
La contribution principale tient dans le raisonnement métrique, une capacité absente des VLM classiques : décrire une scène en langage naturel ne suffit pas pour estimer qu'un obstacle se trouve à 0,47 m à gauche, information nécessaire à toute trajectoire exécutable. L'approche RFT avec récompenses de processus supervise les étapes perceptuelles intermédiaires et non uniquement le résultat final, ce qui réduit concrètement l'écart entre compréhension sémantique et exécution physique (le demo-to-reality gap). Pour un intégrateur ou un COO industriel, cela signifie un robot capable d'opérer dans des espaces non cartographiés à l'avance. L'avance de 36 % sur Gemini-2.5-Pro est notable, même si ce modèle n'est pas conçu pour la robotique embarquée.
RoboTracer s'inscrit dans la compétition autour des modèles VLA (Vision-Language-Action), aux côtés de Pi-0 de Physical Intelligence, GR00T N2 de NVIDIA et OpenVLA, qui cherchent tous à unifier perception, raisonnement et action dans un modèle unique. Sa spécificité est l'accent sur la conscience métrique plutôt que sur le contrôle moteur fin, niche où Pi-0 reste dominant. Le choix des plateformes UR5 (bras industriel 6 axes, référence en intégration industrielle) et G1 (humanoïde Unitree, 43 degrés de liberté, environ 35 000 $) renforce la crédibilité de la généralisation multi-robots. À ce stade, il s'agit d'un résultat de recherche sans déploiement commercial annoncé ; la publication du dataset TraceSpatial et du benchmark ouvert constitue en revanche une infrastructure réutilisable directement par la communauté robotique.
Le dataset TraceSpatial et le benchmark ouvert sont librement accessibles aux laboratoires européens de robotique, mais aucun acteur ou déploiement européen n'est impliqué dans cette contribution.
Dans nos dossiers




