Aller au contenu principal
RecherchearXiv cs.RO4h

SpaceTools : raisonnement spatial augmenté par des outils via apprentissage par renforcement interactif double

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Une équipe de chercheurs a publié, début juin 2026 sur arXiv, les travaux sur SpaceTools, un modèle de vision-langage (VLM) entraîné à coordonner plusieurs outils de perception spatiale via un nouveau cadre d'apprentissage par renforcement baptisé DIRL (Double Interactive Reinforcement Learning). Le système s'appuie sur des outils standards de perception robotique comme les estimateurs de profondeur, les modèles de segmentation et les estimateurs de pose, que le VLM apprend à orchestrer de manière autonome sans pipeline fixe. La validation expérimentale porte sur trois benchmarks de compréhension spatiale, RoboSpatial-Home, BLINK et BOP-ASK, où SpaceTools atteint l'état de l'art, avec des gains de +12 points de pourcentage sur RoboSpatial par rapport à un fine-tuning supervisé standard (SFT) et +16 points par rapport à un RL mono-outil de référence. Les tests en manipulation réelle ont été conduits sur un bras robotique à 7 degrés de liberté (7-DOF).

L'enjeu central adressé par ces travaux est le fossé entre la compréhension visuelle qualitative des VLMs actuels et la précision métrique exigée par les applications embarquées. Les VLMs savent décrire une scène, mais peinent à répondre à des questions du type "à quelle distance exacte se trouve cet objet" ou "quel est l'angle de rotation optimal pour saisir cette pièce", ce qui bloque leur intégration dans des systèmes de manipulation industrielle. DIRL résout ce problème en deux phases : une phase d'enseignement qui combine des démonstrations issues d'un spécialiste mono-outil et des traces générées par un modèle frontier utilisant tous les outils disponibles, suivie d'une phase d'exploration où le modèle affine lui-même la coordination multi-outils par RL interactif. Ce résultat contredit l'hypothèse selon laquelle le multi-tool reasoning via RL serait inaccessible en raison de l'explosion combinatoire de l'espace de recherche.

Ces travaux s'inscrivent dans la dynamique plus large d'intégration des VLMs dans la robotique embodied, un axe de recherche en forte croissance depuis les travaux SayCan (Google, 2022) et RT-2 (DeepMind, 2023). Sur le front concurrent, des approches comme ToolkenGPT ou des pipelines handcrafted restent prisonniers de séquences d'outils prédéfinies, tandis que SpaceTools apprend à choisir dynamiquement ses outils. Il s'agit pour l'instant d'un preprint de recherche, sans déploiement industriel annoncé, et les vidéos de manipulation sur le bras 7-DOF restent des démonstrations lab-controlled dont la généralisation en conditions réelles reste à confirmer. Le code et les détails sont accessibles via la page projet spacetools.github.io.

Dans nos dossiers

À lire aussi

X-Imitator : apprentissage par imitation spatial via interaction bidirectionnelle action-pose
1arXiv cs.RO 

X-Imitator : apprentissage par imitation spatial via interaction bidirectionnelle action-pose

Des chercheurs ont déposé le 13 mai 2026 sur arXiv (2605.12162) X-Imitator, un cadre d'apprentissage par imitation pour la manipulation robotique fondé sur un couplage bidirectionnel entre perception spatiale et génération d'actions. L'architecture duale fonctionne par conditionnement mutuel : les prédictions de pose courante sont conditionnées sur les actions passées, et les actions générées tiennent compte des estimations de pose réactualisées en retour. Évalué sur 24 tâches simulées et 3 tâches en environnement réel, X-Imitator surpasse selon les auteurs les politiques visuomotrices de base ("vanilla policies") ainsi que les méthodes exploitant un guidage de pose explicite mais unidirectionnel. Le code source sera rendu public. Le verrou adressé est bien identifié dans la littérature : les approches actuelles traitent perception et exécution comme deux modules découplés, ou reliés au mieux de façon unidirectionnelle. X-Imitator instaure une boucle de raffinement mutuel continu, que les auteurs rapprochent des modèles prospectifs internes ("forward models") du système moteur humain. En pratique, la politique corrige ses estimations de pose à la lumière de ses propres actions passées, mécanisme potentiellement utile dans les tâches à contacts multiples ou à déformation d'objet, où les erreurs de perception s'accumulent. L'architecture modulaire est conçue pour s'intégrer à diverses politiques visuomotrices existantes, ce qui lui confère une portée plus large qu'un système monolithique. À noter cependant : l'évaluation réelle se limite à 3 tâches, et le papier reste un preprint non encore relu par les pairs. X-Imitator s'inscrit dans le courant de l'apprentissage par imitation appliqué à la manipulation fine, discipline en forte expansion depuis Diffusion Policy (Chi et al., 2023) et ACT (Zhao et al., 2023). Face aux politiques hybrides perception-action portées par des groupes comme DeepMind, Stanford ou Physical Intelligence avec pi-zero, le système se positionne comme un module d'amélioration orthogonal plutôt qu'une architecture concurrente de remplacement. Aucun partenaire industriel ni calendrier de transfert applicatif n'est mentionné dans la publication : X-Imitator reste un résultat académique. La mise en open source annoncée du code permettra à la communauté de valider les performances sur des benchmarks partagés comme RLBench ou ManiSkill, étape nécessaire avant toute adoption à plus grande échelle.

RecherchePaper
1 source
Géwu : un environnement interactif en ligne pour l'apprentissage par renforcement en robotique
2arXiv cs.RO 

Géwu : un environnement interactif en ligne pour l'apprentissage par renforcement en robotique

Une équipe de chercheurs a publié le 23 avril 2026 Web-Gewu (arXiv:2604.17050), une plateforme pédagogique de robotique conçue pour permettre l'entraînement par renforcement (RL) directement depuis un navigateur web, sans installation locale. L'architecture repose sur un modèle cloud-edge-client s'appuyant sur WebRTC : toute la simulation physique et l'entraînement RL sont déportés sur un nœud edge, tandis que le serveur cloud ne joue qu'un rôle de relais de signalisation léger. La communication entre l'apprenant et le nœud de calcul s'effectue en pair-à-pair (P2P), avec une latence bout-en-bout annoncée comme faible, sans que des chiffres précis soient fournis dans le préprint. Les apprenants visualisent en temps réel les courbes de récompense RL et interagissent avec plusieurs formes de robots simulés, le tout via un protocole de communication de commandes prédéfini. L'intérêt de cette approche est structurel : elle attaque directement les deux verrous qui freinent l'enseignement de la robotique incarnée à grande échelle. D'un côté, les solutions cloud centralisées existantes entraînent des coûts GPU et de bande passante prohibitifs pour un déploiement massif en contexte éducatif. De l'autre, le calcul purement local bute sur les limitations matérielles des apprenants, souvent sans GPU dédié. En déplaçant la charge vers un nœud edge mutualisé et en réduisant le cloud à un simple relais, Web-Gewu réduit significativement le coût marginal par apprenant. Pour les institutions qui cherchent à former des ingénieurs au RL appliqué à la robotique, c'est un argument concret, même si la robustesse à l'échelle reste à démontrer hors environnement de laboratoire. Ce travail s'inscrit dans une tendance plus large de démocratisation des outils de simulation robotique, portée notamment par des environnements comme Isaac Sim (NVIDIA), MuJoCo (DeepMind/Google) ou encore Genesis, tous nécessitant des ressources locales ou des accès cloud coûteux. Web-Gewu se positionne dans un créneau différent, celui de la formation et de l'expérimentation accessible, plutôt que de la recherche haute performance. Le code source n'est pas encore public au moment de la soumission, et la plateforme reste au stade de prototype académique avec une instance de démonstration exposée à l'adresse IP indiquée dans le papier. Les prochaines étapes naturelles seraient une évaluation quantitative de la latence, une montée en charge sur plusieurs dizaines d'apprenants simultanés, et une ouverture du code pour permettre un déploiement institutionnel autonome.

RecherchePaper
1 source
Apprentissage par renforcement contraint via découplage dynamique sphérique-radial
3arXiv cs.RO 

Apprentissage par renforcement contraint via découplage dynamique sphérique-radial

Une équipe de chercheurs présente DD-SRad (Dynamic Decoupled Spherical Radial Squashing), une méthode d'apprentissage par renforcement contraint conçue pour respecter les limites de vitesse d'articulation lors du déploiement de politiques sur des robots physiques. Le problème cible est précis : chaque joint d'un robot a une vitesse maximale d'incrément par pas de contrôle, déterminée par l'inertie moteur, la bande passante électrique et la rigidité de transmission. Ces limites sont hétérogènes d'un joint à l'autre, formant une région admissible en forme de boîte rectangulaire dans l'espace des incréments d'action. Les benchmarks MuJoCo montrent que DD-SRad atteint le meilleur retour de tâche à zéro violation de contrainte, avec une couverture de l'espace admissible supérieure de 30 à 50 % aux méthodes de référence sphériques. Des simulations haute-fidélité dans IsaacLab valident l'approche sur les robots humanoïdes Unitree H1 et G1, en utilisant directement les spécifications officielles des joints comme paramètres d'entrée. L'apport technique central de DD-SRad est de remplacer un rayon global unique par un rayon adaptatif calculé indépendamment pour chaque actionneur, ce qui aligne précisément la contrainte imposée sur la vraie région admissible per-joint. Les méthodes existantes, projection par programme quadratique (QP) et paramétrisation sphérique, imposent une contrainte isotrope en forme de boule, qui sous-couvre exponentiellement l'espace réel à mesure que l'hétérogénéité des joints augmente. DD-SRad satisfait les contraintes dures par pas de contrôle avec probabilité 1, préserve des gradients bien conditionnés pendant l'entraînement, et ne requiert aucun solveur externe à l'exécution. Pour les intégrateurs industriels et les équipes de déploiement robotique, cela ouvre un chemin direct des fiches techniques hardware vers une politique sûre, sans étape de calibration manuelle des marges de sécurité. L'article s'inscrit dans un axe de recherche actif sur le sim-to-real pour les humanoïdes, dominé par les travaux autour des robots Unitree, Boston Dynamics Atlas, et des politiques apprises par imitation ou RL (IsaacLab, MuJoCo). Les approches concurrentes pour la gestion des contraintes d'actionneurs en RL incluent les méthodes de barrière logarithmique, les Lagrangiens augmentés, et les projections QP à chaud, chacune avec un surcoût computationnel à l'inférence que DD-SRad prétend éliminer. La validation reste pour l'instant en simulation ; aucun résultat de déploiement réel sur H1 ou G1 n'est reporté dans cette version arXiv, ce qui constitue la limite principale à surveiller avant toute généralisation industrielle.

RecherchePaper
1 source
SOLE-R1 : le raisonnement vidéo-langage comme unique récompense pour l'apprentissage par renforcement sur robot
4arXiv cs.RO 

SOLE-R1 : le raisonnement vidéo-langage comme unique récompense pour l'apprentissage par renforcement sur robot

Des chercheurs du MIT ont publié SOLE-R1 (Self-Observing LEarner), un modèle de raisonnement vidéo-langage conçu pour fonctionner comme signal de récompense exclusif dans l'apprentissage par renforcement (RL) en robotique, sans aucun accès à des récompenses terrain, indicateurs de succès, démonstrations ou réglages spécifiques à la tâche. Soumis sur arXiv (2503.28730v2), le système prend en entrée uniquement des observations vidéo brutes et un objectif en langage naturel, puis génère à chaque pas de temps un raisonnement spatiotemporel de type chain-of-thought (CoT) pour estimer de façon dense la progression de la tâche. Entraîné sur un pipeline de synthèse massif de trajectoires vidéo annotées temporellement, SOLE-R1 combine fine-tuning supervisé et RL depuis des récompenses vérifiables. Évalué sur quatre environnements de simulation distincts et en setting réel, il réussit 24 tâches de manipulation inédites en apprentissage zéro-shot depuis une initialisation aléatoire. L'enjeu central que résout SOLE-R1 est celui du reward hacking : aujourd'hui, utiliser un VLM généraliste comme évaluateur RL expose le système à des erreurs perceptuelles sous observabilité partielle ou changement de distribution, que la politique apprenante exploite rapidement au lieu de résoudre réellement la tâche. SOLE-R1 surpasse nettement des comparatifs forts - Robometer, RoboReward, ReWiND, mais aussi GPT-5 et Gemini-3-Pro - sur la robustesse à ce phénomène. Pour les intégrateurs et ingénieurs robotique, c'est un signal concret que le goulot d'étranglement du RL sur robot réel (définir une fonction de récompense dense et fiable) peut être délégué à un modèle de raisonnement vidéo entraîné spécifiquement, sans instrumentation matérielle supplémentaire. SOLE-R1 s'inscrit dans un courant actif qui cherche à remplacer les récompenses codées à la main par des superviseurs fondationnels (EUREKA d'NVIDIA, VLM-RM, SuSIE). La différence revendiquée ici est le raisonnement CoT temporel explicite par pas de temps, contre des évaluations épisodiques ou des scores scalaires instantanés. Le projet est encore au stade preprint sans déploiement industriel annoncé, mais les modèles, données et code sont publiés en open access sur la page anonyme du MIT. Les prochaines étapes naturelles seraient la validation sur des plateformes commerciales (Figure, Unitree, Boston Dynamics Spot) et l'extension à des tâches longue-horizon en environnement non structuré, deux gaps que l'article ne comble pas encore.

RechercheOpinion
1 source