IA physiquearXiv cs.RO 18 juin 2026

ReSiReg : vers une sémantique spatialement cohérente pour les tâches robotiques guidées par le langage

1 source couvre ce sujet·Source originale ↗·

Résumé IASource uniqueImpact UE

Des chercheurs ont déposé sur arXiv (2606.19088) ReSiReg, une méthode de reconstruction de features visant à corriger l'incohérence spatiale des embeddings denses produits par les Vision-Language Models (VLM) utilisés en robotique. Le constat de départ est documenté : les VLM de type ViT-B produisent des représentations sémantiques bruitées et spatialement incohérentes, ce qui compromet la localisation d'objets dans un espace 3D à partir d'instructions en langage naturel. ReSiReg regroupe les activations intermédiaires en prototypes visuels, dérive pour chacun des descripteurs linguistiques, puis reconstruit chaque patch comme un mélange pondéré de ces embeddings prototype. L'évaluation porte sur des benchmarks de segmentation sémantique ouverte (OVSS) et de cartographie 3D sur plusieurs backbones, complétée par des tests qualitatifs sur des scènes de manipulation réelle ; les auteurs proposent également un modèle compact à 25 millions de paramètres, contre 86M pour un ViT-B standard, avec des performances déclarées compétitives.

Ce problème d'incohérence spatiale est un frein concret pour les intégrateurs : les pipelines VLA (Vision-Language-Action) doivent actuellement empiler des composants supplémentaires comme SAM, des filtres de profondeur et des post-traitements pour stabiliser les activations avant de les transmettre au contrôleur. Corriger le problème au niveau du feature lui-même simplifie cette chaîne, et le modèle 25M constitue un argument direct pour le déploiement embarqué sur hardware contraint. Nuance importante : les résultats qualitatifs illustrent des "activations plus cohérentes spatialement", mais sans métriques systématiques chiffrées permettant une comparaison directe avec l'existant.

ReSiReg s'inscrit dans un effort plus large d'adaptation des VLM généralistes au contexte robotique, après des travaux comme LERF ou CLIP-Fields qui ancrent les embeddings linguistiques dans des représentations 3D. La méthode opère en amont, sur la représentation 2D dense, et se veut agnostique au backbone, à la différence de solutions comme OpenMask3D ou les approches Distilled Feature Fields. L'article est à l'état de preprint non révisé par les pairs ; le code est annoncé sur resireg.github.io. Les suites naturelles incluent une évaluation sur des benchmarks de manipulation de référence (RLBench, LIBERO) et une intégration dans des architectures VLA de bout en bout telles que Pi-0 ou OpenVLA.

Dans nos dossiers

OpenVLA / RT-X arXiv cs.RO

À lire aussi

1arXiv cs.RO

Vers un raisonnement par trace spatiale dans les modèles vision-langage pour la robotique

Une équipe de chercheurs présente RoboTracer, un modèle de vision-langage (VLM) 3D permettant aux robots de tracer des trajectoires dans l'espace physique en raisonnant sur des mesures métriques concrètes. Publié en version 3 sur arXiv (2512.13660, décembre 2025), le système combine référencement spatial 3D et mesure de distance via un encodeur universel et un décodeur à supervision par régression, affiné d'abord en apprentissage supervisé (SFT) puis par renforcement (RFT) avec des récompenses intermédiaires sensibles aux métriques. Le dataset d'entraînement TraceSpatial regroupe 30 millions de paires question-réponse sur scènes intérieures, extérieures et de manipulation, avec des chaînes de raisonnement atteignant 9 étapes. Sur le benchmark TraceSpatial-Bench introduit par les auteurs, RoboTracer atteint 79,1 % de taux de succès moyen et dépasse Gemini-2.5-Pro de 36 points de précision. Le système a été validé sur bras UR5 (Universal Robots) et humanoïde G1 (Unitree) dans des scènes réelles encombrées. La contribution principale tient dans le raisonnement métrique, une capacité absente des VLM classiques : décrire une scène en langage naturel ne suffit pas pour estimer qu'un obstacle se trouve à 0,47 m à gauche, information nécessaire à toute trajectoire exécutable. L'approche RFT avec récompenses de processus supervise les étapes perceptuelles intermédiaires et non uniquement le résultat final, ce qui réduit concrètement l'écart entre compréhension sémantique et exécution physique (le demo-to-reality gap). Pour un intégrateur ou un COO industriel, cela signifie un robot capable d'opérer dans des espaces non cartographiés à l'avance. L'avance de 36 % sur Gemini-2.5-Pro est notable, même si ce modèle n'est pas conçu pour la robotique embarquée. RoboTracer s'inscrit dans la compétition autour des modèles VLA (Vision-Language-Action), aux côtés de Pi-0 de Physical Intelligence, GR00T N2 de NVIDIA et OpenVLA, qui cherchent tous à unifier perception, raisonnement et action dans un modèle unique. Sa spécificité est l'accent sur la conscience métrique plutôt que sur le contrôle moteur fin, niche où Pi-0 reste dominant. Le choix des plateformes UR5 (bras industriel 6 axes, référence en intégration industrielle) et G1 (humanoïde Unitree, 43 degrés de liberté, environ 35 000 $) renforce la crédibilité de la généralisation multi-robots. À ce stade, il s'agit d'un résultat de recherche sans déploiement commercial annoncé ; la publication du dataset TraceSpatial et du benchmark ouvert constitue en revanche une infrastructure réutilisable directement par la communauté robotique.

UELe dataset TraceSpatial et le benchmark ouvert sont librement accessibles aux laboratoires européens de robotique, mais aucun acteur ou déploiement européen n'est impliqué dans cette contribution.

IA physiqueOpinion

1 source

2arXiv cs.RO

RoboTALES : politiques robotiques guidées par le raisonnement via des futurs simulés alignés sur la tâche

Une équipe de recherche (auteur principal Hanan Shafi, code disponible sur GitHub) publie RoboTALES, un nouveau framework pour entraîner des politiques robotiques à partir de "futurs simulés" générés par des modèles vidéo génératifs pré-entraînés. Le problème que le papier cherche à résoudre est concret : ces modèles vidéo, utilisés comme backbones pour le contrôle visuomoteur, produisent souvent des séquences imaginées qui dérivent de l'intention réelle de la tâche et ne sont pas fiablement conditionnées par les actions du robot, ce qui les rend difficiles à exploiter pour la planification. RoboTALES introduit deux mécanismes clés en un seul étage d'entraînement : un planificateur hiérarchique basé sur un LLM qui découpe une tâche complexe en une séquence de sous-objectifs pour guider l'imagination du modèle, et un critique basé sur un VLM qui évalue ces futurs imaginés et renvoie un signal de récompense pour garder les représentations internes alignées sur le but. La méthode a été évaluée sur des tâches de manipulation issues des benchmarks RoboCasa et LIBERO10. L'enjeu dépasse la simple démonstration académique : la génération vidéo comme "monde simulé" pour entraîner des robots est l'un des paris les plus discutés du secteur, mais bute justement sur ce problème de dérive et de manque de contrôlabilité par l'action. En ancrant le générateur vidéo dans un raisonnement abstrait explicite plutôt que dans la seule prédiction de pixels, RoboTALES produit des rollouts temporellement cohérents et des actions plus fiables, avec un gain qui se creuse spécifiquement sur les tâches longues et multi-étapes, un point faible connu des approches purement génératives. Ce travail s'inscrit dans la lignée des modèles du monde appliqués à la robotique (dans l'esprit de projets comme Genie ou UniSim), où plusieurs laboratoires cherchent à remplacer ou compléter la simulation physique classique par de la génération vidéo apprise. Le code et les modèles sont publiés en open source sur GitHub, ce qui permettra à la communauté robotique de reproduire les résultats sur RoboCasa et LIBERO10 et de tester l'approche sur d'autres suites de tâches de manipulation.

IA physiqueActu

1 source

3arXiv cs.RO

SAFE-Pruner : élagage de tokens guidé par l'attention sémantique pour les modèles VLA en manipulation robotique

Des chercheurs ont publié fin mai 2026 SAFE-Pruner (arXiv:2605.29662), un framework d'élagage de tokens conçu pour accélérer l'inférence des modèles vision-language-action (VLA) en robotique. Les VLA combinent perception visuelle, compréhension du langage et génération de commandes motrices, mais leur charge computationnelle freine leur déploiement en temps réel. Les méthodes d'élagage existantes s'appuient sur les couches superficielles du réseau et risquent de supprimer des tokens visuels encore requis par les couches profondes. SAFE-Pruner intègre une stratégie prospective qui prédit la saillance future des tokens en exploitant la "semantic attention consistency" : la tendance des VLA à concentrer leur attention sur la même entité sémantique à travers les étapes successives d'exécution. Un second mécanisme, la division adaptative de sous-tâches, détecte les ruptures brusques d'attention pour affiner les prévisions. Sur simulation et en conditions réelles, la méthode atteint un gain de vitesse jusqu'à 1,89x avec une dégradation du taux de succès inférieure à 1,7%, surpassant l'état de l'art de jusqu'à 1,9%. Pour les intégrateurs industriels déployant des VLA sur du matériel embarqué à puissance limitée, un gain de 1,89x sans refonte d'infrastructure représente un levier concret. La contribution théorique sur la cohérence sémantique de l'attention ouvre aussi une piste pour mieux comprendre ce que les VLA perçoivent réellement lors de l'exécution de tâches, un angle utile pour le débogage et la sûreté fonctionnelle. Il faut toutefois rester prudent : les benchmarks présentés ne précisent pas les environnements de test, le matériel utilisé ni le spectre complet des tâches évaluées, un bémol habituel dans les papiers de recherche en manipulation. SAFE-Pruner s'inscrit dans un mouvement plus large d'optimisation des modèles fondation pour la robotique, porté notamment par RT-2 (Google DeepMind, 2023), OpenVLA (Berkeley, 2024) et Pi-0 de Physical Intelligence (2024). Face à des architectures combinant des backbones de plusieurs milliards de paramètres avec un policy head, la communauté explore en parallèle la quantification, la distillation et l'élagage adaptatif. Le framework se présente comme un module plug-and-play compatible avec les VLA existants, ce qui faciliterait l'adoption sans refonte des pipelines si la compatibilité est confirmée sur un panel représentatif de modèles. L'article est disponible en preprint sur arXiv ; aucune intégration dans un framework open-source ni déploiement sur robot commercial n'est annoncé à ce stade.

IA physiqueOpinion

1 source

4arXiv cs.RO

Échantillonnage guidé à l'inférence par un vérificateur de progression des tâches pour la manipulation robotique

Une équipe de recherche publie TapSampling (arXiv:2605.25547, mai 2026), un cadre plug-and-play d'échantillonnage au moment de l'inférence pour la manipulation robotique. Là où la majorité des travaux du domaine cherchent à améliorer les performances en augmentant la taille des données d'entraînement ou des modèles, TapSampling explore un axe différent : l'exploitation du calcul disponible à l'inférence. Le système repose sur deux composants. D'abord, un Action-VAE qui projette les actions générées par la politique dans un espace latent de faible dimension via une distribution postérieure compressée, permettant de tirer un nombre arbitraire d'actions candidates approximant la distribution réelle. Ensuite, un vérificateur sémantique qui reformule la sélection d'actions comme une prédiction de progression de tâche (task-progress outcome prediction), en exploitant la structure séquentielle intrinsèque des jeux de données robotiques pour choisir l'action la plus prometteuse de façon interprétable. L'intérêt principal réside dans l'agnosticisme vis-à-vis de la politique sous-jacente : TapSampling s'applique sans fine-tuning additionnel à des modèles généralistes existants, qu'ils soient basés sur la diffusion ou sur des architectures autorégressives. Les expériences présentées en simulation et en conditions réelles montrent des améliorations qualifiées de « substantielles » sur plusieurs politiques généralistes, bien que l'abstract ne fournisse pas de chiffres précis de taux de réussite, ce qui invite à la prudence avant de juger de l'ampleur réelle des gains. Pour les ingénieurs robotique et les intégrateurs, l'approche ouvre la possibilité d'améliorer des politiques déjà déployées sans réentraînement, en ajoutant simplement un surcoût computationnel à l'inférence. Ce travail s'inscrit dans une tendance plus large consistant à transposer le test-time compute scaling, popularisé par les grands modèles de langage (OpenAI o1, DeepSeek-R1), vers la robotique embodied. D'autres approches comparables incluent le Best-of-N sampling avec des modèles de récompense appris séparément, ainsi que les méthodes de vérification intégrées dans des politiques comme Pi-0 (Physical Intelligence) ou GR00T N2 (NVIDIA). TapSampling se distingue par un vérificateur ancré dans la progression de tâche plutôt que dans une récompense exogène, ce qui lui confère une meilleure lisibilité sémantique. Le code et les modèles sont mis à disposition via la page projet des auteurs, ce qui permettra une reproduction et une évaluation indépendante des résultats annoncés.

IA physiqueActu

1 source