Aller au contenu principal
Élagage spatio-temporel de tokens visuels conditionné par l'historique pour une navigation vision-langage efficace
IA physiquearXiv cs.RO2h

Élagage spatio-temporel de tokens visuels conditionné par l'historique pour une navigation vision-langage efficace

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UETake éditorial

Une équipe de chercheurs propose, dans un preprint arXiv (référence 2603.06480, version 2, 2026), un framework de pruning spatio-temporel des tokens visuels conçu pour réduire la latence d'inférence des modèles Vision-Language-Action (VLA) appliqués à la navigation robotique guidée par langage naturel (Vision-Language Navigation, VLN). L'approche est sans réentraînement : elle ne modifie pas les poids des modèles sources et s'intègre en plug-and-play dans tout pipeline VLA existant. Deux mécanismes la composent : une sélection spatiale des tokens sur la vue courante, pilotée par les scores d'attention interne du modèle, et une compression spatio-temporelle des mémoires visuelles historiques accumulées au fil du déplacement. Les expériences sur les benchmarks VLN standards montrent une supériorité sur les stratégies de pruning existantes, y compris sous compression extrême où la majorité des tokens sont éliminés. Un déploiement en conditions réelles sur un robot quadrupède commercial Unitree Go2 valide la fiabilité et la faible latence du suivi d'instructions.

Le verrou industriel que cette méthode adresse est bien identifié : les grands modèles VLA, dont les performances sur benchmark sont désormais reconnues (Pi-0 de Physical Intelligence, GR00T N2 de Nvidia), génèrent des délais d'inférence souvent incompatibles avec un déploiement embarqué en temps réel. Ni la quantification post-training ni la distillation de modèles ne permettent d'éviter un réentraînement coûteux, ce qui freine l'industrialisation. La compatibilité plug-and-play de cette approche constitue un levier concret pour les intégrateurs souhaitant réduire le délai entre prototype de recherche et déploiement terrain, sans dépendance à l'équipe ayant entraîné le modèle source.

La VLN est l'une des capacités les plus exigeantes de la robotique embodied, car elle suppose qu'un robot navigue dans un espace non balisé en interprétant des consignes verbales ambiguës et changeantes, sans cartographie prédéfinie. Le Unitree Go2, quadrupède commercialisé à moins de 20 000 dollars par Unitree Robotics (Shenzhen, Chine), s'est imposé comme un banc de test de référence dans la recherche académique grâce à son coût d'accès. Les approches concurrentes pour atténuer la latence des VLA, dont l'attention sparse et la distillation, restent plus intrusives sur les architectures sources. Les prochaines étapes logiques incluront l'extension du framework à des modèles VLA plus larges et à des scénarios de navigation longue distance en environnement extérieur non contrôlé.

💬 Le point de vue du dev

Les grands modèles VLA (Pi-0, GR00T...) cartonnent sur benchmark, mais tu sais ce que ça donne en temps réel sur du matériel embarqué : latence incompatible, déploiement impossible. Ce framework de pruning corrige ça sans retoucher les poids, plug-and-play, et j'aime qu'ils aient validé sur un Go2 à 20k€ plutôt que dans un labo sous vide. Pour les intégrateurs, c'est enfin une brique qui permet de passer d'un proto de recherche au terrain sans dépendre de l'équipe qui a entraîné le modèle source.

À lire aussi

AutoSpatial : raisonnement vision-langage pour la navigation sociale des robots humanoïdes par apprentissage spatial efficace
1arXiv cs.RO 

AutoSpatial : raisonnement vision-langage pour la navigation sociale des robots humanoïdes par apprentissage spatial efficace

Une équipe de recherche a publié AutoSpatial (arXiv:2503.07557), une méthode destinée à améliorer la capacité des modèles de vision-langage (VLM) à raisonner dans l'espace pour la navigation sociale des robots, c'est-à-dire la capacité d'un robot à se déplacer en présence d'humains de façon naturelle et sûre. La technique combine une supervision manuelle minimale avec un étiquetage automatique à grande échelle de paires de questions-réponses visuelles (VQA). Un protocole d'entraînement en deux rounds hiérarchiques permet au modèle d'acquérir à la fois une compréhension globale d'une scène et une analyse fine des détails. L'évaluation a mobilisé trois juges LLM (GPT-4o, Gemini 2.0 Flash et Claude 3.5 Sonnet) en validation croisée, complétés par des évaluateurs humains. Les gains mesurés sur les bases de référence sont de +10,71% en perception et prédiction, +16,26% en raisonnement, +20,50% en sélection d'action et +18,73% en capacité d'explication, par rapport à des modèles entraînés uniquement sur données annotées manuellement. Le résultat le plus pertinent pour les intégrateurs et les décideurs industriels est celui sur l'action : +20,50%, qui est le composant directement lié au comportement réel du robot. Le goulot d'étranglement classique de la navigation sociale reste l'annotation manuelle, coûteuse et peu scalable. AutoSpatial propose une voie d'auto-étiquetage qui réduit significativement ce frein, ce qui ouvre la possibilité de monter en volume de données sans exploser les coûts. Cela renforce également l'hypothèse que les VLA (Vision-Language-Action models) peuvent progresser par la donnée synthétique plutôt que par la seule supervision humaine. Un point de prudence méthodologique : les scores de performance sont évalués par d'autres LLM, ce qui introduit un biais circulaire potentiel que l'article ne discute pas en profondeur. La navigation sociale est un problème ouvert depuis plusieurs années, au croisement de la robotique de service et des modèles fondation. Les VLM ont montré des lacunes persistantes en raisonnement spatial, notamment pour estimer des distances, anticiper les trajectoires humaines ou interpréter des scènes encombrées. AutoSpatial s'inscrit dans une dynamique plus large incluant des travaux comme RT-2, OpenVLA ou le récent GR00T N2 de NVIDIA, qui cherchent tous à injecter du raisonnement langagier dans la boucle de contrôle robot. La méthode présentée reste pour l'instant un résultat de recherche sans déploiement terrain annoncé. Les prochaines étapes naturelles seraient une validation dans des environnements réels peuplés et une comparaison directe avec des architectures VLA de type diffusion comme Pi-0 de Physical Intelligence.

IA physiqueActu
1 source
VeriSpace : une méthode de vérification spatiale des actions pour les modèles vision-langage-action
2arXiv cs.RO 

VeriSpace : une méthode de vérification spatiale des actions pour les modèles vision-langage-action

Un préprint déposé sur arXiv le 10 juin 2026 (identifiant 2606.10568) présente VeriSpace, un vérificateur d'actions tridimensionnel conçu pour renforcer la fiabilité des modèles VLA (Vision-Language-Action) en robotique de manipulation. Ces modèles interprètent une scène visuelle et un objectif en langage naturel pour générer des commandes motrices, mais souffrent d'une limite structurelle : la prédiction se fait en un seul coup, sans réévaluation avant exécution. La moindre imprécision sur la position de préhension peut provoquer un échec de saisie, une collision ou une progression erronée dans la tâche. VeriSpace propose une vérification au moment du test (test-time verification) : le système génère plusieurs actions candidates que le vérificateur évalue avant d'en sélectionner une pour exécution. Il s'appuie sur deux composants : un encodage de scène à double chemin intégrant la géométrie 3D explicite (Dual-Path 3D-Injected Scene Encoding), et un raisonnement spatial sur les relations géométriques, la validité de chaque action et sa progression attendue vers l'objectif. Les expériences couvrent des benchmarks publics et des tâches de manipulation réelles, avec des gains rapportés en distribution et hors distribution, bien que les valeurs précises ne figurent pas dans le résumé du preprint. Cette approche répond à une fragilité bien documentée : les VLA, malgré les progrès de modèles comme pi-0 (Physical Intelligence) ou GR00T N2 (NVIDIA), restent vulnérables dès que la scène présente une ambiguïté géométrique subtile. La vérification au test-time n'est pas une idée nouvelle, mais VeriSpace la rend opérationnelle sur des scènes 3D réelles, là où les approches précédentes peinent à distinguer des actions candidates géométriquement proches aux conséquences pourtant très différentes. Son mode d'intégration plug-in, compatible avec les politiques VLA existantes sans modification, facilite l'adoption dans des pipelines déjà déployés. Pour les équipes robotique industrielle, c'est un mécanisme potentiellement utile pour réduire les taux d'échec sans requalifier les modèles sous-jacents. Le contexte est celui d'une compétition intense autour de la robustesse des VLA. Physical Intelligence, Google DeepMind (RT-2), NVIDIA et plusieurs équipes académiques de Berkeley, Stanford et CMU investissent massivement dans la généralisation et la réduction du sim-to-real gap. La vérification d'actions au test-time est une direction en émergence, distincte du fine-tuning continu ou de l'augmentation de données d'entraînement. VeriSpace reste pour l'instant au stade de préprint académique, sans annonce de déploiement industriel ni partenariat commercial associé. Les prochaines étapes naturelles seraient une évaluation chiffrée sur des benchmarks standardisés comme RoboSuite ou Open X-Embodiment, et une intégration dans des pipelines open-source pour validation par la communauté.

IA physiqueOpinion
1 source
Combler le fossé 2D-3D : une carte sémantique-géométrique hiérarchique pour la navigation vision-langage
3arXiv cs.RO 

Combler le fossé 2D-3D : une carte sémantique-géométrique hiérarchique pour la navigation vision-langage

Des chercheurs ont publié le 31 mai 2026 sur arXiv un article (référence 2606.00095) décrivant HSGM, une carte hiérarchique sémantique-géométrique conçue pour améliorer la navigation d'agents robotiques guidés par instructions en langage naturel. Le système repose sur une représentation top-down multi-couches organisée en trois niveaux : un niveau géométrique qui encode les zones navigables et les obstacles, un niveau sémantique qui modélise les objets et leurs relations spatiales, et un niveau décisionnel qui supporte le raisonnement de haut niveau pour la sélection des objectifs. Durant la navigation, le modèle de vision-langage (VLM) joue le rôle de planificateur sémantique : il interprète la carte HSGM pour sélectionner des points de passage géométriquement cohérents, tandis qu'un algorithme de planification de trajectoire classique prend en charge les déplacements locaux sans collision. Pour les instructions longues, le système les décompose en sous-tâches afin d'éviter l'oubli de progression ou les hallucinations sur des horizons temporels étendus. Les expériences sur les benchmarks R2R-CE et RxR-CE montrent que le framework en mode zero-shot atteint des performances à l'état de l'art et surpasse même plusieurs méthodes supervisées. Ce résultat est notable parce qu'il attaque un verrou bien identifié de la robotique embodied : les VLMs comprennent le langage et l'image 2D avec compétence, mais peinent à raisonner en 3D et à modéliser la causalité entre actions et transitions spatiales. En convertissant la géométrie 3D en une représentation structurée lisible par les VLMs, HSGM découple proprement le raisonnement sémantique de l'exécution motrice, une architecture qui pourrait simplifier l'intégration de LLMs généralistes dans des chaînes de contrôle robotique existantes sans retraining complet. La performance zero-shot supérieure à certaines méthodes supervisées suggère une généralisation robuste à des environnements inconnus, ce qui est directement pertinent pour des déploiements en entrepôt, bâtiment tertiaire ou environnement hospitalier où l'annotation préalable est coûteuse. Ce travail s'inscrit dans un champ de recherche actif sur la navigation embodied guidée par langage, avec des benchmarks de référence établis notamment par Anderson et al. (R2R, 2018) et leurs extensions continues (R2R-CE pour les environnements continus, RxR-CE multilingue). La tendance de fond est à l'utilisation de VLMs pré-entraînés comme raisonneurs généraux plutôt que de former des architectures dédiées depuis zéro, une approche défendue aussi par des équipes comme CMU, Oxford ou Google DeepMind sur des problèmes adjacents. La prochaine étape naturelle pour ce type de système est l'intégration sur des plateformes physiques réelles, domaine où le sim-to-real gap reste un défi ouvert que les benchmarks en simulation ne mesurent pas. Le code est disponible publiquement sur GitHub (Teacher-Tom/HSGM\_public), ce qui facilite la reproduction et l'adaptation par des équipes tierces.

IA physiqueOpinion
1 source
AnySlot : politiques vision-langage-action conditionnées par objectif pour le placement zéro-shot par emplacement
4arXiv cs.RO 

AnySlot : politiques vision-langage-action conditionnées par objectif pour le placement zéro-shot par emplacement

Des chercheurs ont publié sur arXiv (référence 2604.10432v3) un framework baptisé AnySlot, conçu pour permettre à des politiques de contrôle robotique de type Vision-Language-Action (VLA) de placer des objets avec précision dans des emplacements discrets, dits "slots", à partir d'instructions en langage naturel. L'approche introduit un objectif visuel intermédiaire : plutôt que de passer directement de la commande textuelle au mouvement moteur, le système génère d'abord un marqueur spatial rendu sur l'image, indiquant l'emplacement cible exact, puis confie l'exécution à une politique VLA conditionnée par ce but visuel. Cette architecture hiérarchique découple la compréhension sémantique de l'instruction et la précision géométrique de l'exécution. Les auteurs introduisent également SlotBench, un benchmark de simulation structuré autour de neuf catégories de tâches, destiné à évaluer le raisonnement spatial dans des scénarios de placement à l'échelle centimétrique. Les expériences montrent qu'AnySlot surpasse les baselines VLA plates et les méthodes de grounding modulaire en conditions zero-shot. Ce travail s'attaque à l'un des verrous les plus concrets des VLA généralistes : la précision de placement sous contraintes compositionnelles. Les politiques end-to-end peinent à combiner compréhension du langage et précision millimétrique, ce qui freine leur utilisation dans des applications industrielles comme l'assemblage, le tri ou la mise en casier. L'introduction d'un "but visuel" explicite comme couche intermédiaire est une réponse architecturale directe au gap sémantique-géométrique, et les résultats zero-shot suggèrent une meilleure généralisation que les approches purement end-to-end ou modulaires. Pour un intégrateur ou un COO industriel, cela signifie potentiellement réduire le coût de spécification des tâches de placement sans sacrifier la fiabilité. Le contexte est celui d'une intense activité autour des VLA depuis les travaux fondateurs de RT-2 (Google DeepMind, 2023) et des politiques récentes comme pi0 de Physical Intelligence ou OpenVLA. La difficulté du slot-level placement restait un angle mort de ces approches, qui performent mieux sur des tâches de saisie que de dépose précise. AnySlot ne provient pas d'un labo académique nommé explicitement dans l'abstract, et les résultats sont pour l'instant limités à la simulation via SlotBench, sans validation sur robot réel publiée. Les prochaines étapes naturelles seraient des expériences physiques et une comparaison avec des systèmes comme RoboPoint ou SpatialVLA, qui explorent des approches proches du grounding spatial. Ce preprint restera à suivre avant toute intégration industrielle.

IA physiqueOpinion
1 source