RAVEN : raisonnement à long horizon et navigation avec …

Raisonner en texte et en images : traces de raisonnement vision-langage entrelacées pour la manipulation robotique à long horizon

43

1arXiv cs.RO

Raisonner en texte et en images : traces de raisonnement vision-langage entrelacées pour la manipulation robotique à long horizon

Des chercheurs ont publié sur arXiv (arXiv:2605.00438) un cadre de politique robotique appelé IVLR (Interleaved Vision-Language Reasoning), conçu pour la manipulation à horizon long. Le coeur du système est une représentation intermédiaire explicite, la "trace", qui alterne des sous-objectifs textuels avec des images-clés visuelles sur l'ensemble de la séquence de tâche. À l'inférence, un transformateur multimodal natif génère cette trace globale à partir de l'observation initiale et de l'instruction, la met en cache, puis conditionne un décodeur d'actions en boucle fermée. Sur le benchmark simulé LIBERO, IVLR atteint 95,5 % de taux de succès moyen, dont 92,4 % sur LIBERO-Long, et 59,4 % sur SimplerEnv-WidowX. L'absence de telles traces dans les jeux de données robotiques existants est contournée par une pseudo-supervision construite en segmentant temporellement des démonstrations et en les annotant automatiquement via un modèle vision-langage. Les ablations quantifient clairement la valeur de chaque modalité : sans trace, LIBERO-Long chute à 37,7 % ; une trace texte seule atteint 62,0 %, une trace visuelle seule 68,4 %, tandis que la trace entrelacée texte-image monte à 92,4 %. L'écart de 30 points entre la combinaison et les modalités isolées démontre que le raisonnement causal (texte) et les contraintes géométriques (image) sont complémentaires, pas substituables. C'est une contribution directe au débat sur la planification explicite versus latente dans les politiques VLA (Vision-Language-Action) : masquer la planification dans des états latents, comme le font la majorité des architectures actuelles, laisse une performance substantielle sur la table. IVLR s'inscrit dans un courant de politiques VLA à planification explicite, en concurrence avec des approches comme Pi-0 de Physical Intelligence ou GR00T N2 de NVIDIA, qui intègrent également des capacités de raisonnement multimodal. La méthode de pseudo-supervision est potentiellement impactante pour les équipes académiques : elle permet de réutiliser des datasets existants sans annotations humaines supplémentaires, abaissant le coût d'entrée à la recherche sur les longues séquences. Les tests de robustesse indiquent une dégradation modérée face aux perturbations d'exécution et aux traces partiellement masquées, mais les auteurs reconnaissent une limite claire : lorsque le plan global est incorrect ou obsolète, le système reste fragile. La prochaine étape logique est la mise à jour dynamique de la trace en cours d'exécution, et la validation sur robots physiques hors simulation.

UELes laboratoires académiques européens (INRIA, CEA-List) travaillant sur les politiques VLA pourraient directement réutiliser la méthode de pseudo-supervision pour annoter leurs datasets existants sans coût humain supplémentaire.

RechercheOpinion

1 source

Manipulation dextérique à long horizon en zéro-shot par raisonnement VLM multi-vues ancré en 3D

40

2arXiv cs.RO

Manipulation dextérique à long horizon en zéro-shot par raisonnement VLM multi-vues ancré en 3D

Des chercheurs ont publié le 19 juin 2026 sur arXiv (référence 2606.19340) un framework zero-shot pour la manipulation dextre à longue séquence, capable d'exécuter des tâches en plusieurs étapes sur des objets inconnus sans entraînement spécifique. Le système prend en entrée des instructions en langage naturel et des images RGB multi-vues calibrées, sans capteur de profondeur, et utilise un modèle vision-langage (VLM) pour générer des points-clés 2D dans un référentiel de vue de référence. Ces points sont ensuite reconstruits en 3D par fusion multi-vues combinant triangulation et une technique de "ray voting" : le système parcourt le rayon optique de la caméra principale pour identifier les candidats géométriquement cohérents dans les vues adjacentes. Les points-clés 3D obtenus supportent deux modes d'exécution : saisie-dépose directe et utilisation d'outils via la récupération d'une trajectoire outil stockée à 6 degrés de liberté (6DoF), alignée sur la configuration de scène courante. Un module bras-main génère ensuite les paires grasping-mouvement faisables. Les expériences réelles montrent que le système surpasse des baselines RGB-D vue unique et des VLA fine-tunés en précision de grounding 3D et en fiabilité d'exécution. L'enjeu central est la flexibilité de déploiement : un système zero-shot qui surpasse des VLA (Vision-Language-Action models) fine-tunés sur données spécifiques remet en question l'hypothèse dominante selon laquelle la manipulation dextre en environnement réel exige obligatoirement de larges datasets annotés et un réentraînement par tâche. Pour les intégrateurs industriels, cela signifie potentiellement des cycles de mise en production raccourcis, sans collecte systématique de démonstrations téléopérées pour chaque nouvel objet ou configuration. La boucle fermée de vérification d'état et de replanification (closed-loop replan) est particulièrement significative : elle distingue ce travail des approches open-loop qui accumulent les erreurs sur des séquences longues, un problème récurrent dans les démos de manipulation non supervisées. L'absence de capteur de profondeur réduit par ailleurs les contraintes matérielles à l'intégration sur des cellules robotiques existantes. Ce travail s'inscrit dans la tension croissante entre deux paradigmes : les VLA de bout-en-bout, comme Pi-0 de Physical Intelligence, GR00T N2 de NVIDIA ou OpenVLA de Stanford, qui nécessitent supervision et données massives, et les approches modulaires exploitant les capacités de raisonnement de VLM existants sans réentraînement. Depuis 2023, les VLA dominent les benchmarks de manipulation dextre, mais leur coût en données et leur manque de généralisation zero-shot à de nouveaux objets freinent les déploiements industriels à grande échelle. À noter : ce preprint ne mentionne pas d'affiliation institutionnelle dans l'abstract disponible, ce qui limite l'évaluation de la maturité des résultats, et n'a pas encore été soumis à peer review. Aucun acteur européen n'est impliqué. Les suites naturelles seraient une validation sur les benchmarks standardisés DROID ou Open X-Embodiment, et une comparaison formelle avec les versions récentes de Pi-0 et GR00T N2 pour situer précisément les gains annoncés.

RechercheOpinion

1 source

eMEM : un système de mémoire spatio-temporelle hybride pour agents à base d'IA incarnée

42

3arXiv cs.RO

eMEM : un système de mémoire spatio-temporelle hybride pour agents à base d'IA incarnée

Une équipe de recherche a déposé sur arXiv (arXiv:2606.03374, juin 2026) un système de mémoire baptisé eMEM (Embodied Memory), conçu spécifiquement pour les agents incarnés opérant dans des environnements physiques. Contrairement aux architectures existantes comme Generative Agents, MemGPT ou A-MEM, qui stockent la mémoire sous forme de flux textuels ou de graphes de connaissances, eMEM propose une architecture multi-index combinant SQLite pour le stockage structuré, hnswlib pour la recherche sémantique par voisins les plus proches (ANN), et un R-tree pour les requêtes spatiales, le tout unifié derrière un modèle de graphe unique. Un pipeline de consolidation par niveaux transforme les observations perceptuelles brutes en résumés compressés, en s'inspirant explicitement de la consolidation hippocampo-néocorticale observée chez les mammifères. Dix outils de rappel, exposés en natif au LLM, couvrent des primitives comme la résolution concept-vers-localisation ou le rappel inter-couches. Le système tourne entièrement en mémoire vive, en co-processus avec l'agent. Sur eMEM-Bench v1, un benchmark construit sur les scènes ProcTHOR-10K autour de huit paradigmes de psychologie cognitive (leurres DRM, séparation de patterns, complétion de patterns, surveillance de source, récupération dépendante du contexte, interférence à long horizon, position sérielle, courbe de rétention augmentée par des distracteurs), eMEM atteint un score pondéré moyen de 80,8 sur 988 sondes, avec une courbe de rétention plate au plafond de 1 heure à 1 an de délai simulé sur des objets uniques par pièce. Ce résultat est significatif parce qu'il isole deux problèmes structurels des approches purement RAG : une baseline flat_rag perd 30 points sur la récupération dépendante du contexte et 29 points sur le rejet des leurres DRM, ce qui valide respectivement la contribution du stockage multi-couches et du pipeline de consolidation. Pour les intégrateurs qui déploient des agents dans des environnements industriels ou domestiques complexes, cela met en évidence un angle mort majeur : un robot ou un agent LLM utilisant une récupération sémantique plate ne peut pas distinguer "le tiroir où j'ai vu les pinces hier dans cette pièce" de "les pinces en général". L'indexation spatiale couplée à la consolidation temporelle est ce qui permet à eMEM de maintenir des performances constantes sur de longues fenêtres simulées, là où les systèmes actuels dégradent. Le choix de benchmarker sur des paradigmes issus de la psychologie cognitive humaine est méthodologiquement solide : il rend les résultats comparables à la littérature sur la mémoire biologique, ce que des benchmarks surfaciques comme LoCoMo ou OpenEQA ne permettent pas. eMEM s'inscrit dans une vague de travaux sur la mémoire à long terme pour agents LLM, portée notamment par Generative Agents (Park et al., 2023) et MemGPT (Packer et al., 2023), qui ont posé les bases mais restent aveugles à la dimension spatiale, critique pour les robots physiques. L'environnement ProcTHOR-10K offre des scènes intérieures procédurales variées, mais les performances en transfert vers des environnements réels restent entièrement à démontrer : le sim-to-real gap s'applique autant aux systèmes de mémoire qu'aux politiques motrices. Le code du système et du benchmark est rendu public, ouvrant la voie à des évaluations indépendantes. Aucun partenariat industriel ni déploiement terrain n'est mentionné : c'est une contribution académique, pas un produit. Les étapes suivantes naturelles seraient de valider eMEM sur des plateformes embarquées à mémoire contrainte et de tester sa robustesse dans des scènes dynamiques où les objets se déplacent entre deux requêtes.

RecherchePaper

1 source

SemGeoNav : une approche de navigation visuelle guidée par la sécurité, combinant raisonnement sémantique et planification géométrique

41

4arXiv cs.RO

SemGeoNav : une approche de navigation visuelle guidée par la sécurité, combinant raisonnement sémantique et planification géométrique

Des chercheurs ont proposé SemGeoNav, un framework de navigation visuelle hiérarchique publié sur arXiv en juin 2026 (arXiv:2606.16400), conçu pour les robots devant atteindre des cibles définies par des images dans des environnements ouverts. L'architecture combine deux couches distinctes : un module de raisonnement sémantique de haut niveau issu des modèles apprenants end-to-end, et un planificateur géométrique local responsable de la sécurité immédiate. Un mécanisme de lissage temporel de trajectoire vient compléter l'ensemble pour garantir des déplacements continus et stables. Les expériences ont été menées sur un robot quadrupède Unitree Go2 dans des environnements réels, et les résultats indiquent des taux de succès supérieurs ainsi que des temps de navigation plus courts que deux baselines de référence du domaine, ViNT et NoMaD. L'apport principal de SemGeoNav réside dans le traitement d'une tension structurelle bien documentée en robotique autonome : les modèles end-to-end apprenants, en particulier les architectures de type VLA (Vision-Language-Action), excellent dans la compréhension sémantique de haut niveau mais manquent de contraintes géométriques explicites, ce qui génère des comportements imprévisibles face aux obstacles en environnement non structuré. À l'inverse, les planificateurs géométriques classiques (champ de potentiel, DWA) garantissent la sécurité locale mais peinent à interpréter des cibles visuelles haute dimension. L'approche hybride hiérarchique de SemGeoNav apporte une réponse architecturale à ce problème de fiabilité opérationnelle, avec des implications directes pour les intégrateurs déployant des robots mobiles en entrepôt ou en environnement industriel non balisé. ViNT et NoMaD, tous deux issus du Berkeley AI Research Lab, constituent les références dominantes en navigation visuelle généraliste à cible imageante. SemGeoNav se positionne explicitement contre ces deux modèles en revendiquant de meilleures performances terrain. Il s'inscrit dans un courant plus large qui remet en question les architectures purement end-to-end au profit de systèmes hybrides modulaires, une direction également explorée par plusieurs équipes européennes et asiatiques. Ce preprint ne publie pas de métriques standardisées comme le SPL (Success weighted by Path Length) ou les benchmarks HM3D/MP3D, ce qui rend difficile toute comparaison directe avec l'état de l'art; une validation à plus grande échelle et sur des jeux de données partagés constituerait la prochaine étape crédible pour ce travail.

RecherchePaper

1 source

RAVEN : raisonnement à long horizon et navigation avec une mémoire visuo-spatio-temporelle

À lire aussi

Raisonner en texte et en images : traces de raisonnement vision-langage entrelacées pour la manipulation robotique à long horizon

Manipulation dextérique à long horizon en zéro-shot par raisonnement VLM multi-vues ancré en 3D

eMEM : un système de mémoire spatio-temporelle hybride pour agents à base d'IA incarnée

SemGeoNav : une approche de navigation visuelle guidée par la sécurité, combinant raisonnement sémantique et planification géométrique