RecherchearXiv cs.RO 3 juin 2026

GN0 : vers un paradigme unifié pour la génération, l'évaluation et l'apprentissage de politiques en navigation visuo-langagière

1 source couvre ce sujet·Source originale ↗·

Résumé IASource uniqueImpact UE

Une équipe de chercheurs publie GN0 (arXiv:2606.03682, juin 2026), un cadre unifié de navigation robotique visuo-linguistique (VLN) structuré autour de trois contributions complémentaires. La première est GN-Matrix, un jeu de données de navigation 3D massif généré automatiquement via un moteur 3D Gaussian Splatting (3DGS), conçu pour pallier la pénurie de données d'entraînement du domaine. La deuxième est GN-Bench, présenté comme le premier benchmark en vue à vol d'oiseau (BEV) intégrant des avatars humains dynamiques en 3DGS pour évaluer les interactions homme-robot en navigation. La troisième est BAE (Break and Establish), un modèle de navigation par apprentissage par renforcement (RL) qui enchaîne apprentissage supervisé, DAgger (agrégation de trajectoires réelles pour sortir des distributions d'experts étroites) et exploration RL. Sur GN-Bench et le benchmark VLN-CE, GN-BAE surpasse les méthodes VLN de l'état de l'art selon les auteurs, sans que les conditions exactes des comparaisons soient détaillées dans le résumé.

Le principal apport technique est la formalisation d'une mémoire spatiale compacte en BEV construite à partir de rendus 3DGS haute fidélité, exploitant le raisonnement spatial latent des grands modèles visuels-linguistiques (VLM). L'approche unifie dans un seul modèle de fondation des tâches avec et sans carte préétablie, suivre des instructions, escorter un humain, atteindre un objectif, ce qui contraste avec les pipelines fragmentés habituels du domaine. Si les résultats se confirment en conditions réelles, cela représente un pas concret vers des agents mobiles généraux capables de naviguer dans des environnements non cartographiés, une promesse centrale des robots de service et des AMR de nouvelle génération.

La navigation visuo-linguistique est un champ actif depuis les benchmarks R2R (Anderson et al., 2018) et VLN-CE (Krantz et al., 2020). Les approches récentes exploitent des VLM tels que CLIP ou LLaVA pour relier instructions en langage naturel et perception visuelle, mais peinent sur les longues distances et dans des espaces non vus. Côté industrie, Boston Dynamics, Unitree ou les startups AMR intègrent progressivement la navigation sémantique sans publier de systèmes open-research comparables. En Europe, INRIA et des projets Horizon Europe explorent des directions proches. GN0 reste cependant une contribution académique en preprint sans partenaire industriel ni déploiement annoncé, ce qui invite à réserver le jugement sur le passage de la simulation au monde réel.

Impact France/UE

INRIA et des projets Horizon Europe explorent des directions proches en navigation visuo-linguistique, mais GN0 reste un preprint académique sans déploiement ni partenariat industriel européen annoncé.

Dans nos dossiers

Boston Dynamics Unitree arXiv cs.RO

À lire aussi

1arXiv cs.RO

Joint apprentissage sur et hors politique pour la navigation vision-langage

Une équipe de chercheurs présente JOP-VLN, un nouveau framework d'apprentissage pour la navigation par instructions en langage naturel (Vision-and-Language Navigation, VLN), où un agent embarqué doit se déplacer dans un environnement physique en suivant des consignes textuelles. L'article, publié sur arXiv (2607.13461v1), combine pour la première fois deux approches jusqu'ici traitées séparément : l'apprentissage par imitation (IL) à partir de démonstrations expertes, renforcé par l'algorithme DAgger pour corriger les erreurs de trajectoire, et l'apprentissage par renforcement (RL) piloté par des récompenses vérifiables pour améliorer le raisonnement et l'exploration. Le pipeline se déroule en trois étapes : acquisition des compétences de base par imitation, génération de trajectoires d'exploration heuristiques via DAgger pour muscler la récupération d'erreurs, puis une phase conjointe on-policy/off-policy combinant échantillonnage de trajectoires à haute entropie et un tri priorisant la correction d'erreurs. Résultat : 69,9% de taux de réussite sur le benchmark VLN-CE R2R et 68,0% sur RxR, un nouveau record sur R2R. Ces chiffres comptent parce qu'ils comblent un angle mort méthodologique de la navigation par modèles vision-langage : la plupart des systèmes actuels choisissent soit l'imitation (stable mais peu exploratoire, sujette à la dérive en cas d'erreur), soit le renforcement (meilleur en exploration mais coûteux et instable à entraîner). Prouver qu'une combinaison structurée des deux surpasse chaque approche isolée est un signal pour les équipes qui développent des agents de navigation embarqués, notamment pour les robots mobiles autonomes (AMR) ou les futurs humanoïdes devant suivre des instructions en environnement non contrôlé, un domaine où la robustesse aux erreurs reste le principal verrou avant tout déploiement réel. Le travail s'inscrit dans la lignée des modèles vision-langage appliqués à la robotique, où des architectures VLA comme GR00T N2 ou Pi-0 cherchent à unifier perception, langage et action. JOP-VLN se positionne spécifiquement sur les benchmarks de référence R2R et RxR, sans annonce de déploiement matériel ni de partenariat industriel à ce stade ; il s'agit pour l'instant d'un résultat de recherche évalué en simulation, la page projet dédiée servant de vitrine aux résultats.

RecherchePaper

1 source

2arXiv cs.RO

SimFoundry : génération modulaire et automatisée de scènes pour l'apprentissage et l'évaluation de politiques

Des chercheurs du laboratoire GEAR de NVIDIA ont publié SimFoundry sur arXiv (identifiant 2606.28276), un pipeline modulaire et automatisé permettant de reconstruire des scènes de simulation directement depuis une vidéo du monde réel, sans annotation manuelle. Le système génère des jumeaux numériques sim-ready, puis en dérive automatiquement des "cousins numériques": des variantes de la scène originale qui préservent les affordances manipulatoires tout en modifiant objets, arrangements ou tâches. Testé sur sept tâches de manipulation (multi-étapes, objets articulés, bimane) et cinq architectures de policies distinctes, SimFoundry atteint une corrélation de Pearson de 0,911 entre évaluation en simulation et performance réelle, avec un mean maximum ranking violation de 0,018. En transfert zéro-shot vers le monde réel, les cousins d'objets apportent +17% de taux de succès, les cousins de scènes +21%, et les cousins de tâches +40%. Ces résultats s'attaquent directement au sim-to-real gap, l'écart structurel qui rend les benchmarks de simulation peu fiables pour prédire les performances physiques. Avec une corrélation de 0,911, les équipes R&D peuvent comparer des architectures de policies en simulation sans mobiliser de temps robot, ce qui réduit significativement le coût d'évaluation. Le concept de cousins numériques va plus loin que l'augmentation de données classique: en préservant les affordances, les variantes restent exploitables pour l'apprentissage sans dériver vers des distributions hors domaine. Pour un intégrateur de cellules robotiques ou un décideur industriel, le gain concret est une accélération du cycle développement-évaluation, à condition que la reconstruction vidéo reste robuste hors des environnements contrôlés présentés dans le papier. SimFoundry s'inscrit dans la stratégie robotique large de NVIDIA, qui développe en parallèle la plateforme Isaac Sim et le modèle de fondation humanoïde GR00T N2. Le laboratoire GEAR, dédié à la généralisation des policies d'agents incarnés, positionne cette approche sim-centric face aux alternatives data-centric: Physical Intelligence (Pi-0, issu des travaux de Sergey Levine) mise sur des volumes massifs de démonstrations réelles, tandis que Google DeepMind avance avec ses propres pipelines de simulation. Dans l'écosystème des simulateurs robotiques (Sapien, RoboSuite, Genesis), SimFoundry se distingue par son entrée vidéo sans annotation. Le papier, disponible en prépublication sur arXiv, ne précise pas de calendrier de mise à disposition du code ni d'intégration dans un produit commercial.

UELes laboratoires de robotique européens (CEA-List, INRIA) pourraient bénéficier de cette infrastructure de simulation pour évaluer leurs policies sans mobiliser de temps robot, mais aucun acteur FR/EU n'est impliqué et le code n'est pas encore disponible.

RecherchePaper

1 source

3arXiv cs.RO

RoboSnap : génération de scènes réel-vers-simulation en un seul essai pour l'apprentissage et l'évaluation généralisables de robots

RoboSnap transforme une simple image RGB en environnement de simulation prêt pour l'entraînement robotique, selon un article publié sur arXiv (2607.06699v1). L'équipe de recherche propose une architecture en couches qui sépare la zone d'interaction physique de l'arrière-plan visuel : les objets au premier plan, ceux avec lesquels le robot interagit, sont reconstruits avec une attention particulière à la stabilité de collision, tandis que le fond est restitué par Gaussian splatting 3D pour préserver un rendu fidèle sous des angles de vue inédits. Les tests ont porté sur des scènes issues du jeu de données DROID ainsi que sur des tâches robotiques réelles, montrant une reproduction fiable des trajectoires dans les scènes recréées. Pour accompagner ces travaux, les auteurs publient DROID-Sim, un jeu de données compagnon construit à partir de 564 scènes réelles extraites de DROID. L'enjeu dépasse la simple reconstruction visuelle. Le passage du réel à la simulation ("real-to-sim") est un goulot d'étranglement connu pour l'entraînement des politiques robotiques par apprentissage : générer des environnements à la fois physiquement stables et visuellement réalistes reste coûteux en temps et en ingénierie. RoboSnap promet de générer une scène simulable à partir d'une seule photo, ce qui pourrait accélérer la production de données synthétiques d'entraînement et faciliter l'évaluation reproductible de politiques, un point sensible dans un secteur où les benchmarks physiques réels sont difficiles à standardiser. Les auteurs revendiquent une corrélation significative entre performances en simulation et en conditions réelles, un indicateur clé pour juger si un tel pipeline peut réellement remplacer des tests physiques répétés. Ce travail s'inscrit dans une vague plus large de recherches sur le "real-to-sim" et les architectures vision-langage-action (VLA), où des approches comme Gaussian splatting gagnent du terrain face aux méthodes de reconstruction 3D classiques, jugées plus lentes ou moins fidèles visuellement. L'article, encore au stade de prépublication non revue par les pairs, ne précise pas de calendrier de mise à disposition du code ou du jeu de données DROID-Sim, ni de partenariat industriel. Les prochaines étapes attendues concernent l'extension à des scènes plus complexes et la validation sur davantage de plateformes robotiques.

RecherchePaper

1 source

4arXiv cs.RO

NavIsaacLab : génération de foules réalistes par apprentissage robotique parallèle pour évaluer la navigation consciente des humains

Une équipe de chercheurs présente NavIsaacLab, un framework de simulation GPU-parallèle dédié à l'entraînement et à l'évaluation de politiques de navigation robotique en présence d'humains, publié le 26 juin 2026 (arXiv:2606.26265). Construit sur Isaac Lab, la plateforme de simulation robotique de NVIDIA, le système combine rendu photo-réaliste et simulation physique en temps réel pour générer des environnements piétons denses et variés. La distinction technique centrale réside dans son moteur de comportement piéton : plutôt que des règles codées à la main, NavIsaacLab s'appuie sur un modèle de diffusion de trajectoires couplé à un contrôleur d'apprentissage adversariel du mouvement, produisant des animations humaines physiquement plausibles et contrôlables à la demande. La plateforme fournit au robot des retours visuels 3D complets, contrairement aux benchmarks existants qui supposent généralement une observation parfaite de l'environnement. L'enjeu industriel est direct : la navigation humain-consciente reste l'un des verrous majeurs au déploiement des robots mobiles autonomes (AMR) dans des espaces partagés, entrepôts, hôpitaux, aéroports. Les données de simulation actuellement disponibles souffrent d'un double défaut : des comportements piétons irréalistes issus de règles statiques, et une absence de signal sensoriel bruité, creusant un sim-to-real gap difficile à combler lors du passage en environnement réel. En générant des foules physiquement cohérentes dans une variété de scènes cross-scale, NavIsaacLab vise à fournir un benchmark standardisé pour comparer les algorithmes état de l'art dans des conditions proches du réel, une lacune que la communauté robotique signale depuis plusieurs années. Le framework s'inscrit dans l'écosystème NVIDIA Isaac, qui regroupe Isaac Sim, Isaac ROS et Isaac Lab, consolidant la position de NVIDIA comme fournisseur d'infrastructure de simulation robotique. Les approches concurrentes incluent Habitat 3.0 de Meta AI pour la navigation sociale en intérieur, CARLA pour le trafic autonome et divers simulateurs basés sur SMPL pour les mouvements humains, mais peu combinent rendu photo-réaliste, physique GPU-accélérée et comportement piéton appris de manière unifiée. L'article ne mentionne ni partenaires industriels ni timeline de déploiement : il s'agit pour l'heure d'une contribution de recherche, sans produit commercialisé. Les suites naturelles concerneraient l'intégration de politiques VLA (Vision-Language-Action) et la validation sur robots physiques dans des environnements réels densément peuplés.

UELes équipes européennes développant des AMR pour environnements partagés (entrepôts, hôpitaux) pourraient utiliser ce benchmark pour réduire le sim-to-real gap, mais aucun acteur FR/EU n'est impliqué directement.

RechercheActu

1 source