Aller au contenu principal
RecherchearXiv cs.RO2h

SimFoundry : génération modulaire et automatisée de scènes pour l'apprentissage et l'évaluation de politiques

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Des chercheurs du laboratoire GEAR de NVIDIA ont publié SimFoundry sur arXiv (identifiant 2606.28276), un pipeline modulaire et automatisé permettant de reconstruire des scènes de simulation directement depuis une vidéo du monde réel, sans annotation manuelle. Le système génère des jumeaux numériques sim-ready, puis en dérive automatiquement des "cousins numériques": des variantes de la scène originale qui préservent les affordances manipulatoires tout en modifiant objets, arrangements ou tâches. Testé sur sept tâches de manipulation (multi-étapes, objets articulés, bimane) et cinq architectures de policies distinctes, SimFoundry atteint une corrélation de Pearson de 0,911 entre évaluation en simulation et performance réelle, avec un mean maximum ranking violation de 0,018. En transfert zéro-shot vers le monde réel, les cousins d'objets apportent +17% de taux de succès, les cousins de scènes +21%, et les cousins de tâches +40%.

Ces résultats s'attaquent directement au sim-to-real gap, l'écart structurel qui rend les benchmarks de simulation peu fiables pour prédire les performances physiques. Avec une corrélation de 0,911, les équipes R&D peuvent comparer des architectures de policies en simulation sans mobiliser de temps robot, ce qui réduit significativement le coût d'évaluation. Le concept de cousins numériques va plus loin que l'augmentation de données classique: en préservant les affordances, les variantes restent exploitables pour l'apprentissage sans dériver vers des distributions hors domaine. Pour un intégrateur de cellules robotiques ou un décideur industriel, le gain concret est une accélération du cycle développement-évaluation, à condition que la reconstruction vidéo reste robuste hors des environnements contrôlés présentés dans le papier.

SimFoundry s'inscrit dans la stratégie robotique large de NVIDIA, qui développe en parallèle la plateforme Isaac Sim et le modèle de fondation humanoïde GR00T N2. Le laboratoire GEAR, dédié à la généralisation des policies d'agents incarnés, positionne cette approche sim-centric face aux alternatives data-centric: Physical Intelligence (Pi-0, issu des travaux de Sergey Levine) mise sur des volumes massifs de démonstrations réelles, tandis que Google DeepMind avance avec ses propres pipelines de simulation. Dans l'écosystème des simulateurs robotiques (Sapien, RoboSuite, Genesis), SimFoundry se distingue par son entrée vidéo sans annotation. Le papier, disponible en prépublication sur arXiv, ne précise pas de calendrier de mise à disposition du code ni d'intégration dans un produit commercial.

Impact France/UE

Les laboratoires de robotique européens (CEA-List, INRIA) pourraient bénéficier de cette infrastructure de simulation pour évaluer leurs policies sans mobiliser de temps robot, mais aucun acteur FR/EU n'est impliqué et le code n'est pas encore disponible.

À lire aussi

De la perception à la simulation : génération haute-fidélité avec cousins numériques pour l'apprentissage et l'évaluation de robots généralisables
1arXiv cs.RO 

De la perception à la simulation : génération haute-fidélité avec cousins numériques pour l'apprentissage et l'évaluation de robots généralisables

Une équipe de chercheurs a publié en avril 2026 sur arXiv (arXiv:2604.15805) un framework génératif baptisé "Digital Cousins", conçu pour transformer automatiquement des panoramas de scènes réelles en environnements de simulation haute fidélité, puis en générer des variantes sémantiques et géométriques diversifiées. Le système prend en entrée une image panoramique d'une pièce réelle, reconstruit une scène simulée cohérente, et applique des modifications contrôlées, repositionnement d'objets, changement de géométrie, substitution de matériaux, pour produire des "scènes cousines" statistiquement variées. Un module de raccordement multi-pièces permet de construire des environnements à grande échelle pour des tâches de navigation longue portée dans des layouts complexes. Les expériences montrent que scaler massivement la génération de données améliore significativement la généralisation à des scènes et objets non vus en entraînement. Ce travail s'attaque directement à l'un des goulots d'étranglement majeurs du robot learning : collecter des données réelles diversifiées est coûteux en temps, en assets physiques et en reconfiguration manuelle d'environnements. L'approche real-to-sim-to-real proposée ici offre aux intégrateurs et équipes R&D une voie pour démultiplier leur corpus d'entraînement sans mobiliser de ressources physiques supplémentaires. La corrélation sim-to-real mesurée dans les expériences valide la fidélité de la plateforme, un point crucial, car beaucoup de frameworks de simulation peinent à transférer en conditions réelles. Pour les décideurs B2B, cela signifie des cycles de développement potentiellement plus courts et une meilleure robustesse des politiques déployées face à la variabilité des environnements industriels. À noter que les métriques de généralisation sont présentées sur des benchmarks de manipulation et de navigation en intérieur ; leur tenue dans des contextes industriels contraints (entrepôts, lignes de production) reste à démontrer hors laboratoire. Le concept de "Digital Cousins" s'inscrit dans une vague de travaux visant à combler le sim-to-real gap, aux côtés d'approches comme Isaac Sim (NVIDIA), Habitat (Meta) ou Genesis (labo Carnegie Mellon). Ce qui différencie cette contribution est la chaîne génératrice bout-en-bout à partir de panoramas, une méthode plus accessible que la modélisation 3D manuelle traditionnelle. Les auteurs ne rattachent pas explicitement le framework à un robot ou un produit commercial, ce qui en fait pour l'instant un outil de recherche. Les prochaines étapes naturelles seraient une intégration avec des pipelines VLA (Vision-Language-Action) existants comme Pi-0 (Physical Intelligence) ou GR00T N2 (NVIDIA), et une validation sur des robots manipulateurs déployés en conditions semi-réelles.

RecherchePaper
1 source
GN0 : vers un paradigme unifié pour la génération, l'évaluation et l'apprentissage de politiques en navigation visuo-langagière
2arXiv cs.RO 

GN0 : vers un paradigme unifié pour la génération, l'évaluation et l'apprentissage de politiques en navigation visuo-langagière

Une équipe de chercheurs publie GN0 (arXiv:2606.03682, juin 2026), un cadre unifié de navigation robotique visuo-linguistique (VLN) structuré autour de trois contributions complémentaires. La première est GN-Matrix, un jeu de données de navigation 3D massif généré automatiquement via un moteur 3D Gaussian Splatting (3DGS), conçu pour pallier la pénurie de données d'entraînement du domaine. La deuxième est GN-Bench, présenté comme le premier benchmark en vue à vol d'oiseau (BEV) intégrant des avatars humains dynamiques en 3DGS pour évaluer les interactions homme-robot en navigation. La troisième est BAE (Break and Establish), un modèle de navigation par apprentissage par renforcement (RL) qui enchaîne apprentissage supervisé, DAgger (agrégation de trajectoires réelles pour sortir des distributions d'experts étroites) et exploration RL. Sur GN-Bench et le benchmark VLN-CE, GN-BAE surpasse les méthodes VLN de l'état de l'art selon les auteurs, sans que les conditions exactes des comparaisons soient détaillées dans le résumé. Le principal apport technique est la formalisation d'une mémoire spatiale compacte en BEV construite à partir de rendus 3DGS haute fidélité, exploitant le raisonnement spatial latent des grands modèles visuels-linguistiques (VLM). L'approche unifie dans un seul modèle de fondation des tâches avec et sans carte préétablie, suivre des instructions, escorter un humain, atteindre un objectif, ce qui contraste avec les pipelines fragmentés habituels du domaine. Si les résultats se confirment en conditions réelles, cela représente un pas concret vers des agents mobiles généraux capables de naviguer dans des environnements non cartographiés, une promesse centrale des robots de service et des AMR de nouvelle génération. La navigation visuo-linguistique est un champ actif depuis les benchmarks R2R (Anderson et al., 2018) et VLN-CE (Krantz et al., 2020). Les approches récentes exploitent des VLM tels que CLIP ou LLaVA pour relier instructions en langage naturel et perception visuelle, mais peinent sur les longues distances et dans des espaces non vus. Côté industrie, Boston Dynamics, Unitree ou les startups AMR intègrent progressivement la navigation sémantique sans publier de systèmes open-research comparables. En Europe, INRIA et des projets Horizon Europe explorent des directions proches. GN0 reste cependant une contribution académique en preprint sans partenaire industriel ni déploiement annoncé, ce qui invite à réserver le jugement sur le passage de la simulation au monde réel.

UEINRIA et des projets Horizon Europe explorent des directions proches en navigation visuo-linguistique, mais GN0 reste un preprint académique sans déploiement ni partenariat industriel européen annoncé.

RechercheOpinion
1 source
Apprentissage de politiques par simulation pour la loco-manipulation des robots humanoïdes
3arXiv cs.RO 

Apprentissage de politiques par simulation pour la loco-manipulation des robots humanoïdes

Une équipe de chercheurs a publié le 9 juin 2026 sur arXiv (2606.08278) SIMPLE, un banc de test de simulation unifié pour l'apprentissage et l'évaluation de politiques de contrôle de robots humanoïdes. La plateforme couple la simulation de dynamique de contact de MuJoCo avec le rendu photoréaliste d'IsaacSim, et propose 60 tâches de loco-manipulation plein corps, 50 scènes d'intérieur et plus de 1 000 assets d'objets. Pour la collecte de données, deux pipelines sont intégrés : génération automatisée de trajectoires par planification de mouvement, et interface de téléopération VR à faible latence. Les auteurs y benchmarkent plusieurs familles de politiques humanoïdes : réseaux d'imitation légers, grands modèles vision-langage-action (VLA) et les récents modèles d'action du monde (WAM, World Action Models). Les expériences démontrent, selon les auteurs, un transfert zero-shot vers des robots humanoïdes physiques dans des configurations similaires. L'enjeu central est un goulot d'étranglement d'évaluation : les modèles fondationnels humanoïdes progressent plus vite que les protocoles pour les tester. Les benchmarks existants se concentrent sur la robotique de table ou les robots à roues, sans couvrir la loco-manipulation plein corps, compétence clé pour les humanoïdes déployés en environnement industriel ou domestique. Si la corrélation sim-to-real revendiquée dans l'article se confirme à plus grande échelle, elle légitime le recours massif à la simulation pour entraîner des politiques de contrôle, réduisant drastiquement les coûts de collecte de données en conditions réelles. C'est précisément le pari industriel de Physical Intelligence avec pi-0, et de Figure AI avec Figure 02 : remplacer les démos téléopérées coûteuses par des pipelines simulés reproductibles. La fragmentation des benchmarks est un problème structurel en robotique humanoïde : chaque laboratoire publie sur ses propres protocoles, rendant toute comparaison inter-équipes difficile. Des initiatives comme HumanoidBench, RoboVerse ou Isaac Lab ont tenté d'y répondre, mais sans couvrir la chaîne complète loco-manipulation avec rendu photoréaliste et pipelines de données intégrés. SIMPLE se positionne à cette intersection. Les équipes de Google DeepMind (GR00T N2, Helix), Agility Robotics (Digit) et Boston Dynamics sont directement concernées. Ce preprint arXiv n'est pas encore évalué par les pairs ; l'adoption par la communauté dépendra de la disponibilité publique du code et des assets, non encore confirmée.

RecherchePaper
1 source
Modernisation de la navigation par apprentissage par renforcement pour la génération de graphes de scènes sémantiques par IA incarnée
4arXiv cs.RO 

Modernisation de la navigation par apprentissage par renforcement pour la génération de graphes de scènes sémantiques par IA incarnée

Une équipe de recherche a publié sur arXiv (2603.25415v2) un composant de navigation modulaire destiné à la génération de graphes de scène sémantiques (SSG) par des agents embarqués. L'objectif central est de maximiser la qualité du modèle de monde construit par le robot dans un budget d'actions limité, en arbitrant entre gain d'information et coût de navigation. Les chercheurs remplacent l'algorithme d'optimisation de politique existant et revisitent la formulation de l'espace d'actions discret. Résultat clé : le simple remplacement de l'optimiseur améliore la complétude du SSG de 21 % en relatif par rapport à la baseline, à récompense identique. L'ajout d'une supervision par profondeur améliore principalement la sécurité d'exécution (réduction des collisions) sans modifier sensiblement la complétude. La combinaison d'un optimiseur moderne avec une représentation d'actions plus granulaire et factorisée en politique multi-têtes donne le meilleur compromis complétude-efficacité global. Ce résultat soulève une question pratique pour les équipes de robotique embarquée : combien de pipelines RL de navigation sont sous-performants non pas à cause de leur architecture, mais à cause d'algorithmes d'entraînement obsolètes ? Un gain de 21 % par simple swap d'optimiseur suggère que la dette technique dans les baselines de comparaison est substantielle. Par ailleurs, la politique multi-têtes factorisée réduit l'explosion combinatoire de l'espace d'actions, un problème classique dès que l'on augmente la granularité des mouvements. Sur le plan applicatif, les SSG sont une brique utile pour les robots autonomes opérant dans des environnements industriels non structurés : ils fournissent une représentation compacte des objets, relations et contexte spatial, au-delà des cartes purement géométriques. Ce travail s'inscrit dans le courant de l'Organic Computing, un paradigme de systèmes auto-adaptatifs sous contraintes de ressources et d'incertitude, qui reste davantage présent dans la recherche académique européenne que dans les déploiements industriels. La version v2 du preprint indique un raffinement itératif, signe d'une validation en cours. Le positionnement concurrentiel de cette approche structurée par graphes est à surveiller face aux modèles fondationnels vision-langage (VLA) qui absorbent de plus en plus les tâches de compréhension de scène. Les prochaines étapes probables incluent le transfert sim-to-real sur plateforme physique et l'évaluation à plus grande échelle environnementale.

UELe paradigme Organic Computing sous-jacent est davantage ancré dans la recherche académique européenne, ce qui pourrait faciliter le transfert de ces techniques de navigation vers des projets de robotique autonome industrielle en UE.

RecherchePaper
1 source