SimFoundry : génération modulaire et automatisée de scènes pour l'apprentissage et l'évaluation de politiques
Des chercheurs du laboratoire GEAR de NVIDIA ont publié SimFoundry sur arXiv (identifiant 2606.28276), un pipeline modulaire et automatisé permettant de reconstruire des scènes de simulation directement depuis une vidéo du monde réel, sans annotation manuelle. Le système génère des jumeaux numériques sim-ready, puis en dérive automatiquement des "cousins numériques": des variantes de la scène originale qui préservent les affordances manipulatoires tout en modifiant objets, arrangements ou tâches. Testé sur sept tâches de manipulation (multi-étapes, objets articulés, bimane) et cinq architectures de policies distinctes, SimFoundry atteint une corrélation de Pearson de 0,911 entre évaluation en simulation et performance réelle, avec un mean maximum ranking violation de 0,018. En transfert zéro-shot vers le monde réel, les cousins d'objets apportent +17% de taux de succès, les cousins de scènes +21%, et les cousins de tâches +40%.
Ces résultats s'attaquent directement au sim-to-real gap, l'écart structurel qui rend les benchmarks de simulation peu fiables pour prédire les performances physiques. Avec une corrélation de 0,911, les équipes R&D peuvent comparer des architectures de policies en simulation sans mobiliser de temps robot, ce qui réduit significativement le coût d'évaluation. Le concept de cousins numériques va plus loin que l'augmentation de données classique: en préservant les affordances, les variantes restent exploitables pour l'apprentissage sans dériver vers des distributions hors domaine. Pour un intégrateur de cellules robotiques ou un décideur industriel, le gain concret est une accélération du cycle développement-évaluation, à condition que la reconstruction vidéo reste robuste hors des environnements contrôlés présentés dans le papier.
SimFoundry s'inscrit dans la stratégie robotique large de NVIDIA, qui développe en parallèle la plateforme Isaac Sim et le modèle de fondation humanoïde GR00T N2. Le laboratoire GEAR, dédié à la généralisation des policies d'agents incarnés, positionne cette approche sim-centric face aux alternatives data-centric: Physical Intelligence (Pi-0, issu des travaux de Sergey Levine) mise sur des volumes massifs de démonstrations réelles, tandis que Google DeepMind avance avec ses propres pipelines de simulation. Dans l'écosystème des simulateurs robotiques (Sapien, RoboSuite, Genesis), SimFoundry se distingue par son entrée vidéo sans annotation. Le papier, disponible en prépublication sur arXiv, ne précise pas de calendrier de mise à disposition du code ni d'intégration dans un produit commercial.
Les laboratoires de robotique européens (CEA-List, INRIA) pourraient bénéficier de cette infrastructure de simulation pour évaluer leurs policies sans mobiliser de temps robot, mais aucun acteur FR/EU n'est impliqué et le code n'est pas encore disponible.




