
InternScenes : un grand jeu de donnees de scenes interieures simulables avec des agencements realistes
Une équipe de chercheurs a publié InternScenes, un jeu de données massif de scènes d'intérieur simulables, conçu pour l'entraînement des agents en Embodied AI. Le dataset agrège environ 40 000 scènes issues de trois sources hétérogènes : scans du monde réel, scènes générées procéduralement et environnements créés par des designers. Il couvre 15 types de pièces et 288 classes d'objets, pour un total de 1,96 million d'objets 3D. La densité est un point distinctif : chaque région contient en moyenne 41,5 objets, incluant délibérément les petits éléments (tasses, télécommandes, livres) souvent absents des datasets existants. Le pipeline de traitement comprend la création de répliques real-to-sim pour les scans, l'ajout d'objets interactifs, et une résolution des collisions par simulation physique. Le tout sera publié en open source, avec modèles et benchmarks associés.
L'intérêt pour les équipes travaillant sur la robotique incarnée et la navigation autonome est direct : les datasets existants souffrent soit d'un manque d'échelle, soit de layouts artificiellement épurés qui ne reflètent pas la réalité d'un environnement domestique ou industriel. Un robot entraîné dans des scènes stériles échoue face au désordre ordinaire d'un bureau ou d'une cuisine. InternScenes attaque ce sim-to-real gap par la densité et la diversité des layouts. Les deux benchmarks proposés, génération de layouts et navigation point-goal, montrent que les scènes complexes posent des défis inédits, et que la montée en échelle du dataset améliore les performances sur les deux tâches, un signal que le volume de données simulées reste un levier non saturé pour ces modèles.
Dans le paysage de l'Embodied AI, les datasets de référence comme Habitat-Matterport 3D (HM3D, ~1 000 scènes) ou MultiScan restaient très limités en volume et en densité d'objets. Les laboratoires universitaires et industriels qui développent des VLA (Vision-Language-Action models) ou des agents de navigation domestique manquaient d'un terrain d'entraînement à grande échelle réaliste. InternScenes comble partiellement ce vide, sans toutefois aborder les environnements industriels ou extérieurs. La prochaine étape logique sera de voir si des équipes comme celles derrière GR00T N2 (NVIDIA) ou Pi-0 (Physical Intelligence) intègrent ce type de données synthétiques denses dans leurs pipelines de pré-entraînement, ce que les auteurs n'annoncent pas explicitement à ce stade.



