SceneSmith : génération à base d'agents de scènes intérieures prêtes pour la simulation
SceneSmith est un framework agentique hiérarchique, présenté dans un preprint arXiv (2602.09153v2), qui génère des environnements intérieurs prêts pour la simulation robotique à partir de prompts en langage naturel. Le pipeline décompose la génération en trois étapes successives : layout architectural, placement de meubles, peuplement d'objets de petite taille. Chaque étape est pilotée par un trio d'agents VLM (vision-language model) jouant les rôles de designer, critique et orchestrateur. Pour les objets statiques, SceneSmith utilise la synthèse texte-vers-3D ; pour les objets articulés (portes, tiroirs, armoires), il interroge des bases de données d'assets existantes et estime automatiquement les propriétés physiques. Les résultats mesurés : 3 à 6 fois plus d'objets que les méthodes concurrentes, moins de 2 % de collisions inter-objets, 96 % des objets stables sous simulation physique. Une étude utilisateur conduite auprès de 205 participants donne à SceneSmith 92 % de taux de victoire sur le réalisme et 91 % sur la fidélité aux prompts face aux baselines -- des chiffres à interpréter avec prudence, les études perceptuelles restant par nature subjectives.
L'enjeu central est le sim-to-real gap : les environnements synthétiques actuels sont trop épars et trop ordonnés pour que les politiques apprises soient transférables dans un foyer réel. SceneSmith cible directement ce problème en générant des scènes denses et encombrées, avec des objets articulés et des propriétés physiques cohérentes. Si les métriques annoncées résistent à une évaluation indépendante, cela réduit significativement le coût de constitution de jeux de données de simulation pour l'entraînement de politiques de manipulation, qu'il s'agisse de VLA ou de diffusion policies -- un besoin direct d'équipes comme Physical Intelligence ou Skild AI. Les auteurs démontrent que le pipeline s'intègre dans une boucle d'évaluation automatique de politiques robotiques, ce qui est précisément l'étape manquante pour industrialiser le cycle entraînement-évaluation en simulation.
La génération automatique d'environnements intérieurs pour la robotique repose depuis des années sur des datasets à annotation manuelle coûteuse comme AI2-THOR, iGibson ou BEHAVIOR-1K, ou sur la génération procédurale (ProcTHOR), dont les scènes manquent de réalisme et de densité. SceneSmith s'inscrit dans une tendance plus large d'orchestration par LLM et VLM pour la génération 3D, une voie également explorée par Holodeck (Allen Institute for AI) et RoomDreamer. Aucun partenariat industriel ni timeline de déploiement n'est mentionné dans le papier, ce qui en fait pour l'instant une contribution de recherche, sans acteur français ou européen identifiable dans l'écosystème décrit. La connexion directe à l'évaluation de politiques signale néanmoins une ambition claire d'intégration dans des pipelines d'entraînement réels, à mesure que la course aux robots domestiques s'intensifie.
Dans nos dossiers



