Aller au contenu principal
RecherchearXiv cs.RO4h

SceneSmith : génération à base d'agents de scènes intérieures prêtes pour la simulation

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

SceneSmith est un framework agentique hiérarchique, présenté dans un preprint arXiv (2602.09153v2), qui génère des environnements intérieurs prêts pour la simulation robotique à partir de prompts en langage naturel. Le pipeline décompose la génération en trois étapes successives : layout architectural, placement de meubles, peuplement d'objets de petite taille. Chaque étape est pilotée par un trio d'agents VLM (vision-language model) jouant les rôles de designer, critique et orchestrateur. Pour les objets statiques, SceneSmith utilise la synthèse texte-vers-3D ; pour les objets articulés (portes, tiroirs, armoires), il interroge des bases de données d'assets existantes et estime automatiquement les propriétés physiques. Les résultats mesurés : 3 à 6 fois plus d'objets que les méthodes concurrentes, moins de 2 % de collisions inter-objets, 96 % des objets stables sous simulation physique. Une étude utilisateur conduite auprès de 205 participants donne à SceneSmith 92 % de taux de victoire sur le réalisme et 91 % sur la fidélité aux prompts face aux baselines -- des chiffres à interpréter avec prudence, les études perceptuelles restant par nature subjectives.

L'enjeu central est le sim-to-real gap : les environnements synthétiques actuels sont trop épars et trop ordonnés pour que les politiques apprises soient transférables dans un foyer réel. SceneSmith cible directement ce problème en générant des scènes denses et encombrées, avec des objets articulés et des propriétés physiques cohérentes. Si les métriques annoncées résistent à une évaluation indépendante, cela réduit significativement le coût de constitution de jeux de données de simulation pour l'entraînement de politiques de manipulation, qu'il s'agisse de VLA ou de diffusion policies -- un besoin direct d'équipes comme Physical Intelligence ou Skild AI. Les auteurs démontrent que le pipeline s'intègre dans une boucle d'évaluation automatique de politiques robotiques, ce qui est précisément l'étape manquante pour industrialiser le cycle entraînement-évaluation en simulation.

La génération automatique d'environnements intérieurs pour la robotique repose depuis des années sur des datasets à annotation manuelle coûteuse comme AI2-THOR, iGibson ou BEHAVIOR-1K, ou sur la génération procédurale (ProcTHOR), dont les scènes manquent de réalisme et de densité. SceneSmith s'inscrit dans une tendance plus large d'orchestration par LLM et VLM pour la génération 3D, une voie également explorée par Holodeck (Allen Institute for AI) et RoomDreamer. Aucun partenariat industriel ni timeline de déploiement n'est mentionné dans le papier, ce qui en fait pour l'instant une contribution de recherche, sans acteur français ou européen identifiable dans l'écosystème décrit. La connexion directe à l'évaluation de politiques signale néanmoins une ambition claire d'intégration dans des pipelines d'entraînement réels, à mesure que la course aux robots domestiques s'intensifie.

À lire aussi

STABLE : génération d'agencements de table prêts à la simulation via un système dual sémantique-physique
1arXiv cs.RO 

STABLE : génération d'agencements de table prêts à la simulation via un système dual sémantique-physique

Une équipe de chercheurs a publié STABLE (arXiv:2605.16137), un système de génération automatique de scènes de table prêtes à la simulation à partir d'instructions textuelles. Le système repose sur une architecture duale composée de deux modules complémentaires : un Semantic Reasoner, un LLM fine-tuné sur un dataset structuré de scènes de table qui produit des dispositions d'objets grossières depuis les consignes de tâche, et un Physics Corrector, un modèle de débruitage basé sur les flux physiques qui calcule des mises à jour de pose pour corriger les arrangements invalides. Les deux modules s'alternent selon un paradigme de génération progressive, en étendant la scène des objets critiques pour la tâche vers les objets d'arrière-plan. Les expériences montrent que STABLE génère des scènes conformes aux instructions tout en améliorant significativement la validité physique par rapport aux méthodes existantes. Le problème ciblé est concret et documenté : lorsqu'on confie la génération de layouts 3D à des LLMs seuls, les objets se retrouvent fréquemment en collision ou en suspension, rendant les scènes inutilisables pour l'entraînement robotique. Pour les équipes travaillant sur des pipelines sim-to-real en manipulation de table, cette limite impose un post-traitement manuel coûteux. L'apport de STABLE est de séparer le raisonnement sémantique (ce qui doit être présent et où, logiquement) du raisonnement physique (comment corriger les positions pour que la scène soit simulable), plutôt que de charger un seul modèle des deux. C'est une réponse directe au sim-to-real gap dans la phase de génération de données, un verrou bien identifié dans la communauté Embodied AI. Cette publication s'inscrit dans une tendance plus large autour de la génération automatique d'environnements de simulation pour l'apprentissage robot, où des approches comme LayoutGPT avaient déjà montré que les LLMs raisonnent mal en coordonnées spatiales. STABLE ne revendique pas de déploiement industriel : c'est une contribution de recherche, avec des résultats expérimentaux sur benchmarks mais sans pipeline productionisé ni timeline commerciale annoncée. Les prochaines étapes naturelles seraient l'extension au-delà des surfaces planes et l'intégration dans des frameworks de génération de données pour la manipulation, comme ceux utilisés par les équipes travaillant sur des modèles VLA (Vision-Language-Action).

RecherchePaper
1 source
Génération de graphes de scène 3D actifs à partir de caméras RGB pour robots mobiles d'intérieur
2arXiv cs.RO 

Génération de graphes de scène 3D actifs à partir de caméras RGB pour robots mobiles d'intérieur

Des chercheurs ont publié le 26 mai 2026 sur arXiv (ref. 2605.18197) un framework permettant de construire des graphes de scène 3D en temps réel à partir de caméras RGB standard uniquement, sans capteur de profondeur dédié (LiDAR ou caméra RGB-D). Le système fonctionne de manière active et incrémentale : le robot sélectionne ses prochains points de vue en fonction de l'état courant du graphe partiellement construit, plutôt que de parcourir une trajectoire prédéfinie. Les expériences menées sur le dataset Replica montrent que le pipeline RGB-only atteint une parité de F1-score avec les baselines utilisant une profondeur ground-truth. Sur ReplicaCAD, l'exploration sémantique active détecte plus du double d'objets qu'une baseline frontier-based géométrique classique, à budget d'exploration identique. Le framework intègre également des caméras fixes externes, permettant d'amorcer le graphe de scène sans coût d'exploration supplémentaire pour le robot. Ce résultat est techniquement significatif parce qu'il décorrèle la construction de représentations métriques 3D riches de la nécessité d'un hardware spécialisé. Jusqu'ici, les scène graphs 3D étaient réservés aux plateformes équipées de capteurs profondeur (Boston Dynamics Spot avec lidar, plateformes AMR comme celles de Locus ou 6 River Systems). Ouvrir ces représentations à des caméras RGB banales abaisse le coût d'entrée et permet d'exploiter des flux vidéo d'infrastructure fixe (CCTV, caméras d'entrepôt) comme source de données complémentaires. La sélection active de viewpoints basée sur la sémantique du graphe, et non sur la géométrie seule, suggère que les VLA (Vision-Language-Action models) embarqués pourraient bénéficier directement de représentations environnementales plus denses et mieux informées. La génération de scene graphs 3D pour la robotique mobile s'appuie sur des travaux antérieurs comme 3D-SGG (CVPR 2020) et les pipelines SLAM-sémantique (SemanticFusion, Hydra de MIT SPARK Lab). La contrainte RGB-only rapproche ce travail des approches monoculaires comme MonoDepth ou DPT, désormais suffisamment robustes pour estimer la géométrie à l'échelle métrique. Les concurrents directs incluent les pipelines basés Open3D-SLAMgraph et les frameworks de mapping neuronaux (NeRF-based mapping). Ce papier est pour l'instant un preprint non peer-reviewed ; aucun déploiement industriel ni partenariat n'est annoncé, et les benchmarks restent sur des environnements simulés, ce qui laisse ouverte la question du sim-to-real gap sur des scènes encombrées réelles.

RecherchePaper
1 source
3arXiv cs.RO 

URDF-Anything+ : génération bout-en-bout d'actifs articulés prêts pour la simulation

Une équipe de chercheurs a publié sur arXiv en mars 2026 URDF-Anything+, un modèle de diffusion autorégressive générant des fichiers URDF (Unified Robot Description Format) à partir d'une seule image RGB. Le URDF est le format standard dans l'écosystème ROS et les simulateurs physiques (MuJoCo, Isaac Sim, Gazebo) pour décrire la géométrie et la cinématique des objets articulés. Le système opère dans un espace latent structuré et prédit séquentiellement chaque partie de l'objet avec ses paramètres de joint (type, axe, limites de mouvement), un token de terminaison déterminant dynamiquement le nombre de segments à générer. Évalué sur des benchmarks à grande échelle d'objets articulés, il surpasse les méthodes existantes en reconstruction géométrique, en précision des paramètres de joints et en "physical executability", soit la capacité des URDF produits à s'exécuter directement dans un simulateur sans post-traitement manuel. L'enjeu pour les roboticiens et ingénieurs de simulation est direct : produire des digital twins d'objets articulés réels (tiroirs, portes, vannes, équipements industriels) reste un goulot d'étranglement dans les pipelines de sim-to-real. Les approches classiques imposent segmentation manuelle, retrieval depuis des bibliothèques 3D (PartNet, ShapeNet) ou des pipelines multi-étapes coûteux à maintenir. URDF-Anything+ compresse ce processus en une passe unique, sans retrieval ni post-traitement externe. Le résultat le plus significatif est le transfert zero-shot : des politiques de manipulation entraînées exclusivement en simulation sur des URDF générés ont été transférées dans des environnements réels sans fine-tuning supplémentaire, ce qui constitue une validation directe que le sim-to-real gap sur les objets articulés peut être partiellement absorbé par la fidélité du jumeau numérique. La reconstruction d'objets articulés depuis des observations visuelles est un problème ouvert depuis plus d'une décennie. Des travaux antérieurs comme PARIS, ArticulatedFormer et NSM avaient progressé sur la segmentation et l'estimation cinématique, mais butaient sur la généralisation et l'utilisabilité directe en simulateur. URDF-Anything+ s'inscrit dans la tendance des modèles génératifs 3D orientés simulation, aux côtés des Gaussian Splattings dynamiques et des NeRF articulés. La recherche (arXiv:2603.14010) ne mentionne pas d'affiliation industrielle ni de plan de commercialisation : il s'agit d'un résultat purement académique. L'intégration naturelle serait dans les pipelines de génération de données synthétiques pour la manipulation robotique, domaine où Physical Intelligence, le Boston Dynamics AI Institute et les équipes Nvidia Isaac Lab investissent massivement en ce moment.

UELes équipes académiques européennes en manipulation robotique (INRIA, DLR, TU Munich) pourraient intégrer cet outil dans leurs pipelines de données synthétiques, mais aucun acteur français ou européen n'est directement impliqué.

RecherchePaper
1 source
InternScenes : un jeu de données de scènes intérieures simulables à grande échelle avec des agencements réalistes
4arXiv cs.RO 

InternScenes : un jeu de données de scènes intérieures simulables à grande échelle avec des agencements réalistes

Une équipe de chercheurs a publié InternScenes, un jeu de données massif de scènes d'intérieur simulables, conçu pour l'entraînement des agents en Embodied AI. Le dataset agrège environ 40 000 scènes issues de trois sources hétérogènes : scans du monde réel, scènes générées procéduralement et environnements créés par des designers. Il couvre 15 types de pièces et 288 classes d'objets, pour un total de 1,96 million d'objets 3D. La densité est un point distinctif : chaque région contient en moyenne 41,5 objets, incluant délibérément les petits éléments (tasses, télécommandes, livres) souvent absents des datasets existants. Le pipeline de traitement comprend la création de répliques real-to-sim pour les scans, l'ajout d'objets interactifs, et une résolution des collisions par simulation physique. Le tout sera publié en open source, avec modèles et benchmarks associés. L'intérêt pour les équipes travaillant sur la robotique incarnée et la navigation autonome est direct : les datasets existants souffrent soit d'un manque d'échelle, soit de layouts artificiellement épurés qui ne reflètent pas la réalité d'un environnement domestique ou industriel. Un robot entraîné dans des scènes stériles échoue face au désordre ordinaire d'un bureau ou d'une cuisine. InternScenes attaque ce sim-to-real gap par la densité et la diversité des layouts. Les deux benchmarks proposés, génération de layouts et navigation point-goal, montrent que les scènes complexes posent des défis inédits, et que la montée en échelle du dataset améliore les performances sur les deux tâches, un signal que le volume de données simulées reste un levier non saturé pour ces modèles. Dans le paysage de l'Embodied AI, les datasets de référence comme Habitat-Matterport 3D (HM3D, ~1 000 scènes) ou MultiScan restaient très limités en volume et en densité d'objets. Les laboratoires universitaires et industriels qui développent des VLA (Vision-Language-Action models) ou des agents de navigation domestique manquaient d'un terrain d'entraînement à grande échelle réaliste. InternScenes comble partiellement ce vide, sans toutefois aborder les environnements industriels ou extérieurs. La prochaine étape logique sera de voir si des équipes comme celles derrière GR00T N2 (NVIDIA) ou Pi-0 (Physical Intelligence) intègrent ce type de données synthétiques denses dans leurs pipelines de pré-entraînement, ce que les auteurs n'annoncent pas explicitement à ce stade.

RecherchePaper
1 source