
SR-Platform : un pipeline à base d'agents pour la synthèse d'environnements de simulation robotique en langage naturel
SR-Platform est un pipeline agentique, publié en preprint arXiv (2605.14700) en mai 2026, qui convertit des descriptions en langage naturel en environnements de simulation MuJoCo exécutables et physiquement valides. Le système décompose la génération de scènes en quatre étapes : un orchestrateur LLM qui structure l'intention utilisateur en plan de scène ; un "asset forge" qui récupère des géométries en cache ou en génère de nouvelles via synthèse LLM-CadQuery ; un "layout architect" qui assigne les poses des objets et vérifie les contraintes spatiales ; et une couche bridge qui assemble le fichier MJCF final en intégrant le modèle de robot cible. Déployé comme stack Docker à neuf services (MinIO pour les meshes, Qdrant pour la récupération sémantique d'assets, Redis pour l'état des jobs, InfluxDB pour la télémétrie), SR-Platform affiche une latence médiane d'environ 50 secondes pour des scènes à cinq objets, tombant à 30-40 secondes avec cache d'assets actif, sur une base de 611 appels LLM réussis en 30 jours de production. Le taux de retry de l'asset forge atteint 11,3 %, avec récupération automatique.
Construire manuellement une scène MuJoCo prête à l'entraînement exige une expertise croisée en modélisation 3D, spécification MJCF, gestion des collisions et intégration robot, un processus qui représente typiquement plusieurs heures par scène. Ramener cette étape à moins d'une minute via une invite en langage naturel est un levier direct pour produire des environnements d'entraînement plus variés, facteur clé de la généralisation sim-to-real des politiques robotiques. Pour les équipes de robot learning, cette friction de configuration est réelle et souvent sous-estimée dans les pipelines de données synthétiques. Les métriques publiées portent cependant sur des scènes limitées à cinq objets dans un cadre contrôlé, et la robustesse du pipeline sur des configurations plus complexes ou des descriptions ambiguës reste à démontrer.
La génération automatisée d'environnements de simulation est un goulot d'étranglement reconnu dans les pipelines de robot learning, que ce soit pour le reinforcement learning, l'imitation learning ou l'entraînement de modèles vision-langage-action (VLA). MuJoCo, maintenu par DeepMind, est le moteur physique de référence pour ces travaux. NVIDIA Isaac Lab et le framework open-source Genesis couvrent également cet espace ; Physical Intelligence (pi.ai) mise de son côté sur des pipelines d'entraînement à très large échelle. SR-Platform se positionne en amont, sur la génération de scènes plutôt que de politiques, avec un accent sur l'accessibilité via le langage naturel. Son code source n'est pas publié en open-source et le contexte précis du déploiement qualifié de "production" n'est pas explicité dans le preprint.




