Automatisation intelligente pour la construction…

GASE : système automatisé basé sur le Gaussian Splatting pour la reconstruction d'environnements de simulation incarnée

42

1arXiv cs.RO

GASE : système automatisé basé sur le Gaussian Splatting pour la reconstruction d'environnements de simulation incarnée

Une équipe de chercheurs a publié fin juin 2026 un système baptisé GASE (Gaussian Splatting-Based Automated System for Reconstructing Embodied-Simulation Environments), conçu pour automatiser la construction de scènes de simulation photoréalistes destinées à l'entraînement de robots. Le pipeline exploite des réseaux de caméras panoramiques multivues pour capturer l'environnement réel, extrait automatiquement les objets de premier plan via une stratégie basée sur les poses de caméras dans le domaine 2D, puis reconstruit séparément objets et arrière-plan statique par 3D Gaussian Splatting avant de les importer dans un simulateur physique avec inpainting haute-fidélité des zones manquantes. Sur des benchmarks de segmentation, GASE surpasse les méthodes 3DGS concurrentes de plus de 10 %. Surtout, lors de déploiements réels sur des tâches de manipulation et de navigation, les politiques entraînées en simulation n'affichent qu'un écart de performance inférieur à 10 % par rapport à celles entraînées sur données réelles, arXiv:2606.17520. Ce résultat chiffré est l'argument central du papier. Le sim-to-real gap, soit la dégradation des performances lors du passage du simulateur au robot physique, reste l'un des obstacles majeurs au déploiement à grande échelle de l'apprentissage robotique. Un écart sous les 10 % suggère que la simulation générée automatiquement depuis des scans réels peut constituer un vecteur de data augmentation viable, réduisant la dépendance à des opérateurs qualifiés et à du matériel coûteux pour la collecte terrain. Pour les intégrateurs et les industriels engagés dans des projets de manipulation ou de navigation autonome, la promesse est de compresser significativement le coût des pipelines d'entraînement, à condition que la méthode tienne à l'échelle et sur des environnements plus complexes que ceux testés. GASE s'inscrit dans la trajectoire tracée par l'émergence du 3D Gaussian Splatting en 2023 comme alternative temps-réel aux NeRF pour la reconstruction de scènes. Les approches concurrentes, notamment SplatSim, Gaussian Grouping et les pipelines d'assets manuels dans Isaac Sim ou MuJoCo, progressent en parallèle, mais l'automatisation complète de l'acquisition jusqu'à l'import simulateur reste un problème ouvert. Le preprint ne mentionne ni institution ni partenaires industriels, ce qui rend difficile l'évaluation des perspectives de transfert applicatif. Le code doit être publié ultérieurement mais n'est pas encore disponible au moment de la soumission. Le périmètre limité des tâches testées et l'absence de comparaison avec des environnements synthétiques construits manuellement laissent plusieurs questions ouvertes à la communauté.

RecherchePaper

1 source

IA incarnée : automatisation de la conception d'architectures d'agents

34

2arXiv cs.RO

IA incarnée : automatisation de la conception d'architectures d'agents

Une équipe de chercheurs a publié fin juin 2026 (arXiv:2606.30111) une étude sur l'automatisation de la conception d'architectures d'agents incarnés. Ils introduisent AgentCanvas, un environnement d'exécution à graphe typé qui représente les pipelines de perception, mémoire, planification et action comme des programmes nœud-à-fil éditables, et KDLoop, une procédure de recherche par agent codeur alternant proposition, critique, expérimentation et distillation, avec des réflexions déclenchées en cas de stagnation. L'évaluation suit une matrice 3x4 : trois variantes d'Agent Architecture Search (AAS) testées sur quatre tâches incarnées couvrant la navigation vision-langage, la réponse à des questions situées (embodied QA) et la manipulation conditionnée par le langage. Les résultats montrent des gains directionnels de taux de succès, mais un candidat apparemment performant a été écarté après détection d'une fuite de données (leak-bearing). L'intérêt de ces travaux réside dans le transfert, pour la première fois de façon systématique, des méthodes AAS -- jusqu'ici cantonnées aux agents textuels -- vers des agents perceptifs en simulation. Pour les architectes de systèmes cognitifs, cela ouvre la possibilité d'automatiser partiellement le choix de stockage de l'information, du traitement des observations et de l'enchaînement des appels de modèles, tâche jusqu'ici confiée à l'intuition des chercheurs. Les auteurs identifient cependant trois contraintes propres à l'incarné, absentes dans les benchmarks textuels : le bruit de rollout masque les signaux d'optimisation, la recherche se piège dans des bassins d'édition locaux, et l'attribution de crédit épisodique reste partielle même avec des journaux détaillés. La détection d'un candidat corrompu par fuite de données illustre par ailleurs un risque d'évaluation spécifique aux environnements simulés, où l'agent peut exploiter des artefacts de la simulation plutôt que résoudre la tâche réelle. Ces travaux s'inscrivent dans la mouvance des méthodes de méta-design d'architectures cognitives, appliquées ici à la couche système plutôt qu'aux poids des modèles. Les benchmarks dominants en navigation vision-langage (R2R, ALFRED) restent maîtrisés par des architectures manuelles, et des frameworks comme LangGraph ou AutoGen couvrent l'espace des agents textuels sans gestion de rollout simulé. Aucun acteur européen ou français n'est impliqué dans cette publication. Les prochaines étapes identifiées par les auteurs incluent l'extension à des environnements physiques réels et le renforcement de KDLoop face au bruit de rollout, deux verrous explicites avant toute applicabilité industrielle.

RecherchePaper

1 source

EmbodiedGen V2 : un moteur de monde 3D à base d'agents, prêt pour la simulation, pour l'IA incarnée

38

3arXiv cs.RO

EmbodiedGen V2 : un moteur de monde 3D à base d'agents, prêt pour la simulation, pour l'IA incarnée

Une équipe de recherche a publié EmbodiedGen V2 sur arXiv (2607.07459v1), un moteur génératif de mondes 3D destiné à produire des environnements de simulation directement exploitables pour l'entraînement de robots. Le problème visé est concret : générer des assets 3D "sim-ready" est devenu rapide, mais les assembler en environnements de tâches réellement utilisables pour l'apprentissage reste largement manuel, ce qui limite le passage à l'échelle de l'apprentissage en boucle fermée. EmbodiedGen V2 propose une représentation unifiée qui relie assets compatibles multi-simulateurs, affordances d'interaction, mondes orientés tâches, scènes multi-pièces à grande échelle, et un système de "Vibe Coding" avec état, le tout dans un pipeline génératif, éditable et réutilisable. Les environnements produits couvrent la manipulation, la navigation, la manipulation mobile, le déploiement cross-simulateur et l'entraînement de politiques robotiques. Sur le plan chiffré, le pipeline de génération d'assets atteint 96,5% d'acceptation humaine et 98,6% de réussite de détection de collisions, et 83,3% des mondes orientés tâches sont directement utilisables en simulation sans retouche manuelle. L'intérêt principal tient aux résultats de transfert obtenus grâce à ces environnements générés. Un entraînement par renforcement en ligne fait passer le taux de succès en simulation de 9,7% à 79,8%, et ces gains se transfèrent à des robots réels avec un taux de succès en tâche réelle passant de 21,7% à 75,0%. Pour un secteur où l'écart entre démonstration simulée et comportement réel reste un obstacle majeur à la commercialisation de robots humanoïdes ou mobiles pilotés par des politiques apprises, ce type de résultat constitue un argument concret en faveur de la génération procédurale de mondes comme infrastructure d'entraînement, plutôt qu'une simple preuve de concept de génération d'assets visuels. Le travail s'inscrit dans la lignée des efforts récents de génération de scènes 3D et d'assets simulables pour l'IA incarnée, où la difficulté ne portait plus tant sur la qualité visuelle des objets générés que sur leur intégration fonctionnelle dans des tâches robotiques complètes et transférables entre simulateurs. Le papier ne mentionne pas de partenariat industriel ni de déploiement sur robot commercial identifié, et se positionne comme une contribution d'infrastructure de recherche, dont l'adoption dépendra de sa reproductibilité et de son intégration par d'autres laboratoires travaillant sur l'apprentissage par renforcement pour la robotique.

RechercheActu

1 source

Infrastructure de simulation cloud-native évolutive, reproductible et en boucle fermée pour l'IA incarnée

35

4arXiv cs.RO

Infrastructure de simulation cloud-native évolutive, reproductible et en boucle fermée pour l'IA incarnée

Des chercheurs ont déposé le 27 juin 2026 sur arXiv (arXiv:2606.27962) un framework d'infrastructure de simulation cloud-native pour l'intelligence embarquée, conçu pour unifier en une seule plateforme la génération d'environnements de simulation, l'exécution de tâches, la collecte de trajectoires, l'évaluation de modèles et la gestion de données. L'architecture s'articule en quatre couches fonctionnelles et intègre quatre systèmes représentatifs : D-VLA, RL-VLA3, Sword et Pre-VLA, couvrant respectivement la simulation scalable, la planification dynamique des ressources, l'augmentation visuelle et le filtrage de données en temps réel. Le tout repose sur des technologies cloud-native telles que l'ordonnancement élastique des ressources et la simulation conteneurisée, pour gérer des workloads multi-modèles et multi-tâches à grande échelle. L'enjeu sous-jacent touche directement au goulot d'étranglement qui freine les modèles VLA (Vision-Language-Action) : la collecte de données réelles est coûteuse, peu reproductible et difficile à scaler. Ce framework propose une réponse systémique en substituant ou en complétant les données terrain par de la simulation industrialisée, avec une boucle fermée (closed-loop) permettant d'optimiser les données de façon itérative. Si les composants comme Pre-VLA (filtrage temps réel) et RL-VLA3 (apprentissage par renforcement sur architecture VLA) tiennent leurs promesses à l'échelle, cela pourrait réduire significativement le sim-to-real gap qui reste l'obstacle majeur pour déployer des robots génériques en environnement industriel réel. Il faut toutefois noter que la publication reste au stade de preprint sans benchmarks indépendants validés, et les performances sur robots physiques ne sont pas documentées dans ce papier. Ce travail s'inscrit dans une compétition internationale intense autour des infrastructures de simulation pour l'IA incarnée. NVIDIA pousse Isaac Sim avec l'écosystème Isaac Lab pour l'entraînement par renforcement, tandis que Genesis (dévoilé en 2024, affilié MIT) et MuJoCo Playground ciblent eux aussi la simulation GPU-accélérée à grande échelle. L'approche présentée ici se distingue par son orientation service (SOA) et sa couche de gestion de données unifiée, pensée pour des déploiements multi-équipes plutôt qu'un usage chercheur individuel. Les auteurs ne précisent pas d'affiliation institutionnelle clairement identifiable ni de calendrier de mise à disposition publique du code, deux points qui limiteront concrètement l'adoption tant qu'ils resteront non documentés.

RechercheOpinion

1 source

Automatisation intelligente pour la construction de benchmarks en IA incarnée : pipelines, morphologies, simulateurs et tendances

À lire aussi

GASE : système automatisé basé sur le Gaussian Splatting pour la reconstruction d'environnements de simulation incarnée

IA incarnée : automatisation de la conception d'architectures d'agents

EmbodiedGen V2 : un moteur de monde 3D à base d'agents, prêt pour la simulation, pour l'IA incarnée

Infrastructure de simulation cloud-native évolutive, reproductible et en boucle fermée pour l'IA incarnée