Aller au contenu principal
RecherchearXiv cs.RO1h

GASE : système automatisé basé sur le Gaussian Splatting pour la reconstruction d'environnements de simulation incarnée

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Une équipe de chercheurs a publié fin juin 2026 un système baptisé GASE (Gaussian Splatting-Based Automated System for Reconstructing Embodied-Simulation Environments), conçu pour automatiser la construction de scènes de simulation photoréalistes destinées à l'entraînement de robots. Le pipeline exploite des réseaux de caméras panoramiques multivues pour capturer l'environnement réel, extrait automatiquement les objets de premier plan via une stratégie basée sur les poses de caméras dans le domaine 2D, puis reconstruit séparément objets et arrière-plan statique par 3D Gaussian Splatting avant de les importer dans un simulateur physique avec inpainting haute-fidélité des zones manquantes. Sur des benchmarks de segmentation, GASE surpasse les méthodes 3DGS concurrentes de plus de 10 %. Surtout, lors de déploiements réels sur des tâches de manipulation et de navigation, les politiques entraînées en simulation n'affichent qu'un écart de performance inférieur à 10 % par rapport à celles entraînées sur données réelles, arXiv:2606.17520.

Ce résultat chiffré est l'argument central du papier. Le sim-to-real gap, soit la dégradation des performances lors du passage du simulateur au robot physique, reste l'un des obstacles majeurs au déploiement à grande échelle de l'apprentissage robotique. Un écart sous les 10 % suggère que la simulation générée automatiquement depuis des scans réels peut constituer un vecteur de data augmentation viable, réduisant la dépendance à des opérateurs qualifiés et à du matériel coûteux pour la collecte terrain. Pour les intégrateurs et les industriels engagés dans des projets de manipulation ou de navigation autonome, la promesse est de compresser significativement le coût des pipelines d'entraînement, à condition que la méthode tienne à l'échelle et sur des environnements plus complexes que ceux testés.

GASE s'inscrit dans la trajectoire tracée par l'émergence du 3D Gaussian Splatting en 2023 comme alternative temps-réel aux NeRF pour la reconstruction de scènes. Les approches concurrentes, notamment SplatSim, Gaussian Grouping et les pipelines d'assets manuels dans Isaac Sim ou MuJoCo, progressent en parallèle, mais l'automatisation complète de l'acquisition jusqu'à l'import simulateur reste un problème ouvert. Le preprint ne mentionne ni institution ni partenaires industriels, ce qui rend difficile l'évaluation des perspectives de transfert applicatif. Le code doit être publié ultérieurement mais n'est pas encore disponible au moment de la soumission. Le périmètre limité des tâches testées et l'absence de comparaison avec des environnements synthétiques construits manuellement laissent plusieurs questions ouvertes à la communauté.

À lire aussi

Reconstruction simulation-réel pour environnements très encombrés via raisonnement physique inter-objets
1arXiv cs.RO 

Reconstruction simulation-réel pour environnements très encombrés via raisonnement physique inter-objets

Une équipe de recherche présente un pipeline Real-to-Sim capable de reconstruire des scènes 3D physiquement cohérentes à partir d'une seule image RGB-D, c'est-à-dire une capture combinant couleur et profondeur. L'approche, décrite dans un preprint arXiv (2602.12633, version 2), cible spécifiquement les environnements très encombrés où la manipulation robotique exige une compréhension précise des contacts entre objets. Le coeur du système repose sur un pipeline d'optimisation différentiable qui modélise les dépendances spatiales via un graphe de contact : chaque relation physique entre objets adjacents est représentée explicitement, puis les poses et propriétés physiques de chaque objet sont affinées conjointement par simulation de corps rigides différentiable. Les évaluations couvrent des scènes simulées et des environnements réels. Ce travail s'attaque à un problème concret qui bloque les déploiements de manipulation robotique en contexte industriel désorganisé : les pipelines de perception standard produisent régulièrement des états invalides, objets en lévitation ou interpénétrations géométriques, qui rendent la simulation en aval peu fiable et donc inutilisable pour planifier des saisies ou des déplacements. En forçant la cohérence physique dès la reconstruction, le pipeline permet d'obtenir des scènes simulées qui reproduisent fidèlement la dynamique de contact du monde réel. Pour les intégrateurs et les équipes de recherche en manipulation, c'est une brique clé pour réduire le fossé sim-to-real sans recourir à des setups multicaméras coûteux ou à des annotations manuelles. La reconstruction Real-to-Sim est un chantier actif dans la communauté robotique depuis l'essor des pipelines sim-to-real pour l'apprentissage par renforcement et l'imitation. Des approches concurrentes s'appuient sur des reconstructions NeRF ou des méthodes basées Gaussian Splatting pour obtenir la fidélité géométrique, mais elles n'intègrent pas nécessairement de contraintes physiques explicites. Ce pipeline différentiable se distingue en traitant le raisonnement inter-objets comme une contrainte d'optimisation, pas comme une post-correction. Les prochaines étapes naturelles incluent l'intégration dans des pipelines de planification de manipulation contact-rich et le test sur des scènes industrielles réelles, où le désordre et les occlusions partielles sont la norme plutôt que l'exception.

RecherchePaper
1 source
Automatisation intelligente pour la construction de benchmarks en IA incarnée : pipelines, morphologies, simulateurs et tendances
2arXiv cs.RO 

Automatisation intelligente pour la construction de benchmarks en IA incarnée : pipelines, morphologies, simulateurs et tendances

Un article de synthèse déposé sur arXiv (identifiant 2606.12207) en juin 2026 cartographie les méthodes de construction de benchmarks pour l'intelligence incarnée, un domaine couvrant désormais la navigation, l'assistance domestique, la manipulation robotique, la conduite autonome, les agents aériens et le contrôle par grands modèles multimodaux. Les auteurs structurent leur analyse autour d'un pipeline en cinq étapes : définition des exigences et des tâches, acquisition des données, nettoyage et annotation, génération de la suite d'évaluation avec définition des métriques, puis exécution avec retour diagnostique. Pour chaque étape, l'étude compare la curation manuelle, l'automatisation traditionnelle, l'assistance par modèles de fondation et les workflows en boucle fermée pilotés par agents. Les coûts de construction sont analysés selon six axes : main-d'oeuvre humaine, acquisition de données et d'assets, calcul et simulation, validation et débogage, gouvernance et maintenance, et risque de rework. La conclusion centrale remet en cause l'hypothèse selon laquelle automatiser la construction de benchmarks réduirait mécaniquement les coûts. Les auteurs montrent qu'elle déplace les dépenses vers la validation, l'auditabilité, la gestion de versions et la gouvernance à long terme. Pour les équipes de recherche et les industriels qui s'appuient sur ces benchmarks pour comparer des systèmes (bras manipulateurs, humanoïdes, AMR), cela signifie qu'un benchmark peu coûteux à générer peut devenir onéreux à maintenir. Le risque de rework, souvent sous-estimé, est identifié comme le poste de coût le plus variable selon la stratégie de construction choisie. Ce survey s'inscrit dans un contexte de prolifération rapide des systèmes incarnés où les évaluations sur jeux de données statiques ne suffisent plus à capturer la complexité d'environnements dynamiques réels. La question est directement pertinente pour les VLA (Vision-Language-Action models) en cours de déploiement chez Figure, 1X, Agility ou Physical Intelligence (Pi-0), dont les performances dépendent de benchmarks robustes et maintenables. Le cadre d'analyse proposé s'applique aux initiatives de benchmarking publiées par Google DeepMind, Meta FAIR ou le Stanford HAI. La thèse centrale : les progrès en évaluation robotique dépendront autant de la qualité des pipelines de construction, auditables et actualisables, que de la taille des suites de tests elles-mêmes.

RecherchePaper
1 source
eMEM : un système de mémoire spatio-temporelle hybride pour agents à base d'IA incarnée
3arXiv cs.RO 

eMEM : un système de mémoire spatio-temporelle hybride pour agents à base d'IA incarnée

Une équipe de recherche a déposé sur arXiv (arXiv:2606.03374, juin 2026) un système de mémoire baptisé eMEM (Embodied Memory), conçu spécifiquement pour les agents incarnés opérant dans des environnements physiques. Contrairement aux architectures existantes comme Generative Agents, MemGPT ou A-MEM, qui stockent la mémoire sous forme de flux textuels ou de graphes de connaissances, eMEM propose une architecture multi-index combinant SQLite pour le stockage structuré, hnswlib pour la recherche sémantique par voisins les plus proches (ANN), et un R-tree pour les requêtes spatiales, le tout unifié derrière un modèle de graphe unique. Un pipeline de consolidation par niveaux transforme les observations perceptuelles brutes en résumés compressés, en s'inspirant explicitement de la consolidation hippocampo-néocorticale observée chez les mammifères. Dix outils de rappel, exposés en natif au LLM, couvrent des primitives comme la résolution concept-vers-localisation ou le rappel inter-couches. Le système tourne entièrement en mémoire vive, en co-processus avec l'agent. Sur eMEM-Bench v1, un benchmark construit sur les scènes ProcTHOR-10K autour de huit paradigmes de psychologie cognitive (leurres DRM, séparation de patterns, complétion de patterns, surveillance de source, récupération dépendante du contexte, interférence à long horizon, position sérielle, courbe de rétention augmentée par des distracteurs), eMEM atteint un score pondéré moyen de 80,8 sur 988 sondes, avec une courbe de rétention plate au plafond de 1 heure à 1 an de délai simulé sur des objets uniques par pièce. Ce résultat est significatif parce qu'il isole deux problèmes structurels des approches purement RAG : une baseline flat_rag perd 30 points sur la récupération dépendante du contexte et 29 points sur le rejet des leurres DRM, ce qui valide respectivement la contribution du stockage multi-couches et du pipeline de consolidation. Pour les intégrateurs qui déploient des agents dans des environnements industriels ou domestiques complexes, cela met en évidence un angle mort majeur : un robot ou un agent LLM utilisant une récupération sémantique plate ne peut pas distinguer "le tiroir où j'ai vu les pinces hier dans cette pièce" de "les pinces en général". L'indexation spatiale couplée à la consolidation temporelle est ce qui permet à eMEM de maintenir des performances constantes sur de longues fenêtres simulées, là où les systèmes actuels dégradent. Le choix de benchmarker sur des paradigmes issus de la psychologie cognitive humaine est méthodologiquement solide : il rend les résultats comparables à la littérature sur la mémoire biologique, ce que des benchmarks surfaciques comme LoCoMo ou OpenEQA ne permettent pas. eMEM s'inscrit dans une vague de travaux sur la mémoire à long terme pour agents LLM, portée notamment par Generative Agents (Park et al., 2023) et MemGPT (Packer et al., 2023), qui ont posé les bases mais restent aveugles à la dimension spatiale, critique pour les robots physiques. L'environnement ProcTHOR-10K offre des scènes intérieures procédurales variées, mais les performances en transfert vers des environnements réels restent entièrement à démontrer : le sim-to-real gap s'applique autant aux systèmes de mémoire qu'aux politiques motrices. Le code du système et du benchmark est rendu public, ouvrant la voie à des évaluations indépendantes. Aucun partenariat industriel ni déploiement terrain n'est mentionné : c'est une contribution académique, pas un produit. Les étapes suivantes naturelles seraient de valider eMEM sur des plateformes embarquées à mémoire contrainte et de tester sa robustesse dans des scènes dynamiques où les objets se déplacent entre deux requêtes.

RecherchePaper
1 source
Apprentissage de modèles du monde par Gaussian Splatting centrés sur les objets et conditionnés par les actions pour objets rigides
4arXiv cs.RO 

Apprentissage de modèles du monde par Gaussian Splatting centrés sur les objets et conditionnés par les actions pour objets rigides

Une équipe de chercheurs publie MRO-GWM (Multi Rigid Object Gaussian World Model), un modèle de monde action-conditionnel capable de prédire en 3D les effets des actions d'un robot sur des objets rigides. Déposé sur arXiv (réf. 2606.01950), le travail combine Gaussian splatting et apprentissage de dynamique : chaque objet de la scène est décrit par un ensemble de gaussiennes dans un référentiel canonique propre, son mouvement étant modélisé comme une transformation de corps rigide (rotation et translation). Un transformateur spatio-temporel prédit la trajectoire future des objets à partir de leur historique gaussien et des actions planifiées par le robot. L'architecture gère les occlusions partielles grâce à un entraînement sur reconstructions multi-vues. Les évaluations portent sur des datasets synthétiques d'objets ménagers en interaction avec un effecteur robot, et sur des tâches de manipulation non préhensile (pousser un objet sans le saisir) dans le cadre d'un contrôle prédictif par modèle (MPC), le tout exclusivement en simulation. L'association de modèles de monde action-conditionnels et de Gaussian splatting est pertinente : les premiers permettent de planifier sans essai-erreur coûteux, le second offre une représentation 3D différentiable adaptée à des géométries complexes sans maillage explicite. La décomposition objet-centrique améliore en théorie la généralisation à de nouvelles configurations de scène, contrairement aux encodages holistes. La validation sur manipulation non préhensile est notable car pousser un objet vers une cible est considéré comme un benchmark difficile : les contacts sont instables et mal modélisés par la plupart des simulateurs physiques. Ces résultats restent toutefois entièrement simulés et limités aux objets strictement rigides, sans aucun transfert sim-to-real documenté. Le Gaussian splatting connaît une adoption rapide en robotique depuis la publication de 3DGS (Kerbl et al., 2023), avec des travaux concurrents comme SplatSim, GaussianWorld ou des approches combinant NeRF et planification. MRO-GWM se distingue par son traitement explicite de la dynamique multi-objets avec interactions physiques, un axe moins couvert que la navigation ou la préhension isolée. Le gap sim-to-real demeure le verrou principal : une validation sur bras réel (type Franka ou UR5) constituerait l'étape naturelle, tout comme une extension aux objets articulés ou semi-rigides, aujourd'hui hors périmètre du modèle.

RecherchePaper
1 source