Aller au contenu principal
ReaDy-Go : simulation dynamique réel-vers-sim par Gaussian Splatting 3D pour la navigation visuelle avec obstacles mobiles
RecherchearXiv cs.RO3h

ReaDy-Go : simulation dynamique réel-vers-sim par Gaussian Splatting 3D pour la navigation visuelle avec obstacles mobiles

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Des chercheurs présentent dans un preprint arXiv (référence 2602.11575, troisième version) un pipeline baptisé ReaDy-Go qui vise à combler l'écart simulation-réalité pour la navigation visuelle robotique en environnements dynamiques. Le principe : reconstruire une scène réelle cible (domicile, restaurant, usine) sous forme de nuage de gaussiennes 3D (Gaussian Splatting, ou GS), puis y insérer des avatars humains animables, eux aussi représentés en GS photoreáliste, dont les mouvements sont synthétisés à partir de trajectoires 2D. Un planificateur expert dédié aux représentations GS dynamiques, couplé à un planificateur humain, génère ensuite automatiquement des milliers de scénarios de navigation depuis des points de vue arbitraires. Les politiques de navigation entraînées sur ces datasets sont ensuite déployées sur robot physique. Les auteurs rapportent des gains de performance en simulation et en conditions réelles face à des obstacles mobiles, ainsi qu'un transfert zero-shot dans un environnement inédit, ce qui suggère une capacité de généralisation au-delà des scènes d'entraînement.

L'enjeu industriel est significatif pour les intégrateurs de robots de service et les concepteurs de systèmes AMR (autonomous mobile robots) en environnements non contrôlés. Le verrou principal que ReaDy-Go cherche à lever est double : les méthodes classiques souffrent d'un sim-to-real gap important parce que les scènes d'entraînement sont génériques, et les obstacles dynamiques y sont soit absents, soit représentés par des mannequins non photoréalistes issus de simulateurs comme Isaac Sim ou Gazebo. En ancrant la simulation dans une reconstruction GS de l'environnement cible réel et en peuplant cette scène d'avatars humains photoréalistes et cinématiquement plausibles, l'approche réduit la distance de distribution entre entraînement et déploiement. Il s'agit d'une contribution méthodologique, pas d'un produit commercialisé ; les résultats restent à ce stade des démonstrations académiques, et les métriques annoncées (temps de cycle, taux de succès) gagneraient à être contextualisées par des conditions de test plus variées.

Le Gaussian Splatting a émergé comme technique de reconstruction 3D rapide et photoréaliste depuis les travaux de Kerbl et al. en 2023, et plusieurs groupes l'ont depuis exploré pour la simulation robotique, notamment pour la manipulation (voir les travaux de RoboGSim ou GaussianWorld). ReaDy-Go se distingue en ciblant la navigation en présence de piétons, un cas d'usage critique pour les robots de livraison indoor et les plateformes de service en espace public. Sur ce segment, les concurrents directs incluent les pipelines basés sur NeRF (plus lents à l'entraînement), les simulateurs procéduraux type NVIDIA Omniverse, et des approches comme UniSim ou HabitatSim. Aucun acteur européen n'est cité dans le preprint, mais des équipes comme Enchanted Tools (robotique de service, France) ou les labos de navigation de l'INRIA pourraient trouver dans ReaDy-Go une brique de simulation réutilisable. La page projet est accessible et le code pourrait être publié ; les prochaines étapes naturelles seraient des tests à plus grande échelle avec diversité de populations et d'environnements, et une intégration dans des stacks de navigation open-source comme Nav2.

Impact France/UE

Cette méthode de simulation photoréaliste à base de Gaussian Splatting pourrait être réutilisée par des équipes européennes de navigation robotique (INRIA, Enchanted Tools) pour réduire le sim-to-real gap sans dépendre de simulateurs propriétaires comme Isaac Sim ou NVIDIA Omniverse.

À lire aussi

Détection structurelle en temps réel pour la navigation intérieure par LiDAR 3D avec images en vue aérienne
1arXiv cs.RO 

Détection structurelle en temps réel pour la navigation intérieure par LiDAR 3D avec images en vue aérienne

Des chercheurs ont publié sur arXiv (arXiv:2603.19830v2) un pipeline de perception léger capable de détecter en temps réel les structures d'un environnement intérieur à partir de données LiDAR 3D, sans recourir à un GPU. Le principe : projeter le nuage de points 3D en images Bird's-Eye-View (BEV) 2D, puis appliquer un détecteur sur cette représentation compressée. L'équipe a comparé quatre approches de détection de structures (murs, couloirs, portes) : la transformée de Hough, RANSAC, LSD (Line Segment Detector) et un réseau YOLO-OBB (Oriented Bounding Box). Les expériences ont été conduites sur une plateforme robotique mobile standard équipée d'un single-board computer (SBC) à faible consommation. Résultat : YOLO-OBB est la seule méthode à satisfaire la contrainte temps réel de 10 Hz en bout de chaîne, là où RANSAC dépasse les budgets de latence et LSD génère une fragmentation excessive de segments qui sature le système. Un module de fusion spatiotemporelle stabilise les détections entre frames consécutives. L'intérêt opérationnel est direct pour les intégrateurs de robots mobiles autonomes (AMR) fonctionnant sur du matériel embarqué standard, typiquement des SBC ARM sans accélérateur dédié. Démontrer qu'un détecteur basé YOLO-OBB tient 10 Hz sur ce type de plateforme réduit le coût matériel des solutions de cartographie et navigation indoor, un verrou persistant dans le déploiement à grande échelle d'AMR en entrepôt ou en milieu hospitalier. L'approche BEV contourne également la complexité computationnelle des traitements de nuages de points 3D complets (méthodes de type PointNet, VoxelNet), qui restent prohibitifs hors GPU. La mise à disposition du code source et des modèles pré-entraînés facilite la reproductibilité et l'adaptation industrielle. Ce travail s'inscrit dans un courant de recherche actif visant à rendre la perception robotique robuste accessibles aux plateformes contraintes en ressources, en concurrence directe avec des approches comme les architectures 2D range-image ou les méthodes pillars (PointPillars). Sur le plan de la navigation indoor, il complète des stacks SLAM existants (Cartographer, RTAB-Map) en ajoutant une couche de détection structurelle explicite, utile pour la planification de trajectoires en espaces semi-structurés. Les prochaines étapes logiques incluent la validation sur des scénarios plus denses (open space vs couloirs étroits), ainsi que l'intégration dans des boucles de localisation et cartographie continues, où la stabilité temporelle du module de fusion sera mise à l'épreuve à plus grande échelle.

RecherchePaper
1 source
Gaussian Splatting latent pour le suivi d'occupation panoptique 4D
2arXiv cs.RO 

Gaussian Splatting latent pour le suivi d'occupation panoptique 4D

Des chercheurs de l'Université de Fribourg-en-Brisgau (Allemagne) ont publié LaGS (Latent Gaussian Splatting), une méthode de suivi panoptique d'occupation en 4D référencée arXiv:2602.23172. L'objectif : capturer simultanément la géométrie volumétrique 3D d'une scène dynamique et les associations temporelles entre instances sur des séquences multi-caméras. La méthode modélise les caractéristiques 3D sous forme d'un ensemble épars de Gaussiennes porteuses de features, soit des points-clés volumétriques dynamiques qui agrègent les informations multi-vues via une pondération spatiale continue, avant d'être projetées dans une grille de voxels pour décodage. Une représentation hiérarchique combine des super-points grossiers pour le contexte global et des flux haute résolution pour les détails fins. Sur les benchmarks Occ3D nuScenes et Waymo Open Dataset, références standards pour la perception 3D en conduite autonome, LaGS atteint des performances état de l'art sur la tâche 4D-POT. Code et modèles sont publiés en open source. L'enjeu est précis : les systèmes existants tranchaient entre deux compromis peu satisfaisants. Les méthodes de suivi par boîtes englobantes offrent une association temporelle d'instances mais perdent la géométrie fine. Les approches d'occupation 3D dense restituent la forme des objets sans raisonnement explicite au niveau instance ni association temporelle fiable. LaGS comble ce gap en introduisant des champs récepteurs adaptatifs dépendants des données et des interactions spatiales longue portée, deux limitations connues des opérateurs voxels locaux denses. Pour un intégrateur développant un pipeline de planification de trajectoire ou de prédiction de mouvement pour véhicule autonome ou robot mobile, disposer d'une représentation unifiée panoptique-temporelle réduit le nombre de modules et les sources de désynchronisation. La méthode s'inscrit dans la vague des approches Gaussian Splatting initiée par les travaux 3DGS de Kerbl et al. en 2023, aujourd'hui détournés de la reconstruction de scènes statiques vers la perception dynamique. L'Université de Fribourg-en-Brisgau, acteur européen reconnu en robotique et vision par ordinateur, positionne LaGS face aux méthodes concurrentes basées sur les réseaux BEV, les grilles voxels récurrentes ou les approches NeRF temporelles. La publication en version 2 (révision post-soumission initiale de février 2026) avec code ouvert facilite la reproduction. Les prochaines étapes naturelles incluent l'intégration dans des pipelines embarqués et l'évaluation sur des jeux de données intérieurs pour la robotique mobile en entrepôt.

UEL'Université de Fribourg-en-Brisgau (UE) publie LaGS en open source avec code et modèles, offrant aux équipes européennes de robotique mobile et de véhicule autonome une base reproductible pour unifier suivi d'instances et occupation 3D dense dans leurs pipelines de perception.

RecherchePaper
1 source
GASE : système automatisé basé sur le Gaussian Splatting pour la reconstruction d'environnements de simulation incarnée
3arXiv cs.RO 

GASE : système automatisé basé sur le Gaussian Splatting pour la reconstruction d'environnements de simulation incarnée

Une équipe de chercheurs a publié fin juin 2026 un système baptisé GASE (Gaussian Splatting-Based Automated System for Reconstructing Embodied-Simulation Environments), conçu pour automatiser la construction de scènes de simulation photoréalistes destinées à l'entraînement de robots. Le pipeline exploite des réseaux de caméras panoramiques multivues pour capturer l'environnement réel, extrait automatiquement les objets de premier plan via une stratégie basée sur les poses de caméras dans le domaine 2D, puis reconstruit séparément objets et arrière-plan statique par 3D Gaussian Splatting avant de les importer dans un simulateur physique avec inpainting haute-fidélité des zones manquantes. Sur des benchmarks de segmentation, GASE surpasse les méthodes 3DGS concurrentes de plus de 10 %. Surtout, lors de déploiements réels sur des tâches de manipulation et de navigation, les politiques entraînées en simulation n'affichent qu'un écart de performance inférieur à 10 % par rapport à celles entraînées sur données réelles, arXiv:2606.17520. Ce résultat chiffré est l'argument central du papier. Le sim-to-real gap, soit la dégradation des performances lors du passage du simulateur au robot physique, reste l'un des obstacles majeurs au déploiement à grande échelle de l'apprentissage robotique. Un écart sous les 10 % suggère que la simulation générée automatiquement depuis des scans réels peut constituer un vecteur de data augmentation viable, réduisant la dépendance à des opérateurs qualifiés et à du matériel coûteux pour la collecte terrain. Pour les intégrateurs et les industriels engagés dans des projets de manipulation ou de navigation autonome, la promesse est de compresser significativement le coût des pipelines d'entraînement, à condition que la méthode tienne à l'échelle et sur des environnements plus complexes que ceux testés. GASE s'inscrit dans la trajectoire tracée par l'émergence du 3D Gaussian Splatting en 2023 comme alternative temps-réel aux NeRF pour la reconstruction de scènes. Les approches concurrentes, notamment SplatSim, Gaussian Grouping et les pipelines d'assets manuels dans Isaac Sim ou MuJoCo, progressent en parallèle, mais l'automatisation complète de l'acquisition jusqu'à l'import simulateur reste un problème ouvert. Le preprint ne mentionne ni institution ni partenaires industriels, ce qui rend difficile l'évaluation des perspectives de transfert applicatif. Le code doit être publié ultérieurement mais n'est pas encore disponible au moment de la soumission. Le périmètre limité des tâches testées et l'absence de comparaison avec des environnements synthétiques construits manuellement laissent plusieurs questions ouvertes à la communauté.

RecherchePaper
1 source
Gaussian Splatting anticipatif pour la représentation 3D prédictive en prise-et-dépose guidée par le langage
4arXiv cs.RO 

Gaussian Splatting anticipatif pour la représentation 3D prédictive en prise-et-dépose guidée par le langage

Une équipe de chercheurs a proposé sur arXiv (arXiv:2605.11144, mai 2026) un framework baptisé Forecast-GS (Forecast-aware Gaussian Splatting), destiné à la manipulation robotique guidée par le langage naturel. La contribution centrale consiste à modéliser explicitement l'état final attendu d'une tâche via une reconstruction 3D prédictive par Gaussian Splatting, plutôt que de raisonner uniquement sur la configuration courante de la scène. Validé sur trois tâches réelles de pick-and-place (cutter-vers-boîte, pomme-vers-bol, éponge-vers-plateau), le système atteint des taux de succès de 84 % (21/25), 92 % (23/25) et 64 % (16/25) en sélection automatique, contre 60 %, 76 % et 40 % pour la baseline ReKep (Relational Keypoint Constraints). En mode assisté par un opérateur humain pour le classement des candidats, les taux montent à 92 %, 96 % et 76 %, chaque condition étant testée sur 25 essais réels avec configurations initiales variées sur la même plateforme robotique. L'enjeu pratique est le suivant : la plupart des systèmes de manipulation actuels évaluent si une action est faisable depuis l'état présent, sans vérifier si l'état résultant satisfait l'objectif sémantique. Forecast-GS génère une prévision 3D de la scène post-action, que le robot compare à l'instruction en langage naturel avant d'exécuter, ce qui réduit les erreurs en présence d'observations partielles ou d'occlusions. Pour un intégrateur industriel, l'interprétabilité de ce mécanisme, contrairement aux politiques VLA end-to-end comme Pi-0 (Physical Intelligence) ou GR00T N2 (NVIDIA), facilite le débogage et la traçabilité. L'écart persistant entre mode automatique et assisté (jusqu'à 12 points de taux de succès) indique cependant que le ranking final des candidats n'est pas encore un problème résolu. Le Gaussian Splatting, introduit en 2023 par Kerbl et al. à SIGGRAPH, a été rapidement adopté en robotique pour ses représentations 3D différentiables et compactes. Forecast-GS s'inscrit dans un courant qui hybride représentations neuronales 3D et planification guidée par le langage, en compétition directe avec ReKep (Stanford/Berkeley), SpatialVLA, et les approches VLA génératives. Aucun partenariat industriel ni calendrier de déploiement n'est mentionné dans la publication. Les prochaines étapes logiques portent sur l'amélioration du classement automatique, principal goulot d'étranglement vers l'autonomie complète, et sur l'extension à des scènes dynamiques plus complexes que les configurations statiques de laboratoire utilisées ici.

RecherchePaper
1 source