RecherchearXiv cs.RO2j

Gaussian Splatting latent pour le suivi d'occupation panoptique 4D

1 source couvre ce sujet·Source originale ↗·

Résumé IASource uniqueImpact UE

Des chercheurs de l'Université de Fribourg-en-Brisgau (Allemagne) ont publié LaGS (Latent Gaussian Splatting), une méthode de suivi panoptique d'occupation en 4D référencée arXiv:2602.23172. L'objectif : capturer simultanément la géométrie volumétrique 3D d'une scène dynamique et les associations temporelles entre instances sur des séquences multi-caméras. La méthode modélise les caractéristiques 3D sous forme d'un ensemble épars de Gaussiennes porteuses de features, soit des points-clés volumétriques dynamiques qui agrègent les informations multi-vues via une pondération spatiale continue, avant d'être projetées dans une grille de voxels pour décodage. Une représentation hiérarchique combine des super-points grossiers pour le contexte global et des flux haute résolution pour les détails fins. Sur les benchmarks Occ3D nuScenes et Waymo Open Dataset, références standards pour la perception 3D en conduite autonome, LaGS atteint des performances état de l'art sur la tâche 4D-POT. Code et modèles sont publiés en open source.

L'enjeu est précis : les systèmes existants tranchaient entre deux compromis peu satisfaisants. Les méthodes de suivi par boîtes englobantes offrent une association temporelle d'instances mais perdent la géométrie fine. Les approches d'occupation 3D dense restituent la forme des objets sans raisonnement explicite au niveau instance ni association temporelle fiable. LaGS comble ce gap en introduisant des champs récepteurs adaptatifs dépendants des données et des interactions spatiales longue portée, deux limitations connues des opérateurs voxels locaux denses. Pour un intégrateur développant un pipeline de planification de trajectoire ou de prédiction de mouvement pour véhicule autonome ou robot mobile, disposer d'une représentation unifiée panoptique-temporelle réduit le nombre de modules et les sources de désynchronisation.

La méthode s'inscrit dans la vague des approches Gaussian Splatting initiée par les travaux 3DGS de Kerbl et al. en 2023, aujourd'hui détournés de la reconstruction de scènes statiques vers la perception dynamique. L'Université de Fribourg-en-Brisgau, acteur européen reconnu en robotique et vision par ordinateur, positionne LaGS face aux méthodes concurrentes basées sur les réseaux BEV, les grilles voxels récurrentes ou les approches NeRF temporelles. La publication en version 2 (révision post-soumission initiale de février 2026) avec code ouvert facilite la reproduction. Les prochaines étapes naturelles incluent l'intégration dans des pipelines embarqués et l'évaluation sur des jeux de données intérieurs pour la robotique mobile en entrepôt.

Impact France/UE

L'Université de Fribourg-en-Brisgau (UE) publie LaGS en open source avec code et modèles, offrant aux équipes européennes de robotique mobile et de véhicule autonome une base reproductible pour unifier suivi d'instances et occupation 3D dense dans leurs pipelines de perception.

Dans nos dossiers

arXiv cs.RO

À lire aussi

1arXiv cs.RO

Gaussian Splatting anticipatif pour la représentation 3D prédictive en prise-et-dépose guidée par le langage

Une équipe de chercheurs a proposé sur arXiv (arXiv:2605.11144, mai 2026) un framework baptisé Forecast-GS (Forecast-aware Gaussian Splatting), destiné à la manipulation robotique guidée par le langage naturel. La contribution centrale consiste à modéliser explicitement l'état final attendu d'une tâche via une reconstruction 3D prédictive par Gaussian Splatting, plutôt que de raisonner uniquement sur la configuration courante de la scène. Validé sur trois tâches réelles de pick-and-place (cutter-vers-boîte, pomme-vers-bol, éponge-vers-plateau), le système atteint des taux de succès de 84 % (21/25), 92 % (23/25) et 64 % (16/25) en sélection automatique, contre 60 %, 76 % et 40 % pour la baseline ReKep (Relational Keypoint Constraints). En mode assisté par un opérateur humain pour le classement des candidats, les taux montent à 92 %, 96 % et 76 %, chaque condition étant testée sur 25 essais réels avec configurations initiales variées sur la même plateforme robotique. L'enjeu pratique est le suivant : la plupart des systèmes de manipulation actuels évaluent si une action est faisable depuis l'état présent, sans vérifier si l'état résultant satisfait l'objectif sémantique. Forecast-GS génère une prévision 3D de la scène post-action, que le robot compare à l'instruction en langage naturel avant d'exécuter, ce qui réduit les erreurs en présence d'observations partielles ou d'occlusions. Pour un intégrateur industriel, l'interprétabilité de ce mécanisme, contrairement aux politiques VLA end-to-end comme Pi-0 (Physical Intelligence) ou GR00T N2 (NVIDIA), facilite le débogage et la traçabilité. L'écart persistant entre mode automatique et assisté (jusqu'à 12 points de taux de succès) indique cependant que le ranking final des candidats n'est pas encore un problème résolu. Le Gaussian Splatting, introduit en 2023 par Kerbl et al. à SIGGRAPH, a été rapidement adopté en robotique pour ses représentations 3D différentiables et compactes. Forecast-GS s'inscrit dans un courant qui hybride représentations neuronales 3D et planification guidée par le langage, en compétition directe avec ReKep (Stanford/Berkeley), SpatialVLA, et les approches VLA génératives. Aucun partenariat industriel ni calendrier de déploiement n'est mentionné dans la publication. Les prochaines étapes logiques portent sur l'amélioration du classement automatique, principal goulot d'étranglement vers l'autonomie complète, et sur l'extension à des scènes dynamiques plus complexes que les configurations statiques de laboratoire utilisées ici.

RecherchePaper

1 source

2arXiv cs.RO

GASE : système automatisé basé sur le Gaussian Splatting pour la reconstruction d'environnements de simulation incarnée

Une équipe de chercheurs a publié fin juin 2026 un système baptisé GASE (Gaussian Splatting-Based Automated System for Reconstructing Embodied-Simulation Environments), conçu pour automatiser la construction de scènes de simulation photoréalistes destinées à l'entraînement de robots. Le pipeline exploite des réseaux de caméras panoramiques multivues pour capturer l'environnement réel, extrait automatiquement les objets de premier plan via une stratégie basée sur les poses de caméras dans le domaine 2D, puis reconstruit séparément objets et arrière-plan statique par 3D Gaussian Splatting avant de les importer dans un simulateur physique avec inpainting haute-fidélité des zones manquantes. Sur des benchmarks de segmentation, GASE surpasse les méthodes 3DGS concurrentes de plus de 10 %. Surtout, lors de déploiements réels sur des tâches de manipulation et de navigation, les politiques entraînées en simulation n'affichent qu'un écart de performance inférieur à 10 % par rapport à celles entraînées sur données réelles, arXiv:2606.17520. Ce résultat chiffré est l'argument central du papier. Le sim-to-real gap, soit la dégradation des performances lors du passage du simulateur au robot physique, reste l'un des obstacles majeurs au déploiement à grande échelle de l'apprentissage robotique. Un écart sous les 10 % suggère que la simulation générée automatiquement depuis des scans réels peut constituer un vecteur de data augmentation viable, réduisant la dépendance à des opérateurs qualifiés et à du matériel coûteux pour la collecte terrain. Pour les intégrateurs et les industriels engagés dans des projets de manipulation ou de navigation autonome, la promesse est de compresser significativement le coût des pipelines d'entraînement, à condition que la méthode tienne à l'échelle et sur des environnements plus complexes que ceux testés. GASE s'inscrit dans la trajectoire tracée par l'émergence du 3D Gaussian Splatting en 2023 comme alternative temps-réel aux NeRF pour la reconstruction de scènes. Les approches concurrentes, notamment SplatSim, Gaussian Grouping et les pipelines d'assets manuels dans Isaac Sim ou MuJoCo, progressent en parallèle, mais l'automatisation complète de l'acquisition jusqu'à l'import simulateur reste un problème ouvert. Le preprint ne mentionne ni institution ni partenaires industriels, ce qui rend difficile l'évaluation des perspectives de transfert applicatif. Le code doit être publié ultérieurement mais n'est pas encore disponible au moment de la soumission. Le périmètre limité des tâches testées et l'absence de comparaison avec des environnements synthétiques construits manuellement laissent plusieurs questions ouvertes à la communauté.

RecherchePaper

1 source

3arXiv cs.RO

Apprentissage de modèles du monde par Gaussian Splatting centrés sur les objets et conditionnés par les actions pour objets rigides

Une équipe de chercheurs publie MRO-GWM (Multi Rigid Object Gaussian World Model), un modèle de monde action-conditionnel capable de prédire en 3D les effets des actions d'un robot sur des objets rigides. Déposé sur arXiv (réf. 2606.01950), le travail combine Gaussian splatting et apprentissage de dynamique : chaque objet de la scène est décrit par un ensemble de gaussiennes dans un référentiel canonique propre, son mouvement étant modélisé comme une transformation de corps rigide (rotation et translation). Un transformateur spatio-temporel prédit la trajectoire future des objets à partir de leur historique gaussien et des actions planifiées par le robot. L'architecture gère les occlusions partielles grâce à un entraînement sur reconstructions multi-vues. Les évaluations portent sur des datasets synthétiques d'objets ménagers en interaction avec un effecteur robot, et sur des tâches de manipulation non préhensile (pousser un objet sans le saisir) dans le cadre d'un contrôle prédictif par modèle (MPC), le tout exclusivement en simulation. L'association de modèles de monde action-conditionnels et de Gaussian splatting est pertinente : les premiers permettent de planifier sans essai-erreur coûteux, le second offre une représentation 3D différentiable adaptée à des géométries complexes sans maillage explicite. La décomposition objet-centrique améliore en théorie la généralisation à de nouvelles configurations de scène, contrairement aux encodages holistes. La validation sur manipulation non préhensile est notable car pousser un objet vers une cible est considéré comme un benchmark difficile : les contacts sont instables et mal modélisés par la plupart des simulateurs physiques. Ces résultats restent toutefois entièrement simulés et limités aux objets strictement rigides, sans aucun transfert sim-to-real documenté. Le Gaussian splatting connaît une adoption rapide en robotique depuis la publication de 3DGS (Kerbl et al., 2023), avec des travaux concurrents comme SplatSim, GaussianWorld ou des approches combinant NeRF et planification. MRO-GWM se distingue par son traitement explicite de la dynamique multi-objets avec interactions physiques, un axe moins couvert que la navigation ou la préhension isolée. Le gap sim-to-real demeure le verrou principal : une validation sur bras réel (type Franka ou UR5) constituerait l'étape naturelle, tout comme une extension aux objets articulés ou semi-rigides, aujourd'hui hors périmètre du modèle.

RecherchePaper

1 source

4arXiv cs.RO

LiftNav : planification de trajectoire par élévation sémantique dans un Gaussian Splatting guidé par TSDF

Une équipe de chercheurs a publié LiftNav sur arXiv (référence 2605.31376), un système de planification de trajectoires pour robots autonomes en environnements intérieurs inconnus. Le système repose sur une carte duale combinant TSDF (Truncated Signed Distance Function, représentation géométrique précise pour l'évitement d'obstacles) et Gaussian Splatting (GS, méthode de rendu à base de primitives gaussiennes 3D), en s'appuyant sur l'architecture GSFusion comme fondation. À cette base hybride s'ajoutent, en temps réel, une détection d'objets par YOLO, un mécanisme de "lifting" 3D ancré dans le TSDF pour projeter les détections sémantiques dans l'espace volumique, et une optimisation de trajectoire par splines B. Pour améliorer fluidité et sécurité, les auteurs introduisent une pénalité de collision basée sur la hinge loss. Évalué en simulation sur le dataset Replica (environnements intérieurs synthétiques de haute fidélité de Meta), LiftNav atteint un taux de faisabilité de 100% et génère des trajectoires plus courtes qu'un système de référence basé sur les champs de radiance neuraux. Ce résultat s'attaque à un compromis fondamental de la navigation robotique : les représentations classiques comme le TSDF garantissent la sécurité géométrique mais sont aveugles sémantiquement, tandis que les méthodes photorréalistes de type Gaussian Splatting offrent une compréhension visuelle riche mais présentent des géométries floues peu fiables pour l'évitement de collision. LiftNav propose de réconcilier les deux sans recourir à des embeddings 3D denses, souvent coûteux en mémoire et en calcul, ce qui constitue l'argument différenciant central. Pour les intégrateurs robotique, c'est une architecture susceptible de réduire la complexité de déploiement de robots de service dans des espaces non structurés. Il convient toutefois de souligner que ces performances sont mesurées exclusivement en simulation, sans aucune validation sur robot physique rapportée dans cette publication. LiftNav s'inscrit dans une dynamique de recherche active autour de la navigation sémantique : des travaux comme ConceptFusion ou LERF intègrent des embeddings de type CLIP dans des NeRF ou des GS, mais au prix d'une empreinte computationnelle élevée. L'approche par lifting TSDF retenue ici est plus légère, au potentiel détriment d'une richesse sémantique fine. Les concurrents directs incluent les pipelines combinant SLAM 3D avec des couches de détection dense comme Mask3D, ainsi que les systèmes NeRF-Nav. La prochaine étape naturelle serait une validation sur plateforme physique pour quantifier le gap sim-to-real, point clé que les auteurs ne mentionnent pas dans cet abstract.

RecherchePaper

1 source