Aller au contenu principal
Gaussian Splatting anticipatif pour la représentation 3D prédictive en prise-et-dépose guidée par le langage
RecherchearXiv cs.RO6sem

Gaussian Splatting anticipatif pour la représentation 3D prédictive en prise-et-dépose guidée par le langage

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Une équipe de chercheurs a proposé sur arXiv (arXiv:2605.11144, mai 2026) un framework baptisé Forecast-GS (Forecast-aware Gaussian Splatting), destiné à la manipulation robotique guidée par le langage naturel. La contribution centrale consiste à modéliser explicitement l'état final attendu d'une tâche via une reconstruction 3D prédictive par Gaussian Splatting, plutôt que de raisonner uniquement sur la configuration courante de la scène. Validé sur trois tâches réelles de pick-and-place (cutter-vers-boîte, pomme-vers-bol, éponge-vers-plateau), le système atteint des taux de succès de 84 % (21/25), 92 % (23/25) et 64 % (16/25) en sélection automatique, contre 60 %, 76 % et 40 % pour la baseline ReKep (Relational Keypoint Constraints). En mode assisté par un opérateur humain pour le classement des candidats, les taux montent à 92 %, 96 % et 76 %, chaque condition étant testée sur 25 essais réels avec configurations initiales variées sur la même plateforme robotique.

L'enjeu pratique est le suivant : la plupart des systèmes de manipulation actuels évaluent si une action est faisable depuis l'état présent, sans vérifier si l'état résultant satisfait l'objectif sémantique. Forecast-GS génère une prévision 3D de la scène post-action, que le robot compare à l'instruction en langage naturel avant d'exécuter, ce qui réduit les erreurs en présence d'observations partielles ou d'occlusions. Pour un intégrateur industriel, l'interprétabilité de ce mécanisme, contrairement aux politiques VLA end-to-end comme Pi-0 (Physical Intelligence) ou GR00T N2 (NVIDIA), facilite le débogage et la traçabilité. L'écart persistant entre mode automatique et assisté (jusqu'à 12 points de taux de succès) indique cependant que le ranking final des candidats n'est pas encore un problème résolu.

Le Gaussian Splatting, introduit en 2023 par Kerbl et al. à SIGGRAPH, a été rapidement adopté en robotique pour ses représentations 3D différentiables et compactes. Forecast-GS s'inscrit dans un courant qui hybride représentations neuronales 3D et planification guidée par le langage, en compétition directe avec ReKep (Stanford/Berkeley), SpatialVLA, et les approches VLA génératives. Aucun partenariat industriel ni calendrier de déploiement n'est mentionné dans la publication. Les prochaines étapes logiques portent sur l'amélioration du classement automatique, principal goulot d'étranglement vers l'autonomie complète, et sur l'extension à des scènes dynamiques plus complexes que les configurations statiques de laboratoire utilisées ici.

À lire aussi

De la réaction à l'anticipation : un graphe de tâches à base d'agents pour la reprise proactive en manipulation robotique
1arXiv cs.RO 

De la réaction à l'anticipation : un graphe de tâches à base d'agents pour la reprise proactive en manipulation robotique

Une équipe de recherche a publié en mai 2025 sur arXiv (identifiant 2605.11951) AgentChord, un système multi-agents qui anticipe les pannes de manipulation robotique avant l'exécution plutôt qu'en les traitant de manière réactive. L'architecture repose sur un graphe de tâches dirigé enrichi, en amont de toute exécution, de branches de récupération pré-compilées et contextualisées selon chaque étape critique. Trois agents spécialisés structurent ce pipeline : un "composer" modélise la tâche nominale, un "arranger" greffe les branches de récupération anticipées, et un "conductor" orchestre les transitions via des moniteurs à faible latence. Les expériences portent sur des tâches de manipulation bimanuelle à horizon long ; les auteurs rapportent une amélioration "substantielle" des taux de succès sans publier de métriques chiffrées précises dans l'abstract disponible. Le principal apport est d'éliminer la latence inhérente au pipeline classique "détecter-raisonner-récupérer", dans lequel chaque échec déclenche un nouvel appel à un LLM ou à un planificateur symbolique. En pré-compilant les correctifs avant le début de la tâche, AgentChord permet une réponse immédiate sans re-planification dès qu'un moniteur détecte une déviation. Pour les intégrateurs industriels qui automatisent des opérations en cellule non structurée, cette architecture de graphe anticipatif pourrait réduire les arrêts imprévus liés aux échecs de manipulation. L'approche présente néanmoins une limite structurelle : les branches pré-compilées ne couvrent que les pannes anticipées, non les défaillances inédites ou hors-modèle. La robustesse de la manipulation en conditions réelles reste l'un des goulots d'étranglement centraux de la robotique commerciale, que ce soit pour les bras industriels ou les humanoïdes en phase de déploiement comme Optimus de Tesla ou les robots de Figure AI. AgentChord s'inscrit dans un courant qui exploite les LLMs comme orchestrateurs de logique de haut niveau, en complément de politiques d'action de bas niveau. Des approches concurrentes comme les VLA Pi-0 de Physical Intelligence ou GR00T N2 de NVIDIA intègrent la récupération de manière implicite dans le réseau de politique, là où AgentChord opte pour une représentation explicite en graphe, plus transparente mais potentiellement moins générique face à la variabilité du monde réel. La page projet est accessible sur shengxu.net/AgentChord ; la validation hors banc de test académique reste la prochaine frontière.

RecherchePaper
1 source
Gaussian Splatting latent pour le suivi d'occupation panoptique 4D
2arXiv cs.RO 

Gaussian Splatting latent pour le suivi d'occupation panoptique 4D

Des chercheurs de l'Université de Fribourg-en-Brisgau (Allemagne) ont publié LaGS (Latent Gaussian Splatting), une méthode de suivi panoptique d'occupation en 4D référencée arXiv:2602.23172. L'objectif : capturer simultanément la géométrie volumétrique 3D d'une scène dynamique et les associations temporelles entre instances sur des séquences multi-caméras. La méthode modélise les caractéristiques 3D sous forme d'un ensemble épars de Gaussiennes porteuses de features, soit des points-clés volumétriques dynamiques qui agrègent les informations multi-vues via une pondération spatiale continue, avant d'être projetées dans une grille de voxels pour décodage. Une représentation hiérarchique combine des super-points grossiers pour le contexte global et des flux haute résolution pour les détails fins. Sur les benchmarks Occ3D nuScenes et Waymo Open Dataset, références standards pour la perception 3D en conduite autonome, LaGS atteint des performances état de l'art sur la tâche 4D-POT. Code et modèles sont publiés en open source. L'enjeu est précis : les systèmes existants tranchaient entre deux compromis peu satisfaisants. Les méthodes de suivi par boîtes englobantes offrent une association temporelle d'instances mais perdent la géométrie fine. Les approches d'occupation 3D dense restituent la forme des objets sans raisonnement explicite au niveau instance ni association temporelle fiable. LaGS comble ce gap en introduisant des champs récepteurs adaptatifs dépendants des données et des interactions spatiales longue portée, deux limitations connues des opérateurs voxels locaux denses. Pour un intégrateur développant un pipeline de planification de trajectoire ou de prédiction de mouvement pour véhicule autonome ou robot mobile, disposer d'une représentation unifiée panoptique-temporelle réduit le nombre de modules et les sources de désynchronisation. La méthode s'inscrit dans la vague des approches Gaussian Splatting initiée par les travaux 3DGS de Kerbl et al. en 2023, aujourd'hui détournés de la reconstruction de scènes statiques vers la perception dynamique. L'Université de Fribourg-en-Brisgau, acteur européen reconnu en robotique et vision par ordinateur, positionne LaGS face aux méthodes concurrentes basées sur les réseaux BEV, les grilles voxels récurrentes ou les approches NeRF temporelles. La publication en version 2 (révision post-soumission initiale de février 2026) avec code ouvert facilite la reproduction. Les prochaines étapes naturelles incluent l'intégration dans des pipelines embarqués et l'évaluation sur des jeux de données intérieurs pour la robotique mobile en entrepôt.

UEL'Université de Fribourg-en-Brisgau (UE) publie LaGS en open source avec code et modèles, offrant aux équipes européennes de robotique mobile et de véhicule autonome une base reproductible pour unifier suivi d'instances et occupation 3D dense dans leurs pipelines de perception.

RecherchePaper
1 source
Apprentissage de modèles du monde par Gaussian Splatting centrés sur les objets et conditionnés par les actions pour objets rigides
3arXiv cs.RO 

Apprentissage de modèles du monde par Gaussian Splatting centrés sur les objets et conditionnés par les actions pour objets rigides

Une équipe de chercheurs publie MRO-GWM (Multi Rigid Object Gaussian World Model), un modèle de monde action-conditionnel capable de prédire en 3D les effets des actions d'un robot sur des objets rigides. Déposé sur arXiv (réf. 2606.01950), le travail combine Gaussian splatting et apprentissage de dynamique : chaque objet de la scène est décrit par un ensemble de gaussiennes dans un référentiel canonique propre, son mouvement étant modélisé comme une transformation de corps rigide (rotation et translation). Un transformateur spatio-temporel prédit la trajectoire future des objets à partir de leur historique gaussien et des actions planifiées par le robot. L'architecture gère les occlusions partielles grâce à un entraînement sur reconstructions multi-vues. Les évaluations portent sur des datasets synthétiques d'objets ménagers en interaction avec un effecteur robot, et sur des tâches de manipulation non préhensile (pousser un objet sans le saisir) dans le cadre d'un contrôle prédictif par modèle (MPC), le tout exclusivement en simulation. L'association de modèles de monde action-conditionnels et de Gaussian splatting est pertinente : les premiers permettent de planifier sans essai-erreur coûteux, le second offre une représentation 3D différentiable adaptée à des géométries complexes sans maillage explicite. La décomposition objet-centrique améliore en théorie la généralisation à de nouvelles configurations de scène, contrairement aux encodages holistes. La validation sur manipulation non préhensile est notable car pousser un objet vers une cible est considéré comme un benchmark difficile : les contacts sont instables et mal modélisés par la plupart des simulateurs physiques. Ces résultats restent toutefois entièrement simulés et limités aux objets strictement rigides, sans aucun transfert sim-to-real documenté. Le Gaussian splatting connaît une adoption rapide en robotique depuis la publication de 3DGS (Kerbl et al., 2023), avec des travaux concurrents comme SplatSim, GaussianWorld ou des approches combinant NeRF et planification. MRO-GWM se distingue par son traitement explicite de la dynamique multi-objets avec interactions physiques, un axe moins couvert que la navigation ou la préhension isolée. Le gap sim-to-real demeure le verrou principal : une validation sur bras réel (type Franka ou UR5) constituerait l'étape naturelle, tout comme une extension aux objets articulés ou semi-rigides, aujourd'hui hors périmètre du modèle.

RecherchePaper
1 source
Découplage de la sémantique et de l'ancrage géométrique : prompts visuels spatiaux pour l'apprentissage par imitation guidé par le langage
4arXiv cs.RO 

Découplage de la sémantique et de l'ancrage géométrique : prompts visuels spatiaux pour l'apprentissage par imitation guidé par le langage

Une équipe de chercheurs présente SVP-IL dans un préprint publié sur arXiv le 25 juin 2026 (arXiv:2606.25360), une architecture destinée à l'apprentissage par imitation conditionné par le langage naturel en robotique de manipulation. Le constat de départ est précis : les modèles Vision-Language-Action (VLA) de bout en bout actuels couplent dans un même réseau le raisonnement sémantique et le contrôle spatial, ce qui génère un goulot d'étranglement d'alignement quand les données d'entraînement sont rares. SVP-IL découple ces deux fonctions : un modèle fondation vision-langage analyse les instructions textuelles pour produire des masques géométriques zero-shot, traduits en "Spatial Visual Prompts" (SVP), qui sont ensuite injectés dans un générateur d'actions continu via une fusion légère au niveau des features. Résultats sur des tâches à ambiguïté linguistique élevée : avec seulement 50 à 100 démonstrations, le taux de succès moyen passe de 24,0 % à 39,5 %, et atteint 67,8 % sur les benchmarks standards. Des expériences en environnement physique non structuré ont validé la robustesse de l'approche hors laboratoire. L'enjeu industriel de ce résultat est le coût de collecte de données. Les VLA monolithiques comme RT-2, OpenVLA ou π0 (Physical Intelligence) exigent des milliers à des dizaines de milliers de démonstrations pour généraliser à de nouvelles tâches ou de nouveaux environnements, ce qui rend leur déploiement chez les intégrateurs robotiques coûteux et lent. SVP-IL ramène ce seuil à 50-100 démos, soit une réduction d'un ou deux ordres de grandeur, tout en surpassant l'état de l'art sur les tâches à désambiguïsation difficile. Pour un COO industriel ou un intégrateur, cela signifie un temps de mise en service radicalement plus court pour chaque nouvelle cellule de travail. L'approche valide aussi l'hypothèse que le couplage sémantique-spatial n'est pas une nécessité architecturale mais un choix de conception contournable. Les architectures VLA ont émergé à partir de 2022-2023 avec les travaux de Google DeepMind (RT-2), avant d'être popularisées par des modèles open-source et des acteurs comme Physical Intelligence avec π0 ou l'initiative GR00T N2 de NVIDIA. La tendance dominante reste le paradigme monolithique de bout en bout, considéré comme plus simple à scaler. SVP-IL conteste cette hypothèse en montrant qu'un découplage explicite donne de meilleurs résultats en régime de faibles données, sans compromis sur la généralisation. Le préprint ne mentionne pas de partenaire industriel ni de calendrier de déploiement, ce qui en fait pour l'instant une contribution académique ouverte, sans produit shipé associé. Les prochaines étapes naturelles seraient une validation sur des robots commerciaux multi-DOF (bras industriels 6-7 axes, manipulateurs mobiles) et une intégration avec des pipelines de collecte de données synthétiques pour réduire encore davantage le besoin en démonstrations humaines.

RechercheOpinion
1 source