
Gaussian Splatting anticipatif pour la représentation 3D prédictive en prise-et-dépose guidée par le langage
Une équipe de chercheurs a proposé sur arXiv (arXiv:2605.11144, mai 2026) un framework baptisé Forecast-GS (Forecast-aware Gaussian Splatting), destiné à la manipulation robotique guidée par le langage naturel. La contribution centrale consiste à modéliser explicitement l'état final attendu d'une tâche via une reconstruction 3D prédictive par Gaussian Splatting, plutôt que de raisonner uniquement sur la configuration courante de la scène. Validé sur trois tâches réelles de pick-and-place (cutter-vers-boîte, pomme-vers-bol, éponge-vers-plateau), le système atteint des taux de succès de 84 % (21/25), 92 % (23/25) et 64 % (16/25) en sélection automatique, contre 60 %, 76 % et 40 % pour la baseline ReKep (Relational Keypoint Constraints). En mode assisté par un opérateur humain pour le classement des candidats, les taux montent à 92 %, 96 % et 76 %, chaque condition étant testée sur 25 essais réels avec configurations initiales variées sur la même plateforme robotique.
L'enjeu pratique est le suivant : la plupart des systèmes de manipulation actuels évaluent si une action est faisable depuis l'état présent, sans vérifier si l'état résultant satisfait l'objectif sémantique. Forecast-GS génère une prévision 3D de la scène post-action, que le robot compare à l'instruction en langage naturel avant d'exécuter, ce qui réduit les erreurs en présence d'observations partielles ou d'occlusions. Pour un intégrateur industriel, l'interprétabilité de ce mécanisme, contrairement aux politiques VLA end-to-end comme Pi-0 (Physical Intelligence) ou GR00T N2 (NVIDIA), facilite le débogage et la traçabilité. L'écart persistant entre mode automatique et assisté (jusqu'à 12 points de taux de succès) indique cependant que le ranking final des candidats n'est pas encore un problème résolu.
Le Gaussian Splatting, introduit en 2023 par Kerbl et al. à SIGGRAPH, a été rapidement adopté en robotique pour ses représentations 3D différentiables et compactes. Forecast-GS s'inscrit dans un courant qui hybride représentations neuronales 3D et planification guidée par le langage, en compétition directe avec ReKep (Stanford/Berkeley), SpatialVLA, et les approches VLA génératives. Aucun partenariat industriel ni calendrier de déploiement n'est mentionné dans la publication. Les prochaines étapes logiques portent sur l'amélioration du classement automatique, principal goulot d'étranglement vers l'autonomie complète, et sur l'extension à des scènes dynamiques plus complexes que les configurations statiques de laboratoire utilisées ici.




