OpenSPM : modèle robotique transférable combinant mémoire de poses spatiales et génération d'actions par flow matching
OpenSPM (Open-environment Spatial Persistent Memory) est un framework de manipulation robotique tabletop présenté sur arXiv en juin 2026 (réf. 2606.29936). Le système repose sur deux blocs : une mémoire spatiale persistante orientée objet et un modèle de génération d'actions par flow-matching conditionnel. À l'entraînement, OpenSPM utilise de la perception 3D sémantique couplée à un filtre de Kalman pour suivre les poses 6D des objets, extrait les poses spatiales clés depuis des démonstrations humaines et les stocke comme entrées mémoire réutilisables. À l'inférence, il récupère ces entrées via une instruction en langage naturel, transfère les poses dans de nouveaux environnements par transformations rigides SE(3), puis génère des séquences d'actions à une fréquence de contrôle équivalente de 1033,3 Hz. Sur le benchmark LIBERO-GOAL (10 tâches de manipulation), le système atteint 85,6 % de taux de succès avec une correction résiduelle terminale en boucle fermée, le tout en requérant une puissance de calcul minimale à l'inférence.
La fréquence de 1033 Hz combinée à une empreinte computationnelle légère est le point saillant pour les intégrateurs. Les modèles VLA (Vision-Language-Action) end-to-end comme Pi-0 de Physical Intelligence ou OpenVLA généralisent bien sémantiquement, mais restent coûteux à entraîner et peinent à imposer des contraintes géométriques fines pour des tâches de précision comme l'assemblage ou l'insertion de pièces. OpenSPM propose un compromis : conserver la compréhension en langage naturel tout en ancrant l'exécution physique dans une mémoire géométrique explicite et transférable. L'aspect transférabilité est industriellement pertinent : les poses clés s'adaptent via SE(3) sans réentraînement complet lors d'un changement de configuration, ce qui réduit le coût de reconfiguration sur des lignes de production évolutives.
LIBERO-GOAL est un benchmark académique de référence pour la manipulation tabletop, sur lequel se mesurent régulièrement les architectures Diffusion Policy, ACT et les VLA actuels, dont GR00T N2 de NVIDIA et Pi-0 de Physical Intelligence. OpenSPM se positionne entre les deux extrêmes du secteur : ni LLM lourd en boucle fermée, ni pipeline rigide à primitives fixes. Il s'agit pour l'instant d'un preprint sans déploiement industriel ni partenariat commercial annoncé. Les ablations publiées renforcent la rigueur méthodologique, mais la généralisation à des contextes hors tabletop, manipulation en environnement non structuré ou sur plateforme mobile, reste entièrement à démontrer.




