STORM : représentation par slots centrée objet et sensible à la tâche pour la manipulation robotique
Des chercheurs ont publié STORM (Slot-based Task-aware Object-centric Representation for robotic Manipulation), un module d'adaptation léger conçu pour augmenter les modèles visuels de fondation figés avec des représentations centrées sur les objets. Plutôt que de réentraîner de grands backbones visuels, coûteux en calcul et en données étiquetées, STORM insère un ensemble restreint de "slots", des vecteurs appris qui capturent chaque objet de la scène de manière distincte. L'entraînement se déroule en deux phases : un préentraînement visuo-sémantique qui stabilise les slots via des embeddings de langage, puis une adaptation conjointe avec la politique de manipulation. Les expériences, menées sur des benchmarks de découverte d'objets et des tâches de manipulation simulée, montrent des gains de robustesse face aux distracteurs visuels et une meilleure performance de contrôle par rapport à l'utilisation directe des features figées ou à l'entraînement end-to-end de représentations object-centriques.
L'enjeu est structurel pour la robotique de manipulation. Les modèles visuels de fondation comme DINOv2 ou SigLIP fournissent des features perceptuelles puissantes, mais leurs représentations denses traitent la scène comme une grille de pixels sans distinguer explicitement les objets. Pour une tâche du type "saisir la boîte rouge parmi plusieurs objets", cette absence de structure oblige le réseau de politique à apprendre lui-même la décomposition de la scène, ce qui nuit à la généralisation hors distribution. STORM contourne ce problème sans toucher au backbone. Le résultat valide l'hypothèse que l'adaptation multi-phase (stabilisation sémantique d'abord, alignement tâche ensuite) évite la dégénérescence des slots, phénomène où plusieurs slots capturent le même objet ou des régions non pertinentes pour la tâche.
La ligne de recherche sur les représentations object-centriques remonte à Slot Attention (Locatello et al., 2020, DeepMind) et à MONet. L'originalité de STORM est d'ancrer ces slots dans la sémantique linguistique et de les greffer sur des fondations pré-entraînées plutôt que de repartir de zéro. Dans un écosystème où les VLA (Vision-Language-Action models) comme pi0 de Physical Intelligence ou OpenVLA cherchent à intégrer langage et action de bout en bout, STORM propose une alternative modulaire et économe. Les résultats restent limités à la simulation, ce qui laisse entière la question du sim-to-real gap. Les prochaines étapes logiques incluent la validation sur robots physiques et le test face à des perturbations visuelles plus agressives que les benchmarks actuels.
Dans nos dossiers




