SSI-Policy : apprentissage d'interfaces de scène structurées pour la manipulation robotique vision-langage
Des chercheurs ont déposé SSI-Policy sur arXiv (2606.26800, juin 2026), un framework modulaire pour la manipulation robotique en régime de faibles données. Le système repose sur une représentation intermédiaire appelée Structured Scene Interface (SSI), une couche RGB-only qui encode simultanément des caractéristiques de profondeur monoculaire, des dispositions spatiales d'objets ancrées dans le langage naturel, et des trajectoires 2D conditionnées par instruction. Sur le benchmark LIBERO avec seulement 10 démonstrations par tâche, SSI-Policy dépasse la meilleure méthode concurrente de près de 15 points, et reste compétitif face aux approches à 50 démonstrations recourant au préentraînement externe à large échelle. Les auteurs valident également sur 13 tâches réelles : raisonnement spatial, transfert cross-embodiment et manipulation avec contact.
L'apport central est architectural : en découplant la perception du contrôle via l'interface SSI, la politique aval peut apprendre à partir de très peu de démonstrations. Que l'interface soit entraînable sur des vidéos sans annotation d'action est particulièrement précieux pour les intégrateurs industriels qui peinent à collecter des données de téléopération à grande échelle. L'absence de capteur de profondeur, le système fonctionnant en pure RGB, réduit les prérequis matériels et facilite le déploiement sur des bras standards. Le caractère robot-agnostique de SSI cible directement la faiblesse récurrente des VLA (Vision-Language Action models) comme Pi-0 de Physical Intelligence, OpenVLA ou GR00T N2 de NVIDIA : leur difficulté à transférer vers de nouveaux embodiments sans réentraînement coûteux.
SSI-Policy se positionne face à trois familles de méthodes : les approches vidéo (SuSIE, UniSim), sujettes à dérive géométrique sur les horizons longs ; les méthodes 3D (Act3D, RoboPoint), qui exigent du RGB-D ; et les interfaces de flux optique, sans structure géométrique explicite. SSI-Policy prétend en combiner les avantages, affirmation partiellement étayée par les ablations publiées mais restant à confirmer sur des benchmarks plus larges comme RLBench ou DROID. L'article est un preprint, non soumis à évaluation par les pairs. La suite logique : validation sur plateformes humanoïdes complètes et pilotes industriels réels, deux domaines où la robustesse en faible nombre d'exemples reste le verrou commercial principal.




