
SIR : représentations d'images structurées pour un apprentissage robotique explicable
Des chercheurs du laboratoire Intuitive Robots publient SIR (Structured Image Representations, arXiv:2606.30101), une méthode visant à corriger l'un des angles morts persistants des politiques robotiques basées sur l'apprentissage profond : leur opacité. Le pipeline repose sur les Scene Graphs (graphes de scènes) comme couche intermédiaire entre la perception et l'action. À partir d'une image d'entrée, le système construit d'abord un graphe complet dont les noeuds sont initialisés avec des features visuelles extraites. Un second module apprend ensuite, de bout en bout, à réduire (sparsifier) ce graphe pour n'en conserver que le sous-graphe pertinent à la tâche courante, avant de le transmettre au générateur d'actions. Évalué sur RoboCasa, un benchmark de manipulation en environnement domestique simulé, SIR atteint un taux de succès moyen de 19,5 % contre 14,81 % pour les baselines à embeddings visuels directs, soit un gain relatif d'environ 30 %.
L'intérêt ne se limite pas à ce delta de performance, en soi modeste en valeur absolue. Ce qui distingue SIR, c'est que le sous-graphe creux appris constitue une représentation lisible et auditable : il devient possible d'inspecter sur quels objets et quelles relations le modèle fonde ses décisions pour une tâche donnée. Lorsque ce sous-graphe s'écarte des attentes humaines, qu'il intègre des noeuds distracteurs sans rapport avec la tâche ou qu'il omet des objets pourtant centraux, les auteurs montrent que cela révèle systématiquement des biais dans le dataset d'entraînement, notamment des corrélations spurieuses et des biais positionnels. Pour des intégrateurs industriels ou des équipes soumises à des exigences de validation et de certification, cette capacité d'audit intrinsèque est un argument autrement plus fort qu'une amélioration marginale du taux de réussite.
Ce travail s'inscrit dans un débat de fond au sein de la communauté robotique : les représentations visuelles latentes des architectures de type VLA (Vision-Language-Action) ou des politiques par diffusion sont puissantes mais pratiquement impossibles à déboguer. Les approches concurrentes pour l'explicabilité passent généralement par des méthodes post-hoc, cartes de saillance ou visualisation d'attention dans les Transformers, qui n'interviennent pas dans la boucle d'inférence. SIR propose à l'inverse une explicabilité structurelle native. Le code est disponible sur GitHub (intuitive-robots/SIR\_Model) et les auteurs évaluent pour l'instant uniquement en simulation ; la généralisation à des robots physiques dans des environnements non contrôlés reste la prochaine étape critique pour valider le sim-to-real transfer de cette approche.
Dans nos dossiers




