
RoBoSR : représentations structurées de scènes pour le raisonnement des robots incarnés
Une équipe de chercheurs a publié fin juin 2026 un preprint arXiv (2606.24338) présentant RoBoSR, un cadre de représentation intermédiaire structurée pour la manipulation robotique en monde ouvert. L'approche modélise chaque tâche comme une séquence de transitions d'états sur des graphes de scène orientés objet, sémantiquement ancrés. Concrètement, le système segmente l'environnement perçu en entités discrètes (objets, relations spatiales, états) avant de raisonner sur les préconditions et effets de chaque sous-tâche. Pour entraîner ce raisonnement, les auteurs publient simultanément Manip-Cognition-1.6M, un jeu de données de 1,6 million d'exemples couvrant la compréhension de scène, l'interprétation d'instructions et la planification de sous-tâches sur des manipulations variées. Sur plusieurs benchmarks et démonstrations réelles, RoBoSR revendique des performances supérieures aux méthodes par prompting et aux pipelines TAMP classiques (Task and Motion Planning), notamment en généralisation zéro-shot et sur des tâches longue-portée.
Ce que pointe cette publication, c'est l'une des frictions centrales des architectures VLA (Vision-Language-Action) actuelles : leur biais séquentiel issu des données de démonstration les rend fragiles dès que la tâche sort du scénario d'entraînement. En intercalant une représentation graphique explicite entre la perception brute et l'action, RoBoSR tente de rendre le raisonnement causal modulaire et réutilisable, ce qui améliore théoriquement la robustesse aux variations d'environnement. Pour un intégrateur industriel, c'est le problème du "demo-to-reality gap" qui est visé : un robot qui comprend les dépendances entre sous-tâches peut récupérer d'un échec partiel sans replanifier depuis zéro. Le dataset Manip-Cognition-1.6M, s'il est effectivement rendu public, constitue également une ressource d'entraînement non négligeable pour la communauté.
RoBoSR s'inscrit dans une vague de recherches cherchant à dépasser les limites des modèles d'imitation pure, dans un secteur où Physical Intelligence (pi0), Google DeepMind (GR00T N2) et Figure AI travaillent sur des architectures hybrides mêlant apprentissage et planification symbolique. Le papier reste un preprint non évalué par les pairs, et les résultats en "démonstrations réelles" ne sont pas détaillés quantitativement dans le résumé disponible. Les prochaines étapes naturelles seraient une soumission en conférence (CoRL, ICRA) et la mise à disposition publique du dataset annoncé.
Dans nos dossiers




