OFlow : flux temporel centré sur les objets pour…

ST-π : VLA spatio-temporel structuré pour la manipulation robotique

44

1arXiv cs.RO

ST-π : VLA spatio-temporel structuré pour la manipulation robotique

Une équipe de chercheurs a publié fin avril 2026 ST-π (ST-pi), un modèle vision-langage-action (VLA) conçu pour améliorer la manipulation robotique fine en introduisant une planification spatiotemporelle explicitement structurée. Contrairement aux VLA classiques qui projettent directement les observations visuelles vers des actions step-by-step, ST-π décompose la tâche en deux niveaux distincts : un VLM spatiotemporel qui encode des observations 4D (vidéo + profondeur) et génère une séquence ordonnée de "prompts d'action" au niveau chunk, incluant sous-tâches, ancrage spatial et ancrage temporel ; puis un "action expert" conditionné sur ces prompts, qui utilise un mécanisme de double générateur pour modéliser conjointement les dépendances spatiales et la causalité temporelle, produisant in fine les paramètres d'action step-level. Les auteurs ont également constitué un dataset réel avec annotations spatiotemporelles structurées pour le fine-tuning. Le code source est disponible sur GitHub (chuanhaoma/ST-pi). L'intérêt de cette approche réside dans l'explicitation du raisonnement spatiotemporal, un point aveugle documenté des VLA actuels. Les modèles existants comme Pi-0 (Physical Intelligence), OpenVLA ou RT-2 encodent implicitement ce raisonnement dans les représentations visuelles et d'action, ce qui les rend fragiles face à des séquences comportementales multiples avec des frontières temporelles précises, typiquement les tâches d'assemblage, de tri ou de manipulation en plusieurs étapes que les intégrateurs industriels cherchent à automatiser. ST-π propose une architecture où le VLM planifie globalement et l'action expert raffine localement, ce qui est une séparation de responsabilités plus proche de la façon dont les ingénieurs roboticiens structurent eux-mêmes les programmes de manipulation. Ce travail s'inscrit dans une dynamique de recherche active sur le sim-to-real et la généralisation des VLA, portée notamment par Physical Intelligence, Google DeepMind (avec GR00T N2 côté NVIDIA) et des laboratoires académiques en Chine. ST-π est un preprint arXiv (2604.17880), pas encore évalué en peer review, et les métriques de performance annoncées restent à confronter à des benchmarks indépendants comme LIBERO ou RLBench. Aucun partenaire industriel ni déploiement terrain n'est mentionné à ce stade, il s'agit d'une contribution de recherche, pas d'un produit commercialisé. Les prochaines étapes naturelles seraient une évaluation comparative sur des benchmarks standardisés et un test sur des robots réels en dehors du dataset des auteurs.

IA physiqueOpinion

1 source

Représentations centrées sur l'objet pour une meilleure généralisation en manipulation robotique

44

2arXiv cs.RO

Représentations centrées sur l'objet pour une meilleure généralisation en manipulation robotique

Des chercheurs ont publié sur arXiv (2601.21416v2) une étude comparative sur les représentations visuelles utilisées pour entraîner des politiques de manipulation robotique. Le problème central : les robots peinent à généraliser lorsque les conditions visuelles changent, éclairage, textures ou présence d'objets parasites dans la scène. L'équipe a évalué trois familles de représentations extraites d'encodeurs pré-entraînés : les features globales (image résumée en un seul vecteur agrégé), les features denses (embedding par patch issu de la dernière couche de l'encodeur), et une approche intermédiaire baptisée SBOCR (Slot-Based Object-Centric Representations), qui regroupe ces features denses en un nombre fini d'entités "objet-like" via un mécanisme de slots. Testées sur une batterie de tâches de manipulation en simulation et en conditions réelles, allant de scénarios simples à complexes, les politiques SBOCR surpassent les deux autres familles en termes de généralisation, sans pré-entraînement spécifique à la tâche. Ce résultat intéresse directement les intégrateurs et équipes R&D en robotique : la principale cause d'échec en déploiement n'est pas la commande moteur, mais la robustesse perceptuelle aux conditions non vues à l'entraînement. Les features globales sacrifient le détail spatial ; les features denses transmettent trop d'information non pertinente (fond, reflets, distracteurs), dégradant la politique hors distribution. SBOCR agit comme un filtre structuré : en segmentant implicitement la scène en objets discrets, la représentation réduit le bruit transmis à la politique sans perdre les informations nécessaires à l'exécution de la tâche. C'est un signal significatif pour les architectures VLA (Vision-Language-Action), et cela valide empiriquement que la structure objet-centrique améliore la robustesse aux shifts visuels sans supervision supplémentaire. Ce travail s'inscrit dans la lignée des Slot Attention (Locatello et al., Google Brain, 2020). Dans le paysage concurrent, les politiques VLA majeures comme Pi-0 (Physical Intelligence) et GR00T N2 (NVIDIA) s'appuient majoritairement sur des features denses issues de ViT ou CLIP, sans structuration objet explicite. La question de l'intégration de SBOCR dans des architectures transformer de grande taille reste ouverte, notamment sur le plan du coût computationnel. Il s'agit d'un preprint arXiv sans évaluation par les pairs publiée à ce jour ; la scalabilité à des environnements industriels complexes, multi-objets et à fortes occlusions, reste à confirmer.

💬 Le problème de généralisation en robotique, c'est pas les moteurs, c'est la perception hors distribution. SBOCR montre qu'en structurant la scène en objets discrets plutôt qu'en features brutes, on gagne en robustesse visuelle sans aucun ré-entraînement spécifique. Pi-0 et GR00T N2 s'appuient encore sur des features denses, et si ce résultat tient à plus grande échelle, c'est un angle mort de design qu'il va falloir corriger.

IA physiqueOpinion

1 source

STARRY : modélisation du monde centrée sur l'action spatio-temporelle pour la manipulation robotique

42

3arXiv cs.RO

STARRY : modélisation du monde centrée sur l'action spatio-temporelle pour la manipulation robotique

Des chercheurs ont publié sur arXiv (arXiv:2604.26848) un nouveau modèle de politique robotique appelé STARRY, conçu pour améliorer la manipulation d'objets en intégrant un module de prédiction spatiotemporelle directement dans la boucle de génération d'actions. L'architecture repose sur un débruitage conjoint de latents spatiotemporels futurs et de séquences d'actions, complété par un mécanisme baptisé Geometry-Aware Selective Attention Modulation (GASAM), qui convertit la profondeur prédite et la géométrie de l'effecteur terminal en poids d'attention alignés sur les tokens d'action. Sur le benchmark RoboTwin 2.0, STARRY atteint 93,82 % de taux de succès moyen en configuration propre (Clean) et 93,30 % en configuration aléatoire (Randomized). En conditions réelles, le modèle améliore le taux de succès de 42,5 % à 70,8 % par rapport à π0.5, la politique de référence de Physical Intelligence. Ce résultat en conditions réelles mérite attention : le delta de +28,3 points sur π0.5 suggère que l'intégration explicite de la structure spatiotemporelle dans la politique, plutôt qu'en post-traitement, apporte un gain concret au-delà du benchmark simulé. Pour les intégrateurs et décideurs industriels, c'est un signal que le sim-to-real gap sur des tâches de manipulation précise reste un vrai verrou, et que les architectures VLA (Vision-Language-Action) classiques, sans modélisation de l'interaction future, plafonnent sur les scénarios à forte contrainte géométrique. La distinction entre prédire le monde et prédire ce qui est pertinent pour l'action semble être la clé ici, ce que STARRY formalise avec GASAM. STARRY s'inscrit dans une compétition dense autour des politiques VLA pour la manipulation : π0 et π0.5 (Physical Intelligence), GR00T N2 (NVIDIA), OpenVLA, et les travaux issus des labos de Stanford, CMU ou Berkeley. Le benchmark RoboTwin 2.0, utilisé comme terrain d'évaluation principal, est un environnement de simulation récent orienté tâches bimanuelles. Il convient de noter que cette publication est un preprint arXiv, sans revue par les pairs à ce stade, et que les expériences réelles décrites semblent limitées en nombre de tâches et de contextes. Les prochaines étapes naturelles seraient une évaluation sur des benchmarks plus diversifiés comme LIBERO ou Open X-Embodiment, et une validation à plus grande échelle en environnement industriel réel.

IA physiqueOpinion

1 source

OA-WAM : un modèle du monde à adressage par objet pour la manipulation robotique robuste

42

4arXiv cs.RO

OA-WAM : un modèle du monde à adressage par objet pour la manipulation robotique robuste

OA-WAM (Object-Addressable World Action Model), soumis sur arXiv en mai 2025 (arXiv:2605.06481), propose une politique vision-langage-action (VLA) qui décompose chaque frame en N+1 "slots" d'état : un slot robot et N slots objets. Chaque slot combine un vecteur d'adresse persistant (identifiant stable de l'objet) et un vecteur de contenu variable décrivant son état courant. Ces représentations sont fusionnées avec des tokens textuels, visuels, proprioceptifs et d'actions dans une séquence causale par blocs, alimentant une tête "monde" (prédiction du frame suivant) et une tête d'action par flow-matching (chunk de 16 actions continues). Le modèle atteint 97,8 % de succès sur le benchmark LIBERO et 79,3 % sur SimplerEnv. Un test de "causal slot-intervention" mesure un cosinus de binding de 0,87 contre un maximum de 0,09 pour les baselines holistes, un écart difficile à ignorer. Le problème central est le "scene entanglement" : quand une politique représente l'évolution du monde comme une image globale ou des tokens vidéo, le décodeur d'action peine à cibler un objet précis dès que la scène varie (distracteurs, occlusions, changements d'éclairage). En séparant explicitement "quel objet" (l'adresse) de "comment il est" (le contenu), et en routant l'attention cross-slot via des clés d'adresse uniquement, l'architecture maintient l'identité des objets sous perturbations contextuelles sans surcoût en tokens. Pour un intégrateur B2B ou un COO industriel, c'est un argument concret vers des politiques robotiques stables face aux variations de ligne de production, sans retraining systématique à chaque changement de contexte. Les WAMs (World Action Models) sont une extension récente des VLA classiques (π0 de Physical Intelligence, OpenVLA, RT-2 de Google DeepMind) qui ajoutent une prédiction de scène en boucle fermée pour contraindre les décisions d'action. OA-WAM s'inscrit dans la lignée des modèles à slots (SAVi, IODINE) transposés au contrôle robot. Il s'agit d'un preprint académique : toutes les évaluations sont conduites en simulation (LIBERO, SimplerEnv), sans validation sur robot physique mentionnée. Aucun déploiement ni partenariat industriel n'est annoncé à ce stade. La prochaine étape logique sera la validation sim-to-real sur manipulateurs réels et l'extension à des tâches de manipulation longue durée.

IA physiqueOpinion

1 source

OFlow : flux temporel centré sur les objets pour une manipulation robotique robuste

À lire aussi

ST-π : VLA spatio-temporel structuré pour la manipulation robotique

Représentations centrées sur l'objet pour une meilleure généralisation en manipulation robotique

STARRY : modélisation du monde centrée sur l'action spatio-temporelle pour la manipulation robotique

OA-WAM : un modèle du monde à adressage par objet pour la manipulation robotique robuste