Aller au contenu principal
ST-π : VLA spatio-temporel structuré pour la manipulation robotique
IA physiquearXiv cs.RO6sem

ST-π : VLA spatio-temporel structuré pour la manipulation robotique

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Une équipe de chercheurs a publié fin avril 2026 ST-π (ST-pi), un modèle vision-langage-action (VLA) conçu pour améliorer la manipulation robotique fine en introduisant une planification spatiotemporelle explicitement structurée. Contrairement aux VLA classiques qui projettent directement les observations visuelles vers des actions step-by-step, ST-π décompose la tâche en deux niveaux distincts : un VLM spatiotemporel qui encode des observations 4D (vidéo + profondeur) et génère une séquence ordonnée de "prompts d'action" au niveau chunk, incluant sous-tâches, ancrage spatial et ancrage temporel ; puis un "action expert" conditionné sur ces prompts, qui utilise un mécanisme de double générateur pour modéliser conjointement les dépendances spatiales et la causalité temporelle, produisant in fine les paramètres d'action step-level. Les auteurs ont également constitué un dataset réel avec annotations spatiotemporelles structurées pour le fine-tuning. Le code source est disponible sur GitHub (chuanhaoma/ST-pi).

L'intérêt de cette approche réside dans l'explicitation du raisonnement spatiotemporal, un point aveugle documenté des VLA actuels. Les modèles existants comme Pi-0 (Physical Intelligence), OpenVLA ou RT-2 encodent implicitement ce raisonnement dans les représentations visuelles et d'action, ce qui les rend fragiles face à des séquences comportementales multiples avec des frontières temporelles précises, typiquement les tâches d'assemblage, de tri ou de manipulation en plusieurs étapes que les intégrateurs industriels cherchent à automatiser. ST-π propose une architecture où le VLM planifie globalement et l'action expert raffine localement, ce qui est une séparation de responsabilités plus proche de la façon dont les ingénieurs roboticiens structurent eux-mêmes les programmes de manipulation.

Ce travail s'inscrit dans une dynamique de recherche active sur le sim-to-real et la généralisation des VLA, portée notamment par Physical Intelligence, Google DeepMind (avec GR00T N2 côté NVIDIA) et des laboratoires académiques en Chine. ST-π est un preprint arXiv (2604.17880), pas encore évalué en peer review, et les métriques de performance annoncées restent à confronter à des benchmarks indépendants comme LIBERO ou RLBench. Aucun partenaire industriel ni déploiement terrain n'est mentionné à ce stade, il s'agit d'une contribution de recherche, pas d'un produit commercialisé. Les prochaines étapes naturelles seraient une évaluation comparative sur des benchmarks standardisés et un test sur des robots réels en dehors du dataset des auteurs.

À lire aussi

STARRY : modélisation du monde centrée sur l'action spatio-temporelle pour la manipulation robotique
1arXiv cs.RO 

STARRY : modélisation du monde centrée sur l'action spatio-temporelle pour la manipulation robotique

Des chercheurs ont publié sur arXiv (arXiv:2604.26848) un nouveau modèle de politique robotique appelé STARRY, conçu pour améliorer la manipulation d'objets en intégrant un module de prédiction spatiotemporelle directement dans la boucle de génération d'actions. L'architecture repose sur un débruitage conjoint de latents spatiotemporels futurs et de séquences d'actions, complété par un mécanisme baptisé Geometry-Aware Selective Attention Modulation (GASAM), qui convertit la profondeur prédite et la géométrie de l'effecteur terminal en poids d'attention alignés sur les tokens d'action. Sur le benchmark RoboTwin 2.0, STARRY atteint 93,82 % de taux de succès moyen en configuration propre (Clean) et 93,30 % en configuration aléatoire (Randomized). En conditions réelles, le modèle améliore le taux de succès de 42,5 % à 70,8 % par rapport à π0.5, la politique de référence de Physical Intelligence. Ce résultat en conditions réelles mérite attention : le delta de +28,3 points sur π0.5 suggère que l'intégration explicite de la structure spatiotemporelle dans la politique, plutôt qu'en post-traitement, apporte un gain concret au-delà du benchmark simulé. Pour les intégrateurs et décideurs industriels, c'est un signal que le sim-to-real gap sur des tâches de manipulation précise reste un vrai verrou, et que les architectures VLA (Vision-Language-Action) classiques, sans modélisation de l'interaction future, plafonnent sur les scénarios à forte contrainte géométrique. La distinction entre prédire le monde et prédire ce qui est pertinent pour l'action semble être la clé ici, ce que STARRY formalise avec GASAM. STARRY s'inscrit dans une compétition dense autour des politiques VLA pour la manipulation : π0 et π0.5 (Physical Intelligence), GR00T N2 (NVIDIA), OpenVLA, et les travaux issus des labos de Stanford, CMU ou Berkeley. Le benchmark RoboTwin 2.0, utilisé comme terrain d'évaluation principal, est un environnement de simulation récent orienté tâches bimanuelles. Il convient de noter que cette publication est un preprint arXiv, sans revue par les pairs à ce stade, et que les expériences réelles décrites semblent limitées en nombre de tâches et de contextes. Les prochaines étapes naturelles seraient une évaluation sur des benchmarks plus diversifiés comme LIBERO ou Open X-Embodiment, et une validation à plus grande échelle en environnement industriel réel.

IA physiqueOpinion
1 source
Mélange d'experts structuré sémantiquement pour la manipulation robotique compositionnelle
2arXiv cs.RO 

Mélange d'experts structuré sémantiquement pour la manipulation robotique compositionnelle

Des chercheurs ont publié le 23 mai 2026 sur arXiv (réf. 2605.23477) un cadre d'apprentissage pour la manipulation robotique compositionnelle baptisé SMoDP (Semantically Structured Mixture-of-Experts Diffusion Policy). L'approche combine des politiques de diffusion avec une architecture Mixture-of-Experts (MoE) guidée sémantiquement : un prédicteur de compétences léger, supervisé par des annotations hors-ligne générées par des modèles vision-langage (VLM), route des séquences d'actions vers des experts spécialisés par phase comportementale (saisie, transport, insertion). La cohérence du routage est assurée par une double stratégie d'alignement contrastif, inter-modal pour ancrer les observations multimodales dans des sémantiques définies en langage naturel, et intra-modal pour maintenir un routage cohérent entre comportements visuellement distincts mais fonctionnellement équivalents. Sur des benchmarks multi-tâches, SMoDP surpasse les baselines diffusion et MoE existantes avec une meilleure efficacité paramétrique, et supporte le transfert vers de nouvelles tâches via fine-tuning frugal. L'enjeu est réel : les politiques de diffusion haute performance sont coûteuses en inférence, tandis que les versions allégées peinent à généraliser dès que le nombre de tâches augmente. Les architectures MoE classiques, qui n'activent qu'un sous-ensemble de paramètres, souffrent d'un défaut de conception : leur routage basé sur des statistiques latentes fragmente les comportements réutilisables entre experts, réduisant l'interprétabilité et la transférabilité. En ancrant la spécialisation dans la structure sémantique de la tâche, SMoDP rend les experts plus modulaires, un avantage direct pour les intégrateurs déployant des robots polyvalents sans réentraîner l'ensemble du modèle. Ce travail s'inscrit dans une course intense à l'efficacité des politiques robotiques. Depuis 2023, les politiques de diffusion (Diffusion Policy, Pi-0 de Physical Intelligence) ont supplanté les approches classiques, et les succès des MoE dans les LLM (Mixtral, Qwen-MoE) ont incité les chercheurs en robotique à adapter ces architectures, avec des résultats mitigés faute d'un bon mécanisme de routage. SMoDP se rapproche des pipelines VLA (Vision-Language-Action) comme OpenVLA ou GR00T N2 de NVIDIA, en intégrant la supervision sémantique par VLM comme lien entre langage et action. À ce stade, il s'agit d'une contribution académique validée en simulation et en environnement de laboratoire, sans annonce de déploiement industriel ni de partenaire commercial ; l'étape logique suivante serait une validation sur plateformes matérielles réelles à grande diversité de tâches.

💬 Le vrai problème des MoE en robotique, c'était le routage : les experts se spécialisaient sur des statistiques latentes sans rapport avec ce que le robot faisait vraiment. Ancrer la spécialisation sur des phases comportementales concrètes, saisir, transporter, insérer, c'est le bon sens qui manquait, et les benchmarks suivent. Reste à confirmer ça sur du matériel réel, pas juste en simulation.

IA physiqueOpinion
1 source
OFlow : flux temporel centré sur les objets pour une manipulation robotique robuste
3arXiv cs.RO 

OFlow : flux temporel centré sur les objets pour une manipulation robotique robuste

Des chercheurs ont publié le 24 avril 2026 OFlow, un framework destiné à améliorer la robustesse des modèles Vision-Language-Action (VLA) dans les tâches de manipulation robotique. L'approche, présentée dans un preprint arXiv (2604.17876), repose sur deux mécanismes combinés : un module de prédiction temporelle par flow matching, qui anticipe l'évolution de la scène avant d'agir, et une représentation centrée sur les objets pertinents pour la tâche, qui filtre les variations visuelles sans intérêt. Ces deux composants partagent un même espace latent sémantique, à partir duquel la génération des actions continues est conditionnée. Les évaluations couvrent quatre environnements de référence, LIBERO, LIBERO-Plus, MetaWorld et SimplerEnv, ainsi que des expériences en conditions réelles, et montrent des gains de robustesse et de taux de succès par rapport aux baselines VLA standards. Le verrou que tente de lever OFlow est bien identifié dans la communauté : les VLAs actuels raisonnent image par image, sans modèle explicite de ce qui va se passer ni de quels objets comptent vraiment. En séparant les cues visuels liés à la tâche des variations de fond (éclairage, texture, pose de la caméra), OFlow produit des représentations plus stables sous distribution shift, c'est-à-dire lorsque les conditions réelles diffèrent du training data. Pour les intégrateurs et les équipes de déploiement industriel, c'est un point critique : la fragilité des VLAs face aux écarts de conditions est l'un des principaux obstacles à leur passage en production. Les résultats sur SimplerEnv et les tâches réelles sont particulièrement scrutés, car ce benchmark est conçu pour tester explicitement ce gap sim-to-real. OFlow s'inscrit dans une vague de travaux cherchant à doter les VLAs d'une forme de planification implicite, après des modèles comme pi0 (Physical Intelligence) ou GR00T N2 (NVIDIA) qui misent sur des architectures diffusion ou flux pour la génération d'actions. L'originalité revendiquée ici est l'unification dans un espace latent commun, plutôt que d'ajouter des modules séparés. Il s'agit pour l'instant d'un preprint non relu par des pairs, et les benchmarks utilisés, LIBERO notamment, sont bien maîtrisés par la communauté mais n'impliquent pas de robots déployés en production. Les prochaines étapes naturelles seront la validation sur des plateformes hardware variées et une comparaison directe avec les approches concurrentes sur des scénarios industriels réels.

IA physiqueOpinion
1 source
VistaBot : manipulation robotique robuste aux points de vue grâce à la synthèse de vues spatio-temporelles
4arXiv cs.RO 

VistaBot : manipulation robotique robuste aux points de vue grâce à la synthèse de vues spatio-temporelles

Des chercheurs ont publié VistaBot, un framework de manipulation robotique ciblant un angle mort des politiques end-to-end actuelles : leur fragilité face aux changements de point de vue de caméra entre entraînement et déploiement. La préprint arXiv 2604.21914, déposée en avril 2026, décrit une architecture en trois modules : estimation de géométrie 4D, synthèse de vue par diffusion vidéo, et planification d'actions en espace latent, sans recalibration de caméra requise au moment du déploiement. Intégré dans deux politiques de référence du domaine, ACT (Action Chunking Transformer) et π₀ (la politique diffusion-based de Physical Intelligence), VistaBot améliore la métrique VGS (View Generalization Score, introduite par les auteurs) de 2,79x par rapport à ACT et de 2,63x par rapport à π₀, en simulation et en environnement réel. Le code et les modèles seront publiés en open source. La dépendance à un point de vue fixe constitue un frein structurel au déploiement des bras manipulateurs en conditions industrielles : une caméra repositionnée ou partiellement obstruée peut invalider un modèle entier sans mécanisme de compensation. VistaBot répond en synthétisant dynamiquement des vues alternatives via un modèle de diffusion vidéo, puis en planifiant les actions dans l'espace latent de ces vues synthétisées, sans recollecte de données depuis le nouvel angle. Pour un intégrateur ou un COO industriel, cela réduit directement le coût de reconfiguration sur ligne. L'introduction du VGS comble également un vide méthodologique : le domaine ne disposait pas de benchmark standardisé pour comparer la robustesse cross-view entre politiques, rendant les comparaisons entre travaux difficiles. Le problème de robustesse aux points de vue est documenté en imitation learning depuis plusieurs années, mais les solutions disponibles exigeaient soit une augmentation intensive des données, soit une calibration caméra explicite à chaque reconfiguration. Physical Intelligence, fondée en 2023, a développé π₀ comme politique généraliste de manipulation. D'autres acteurs comme Google DeepMind (RT-2 et ses successeurs), Figure AI (Figure 03) ou 1X Technologies ciblent des architectures VLA à plus large spectre sans traiter spécifiquement cet axe de robustesse aux vues. VistaBot reste une contribution académique préliminaire : la préprint n'est pas encore revue par les pairs, les tâches réelles évaluées ne sont pas décrites en détail, et les gains annoncés devront être confirmés par des reproductions indépendantes une fois le code disponible.

IA physiquePaper
1 source