Aller au contenu principal
IA physiquearXiv cs.RO1h

SSI-Policy : apprentissage d'interfaces de scène structurées pour la manipulation robotique vision-langage

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Des chercheurs ont déposé SSI-Policy sur arXiv (2606.26800, juin 2026), un framework modulaire pour la manipulation robotique en régime de faibles données. Le système repose sur une représentation intermédiaire appelée Structured Scene Interface (SSI), une couche RGB-only qui encode simultanément des caractéristiques de profondeur monoculaire, des dispositions spatiales d'objets ancrées dans le langage naturel, et des trajectoires 2D conditionnées par instruction. Sur le benchmark LIBERO avec seulement 10 démonstrations par tâche, SSI-Policy dépasse la meilleure méthode concurrente de près de 15 points, et reste compétitif face aux approches à 50 démonstrations recourant au préentraînement externe à large échelle. Les auteurs valident également sur 13 tâches réelles : raisonnement spatial, transfert cross-embodiment et manipulation avec contact.

L'apport central est architectural : en découplant la perception du contrôle via l'interface SSI, la politique aval peut apprendre à partir de très peu de démonstrations. Que l'interface soit entraînable sur des vidéos sans annotation d'action est particulièrement précieux pour les intégrateurs industriels qui peinent à collecter des données de téléopération à grande échelle. L'absence de capteur de profondeur, le système fonctionnant en pure RGB, réduit les prérequis matériels et facilite le déploiement sur des bras standards. Le caractère robot-agnostique de SSI cible directement la faiblesse récurrente des VLA (Vision-Language Action models) comme Pi-0 de Physical Intelligence, OpenVLA ou GR00T N2 de NVIDIA : leur difficulté à transférer vers de nouveaux embodiments sans réentraînement coûteux.

SSI-Policy se positionne face à trois familles de méthodes : les approches vidéo (SuSIE, UniSim), sujettes à dérive géométrique sur les horizons longs ; les méthodes 3D (Act3D, RoboPoint), qui exigent du RGB-D ; et les interfaces de flux optique, sans structure géométrique explicite. SSI-Policy prétend en combiner les avantages, affirmation partiellement étayée par les ablations publiées mais restant à confirmer sur des benchmarks plus larges comme RLBench ou DROID. L'article est un preprint, non soumis à évaluation par les pairs. La suite logique : validation sur plateformes humanoïdes complètes et pilotes industriels réels, deux domaines où la robustesse en faible nombre d'exemples reste le verrou commercial principal.

À lire aussi

ProgVLA : apprentissage de compétences de manipulation robotique guidé par la progression
1arXiv cs.RO 

ProgVLA : apprentissage de compétences de manipulation robotique guidé par la progression

Des chercheurs ont publié le 28 mai 2026 sur arXiv (réf. 2605.28231) ProgVLA, un modèle vision-langage-action (VLA) compact de 0,1 milliard de paramètres conçu pour la manipulation robotique sous contraintes strictes de calcul et de mémoire. L'architecture repose sur deux mécanismes principaux : un encodeur multimodal à double étage de rééchantillonnage Perceiver, qui compresse des flux variables d'entrées visuelles, linguistiques et proprioceptives en un ensemble fixe de tokens de contexte prêts au contrôle, et un ensemble de "têtes de progression" auxiliaires entraînées par apprentissage par renforcement hors-ligne sur des cibles normalisées d'horizon restant. Ces têtes fournissent à la politique une estimation interne de l'avancement de la tâche, ce qui permet un apprentissage par imitation via flow-matching pondéré par l'avantage et le succès. Sur deux benchmarks standards de manipulation multi-tâche, ProgVLA atteint des taux de réussite compétitifs avec des modèles pré-entraînés nettement plus grands, et les dépasse sur les niveaux de difficulté élevés et les tâches à horizon long. Le modèle a également été validé dans des environnements réels de type "toy kitchen", une validation limitée mais concrète. L'intérêt principal pour les intégrateurs et les équipes de recherche appliquée réside dans le profil de compromis : 0,1 milliard de paramètres seulement, contre les 7B à 70B typiques des VLA récents comme Pi-0 (Physical Intelligence) ou GR00T N2 (NVIDIA). Ce ratio ouvre la voie à un déploiement sur des plateformes embarquées à budget GPU limité, un obstacle central à la commercialisation des robots manipulateurs au-delà des démonstrateurs de laboratoire. Les ablations publiées sont précises : le rééchantillonneur de contexte appris et le fine-tuning visuel adaptatif à la tâche constituent les deux plus grandes sources de gain, tandis que l'entraînement conscient de la progression apporte un bénéfice supplémentaire ciblé sur les tâches multi-objets et à horizon long. Ce résultat contredit partiellement l'hypothèse selon laquelle seule la taille du modèle détermine la performance sur les tâches complexes. ProgVLA s'inscrit dans une vague de travaux visant à comprimer les VLA sans sacrifier leur capacité de généralisation, une direction prise également par des équipes comme celles qui travaillent sur la distillation de politiques pour des plateformes à faible puissance. Face aux modèles de référence que sont RT-2 (Google DeepMind), OpenVLA (UC Berkeley) et Pi-0, ProgVLA occupe le segment "edge-deployable" encore peu disputé par des solutions validées hors laboratoire. Deux limites sont à noter : le code et les données de benchmark n'étaient pas encore publiés au moment de l'annonce, et la validation réelle se restreint à un environnement toy-kitchen, ce qui rend prématurée toute extrapolation vers des contextes industriels ou des robots commerciaux de type Franka ou UR.

UELes équipes de R&D robotique européennes travaillant sur des plateformes embarquées pourraient surveiller ProgVLA comme alternative légère aux VLA dominants, mais aucun acteur ou programme européen n'est directement impliqué.

IA physiqueOpinion
1 source
LACY : cycle langage-action à base de modèle vision-langage pour la manipulation robotique auto-améliorante
2arXiv cs.RO 

LACY : cycle langage-action à base de modèle vision-langage pour la manipulation robotique auto-améliorante

Des chercheurs ont publié sur arXiv (arXiv:2511.02239) LACY, un cadre unifié reposant sur un modèle vision-langage (VLM) qui introduit une cartographie bidirectionnelle entre instructions textuelles et actions robotiques. Contrairement aux architectures VLA classiques qui se limitent à traduire du langage vers des actions (L2A), LACY entraîne simultanément trois tâches complémentaires : la génération d'actions paramétrées à partir d'une instruction (L2A), l'explication en langage naturel d'une action observée (A2L), et la vérification de cohérence sémantique entre deux descriptions (L2C). Le système a été évalué sur des tâches de pick-and-place en simulation et en environnement réel, où il améliore le taux de succès de 56,46 % en moyenne par rapport aux baselines. Un mécanisme d'augmentation active cible les cas à faible confiance pour générer et filtrer automatiquement de nouvelles données d'entraînement, sans annotation humaine supplémentaire. L'intérêt principal de LACY pour les intégrateurs et les équipes R&D tient à sa boucle auto-améliorante : le robot ne se contente plus d'exécuter, il peut rationaliser ses propres gestes, ce qui enrichit les représentations internes et réduit la dépendance aux datasets labellisés manuellement. La capacité A2L constitue une avancée pour la supervision et le débogage en production, car un système capable d'expliquer ses actions facilite la validation humaine. Sur le plan de la généralisation, le signal L2C fonctionne comme un filtre de cohérence sémantique qui élimine les augmentations bruyantes, un problème récurrent dans l'entraînement sim-to-real. Cela dit, les expériences restent limitées au pick-and-place, tâche canonique mais peu représentative de la complexité des workflows industriels réels. LACY s'inscrit dans une vague de travaux VLA post-RT-2 qui cherchent à dépasser le paradigme unidirectionnel : Pi-0 de Physical Intelligence, GR00T N2 de NVIDIA ou OpenVLA explorent des espaces proches mais n'intègrent pas de branche A2L explicite. La page projet (vla2026.github.io/LACY) laisse entrevoir des extensions vers des tâches de manipulation plus complexes. L'absence de données sur les temps de cycle, les charges utiles ou les plateformes matérielles testées rend difficile toute évaluation directe pour un déploiement industriel, et le saut de 56,46 % mérite d'être lu avec prudence tant que les conditions expérimentales complètes ne sont pas publiées.

💬 La boucle auto-améliorante, c'est le vrai truc ici : le robot cible ses propres points faibles et génère de nouvelles données sans qu'on ait à labelliser quoi que ce soit. Le +56% de succès sonne bien, bon, il faut lire les conditions expérimentales complètes avant de s'emballer. Et la capacité A2L (le robot qui explique ses propres gestes en langage naturel) va vraiment servir en prod, pas juste dans les démos.

IA physiqueOpinion
1 source
Mélange d'experts structuré sémantiquement pour la manipulation robotique compositionnelle
3arXiv cs.RO 

Mélange d'experts structuré sémantiquement pour la manipulation robotique compositionnelle

Des chercheurs ont publié le 23 mai 2026 sur arXiv (réf. 2605.23477) un cadre d'apprentissage pour la manipulation robotique compositionnelle baptisé SMoDP (Semantically Structured Mixture-of-Experts Diffusion Policy). L'approche combine des politiques de diffusion avec une architecture Mixture-of-Experts (MoE) guidée sémantiquement : un prédicteur de compétences léger, supervisé par des annotations hors-ligne générées par des modèles vision-langage (VLM), route des séquences d'actions vers des experts spécialisés par phase comportementale (saisie, transport, insertion). La cohérence du routage est assurée par une double stratégie d'alignement contrastif, inter-modal pour ancrer les observations multimodales dans des sémantiques définies en langage naturel, et intra-modal pour maintenir un routage cohérent entre comportements visuellement distincts mais fonctionnellement équivalents. Sur des benchmarks multi-tâches, SMoDP surpasse les baselines diffusion et MoE existantes avec une meilleure efficacité paramétrique, et supporte le transfert vers de nouvelles tâches via fine-tuning frugal. L'enjeu est réel : les politiques de diffusion haute performance sont coûteuses en inférence, tandis que les versions allégées peinent à généraliser dès que le nombre de tâches augmente. Les architectures MoE classiques, qui n'activent qu'un sous-ensemble de paramètres, souffrent d'un défaut de conception : leur routage basé sur des statistiques latentes fragmente les comportements réutilisables entre experts, réduisant l'interprétabilité et la transférabilité. En ancrant la spécialisation dans la structure sémantique de la tâche, SMoDP rend les experts plus modulaires, un avantage direct pour les intégrateurs déployant des robots polyvalents sans réentraîner l'ensemble du modèle. Ce travail s'inscrit dans une course intense à l'efficacité des politiques robotiques. Depuis 2023, les politiques de diffusion (Diffusion Policy, Pi-0 de Physical Intelligence) ont supplanté les approches classiques, et les succès des MoE dans les LLM (Mixtral, Qwen-MoE) ont incité les chercheurs en robotique à adapter ces architectures, avec des résultats mitigés faute d'un bon mécanisme de routage. SMoDP se rapproche des pipelines VLA (Vision-Language-Action) comme OpenVLA ou GR00T N2 de NVIDIA, en intégrant la supervision sémantique par VLM comme lien entre langage et action. À ce stade, il s'agit d'une contribution académique validée en simulation et en environnement de laboratoire, sans annonce de déploiement industriel ni de partenaire commercial ; l'étape logique suivante serait une validation sur plateformes matérielles réelles à grande diversité de tâches.

💬 Le vrai problème des MoE en robotique, c'était le routage : les experts se spécialisaient sur des statistiques latentes sans rapport avec ce que le robot faisait vraiment. Ancrer la spécialisation sur des phases comportementales concrètes, saisir, transporter, insérer, c'est le bon sens qui manquait, et les benchmarks suivent. Reste à confirmer ça sur du matériel réel, pas juste en simulation.

IA physiqueOpinion
1 source
ST-π : VLA spatio-temporel structuré pour la manipulation robotique
4arXiv cs.RO 

ST-π : VLA spatio-temporel structuré pour la manipulation robotique

Une équipe de chercheurs a publié fin avril 2026 ST-π (ST-pi), un modèle vision-langage-action (VLA) conçu pour améliorer la manipulation robotique fine en introduisant une planification spatiotemporelle explicitement structurée. Contrairement aux VLA classiques qui projettent directement les observations visuelles vers des actions step-by-step, ST-π décompose la tâche en deux niveaux distincts : un VLM spatiotemporel qui encode des observations 4D (vidéo + profondeur) et génère une séquence ordonnée de "prompts d'action" au niveau chunk, incluant sous-tâches, ancrage spatial et ancrage temporel ; puis un "action expert" conditionné sur ces prompts, qui utilise un mécanisme de double générateur pour modéliser conjointement les dépendances spatiales et la causalité temporelle, produisant in fine les paramètres d'action step-level. Les auteurs ont également constitué un dataset réel avec annotations spatiotemporelles structurées pour le fine-tuning. Le code source est disponible sur GitHub (chuanhaoma/ST-pi). L'intérêt de cette approche réside dans l'explicitation du raisonnement spatiotemporal, un point aveugle documenté des VLA actuels. Les modèles existants comme Pi-0 (Physical Intelligence), OpenVLA ou RT-2 encodent implicitement ce raisonnement dans les représentations visuelles et d'action, ce qui les rend fragiles face à des séquences comportementales multiples avec des frontières temporelles précises, typiquement les tâches d'assemblage, de tri ou de manipulation en plusieurs étapes que les intégrateurs industriels cherchent à automatiser. ST-π propose une architecture où le VLM planifie globalement et l'action expert raffine localement, ce qui est une séparation de responsabilités plus proche de la façon dont les ingénieurs roboticiens structurent eux-mêmes les programmes de manipulation. Ce travail s'inscrit dans une dynamique de recherche active sur le sim-to-real et la généralisation des VLA, portée notamment par Physical Intelligence, Google DeepMind (avec GR00T N2 côté NVIDIA) et des laboratoires académiques en Chine. ST-π est un preprint arXiv (2604.17880), pas encore évalué en peer review, et les métriques de performance annoncées restent à confronter à des benchmarks indépendants comme LIBERO ou RLBench. Aucun partenaire industriel ni déploiement terrain n'est mentionné à ce stade, il s'agit d'une contribution de recherche, pas d'un produit commercialisé. Les prochaines étapes naturelles seraient une évaluation comparative sur des benchmarks standardisés et un test sur des robots réels en dehors du dataset des auteurs.

IA physiqueOpinion
1 source