Aller au contenu principal
SARM2 : modélisation de récompense multi-tâches par étape pour la manipulation robotique auto-améliorante
IA physiquearXiv cs.RO3h

SARM2 : modélisation de récompense multi-tâches par étape pour la manipulation robotique auto-améliorante

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Des chercheurs publient sur arXiv (2606.10305) SARM2, un modèle de récompense dense multi-tâches pour l'affinement de politiques vision-langage-action (VLA) en manipulation robotique, accompagné du framework SPIRAL (Self-Policy Improvement via Reward-Aligned Learning). L'approche combine un estimateur de stade fondé sur des primitives d'action et une tête de valeur Mixture-of-Experts multi-portes (MMoE) pour produire des récompenses denses à chaque étape sur dix tâches de manipulation distinctes. Sur ce benchmark, SARM2 réduit l'erreur quadratique moyenne d'estimation de valeur de 80 % par rapport aux meilleures méthodes existantes. Via SPIRAL, qui génère des rollouts autonomes et les recycle sans démonstrations humaines supplémentaires, le taux de succès progresse de 58 % à 100 % sur "Folding Shorts" et de 50 % à 90 % sur "Cleaning Whiteboard".

Ces résultats pointent un levier concret pour réduire la dépendance au clonage comportemental (behavior cloning), approche encore dominante mais coûteuse : elle exige des démonstrations de haute qualité et bloque les politiques près de la distribution d'entraînement. Un reward model suffisamment dense et précis permet d'alimenter un data flywheel autonome, de réduire les cycles de supervision humaine, et d'adapter les politiques à de nouvelles tâches sans re-collecte de données. Le papier adresse aussi un écueil bien connu du secteur : les reward models VLM généralistes sont trop grossiers pour les tâches longue-horizon, tandis que les modèles spécialisés nécessitent des annotations par tâche. L'architecture MMoE multi-tâches vise précisément cet entre-deux, ce qui intéresse directement les intégrateurs devant déployer un même robot sur des variantes de tâches.

Ce travail s'inscrit dans la course intense autour des politiques VLA -- Pi-0 (Physical Intelligence), GR00T N2 (NVIDIA), Helix (Figure AI), OpenVLA (UC Berkeley) -- où la phase de fine-tuning et d'amélioration continue reste un goulot d'étranglement non résolu. SARM2 et SPIRAL se positionnent en briques complémentaires au pré-entraînement, ciblant l'adaptation terrain. À ce stade, il s'agit d'un préprint académique sans déploiement industriel annoncé ni code public disponible, et les benchmarks sélectionnés (pliage de vêtements, nettoyage de tableau blanc) restent des tâches de laboratoire contrôlées. La combinaison reward model dense et self-improvement loop sans démonstrations humaines est néanmoins exactement le type de composant que les acteurs commerciaux comme Agility Robotics, Figure AI ou 1X Technologies cherchent à consolider pour abaisser les coûts d'adaptation en production.

À lire aussi

ARM : modélisation des récompenses par avantage pour la manipulation à long horizon
1arXiv cs.RO 

ARM : modélisation des récompenses par avantage pour la manipulation à long horizon

Une équipe de chercheurs propose ARM (Advantage Reward Modeling, arXiv:2604.03037), un framework pour améliorer l'apprentissage par renforcement (RL) sur des tâches de manipulation robotique à long horizon. Le problème de fond : les récompenses éparses fournissent trop peu de signal pour guider l'apprentissage quand une tâche implique des dizaines d'étapes. ARM substitue la mesure de progression absolue par une estimation de l'avantage relatif, via un protocole de labeling à trois états : Progressif, Régressif, Stagnant. Ce schéma tri-état réduit la charge cognitive des annotateurs humains tout en assurant une forte cohérence inter-annotateurs. Intégré dans un pipeline de RL offline, il pondère les données de façon adaptative pour filtrer les échantillons sous-optimaux. Résultat annoncé : 99,4 % de réussite sur une tâche de pliage de serviette à long horizon, avec quasi-absence d'intervention humaine pendant l'entraînement. L'atout principal d'ARM est son coût d'annotation réduit face aux méthodes classiques de reward shaping dense, qui exigent une ingénierie fine de la fonction de récompense et peinent à modéliser des comportements non monotones comme le backtracking ou la récupération d'erreur. ARM ramène l'annotation à une classification intuitive, applicable aux démonstrations complètes comme aux données fragmentées issues de DAgger (imitation learning itératif). Les auteurs rapportent un gain sur les baselines VLA (Vision-Language-Action) actuels en stabilité et en efficacité des données, mais le benchmark se limite à un seul scénario de pliage de serviette : un résultat prometteur qui reste à confirmer sur un panel de tâches plus large et diversifié. La manipulation à long horizon demeure l'un des problèmes les plus ouverts de la robotique, au coeur de la compétition entre Pi-0 (Physical Intelligence), GR00T N2 (NVIDIA) et d'autres architectures VLA. ARM s'inscrit dans le courant qui vise à rendre le RL applicable en conditions réelles sans dépendre massivement de la simulation (sim-to-real) ni de fonctions de récompense codifiées manuellement. Il s'agit d'un résultat de laboratoire : aucun déploiement terrain ni partenaire industriel n'est mentionné dans la publication. Les suites attendues sont une validation sur des tâches plus variées et des plateformes robotiques commerciales, notamment les humanoïdes actuellement en phase de commercialisation.

IA physiqueOpinion
1 source
LACY : cycle langage-action à base de modèle vision-langage pour la manipulation robotique auto-améliorante
2arXiv cs.RO 

LACY : cycle langage-action à base de modèle vision-langage pour la manipulation robotique auto-améliorante

Des chercheurs ont publié sur arXiv (arXiv:2511.02239) LACY, un cadre unifié reposant sur un modèle vision-langage (VLM) qui introduit une cartographie bidirectionnelle entre instructions textuelles et actions robotiques. Contrairement aux architectures VLA classiques qui se limitent à traduire du langage vers des actions (L2A), LACY entraîne simultanément trois tâches complémentaires : la génération d'actions paramétrées à partir d'une instruction (L2A), l'explication en langage naturel d'une action observée (A2L), et la vérification de cohérence sémantique entre deux descriptions (L2C). Le système a été évalué sur des tâches de pick-and-place en simulation et en environnement réel, où il améliore le taux de succès de 56,46 % en moyenne par rapport aux baselines. Un mécanisme d'augmentation active cible les cas à faible confiance pour générer et filtrer automatiquement de nouvelles données d'entraînement, sans annotation humaine supplémentaire. L'intérêt principal de LACY pour les intégrateurs et les équipes R&D tient à sa boucle auto-améliorante : le robot ne se contente plus d'exécuter, il peut rationaliser ses propres gestes, ce qui enrichit les représentations internes et réduit la dépendance aux datasets labellisés manuellement. La capacité A2L constitue une avancée pour la supervision et le débogage en production, car un système capable d'expliquer ses actions facilite la validation humaine. Sur le plan de la généralisation, le signal L2C fonctionne comme un filtre de cohérence sémantique qui élimine les augmentations bruyantes, un problème récurrent dans l'entraînement sim-to-real. Cela dit, les expériences restent limitées au pick-and-place, tâche canonique mais peu représentative de la complexité des workflows industriels réels. LACY s'inscrit dans une vague de travaux VLA post-RT-2 qui cherchent à dépasser le paradigme unidirectionnel : Pi-0 de Physical Intelligence, GR00T N2 de NVIDIA ou OpenVLA explorent des espaces proches mais n'intègrent pas de branche A2L explicite. La page projet (vla2026.github.io/LACY) laisse entrevoir des extensions vers des tâches de manipulation plus complexes. L'absence de données sur les temps de cycle, les charges utiles ou les plateformes matérielles testées rend difficile toute évaluation directe pour un déploiement industriel, et le saut de 56,46 % mérite d'être lu avec prudence tant que les conditions expérimentales complètes ne sont pas publiées.

💬 La boucle auto-améliorante, c'est le vrai truc ici : le robot cible ses propres points faibles et génère de nouvelles données sans qu'on ait à labelliser quoi que ce soit. Le +56% de succès sonne bien, bon, il faut lire les conditions expérimentales complètes avant de s'emballer. Et la capacité A2L (le robot qui explique ses propres gestes en langage naturel) va vraiment servir en prod, pas juste dans les démos.

IA physiqueOpinion
1 source
SlotVLA : vers la modélisation des représentations objet-relation pour la manipulation robotique
3arXiv cs.RO 

SlotVLA : vers la modélisation des représentations objet-relation pour la manipulation robotique

Des chercheurs présentent dans un preprint arXiv (2511.06754v3, troisième révision, mai 2026) SlotVLA, un framework de manipulation robotique multitatches qui repose sur des représentations centrées sur les objets et leurs relations plutôt que sur les plongements denses utilisés par la majorité des modèles VLA actuels. L'architecture combine trois composants : un tokeniseur visuel à slots qui maintient des représentations temporellement cohérentes pour chaque objet détecté dans la scène, un décodeur centré sur les relations entre objets pour produire des embeddings pertinents à la tâche, et un module LLM qui traduit ces embeddings en séquences d'actions exécutables. En parallèle, les auteurs publient LIBERO+, un benchmark de manipulation dérivé du jeu de données LIBERO existant, enrichi d'annotations objet-centriques au niveau des boîtes englobantes et des masques de segmentation, ainsi qu'un suivi temporel des instances entre frames. Les expériences conduites sur LIBERO+ montrent que les représentations à slots réduisent significativement le nombre de tokens visuels nécessaires tout en conservant des performances de généralisation comparables aux baselines denses. L'intérêt principal de cette approche réside dans la tension qu'elle adresse directement : les VLAs déployés à ce jour (Pi-0 de Physical Intelligence, GR00T N2 de NVIDIA, Helix de Figure) s'appuient sur des encodeurs visuels qui traitent la scène comme un champ dense, sans distinction explicite entre objets manipulables et arrière-plan. Cette architecture entraîne une redondance computationnelle et rend difficile l'audit du raisonnement du modèle, ce qui freine l'adoption industrielle dans des contextes certifiables. SlotVLA propose que des représentations structurées, inspirées de la cognition humaine sur les objets discrets, puissent constituer une base plus efficace et interprétable pour le contrôle visuomoteur. La réduction du nombre de tokens visuels est un levier concret de coût d'inférence pour des systèmes embarqués ou des flottes de robots. Il convient toutefois de noter que les résultats présentés restent confinés à l'environnement simulé LIBERO+ : aucune validation physique sur robot réel n'est rapportée dans ce preprint, ce qui laisse ouverte la question du sim-to-real gap pour ce type de représentation. Cette publication s'inscrit dans un courant actif de recherche sur les architectures objet-centriques pour la robotique, dont les travaux fondateurs incluent les modèles de slot attention de Locatello et al. (2020) et les approches OCRL. LIBERO avait déjà été introduit comme benchmark multitatches pour la manipulation, mais sans annotations objet-centriques fines : LIBERO+ vient combler ce manque pour faciliter l'évaluation comparative de ce type de représentation. Sur le plan concurrentiel, les laboratoires académiques (notamment ceux liés à CMU, Berkeley, Stanford) et industriels travaillent en parallèle sur des architectures plus interprétables pour répondre aux demandes croissantes de traçabilité dans l'automatisation industrielle. Les prochaines étapes naturelles seront la validation sim-to-real sur des plateformes physiques standard (Franka, UR, ou humanoïdes) et l'intégration dans des pipelines de fine-tuning avec des modèles fondateurs publics.

IA physiqueOpinion
1 source
SAFE-Pruner : élagage de tokens guidé par l'attention sémantique pour les modèles VLA en manipulation robotique
4arXiv cs.RO 

SAFE-Pruner : élagage de tokens guidé par l'attention sémantique pour les modèles VLA en manipulation robotique

Des chercheurs ont publié fin mai 2026 SAFE-Pruner (arXiv:2605.29662), un framework d'élagage de tokens conçu pour accélérer l'inférence des modèles vision-language-action (VLA) en robotique. Les VLA combinent perception visuelle, compréhension du langage et génération de commandes motrices, mais leur charge computationnelle freine leur déploiement en temps réel. Les méthodes d'élagage existantes s'appuient sur les couches superficielles du réseau et risquent de supprimer des tokens visuels encore requis par les couches profondes. SAFE-Pruner intègre une stratégie prospective qui prédit la saillance future des tokens en exploitant la "semantic attention consistency" : la tendance des VLA à concentrer leur attention sur la même entité sémantique à travers les étapes successives d'exécution. Un second mécanisme, la division adaptative de sous-tâches, détecte les ruptures brusques d'attention pour affiner les prévisions. Sur simulation et en conditions réelles, la méthode atteint un gain de vitesse jusqu'à 1,89x avec une dégradation du taux de succès inférieure à 1,7%, surpassant l'état de l'art de jusqu'à 1,9%. Pour les intégrateurs industriels déployant des VLA sur du matériel embarqué à puissance limitée, un gain de 1,89x sans refonte d'infrastructure représente un levier concret. La contribution théorique sur la cohérence sémantique de l'attention ouvre aussi une piste pour mieux comprendre ce que les VLA perçoivent réellement lors de l'exécution de tâches, un angle utile pour le débogage et la sûreté fonctionnelle. Il faut toutefois rester prudent : les benchmarks présentés ne précisent pas les environnements de test, le matériel utilisé ni le spectre complet des tâches évaluées, un bémol habituel dans les papiers de recherche en manipulation. SAFE-Pruner s'inscrit dans un mouvement plus large d'optimisation des modèles fondation pour la robotique, porté notamment par RT-2 (Google DeepMind, 2023), OpenVLA (Berkeley, 2024) et Pi-0 de Physical Intelligence (2024). Face à des architectures combinant des backbones de plusieurs milliards de paramètres avec un policy head, la communauté explore en parallèle la quantification, la distillation et l'élagage adaptatif. Le framework se présente comme un module plug-and-play compatible avec les VLA existants, ce qui faciliterait l'adoption sans refonte des pipelines si la compatibilité est confirmée sur un panel représentatif de modèles. L'article est disponible en preprint sur arXiv ; aucune intégration dans un framework open-source ni déploiement sur robot commercial n'est annoncé à ce stade.

IA physiqueOpinion
1 source