ARM : modélisation des récompenses par avantage…

SARM2 : modélisation de récompense multi-tâches par étape pour la manipulation robotique auto-améliorante

42

1arXiv cs.RO

SARM2 : modélisation de récompense multi-tâches par étape pour la manipulation robotique auto-améliorante

Des chercheurs publient sur arXiv (2606.10305) SARM2, un modèle de récompense dense multi-tâches pour l'affinement de politiques vision-langage-action (VLA) en manipulation robotique, accompagné du framework SPIRAL (Self-Policy Improvement via Reward-Aligned Learning). L'approche combine un estimateur de stade fondé sur des primitives d'action et une tête de valeur Mixture-of-Experts multi-portes (MMoE) pour produire des récompenses denses à chaque étape sur dix tâches de manipulation distinctes. Sur ce benchmark, SARM2 réduit l'erreur quadratique moyenne d'estimation de valeur de 80 % par rapport aux meilleures méthodes existantes. Via SPIRAL, qui génère des rollouts autonomes et les recycle sans démonstrations humaines supplémentaires, le taux de succès progresse de 58 % à 100 % sur "Folding Shorts" et de 50 % à 90 % sur "Cleaning Whiteboard". Ces résultats pointent un levier concret pour réduire la dépendance au clonage comportemental (behavior cloning), approche encore dominante mais coûteuse : elle exige des démonstrations de haute qualité et bloque les politiques près de la distribution d'entraînement. Un reward model suffisamment dense et précis permet d'alimenter un data flywheel autonome, de réduire les cycles de supervision humaine, et d'adapter les politiques à de nouvelles tâches sans re-collecte de données. Le papier adresse aussi un écueil bien connu du secteur : les reward models VLM généralistes sont trop grossiers pour les tâches longue-horizon, tandis que les modèles spécialisés nécessitent des annotations par tâche. L'architecture MMoE multi-tâches vise précisément cet entre-deux, ce qui intéresse directement les intégrateurs devant déployer un même robot sur des variantes de tâches. Ce travail s'inscrit dans la course intense autour des politiques VLA -- Pi-0 (Physical Intelligence), GR00T N2 (NVIDIA), Helix (Figure AI), OpenVLA (UC Berkeley) -- où la phase de fine-tuning et d'amélioration continue reste un goulot d'étranglement non résolu. SARM2 et SPIRAL se positionnent en briques complémentaires au pré-entraînement, ciblant l'adaptation terrain. À ce stade, il s'agit d'un préprint académique sans déploiement industriel annoncé ni code public disponible, et les benchmarks sélectionnés (pliage de vêtements, nettoyage de tableau blanc) restent des tâches de laboratoire contrôlées. La combinaison reward model dense et self-improvement loop sans démonstrations humaines est néanmoins exactement le type de composant que les acteurs commerciaux comme Agility Robotics, Figure AI ou 1X Technologies cherchent à consolider pour abaisser les coûts d'adaptation en production.

IA physiqueOpinion

1 source

S²-VLA : modèles vision-langage-action guidés par l'espace d'états pour la manipulation à long horizon

44

2arXiv cs.RO

S²-VLA : modèles vision-langage-action guidés par l'espace d'états pour la manipulation à long horizon

Un groupe de chercheurs a publié S²-VLA (State-Space Guided Vision-Language-Action), une architecture destinée à résoudre l'une des limitations structurelles des modèles VLA en manipulation robotique : la dégradation des performances sur les tâches longues due à la propagation cumulative des erreurs. Le coeur du système est le mécanisme SSGAA (State-Space Guided Adaptive Attention), qui maintient un "état de croyance" (belief state) actualisé à chaque étape de la tâche et génère des poids de fusion dynamiques, là où les architectures VLA existantes utilisent des poids fixes. Ces poids adaptatifs combinent trois sources : les caractéristiques visuelles pour la perception spatiale, les intentions de haut niveau pour la planification, et les séquences d'actions temporelles pour la cohérence d'exécution. Avec 2 milliards de paramètres seulement, S²-VLA surpasse des modèles de 7 milliards sur les benchmarks LIBERO et SimplerEnv, deux références pour l'évaluation des tâches de manipulation longue séquence. Le résultat le plus saillant est l'efficacité paramétrique : battre des modèles 7B avec un modèle 2B remet en question l'hypothèse selon laquelle la performance sur des tâches complexes serait avant tout une affaire de scaling. Pour les intégrateurs industriels et les équipes déployant des robots manipulateurs, cela ouvre la voie à une inférence embarquée sur des plateformes aux ressources limitées. Sur le plan de la recherche, le papier formalise un point de friction bien identifié : la fusion statique des représentations visuelles, linguistiques et motrices crée une rigidité qui amplifie les erreurs au fil des étapes. L'emprunt aux modèles d'espace d'états (State Space Models, d'où "S²") pour introduire une mémoire adaptative dans la fusion est l'apport architectural central. Les modèles VLA ont connu une accélération significative depuis 2024, avec Pi-0 (Physical Intelligence), OpenVLA (UC Berkeley) et GR00T N2 (NVIDIA) comme jalons récents, tous confrontés à la même limite sur les longs horizons de tâches. S²-VLA s'inscrit dans un courant de recherche cherchant à résoudre ce "long-horizon gap" par l'architecture plutôt que par l'échelle. Le papier est disponible sur arXiv (référence 2606.27872v1) et reste un preprint non évalué par les pairs : les résultats annoncés sont à confirmer indépendamment. Aucun code ni dataset n'est encore annoncé publiquement, et les affiliations institutionnelles des auteurs ne figurent pas dans le résumé disponible.

💬 Un modèle de 2 milliards qui bat des modèles de 7 milliards sur les tâches longues, c'est le genre de résultat qui remet en question l'obsession du scaling. L'astuce : une attention adaptative qui maintient un état de croyance continu entre chaque étape de la tâche, là où les VLA existants utilisent encore des poids fixes et accumulent les erreurs au fil des actions. C'est un preprint sans code pour l'instant, mais si ça se confirme, les robots embarqués sur hardware limité deviennent soudainement une option sérieuse.

IA physiqueOpinion

1 source

MIND-V : modèle du monde hiérarchique pour la manipulation robotique à long horizon avec alignement physique par RL

41

3arXiv cs.RO

MIND-V : modèle du monde hiérarchique pour la manipulation robotique à long horizon avec alignement physique par RL

Des chercheurs ont publié MIND-V, un modèle de monde hiérarchique conçu pour générer automatiquement des vidéos d'entraînement de manipulation robotique à long horizon, problème resté en grande partie non résolu jusqu'ici. L'architecture s'articule autour de trois modules : un Semantic Reasoning Hub (SRH) qui s'appuie sur un vision-language model pré-entraîné pour la planification de tâches, un Behavioral Semantic Bridge (BSB) qui traduit ces instructions abstraites en représentations invariantes au domaine, et un Motor Video Generator (MVG) chargé du rendu vidéo conditionnel. Pour garantir la cohérence physique des séquences générées, les auteurs ont introduit une phase de post-entraînement par reinforcement learning GRPO pilotée par une récompense inédite, la Physical Foresight Coherence (PFC), qui mobilise V-JEPA2 (le modèle de monde de Meta) comme arbitre de physique dans l'espace latent. Les expériences en simulation montrent des résultats état de l'art sur les benchmarks long-horizon, selon les auteurs. Le problème central que MIND-V adresse est la pénurie de données diversifiées pour l'intelligence incarnée : entraîner des politiques de manipulation requiert des milliers d'épisodes réussis sur des tâches enchaînées, données coûteuses à collecter en réel et difficiles à simuler de façon convaincante. L'approche est entièrement autonome, sans trajectoires définies manuellement, ce qui la distingue des générateurs de vidéos robotiques antérieurs limités à des clips courts et des gestes simples. La valeur opérationnelle est directe pour les équipes qui développent des VLA (Vision-Language-Action models) : des pipelines de synthèse de données à grande échelle pourraient réduire significativement la dépendance aux démonstrations téléopérées, principal goulot d'étranglement des robots comme Figure 03, Optimus ou 1X NEO. Ce travail s'inscrit dans une vague de recherche sur les world models pour la robotique, aux côtés de Dreamer, GAIA-1 adapté au robot, et du propre V-JEPA2 de Meta qu'il intègre comme brique de validation physique. L'article, initialement soumis en décembre 2024 (arXiv:2512.06628) et mis à jour en juin 2026, reste à ce stade un résultat en simulation uniquement : aucun déploiement physique ni intégration industrielle n'est mentionné, et le franchissement du sim-to-real gap reste à démontrer sur hardware réel.

IA physiqueOpinion

1 source

SERF : une carte spatio-temporelle pour la manipulation mobile à long horizon

42

4arXiv cs.RO

SERF : une carte spatio-temporelle pour la manipulation mobile à long horizon

Des chercheurs ont présenté SERF (Spatiotemporal Environment and Robot Feature Map), une architecture de représentation spatiale et temporelle destinée à améliorer la manipulation mobile sur des horizons longs. Publiée sur arXiv sous l'identifiant 2606.12956, l'approche conditionne une politique de manipulation mobile sur une carte de caractéristiques qui encode simultanément l'environnement et le corps articulé du robot sous forme de points neuronaux dans un espace latent partagé. Cette carte est mise à jour en ligne à partir d'observations égocentriques et de données proprioceptives: les points neuronaux de l'environnement sont actualisés via un suivi rigide au niveau objet, tandis que les points du robot exploitent la cinématique directe. Les tokens extraits de la carte SERF, à plusieurs échelles spatiales et depuis plusieurs cadres de référence, sont injectés comme entrée d'état dans un modèle VLA (vision-language-action), fournissant à la politique un contexte à la fois local et global. L'évaluation est conduite sur BEHAVIOR-1K, un benchmark standard pour la manipulation mobile longue durée en environnements domestiques simulés. L'intérêt de SERF réside dans sa réponse à une limite structurelle des politiques basées uniquement sur l'image: l'incapacité à maintenir une représentation cohérente de l'environnement, de la localisation et de l'avancement de la tâche sur des séquences longues. Les résultats montrent que la politique SERF surpasse les baselines image-only sur BEHAVIOR-1K, atteint les sous-objectifs plus rapidement en empruntant des trajectoires plus directes, se montre plus robuste aux changements de configuration de scène, et parvient à récupérer après un échec de type "object drop" -- capacité critique pour un déploiement industriel. Pour les intégrateurs de systèmes manipulateurs mobiles, la capacité à gérer des perturbations imprévues sans replanning complet représente un gain opérationnel concret, même si les performances sont ici mesurées en simulation. SERF s'inscrit dans un courant de recherche actif qui cherche à doter les modèles VLA d'une mémoire spatiale persistante, en complément de travaux comme GNFactor ou RVT qui exploitent des représentations 3D de la scène. L'approche se distingue en intégrant explicitement la représentation du robot lui-même dans la carte, aux côtés de l'environnement, ce que la plupart des architectures traitent séparément. Dans l'écosystème VLA, où Pi-0 (Physical Intelligence), GR00T N2 (NVIDIA) ou OpenVLA opèrent principalement sur des observations de courte durée, SERF propose une piste pour étendre l'horizon de raisonnement sans augmenter la complexité d'entrée brute. Les prochaines étapes naturelles sont un transfert sim-to-real sur hardware réel et une validation sur des benchmarks en environnement physique, absente à ce stade de l'article.

IA physiqueOpinion

1 source

ARM : modélisation des récompenses par avantage pour la manipulation à long horizon

À lire aussi

SARM2 : modélisation de récompense multi-tâches par étape pour la manipulation robotique auto-améliorante

S²-VLA : modèles vision-langage-action guidés par l'espace d'états pour la manipulation à long horizon

MIND-V : modèle du monde hiérarchique pour la manipulation robotique à long horizon avec alignement physique par RL

SERF : une carte spatio-temporelle pour la manipulation mobile à long horizon