Symskill : co-invention de symboles et de…

ARM : modélisation des récompenses par avantage pour la manipulation à long horizon

38

1arXiv cs.RO

ARM : modélisation des récompenses par avantage pour la manipulation à long horizon

Une équipe de chercheurs propose ARM (Advantage Reward Modeling, arXiv:2604.03037), un framework pour améliorer l'apprentissage par renforcement (RL) sur des tâches de manipulation robotique à long horizon. Le problème de fond : les récompenses éparses fournissent trop peu de signal pour guider l'apprentissage quand une tâche implique des dizaines d'étapes. ARM substitue la mesure de progression absolue par une estimation de l'avantage relatif, via un protocole de labeling à trois états : Progressif, Régressif, Stagnant. Ce schéma tri-état réduit la charge cognitive des annotateurs humains tout en assurant une forte cohérence inter-annotateurs. Intégré dans un pipeline de RL offline, il pondère les données de façon adaptative pour filtrer les échantillons sous-optimaux. Résultat annoncé : 99,4 % de réussite sur une tâche de pliage de serviette à long horizon, avec quasi-absence d'intervention humaine pendant l'entraînement. L'atout principal d'ARM est son coût d'annotation réduit face aux méthodes classiques de reward shaping dense, qui exigent une ingénierie fine de la fonction de récompense et peinent à modéliser des comportements non monotones comme le backtracking ou la récupération d'erreur. ARM ramène l'annotation à une classification intuitive, applicable aux démonstrations complètes comme aux données fragmentées issues de DAgger (imitation learning itératif). Les auteurs rapportent un gain sur les baselines VLA (Vision-Language-Action) actuels en stabilité et en efficacité des données, mais le benchmark se limite à un seul scénario de pliage de serviette : un résultat prometteur qui reste à confirmer sur un panel de tâches plus large et diversifié. La manipulation à long horizon demeure l'un des problèmes les plus ouverts de la robotique, au coeur de la compétition entre Pi-0 (Physical Intelligence), GR00T N2 (NVIDIA) et d'autres architectures VLA. ARM s'inscrit dans le courant qui vise à rendre le RL applicable en conditions réelles sans dépendre massivement de la simulation (sim-to-real) ni de fonctions de récompense codifiées manuellement. Il s'agit d'un résultat de laboratoire : aucun déploiement terrain ni partenaire industriel n'est mentionné dans la publication. Les suites attendues sont une validation sur des tâches plus variées et des plateformes robotiques commerciales, notamment les humanoïdes actuellement en phase de commercialisation.

IA physiqueOpinion

1 source

SERF : une carte spatio-temporelle pour la manipulation mobile à long horizon

42

2arXiv cs.RO

SERF : une carte spatio-temporelle pour la manipulation mobile à long horizon

Des chercheurs ont présenté SERF (Spatiotemporal Environment and Robot Feature Map), une architecture de représentation spatiale et temporelle destinée à améliorer la manipulation mobile sur des horizons longs. Publiée sur arXiv sous l'identifiant 2606.12956, l'approche conditionne une politique de manipulation mobile sur une carte de caractéristiques qui encode simultanément l'environnement et le corps articulé du robot sous forme de points neuronaux dans un espace latent partagé. Cette carte est mise à jour en ligne à partir d'observations égocentriques et de données proprioceptives: les points neuronaux de l'environnement sont actualisés via un suivi rigide au niveau objet, tandis que les points du robot exploitent la cinématique directe. Les tokens extraits de la carte SERF, à plusieurs échelles spatiales et depuis plusieurs cadres de référence, sont injectés comme entrée d'état dans un modèle VLA (vision-language-action), fournissant à la politique un contexte à la fois local et global. L'évaluation est conduite sur BEHAVIOR-1K, un benchmark standard pour la manipulation mobile longue durée en environnements domestiques simulés. L'intérêt de SERF réside dans sa réponse à une limite structurelle des politiques basées uniquement sur l'image: l'incapacité à maintenir une représentation cohérente de l'environnement, de la localisation et de l'avancement de la tâche sur des séquences longues. Les résultats montrent que la politique SERF surpasse les baselines image-only sur BEHAVIOR-1K, atteint les sous-objectifs plus rapidement en empruntant des trajectoires plus directes, se montre plus robuste aux changements de configuration de scène, et parvient à récupérer après un échec de type "object drop" -- capacité critique pour un déploiement industriel. Pour les intégrateurs de systèmes manipulateurs mobiles, la capacité à gérer des perturbations imprévues sans replanning complet représente un gain opérationnel concret, même si les performances sont ici mesurées en simulation. SERF s'inscrit dans un courant de recherche actif qui cherche à doter les modèles VLA d'une mémoire spatiale persistante, en complément de travaux comme GNFactor ou RVT qui exploitent des représentations 3D de la scène. L'approche se distingue en intégrant explicitement la représentation du robot lui-même dans la carte, aux côtés de l'environnement, ce que la plupart des architectures traitent séparément. Dans l'écosystème VLA, où Pi-0 (Physical Intelligence), GR00T N2 (NVIDIA) ou OpenVLA opèrent principalement sur des observations de courte durée, SERF propose une piste pour étendre l'horizon de raisonnement sans augmenter la complexité d'entrée brute. Les prochaines étapes naturelles sont un transfert sim-to-real sur hardware réel et une validation sur des benchmarks en environnement physique, absente à ce stade de l'article.

IA physiqueOpinion

1 source

S²-VLA : modèles vision-langage-action guidés par l'espace d'états pour la manipulation à long horizon

44

3arXiv cs.RO

S²-VLA : modèles vision-langage-action guidés par l'espace d'états pour la manipulation à long horizon

Un groupe de chercheurs a publié S²-VLA (State-Space Guided Vision-Language-Action), une architecture destinée à résoudre l'une des limitations structurelles des modèles VLA en manipulation robotique : la dégradation des performances sur les tâches longues due à la propagation cumulative des erreurs. Le coeur du système est le mécanisme SSGAA (State-Space Guided Adaptive Attention), qui maintient un "état de croyance" (belief state) actualisé à chaque étape de la tâche et génère des poids de fusion dynamiques, là où les architectures VLA existantes utilisent des poids fixes. Ces poids adaptatifs combinent trois sources : les caractéristiques visuelles pour la perception spatiale, les intentions de haut niveau pour la planification, et les séquences d'actions temporelles pour la cohérence d'exécution. Avec 2 milliards de paramètres seulement, S²-VLA surpasse des modèles de 7 milliards sur les benchmarks LIBERO et SimplerEnv, deux références pour l'évaluation des tâches de manipulation longue séquence. Le résultat le plus saillant est l'efficacité paramétrique : battre des modèles 7B avec un modèle 2B remet en question l'hypothèse selon laquelle la performance sur des tâches complexes serait avant tout une affaire de scaling. Pour les intégrateurs industriels et les équipes déployant des robots manipulateurs, cela ouvre la voie à une inférence embarquée sur des plateformes aux ressources limitées. Sur le plan de la recherche, le papier formalise un point de friction bien identifié : la fusion statique des représentations visuelles, linguistiques et motrices crée une rigidité qui amplifie les erreurs au fil des étapes. L'emprunt aux modèles d'espace d'états (State Space Models, d'où "S²") pour introduire une mémoire adaptative dans la fusion est l'apport architectural central. Les modèles VLA ont connu une accélération significative depuis 2024, avec Pi-0 (Physical Intelligence), OpenVLA (UC Berkeley) et GR00T N2 (NVIDIA) comme jalons récents, tous confrontés à la même limite sur les longs horizons de tâches. S²-VLA s'inscrit dans un courant de recherche cherchant à résoudre ce "long-horizon gap" par l'architecture plutôt que par l'échelle. Le papier est disponible sur arXiv (référence 2606.27872v1) et reste un preprint non évalué par les pairs : les résultats annoncés sont à confirmer indépendamment. Aucun code ni dataset n'est encore annoncé publiquement, et les affiliations institutionnelles des auteurs ne figurent pas dans le résumé disponible.

💬 Un modèle de 2 milliards qui bat des modèles de 7 milliards sur les tâches longues, c'est le genre de résultat qui remet en question l'obsession du scaling. L'astuce : une attention adaptative qui maintient un état de croyance continu entre chaque étape de la tâche, là où les VLA existants utilisent encore des poids fixes et accumulent les erreurs au fil des actions. C'est un preprint sans code pour l'instant, mais si ça se confirme, les robots embarqués sur hardware limité deviennent soudainement une option sérieuse.

IA physiqueOpinion

1 source

Humanoid Everyday : un jeu de données robotique complet pour la manipulation humanoïde en monde ouvert

52

4arXiv cs.RO

Humanoid Everyday : un jeu de données robotique complet pour la manipulation humanoïde en monde ouvert

Une équipe de recherche a publié sur arXiv (identifiant 2510.08807v2) Humanoid Everyday, un jeu de données massif dédié à l'apprentissage de la manipulation par les robots humanoïdes en conditions ouvertes. Le dataset compile 10 300 trajectoires et plus de 3 millions de frames couvrant 260 tâches réparties en 7 catégories larges : manipulation dextère d'objets, interaction humain-humanoïde, actions intégrant de la locomotion bipède, et d'autres scénarios du quotidien. Les données sont multimodales, RGB, profondeur, LiDAR, retour tactile, accompagnées d'annotations en langage naturel. La collecte repose sur un pipeline de télé-opération supervisée par des humains, optimisé pour maximiser le débit tout en maintenant la qualité des démonstrations. Les auteurs publient simultanément une plateforme d'évaluation cloud permettant à des équipes extérieures de déployer leurs propres politiques de contrôle et d'obtenir des métriques comparables dans un environnement standardisé. Ce dataset comble un vide structurel dans la recherche robotique : la quasi-totalité des benchmarks existants (Open X-Embodiment, DROID, BridgeData V2) ciblent des bras fixes, et les rares datasets humanoïdes disponibles se limitent à des environnements contrôlés, un faible nombre de tâches, et excluent généralement la locomotion et l'interaction avec des personnes. Pour un intégrateur ou un décideur industriel, la portée pratique est double : des données hétérogènes permettent d'entraîner des politiques plus généralisables, notamment des architectures VLA (vision-language-action) ; la plateforme d'évaluation cloud offre pour la première fois un cadre reproductible pour comparer des méthodes d'apprentissage par imitation ou par renforcement sur des tâches humanoïdes réalistes. L'article analyse aussi les performances de plusieurs politiques de référence, en identifiant leurs forces et limites par catégorie. La publication intervient dans un contexte de forte concurrence autour des données d'entraînement pour humanoïdes. Physical Intelligence (Pi-0, π0.5), NVIDIA (GR00T N2), Unitree et Figure AI misent chacun sur des datasets propriétaires pour différencier leurs politiques de contrôle. Côté recherche ouverte, AgiBot World et RH20T ont posé des jalons, mais restent limités dans leur couverture humanoïde. Humanoid Everyday est rendu entièrement public, dataset, code de collecte et plateforme d'évaluation inclus, ce qui en fait une ressource directement exploitable par des laboratoires et startups sans accès à des infrastructures de collecte massives. Les auteurs présentent cette release comme un socle pour de futurs agents incarnés généralistes, sans préciser d'échéancier pour des suites expérimentales.

UELes équipes de recherche et startups européennes en robotique humanoïde peuvent exploiter directement ce dataset open-source, 10 300 trajectoires, 260 tâches, plateforme d'évaluation cloud, sans investir dans une infrastructure de collecte massive, ce qui réduit la barrière d'entrée face aux acteurs américains et asiatiques disposant de données propriétaires.

💬 Le vrai sujet ici, c'est pas juste le volume (10 300 trajectoires, bon), c'est que les benchmarks humanoïdes existants ignoraient presque tous la locomotion et l'interaction avec des humains réels depuis le début. Des acteurs comme Pi-0 ou GR00T N2 misaient sur leurs données propriétaires comme avantage concurrentiel, et une release open-source de cette ampleur vient rogner ce levier directement. Reste à voir si ça tient face à des politiques entraînées en conditions réelles, mais pour des labos sans infrastructure de collecte massive, ça change le rapport de force.

IA physiqueOpinion

1 source

Symskill : co-invention de symboles et de compétences pour une manipulation réactive à long horizon, économe en données

À lire aussi

ARM : modélisation des récompenses par avantage pour la manipulation à long horizon

SERF : une carte spatio-temporelle pour la manipulation mobile à long horizon

S²-VLA : modèles vision-langage-action guidés par l'espace d'états pour la manipulation à long horizon

Humanoid Everyday : un jeu de données robotique complet pour la manipulation humanoïde en monde ouvert