HyperSim : un cadre complet de transfert simulation-rée…

ReST-MCTS centré sur la récompense : un cadre robuste de prise de décision pour la manipulation robotique en environnement incertain

42

1arXiv cs.RO

ReST-MCTS centré sur la récompense : un cadre robuste de prise de décision pour la manipulation robotique en environnement incertain

Une équipe de chercheurs a publié sur arXiv (référence 2503.05226v2) un framework décisionnel baptisé Reward-Centered ReST-MCTS, conçu pour améliorer la robustesse des politiques de manipulation robotique en environnement incertain. Le système s'appuie sur la recherche arborescente Monte Carlo (MCTS) augmentée d'un mécanisme de centrage de récompense : les signaux intermédiaires sont décomposés en quatre canaux distincts (règles explicites, heuristiques, réseau neuronal optionnel, estimation de valeur), puis normalisés par rapport à des contextes de tâche comparables afin de biaiser ou corriger la recherche sans altérer l'évaluation terminale. Le résultat central porte sur le benchmark LIBERO-Spatial en mode stress, avec perturbations du canal d'action : 0 succès sur 10 sans le vérificateur, contre 9 sur 10 avec. En conditions propres, le modèle de base OpenVLA-OFT atteint 10/10 avec ou sans le module RC, confirmant que le gain est spécifique aux scénarios dégradés. Des tests complémentaires sur ManiSkill couvrent le bruit d'observation, les décalages de pose initiale et les défaillances de primitives motrices. Ce résultat intéresse les intégrateurs et décideurs industriels parce qu'il cible directement le "reality gap" : les politiques VLA (Vision-Language-Action) telles qu'OpenVLA-OFT se comportent correctement en laboratoire mais se dégradent sous perturbation réelle (éclairage variable, position des pièces, usure des actionneurs). RC ReST-MCTS ne se pose pas comme une politique de remplacement, mais comme un vérificateur à inférence (test-time verifier) capable de corriger les actions générées par un VLA existant sans réentraîner le modèle de base. Pour un architecte système ou un COO, cela signifie qu'il devient possible de renforcer une politique déployée contre la variance du monde réel sans déclencher un cycle complet de fine-tuning, ce qui réduit considérablement le coût opérationnel de la mise à l'échelle. La recherche arborescente Monte Carlo appliquée à la manipulation robotique souffrait jusqu'ici de récompenses éparses en fin de rollout et d'un coût computationnel élevé pour les arbres profonds. ReST-MCTS avait déjà proposé d'itérer sur ce problème via du self-improvement guidé ; RC ReST-MCTS ajoute la couche de centrage pour stabiliser le signal dans des domaines bruités. Le benchmark LIBERO, issu d'une collaboration académique inter-universités, reste un standard reconnu pour la manipulation multi-tâche, aux côtés de ManiSkill (Université du Maryland). Les concurrents directs incluent les approches de test-time compute scaling de Physical Intelligence (pi0), ainsi que les méthodes de distillation et DAgger. Les auteurs restreignent volontairement leurs affirmations à un cadre "same-backbone" et s'abstiennent de toute comparaison de supériorité sur des benchmarks généraux, posture méthodologiquement honnête mais qui limite la portée des conclusions à ce stade de la recherche.

RechercheOpinion

1 source

NavRL++ : un cadre système pour améliorer le transfert simulation-réel dans la navigation robotique par apprentissage par renforcement

38

2arXiv cs.RO

NavRL++ : un cadre système pour améliorer le transfert simulation-réel dans la navigation robotique par apprentissage par renforcement

Une équipe de chercheurs a publié NavRL++, un cadre de navigation autonome par apprentissage par renforcement (RL) conçu spécifiquement pour réduire l'écart entre simulation et déploiement réel. Présenté sur arXiv (2605.15559), le système propose à la fois un nouveau pipeline d'entraînement et de déploiement et une étude empirique systématique qui isole les facteurs dégradant les performances en conditions réelles : bruit de capteurs, échecs de perception, latence système et réponse du contrôleur. Les auteurs ont validé leur approche sur plusieurs plateformes physiques, dont des robots aériens et quadrupèdes, sur des tâches de navigation comme l'exploration et l'inspection, en obtenant un transfert zéro-shot depuis la simulation. Le problème que NavRL++ cherche à résoudre est structurel : la quasi-totalité des travaux récents en navigation par RL se concentre sur la conception du framework d'apprentissage (représentations d'entrée, espaces d'actions, fonctions de récompense), sans analyser rigoureusement pourquoi les politiques entraînées en sim échouent en réel. NavRL++ répond à cela avec deux contributions techniques. La première est le perturbation-aware fine-tuning, une stratégie post-entraînement qui injecte explicitement les perturbations identifiées lors de l'étude empirique pour rendre la politique plus robuste. La seconde est une politique à raisonnement temporel basée sur un Transformer, qui exploite une fenêtre d'observation courte pour lisser le contrôle et compenser la dégradation perceptuelle typique du monde réel. Les résultats quantitatifs montrent des performances supérieures aux baselines RL dans des environnements statiques et dynamiques, et comparables aux planificateurs classiques à optimisation en contexte statique. Le défi du sim-to-real reste l'un des verrous majeurs à la commercialisation de la navigation autonome par RL, notamment pour les robots mobiles en environnements industriels non structurés. La plupart des approches existantes, comme les travaux issus de Berkeley (BADGR, RECON) ou les pipelines de navigation d'Agility Robotics et Boston Dynamics, contournent partiellement le problème via de la simulation photo-réaliste ou du domain randomization intensif. NavRL++ adopte une approche complémentaire : diagnostiquer empiriquement les sources d'écart plutôt que de les masquer. La prochaine étape naturelle sera de tester cette méthodologie sur des flottes de robots en déploiement continu, notamment dans des scénarios entrepôt ou inspection d'infrastructures où la latence et la fiabilité des capteurs sont des contraintes opérationnelles dures.

RecherchePaper

1 source

CaP-X : un cadre pour évaluer et améliorer les agents de codage pour la manipulation robotique

44

3arXiv cs.RO

CaP-X : un cadre pour évaluer et améliorer les agents de codage pour la manipulation robotique

Des chercheurs publient CaP-X, un framework open-access destiné à évaluer et améliorer les agents de type "Code-as-Policy" pour la manipulation robotique, selon un article déposé sur arXiv (2603.22435v2). Le système s'appuie sur CaP-Gym, un environnement interactif où des agents pilotent des robots en générant et exécutant du code combinant des primitives de perception et de contrôle. Sur cette base, les auteurs construisent CaP-Bench, un banc d'essai qui compare 12 modèles de langage et modèles vision-langage frontier selon différents niveaux d'abstraction, d'interaction et d'ancrage perceptif. Le travail aboutit à deux propositions concrètes : CaP-Agent0, un framework ne nécessitant aucun entraînement supplémentaire, et CaP-RL, une méthode d'apprentissage par renforcement avec récompenses vérifiables, testée en simulation puis transférée sur robots réels. L'enjeu dépasse le simple exercice académique : l'approche "code comme politique de contrôle" est présentée comme un complément aux méthodes Vision-Language-Action (VLA), très gourmandes en données, qui dominent aujourd'hui la robotique humanoïde et industrielle. CaP-Bench met en évidence une faiblesse structurelle des agents actuels, leur performance chute nettement dès que les abstractions conçues par des humains sont retirées, ce qui révèle une dépendance excessive au travail d'ingénierie préalable plutôt qu'à une véritable autonomie de raisonnement. Pour les intégrateurs et décideurs industriels, ce résultat tempère l'idée que les grands modèles suffiraient seuls à piloter des bras ou des humanoïdes sans échafaudage logiciel dédié. À l'inverse, les auteurs montrent que multiplier les tours d'interaction, le retour d'exécution structuré, la différenciation visuelle et la synthèse automatique de compétences comble une grande partie de cet écart, même sur des primitives de bas niveau. Ce travail s'inscrit dans le prolongement des recherches sur le "Code-as-Policy", initiées pour donner aux modèles de langage une interface exécutable vers le contrôle robotique, en alternative aux pipelines VLA de bout en bout. En documentant précisément où les agents actuels échouent et en ouvrant l'accès à son environnement de test, CaP-X vise à devenir une plateforme de référence pour comparer objectivement les approches futures, avant un possible passage à l'échelle sur des tâches de manipulation réelles plus complexes.

RecherchePaper

1 source

TAM : Module d'adaptation du couple pour un transfert de mouvement robuste en manipulation

42

4arXiv cs.RO

TAM : Module d'adaptation du couple pour un transfert de mouvement robuste en manipulation

Des chercheurs ont publié sur arXiv (arXiv:2606.06218) le Torque Adaptation Module (TAM), un module appris qui corrige les commandes de couple envoyées au robot pour aligner son comportement sur celui d'un robot de référence idéal. TAM s'insère entre le contrôleur bas niveau et l'interface couple du robot, et opère via deux composants : un encodeur d'historique proprioceptif, qui compresse les états mécaniques récents en représentation latente, et un adaptateur de couple calculant des corrections résiduelles en temps réel. L'évaluation porte sur un bras Franka Panda réel, en transfert zéro-shot, sur trois tâches de manipulation dynamique : un pushing de boîte guidé par vision (apprentissage par renforcement), un retournement d'objet par imitation comportementale (BC), et un équilibrage balle-sur-plateau par MPC. Le problème adressé est structurant pour l'industrialisation robotique : une politique entraînée sur un robot se dégrade sur une autre instance du même modèle, ou lors d'un changement de charge utile non caractérisée. En manipulation de contact dynamique, un écart de timing de quelques millisecondes suffit à rompre la séquence de contact et faire échouer la tâche. TAM décharge la politique de toute domain randomization sur les paramètres dynamiques du robot, technique qui produit habituellement des comportements trop conservateurs. Sa propriété clé est l'indépendance vis-à-vis de l'espace d'action : les mêmes poids TAM s'appliquent indifféremment à des politiques en cibles articulaires, en cibles d'effecteur terminal, ou en couples directs, ce qui élargit considérablement la portée de réutilisation. En benchmark, TAM surpasse l'identification de système en ligne et la baseline RMA (Rapid Motor Adaptation). La transférabilité inter-robots constitue l'un des obstacles majeurs à la mise à l'échelle des déploiements industriels. Les approches classiques présentent des compromis bien documentés : la domain randomization sacrifie la performance, la system identification exige des données collectées pour chaque robot ou configuration. TAM propose une troisième voie via un préentraînement multi-robot en simulation randomisée, suivi d'un fine-tuning robot-spécifique sans aucune donnée réelle. L'idée d'adaptation par historique proprioceptif avait été popularisée par RMA autour de 2021 pour les robots quadrupèdes ; TAM l'étend à la manipulation de contact en bras articulé, domaine où la dynamique est nettement plus imprévisible. L'article ne mentionne ni partenaire industriel ni timeline de déploiement : il s'agit d'un travail académique dont la validation à plus grande échelle et sur robots variés reste à établir.

RecherchePaper

1 source

HyperSim : un cadre complet de transfert simulation-réel pour la manipulation robotique robuste

À lire aussi

ReST-MCTS centré sur la récompense : un cadre robuste de prise de décision pour la manipulation robotique en environnement incertain

NavRL++ : un cadre système pour améliorer le transfert simulation-réel dans la navigation robotique par apprentissage par renforcement

CaP-X : un cadre pour évaluer et améliorer les agents de codage pour la manipulation robotique

TAM : Module d'adaptation du couple pour un transfert de mouvement robuste en manipulation