MARCH : apprentissage par renforcement assisté…

Apprentissage par renforcement basé sur un modèle pour le contrôle robotique via optimisation en ligne

42

1arXiv cs.RO

Apprentissage par renforcement basé sur un modèle pour le contrôle robotique via optimisation en ligne

Des chercheurs ont publié sur arXiv (arXiv:2510.18518v2) un algorithme d'apprentissage par renforcement basé sur un modèle (MBRL) conçu pour contrôler des systèmes robotiques complexes directement dans le monde réel, sans passer par une phase de simulation intensive. L'approche construit un modèle de dynamique à partir des données d'interaction en temps réel, puis effectue des mises à jour de politique guidées par ce modèle appris. Les validations expérimentales ont été conduites sur deux plateformes distinctes : un bras d'excavatrice hydraulique et un bras robot souple. Dans les deux cas, l'algorithme atteint des performances comparables aux méthodes model-free en quelques heures d'entraînement, là où ces dernières réclament habituellement des millions d'interactions simulées. La robustesse de l'adaptation a également été évaluée sous conditions de charge utile (payload) aléatoire, avec des résultats stables malgré le changement de dynamique. L'enjeu principal est la réduction de ce que le secteur appelle le "sim-to-real gap" : l'écart entre les politiques apprises en simulation et leur comportement réel une fois déployées sur du matériel. Les pipelines dominants, adoptés aussi bien par des labos académiques que par des industriels comme Boston Dynamics ou Figure AI, reposent sur des millions de rollouts en simulation avant tout contact avec un robot physique, ce qui introduit un biais systématique difficile à corriger. Cet algorithme court-circuite cette étape en apprenant directement sur données réelles, avec une garantie formelle de progression : les auteurs démontrent des bornes de regret sous-linéaires (sublinear regret bounds) sous hypothèses d'optimisation stochastique en ligne, ce qui est rare dans la littérature MBRL appliquée à la robotique physique. Pour un intégrateur ou un industriel, cela se traduit par une réduction potentielle du temps de mise en service sur des tâches à dynamique variable (variation de charge, usure mécanique, changement de matériau). Ce travail s'inscrit dans un débat structurant du champ : model-based vs model-free RL pour la robotique physique. Les méthodes model-free comme PPO ou SAC dominent les benchmarks simulés mais peinent à s'adapter efficacement en production réelle. Des approches hybrides comme MBPO ou DreamerV3 ont tenté de combler cet écart, mais rarement validées sur des systèmes aussi hétérogènes qu'un bras hydraulique industriel et un manipulateur souple. La prochaine étape naturelle serait une validation sur des plateformes humanoïdes ou des AMR (autonomous mobile robots) à haute dimension, où les enjeux de sample efficiency sont directement liés aux coûts d'exploitation et à la durée de vie des actionneurs.

RecherchePaper

1 source

Démarrage par modèle VLA pour l'apprentissage par renforcement des agents robotiques

43

2arXiv cs.RO

Démarrage par modèle VLA pour l'apprentissage par renforcement des agents robotiques

Des chercheurs proposent VLAJS (Vision-Language-Action Jump-Starting), une méthode publiée sur arXiv (réf. 2604.13733v2) visant à accélérer l'apprentissage par renforcement (RL) en manipulation robotique. Le principe repose sur l'utilisation d'un modèle VLA comme guide transitoire en début d'entraînement, sans imitation stricte ni démonstrations humaines. VLAJS augmente l'algorithme PPO (Proximal Policy Optimization) d'une régularisation directionnelle qui aligne progressivement les actions de l'agent RL avec les suggestions du VLA, avant d'annuler cette contrainte à mesure que l'agent gagne en compétence. La méthode a été évaluée sur six tâches simulées (levée d'objet, pick-and-place, réorientation et insertion de cheville, poking, pushing), dont un sous-ensemble validé sur un bras Franka Panda réel. Elle réduit de plus de 50 % le nombre d'interactions d'entraînement nécessaires par rapport à PPO seul ou aux baselines de distillation, et démontre un transfert sim-to-real zero-shot robuste face à des encombrements, variations d'objets et perturbations externes. Ce résultat répond à une tension structurelle bien connue du domaine: les modèles VLA comme Pi-0 (Physical Intelligence) ou GR00T N2 (NVIDIA) excellent dans le raisonnement à l'échelle de la tâche grâce à leur préentraînement multimodal massif, mais restent trop lents pour le contrôle en boucle fermée à haute fréquence. Inversement, le RL classique assure cette précision mais explore de façon inefficace sur des tâches longues avec récompenses éparses. VLAJS prouve qu'un VLA peut être utile sans être interrogé en continu, réduisant potentiellement les coûts d'entraînement pour des applications de manipulation industrielle et validant l'hypothèse qu'un modèle généraliste peut servir d'amorce dans des pipelines RL orientés production. VLAJS émerge dans un contexte de convergence entre fondations VLA et contrôle temps-réel, où Physical Intelligence (Pi-0), NVIDIA (GR00T N2) et Google DeepMind (RT-2) s'affrontent sur la généralisation pendant que le RL pur domine en précision. Cette contribution reste académique: validée sur le Franka Panda à 7 degrés de liberté, elle n'est pas encore un produit déployé ni industrialisé, et la réduction de 50 % des interactions porte sur des tâches relativement courtes en simulation. Les suites naturelles incluent l'extension à des morphologies plus complexes (humanoïdes, systèmes bimanuels) et l'intégration dans des frameworks d'entraînement open-source comme Isaac Lab ou ManiSkill.

RechercheOpinion

1 source

Apprentissage par renforcement pour le contrôle adaptatif multi-tâches de robots bipèdes jouant au football

33

3arXiv cs.RO

Apprentissage par renforcement pour le contrôle adaptatif multi-tâches de robots bipèdes jouant au football

Des chercheurs ont publié sur arXiv (preprint arXiv:2604.19104, avril 2026) un cadre d'apprentissage par renforcement modulaire destiné aux robots bipèdes évoluant dans des environnements de football dynamiques. L'architecture propose deux modules distincts : un réseau de recherche et de frappe de balle (BSKN, Ball-Seeking and Kicking Network) et un réseau de récupération après chute (FRN, Fall Recovery Network), commutés par une machine à états basée sur la posture du robot. La génération de gaits de base est confiée à un oscillateur feedforward en boucle ouverte, tandis qu'un résiduel RL en boucle fermée gère les actions football plus complexes. Le FRN est entraîné via une stratégie de curriculum à atténuation progressive des forces. Les validations ont été conduites entièrement en simulation Unity, avec un temps de récupération après chute mesuré à 0,715 secondes en moyenne, et une capacité démontrée à localiser et frapper le ballon même depuis des angles de coin restrictifs. Ce travail s'attaque à un verrou connu en robotique humanoïde : le couplage profond entre stabilité locomotrice et exécution de tâches complexes, qui provoque typiquement des interférences d'état lors des transitions (marche droite, frappe, chute, relevé). La séparation explicite en deux réseaux spécialisés, pilotée par une machine à états posturale, contourne ce problème architecturalement plutôt que de tenter de le résoudre par un unique réseau généraliste. Cela valide partiellement l'hypothèse que la modularité reste une approche compétitive face aux VLA (Vision-Language-Action models) monolithiques pour des tâches à contraintes temporelles dures. Réserve importante : les résultats sont entièrement sim-to-real non validés, l'écart simulation-réalité (sim-to-real gap) n'est pas quantifié, et les vidéos sélectives de démonstration Unity ne permettent pas d'évaluer la robustesse au déploiement physique. Le contexte est celui de la RoboCup et des compétitions de football robotique bipède, terrain historique de benchmarking pour la locomotion dynamique depuis les années 2000. Les auteurs ne sont pas identifiés institutionnellement dans l'abstract, mais le style et la thématique évoquent des groupes de recherche est-asiatiques actifs sur cette compétition. Sur le plan concurrentiel, des approches similaires à base de RL modulaire ont été explorées par des équipes de l'ETH Zurich (ANYmal), de CMU et de Berkeley pour des robots quadrupèdes, avec transfert sim-to-real validé sur hardware. Pour les bipèdes football, la prochaine étape crédible serait un déploiement sur plateforme physique type DARwIn-OP ou NAO, dont ce papier ne mentionne aucune planification.

RecherchePaper

1 source

SRL : modèle SLIP et apprentissage par renforcement pour des sauts robotiques agiles

33

4arXiv cs.RO

SRL : modèle SLIP et apprentissage par renforcement pour des sauts robotiques agiles

Des chercheurs ont publié en juin 2026 sur arXiv (arXiv:2606.18625) un framework hybride baptisé SRL (Spring-loaded Reinforcement Learning), conçu pour améliorer la capacité de saut des robots mobiles sur terrains variés. L'approche fusionne les signaux de contrôle feedforward issus du modèle SLIP (Spring-Loaded Inverted Pendulum, pendule à masse-ressort inversé) avec une boucle de rétroaction en temps réel pilotée par apprentissage par renforcement. Les résultats expérimentaux, obtenus en simulation sur robots bipèdes et quadrupèdes, font état d'une erreur de suivi de position inférieure à 0,1 m et d'une erreur de suivi de vitesse contenue dans un intervalle de ±3 % par rapport aux valeurs cibles. Les auteurs annoncent également une réduction significative du temps d'entraînement par rapport à la méthode RL pure utilisée comme baseline. Des validations sim-to-sim et sim-to-real sont présentées sur des scénarios de saut au sol et en escalier. L'intérêt industriel du saut robotique est réel dans les domaines de la logistique entrepôt et de la recherche et sauvetage, où franchir des obstacles sans infrastructure dédiée représente un avantage opérationnel concret. Le verrou que SRL cherche à lever est connu : le modèle SLIP fournit une dynamique physiquement cohérente mais se dégrade sur terrain irrégulier, faute de modéliser correctement les contacts et la compliance articulaire ; l'RL seul compense cette limitation mais au prix d'une exploration non guidée et coûteuse en données. La combinaison des deux réduit ce coût d'exploration tout en conservant la robustesse adaptative. Il convient toutefois de noter que l'article est une prépublication non encore évaluée par les pairs, et que les métriques de performance sont issues de simulations, la validation sim-to-real reposant sur des environnements de test dont l'amplitude n'est pas précisée dans le résumé. Le modèle SLIP est un outil analytique classique en biomécanique locomotrice, largement exploité depuis les travaux de Raibert des années 1980 pour modéliser la course et le saut des mammifères. Côté concurrents, Boston Dynamics (Spot, Atlas), Unitree Robotics (Go2, H1) et Agility Robotics (Digit) développent des capacités de franchissement d'obstacles, mais leurs approches combinent généralement MPC (Model Predictive Control) et apprentissage sans revendiquer explicitement l'intégration SLIP-RL. SRL se positionne donc sur un créneau de recherche fondamentale qui devra encore démontrer sa transposabilité à des plateformes hardware commerciales avant d'intéresser des intégrateurs industriels.

RecherchePaper

1 source

MARCH : apprentissage par renforcement assisté par modèle pour le contrôle perceptif de robots humanoïdes sur appuis rares

À lire aussi

Apprentissage par renforcement basé sur un modèle pour le contrôle robotique via optimisation en ligne

Démarrage par modèle VLA pour l'apprentissage par renforcement des agents robotiques

Apprentissage par renforcement pour le contrôle adaptatif multi-tâches de robots bipèdes jouant au football

SRL : modèle SLIP et apprentissage par renforcement pour des sauts robotiques agiles