RecherchearXiv cs.RO2h

MPC-Injection : orienter le RL de locomotion hors-politique vers les bassins d'attraction du contrôleur

1 source couvre ce sujet·Source originale ↗·

Résumé IASource uniqueImpact UE

Des chercheurs ont publié en juin 2026 sur arXiv une méthode baptisée MPC-Injection, conçue pour résoudre un problème récurrent dans l'entraînement par renforcement appliqué à la locomotion robotique : la convergence vers des comportements localement optimaux mais inutilisables en production, comme des membres qui vibrent en place ou un robot qui progresse en se traînant sur son torse. La technique consiste à injecter dans le replay buffer, la mémoire d'expériences utilisée par les algorithmes off-policy, des transitions générées par un contrôleur MPC (Model Predictive Control) résolvant le même problème de décision séquentielle. Le comportement préféré du concepteur est ainsi transféré à la politique apprise, non par une modification de la récompense, mais uniquement par le biais de la distribution des états explorés. Les auteurs valident l'approche sur un marcheur 2D en simulation, puis en transfert sim-to-real sur le quadrupède Go2 de Unitree Robotics, un robot commercialement disponible.

L'intérêt principal est la simplicité du surcoût. Là où le reward shaping classique exige jusqu'à vingt et un termes de récompense soigneusement ajustés, MPC-Injection produit des allures qualitativement comparables avec une récompense à un ou deux termes seulement. Contrairement à l'adversarial motion prior (AMP) et aux méthodes d'imitation adversariale, la méthode ne nécessite ni discriminateur, ni retargeting cinématique, ni objectif auxiliaire. C'est un résultat notable : il suggère que la distribution des états du replay buffer est un levier de guidage aussi puissant que la forme de récompense ou l'imitation explicite, ce qui simplifie considérablement le pipeline d'ingénierie pour les équipes qui déploient des robots sur du matériel réel.

La méthode s'inscrit dans un effort plus large de la communauté pour réduire le sim-to-real gap sans multiplier les hypothèses sur la dynamique du robot. Le Go2 de Unitree est devenu un banc de test de référence pour ces travaux, utilisé notamment dans des recherches concurrentes sur les VLA (Vision-Language-Action models) et les politiques de locomotion neuronales. Les alternatives directes, reward shaping multi-termes, AMP de Berkeley, méthodes de retargeting par mocap, ont toutes un coût d'implémentation ou de collecte de données plus élevé. MPC-Injection se positionne comme un pont pragmatique entre contrôle classique et apprentissage, particulièrement pertinent pour les équipes disposant déjà d'un contrôleur MPC opérationnel et souhaitant affiner une politique RL sans repartir de zéro sur la définition de récompense.

Dans nos dossiers

Unitree arXiv cs.RO

À lire aussi

1arXiv cs.RO

Récupération mémorielle dans les politiques visuomotrices pour le contrôle robotique à long horizon

Des chercheurs du Robin Lab de l'Université du Texas à Austin ont publié fin juin 2026 un preprint (arXiv:2606.25136) présentant HALO, une politique visuomotrice dotée d'un mécanisme de récupération mémorielle par attention pour le contrôle robotique à long horizon. L'architecture cible les robots polyvalents opérant dans des environnements partiellement observables, typiquement le domicile : le robot doit retrouver où un objet a été posé, se souvenir qu'un utilisateur a déjà accompli une sous-tâche, ou mémoriser l'état d'un appareil activé plusieurs minutes auparavant. HALO répond à deux défis identifiés lors de l'apprentissage par imitation sur données hors-ligne : la corrélation spurieuse entre contexte passé et actions prédites, et l'accumulation d'erreurs en boucle fermée qui entraîne une dérive progressive du modèle. Pour y remédier, la méthode distille des priors issus d'un modèle vision-langage (VLM) via un objectif de question-réponse vidéo généré depuis les trajectoires de démonstration, et combine cela à une attention sparse limitée aux segments d'historique les plus pertinents. Au total, HALO peut récupérer des informations pertinentes sur jusqu'à huit minutes d'expérience passée. Ce résultat est notable car il attaque frontalement le goulot d'étranglement des tâches longues-durées, là où la majorité des politiques visuomotrices actuelles, y compris les approches VLA (Vision-Language-Action) comme Pi-0 de Physical Intelligence ou GR00T N2 de NVIDIA, supposent implicitement un horizon court ou une observabilité quasi-complète. La distillation de priors VLM pour orienter la récupération vers l'information pertinente à la tâche est une voie prometteuse pour réduire le gap démo-réalité, car elle ancre l'attention dans une compréhension sémantique plutôt que dans des heuristiques codées à la main. L'attention sparse contribue à contenir la propagation d'erreurs qui, dans les architectures transformer standard sur contexte long, peut faire diverger la politique après quelques dizaines de secondes d'exécution autonome. HALO s'inscrit dans une dynamique de recherche qui voit Transformers et modèles de langage coloniser la couche mémoire des systèmes robotiques, après avoir dominé la planification symbolique et la génération d'instructions. Le Robin Lab publie régulièrement sur l'apprentissage robot en environnements non structurés ; ce travail est encore au stade preprint et aucun déploiement physique à l'échelle n'est annoncé. Les concurrents directs incluent les approches à mémoire épisodique de travaux comme RT-X, mais aussi les architectures récurrentes à état latent explorées par des labos comme CMU ou Stanford. Les prochaines étapes attendues sont une validation sur robot physique dans des scénarios domestiques réels et une comparaison quantitative avec des baselines mémorielle existantes.

RechercheOpinion

1 source

2arXiv cs.RO

X-Loco : vers un contrôle généraliste de la locomotion humanoïde par distillation synergique de politiques

Publié sur arXiv (2603.03733) en 2025, X-Loco est un framework d'entraînement d'une politique de locomotion généraliste basée sur la vision pour robots humanoïdes. L'approche repose sur une distillation synergétique : plusieurs politiques expertes sont entraînées séparément pour des compétences distinctes - locomotion bipède stable, récupération après chute, coordination corps entier, franchissement de terrains variés - puis une politique unique guidée par entrée visuelle est distillée à partir de ces experts via un mécanisme de sélection adaptative au cas par cas. X-Loco opère uniquement sur des commandes de vitesse, sans recours à des mouvements de référence issus de captures de mouvement. Les auteurs revendiquent une première dans l'intégration simultanée de toutes ces compétences dans une seule politique vision - affirmation à prendre avec les précautions d'usage pour un preprint non encore évalué par les pairs. Ce travail s'attaque à un verrou technique central : entraîner une politique unique qui maîtrise des comportements aux dynamiques radicalement différentes et aux objectifs de contrôle parfois contradictoires. Une telle politique simplifie le déploiement opérationnel en éliminant les modules de commutation entre comportements. L'absence de dépendance aux données de mocap rend également le pipeline d'entraînement plus scalable, puisqu'il ne requiert pas de bibliothèques de mouvements spécifiques à chaque compétence cible. Les études d'ablation incluses renforcent la crédibilité des choix architecturaux, mais les résultats restent cantonnés à la simulation et au laboratoire, sans validation sur hardware réel à grande échelle. X-Loco s'inscrit dans une dynamique de recherche intense sur la locomotion humanoïde, portée par des équipes comme Berkeley Humanoid, CMU et les labos gravitant autour d'Unitree. La distillation enseignant-étudiant est un paradigme établi en apprentissage par renforcement, mais son application à un spectre aussi large de compétences reste un défi ouvert. Côté commercialisation, Tesla (Optimus Gen 2), Figure AI, Boston Dynamics (Atlas) et 1X Technologies travaillent sur des problèmes similaires avec des ressources bien supérieures. La suite logique pour X-Loco serait une validation sim-to-real convaincante sur hardware physique, étape non encore franchie selon le papier.

RecherchePaper

1 source

3arXiv cs.RO

PointAction : les points 3D comme représentation universelle des actions pour le contrôle robotique

Des chercheurs ont publié le 3 juin 2026 PointAction (arXiv:2506.03943), un cadre de contrôle robotique qui fait le pont entre les Video-Action Models (VAMs) et les commandes exécutables sur bras physique. Le constat de départ est précis : les modèles vidéo entraînés uniquement sur du RGB ne permettent pas de contraindre la géométrie de contact 3D ni les marges spatiales métriques nécessaires à la manipulation, rendant le grounding des actions ambigu. PointAction répond à ce problème en affinant un modèle de génération vidéo de fondation pour prédire simultanément des frames RGB futurs et des pointmaps 3D dynamiques, produisant une représentation 4D (3D + temps) cohérente de la scène. Ces cartes de points servent d'interface structurée et embodiment-agnostic entre prédiction vidéo et contrôle moteur, qu'un décodeur d'actions basé sur la diffusion traduit ensuite en commandes exécutables. Les résultats publiés indiquent une qualité de génération 4D état de l'art sur scènes robotiques, une supériorité sur les baselines existantes en simulation, et une généralisation à deux bras robotiques absents du préentraînement. L'enjeu pour les intégrateurs est concret. Les VAMs peinent depuis plusieurs années à franchir le fossé entre rollout vidéo convaincant et action physique fiable : le RGB seul ne transmet ni la profondeur métrique, ni l'orientation des surfaces de contact, ni les tolérances de précision requises. En intercalant une couche intermédiaire explicite, les pointmaps 3D dynamiques, PointAction décompose le problème et réduit structurellement l'ambiguïté d'ancrage. L'interface embodiment-agnostic réduit aussi le coût de supervision nécessaire pour adapter un modèle à une nouvelle plateforme, argument concret pour les intégrateurs multi-robots. La généralisation à des bras non vus en préentraînement contredit partiellement l'hypothèse dominante selon laquelle les architectures VLA (Vision-Language-Action) exigent des volumes massifs de données spécifiques par embodiment, bien qu'aucun chiffre de transfert à l'échelle industrielle ne soit publié. PointAction s'inscrit dans une vague de recherche exploitant les modèles de diffusion vidéo pour la robotique, dans le sillage de pi-0 de Physical Intelligence, de GR00T N2 de NVIDIA et d'OpenVLA. La représentation en points 3D fait écho à des travaux antérieurs comme Tracking Any Point (TAP) ou 3D-DiffuserActor, mais PointAction les intègre dans la boucle de génération plutôt qu'en post-traitement. Le papier reste à l'étape pré-print arXiv, sans validation indépendante ni déploiement industriel annoncé ; les prochaines étapes probables incluent une extension à des manipulateurs à plus haut degré de liberté et à des configurations mobiles, ainsi qu'une intégration avec des pipelines VLA existants.

RechercheOpinion

1 source

4arXiv cs.RO

Imiter et affiner le contrôle prédictif par modèle pour une locomotion quadrupède robuste et symétrique

Une équipe de chercheurs a publié le framework IFM (Imitating and Finetuning Model Predictive Control), une approche hybride pour le contrôle de robots quadrupèdes sur des terrains difficiles. La méthode, disponible sur arXiv sous la référence 2311.02304v3, s'articule en trois phases séquentielles : d'abord, un contrôleur MPC classique est construit à partir de la Programmation Dynamique Différentielle (DDP) couplée à l'heuristique de Raibert pour définir une politique experte ; ensuite, ce contrôleur est cloné par apprentissage par imitation afin de le rendre adaptable par gradient ; enfin, un deep reinforcement learning (RL) à exploration volontairement limitée affine la politique sur des terrains exigeants, notamment surfaces rugueuses, revêtements glissants et tapis roulants. Des expériences menées en simulation puis sur matériel réel valident les performances du framework dans ces trois configurations. Le principal apport d'IFM est de combiner la robustesse formelle du contrôle model-based et la flexibilité de l'apprentissage profond, sans les défauts propres à chaque approche prise isolément. En pratique, IFM produit des allures (gaits) significativement plus symétriques, périodiques et économes en énergie que le RL classique dit "Vanilla RL", tout en réduisant considérablement le travail de reward shaping, c'est-à-dire la conception laborieuse de fonctions de récompense qui constitue l'un des principaux freins industriels au RL pour la locomotion. L'exploration limitée en phase RL est une décision architecturale notable : elle contraint le réseau à rester proche de la politique MPC apprise, ce qui stabilise l'apprentissage sur des terrains hors distribution sans divergence comportementale, un résultat difficile à obtenir avec du RL pur. Le contrôle de la locomotion quadrupède est un champ de recherche dense depuis les travaux fondateurs de Marc Raibert au MIT Leg Lab dans les années 1980, dont l'heuristique de placement de pied est encore employée ici comme référence. Les approches récentes se partagent entre contrôle model-based pur (ETH Zurich avec ANYmal et le groupe RSL), RL pur (UC Berkeley, Carnegie Mellon) et hybrides croissants. IFM s'inscrit dans cette troisième catégorie, en compétition directe avec des pipelines teacher-student d'ETH Zurich ou des frameworks comme DribbleBot. La publication ne mentionne aucun déploiement industriel ni partenariat commercial : il s'agit d'une contribution académique, dont la valeur pratique dépendra de sa transferabilité à des robots commerciaux comme l'Unitree Go2 ou le Boston Dynamics Spot, plateformes sur lesquelles plusieurs groupes appliquent déjà des méthodologies similaires.

RecherchePaper

1 source