ParkourFormer : supervision prédictive et modélisation …

CacheMPC : commande prédictive par modèle certifiée avec cache pour la locomotion quadrupède

41

1arXiv cs.RO

CacheMPC : commande prédictive par modèle certifiée avec cache pour la locomotion quadrupède

Une équipe de recherche propose CacheMPC, un mécanisme de mise en cache certifiée pour le Model Predictive Control (MPC) appliqué à la locomotion de robots quadrupèdes, publié sur arXiv (2606.28300). Le MPC constitue la couche prédictive standard dans les contrôleurs hiérarchiques de quadrupèdes, mais son solveur QP (programmation quadratique) recalculé à chaque cycle constitue un goulot d'étranglement sur processeur embarqué. Certified CacheMPC adresse ce problème via un cache indexé par Locality-Sensitive Hashing (LSH) de trajectoires de forces de contact, partitionné par mode de contact. Chaque entrée récupérée est acceptée uniquement si un certificat a posteriori confirme la faisabilité primale et une borne supérieure sur la sous-optimalité via le dual gap lagrangien. Le contrôleur combine récupération certifiée top-K, solveur QP à deadline bornée, et fallback sur la dernière solution certifiée. Validé sur un Unitree Go2, le système a été évalué sur 2 038 essais MuJoCo en froid contrôleur, dont une campagne de 600 essais à n=50 sur trois cellules à la frontière d'échec, puis déployé physiquement sur le NVIDIA Orin NX embarqué du robot. Le cache sans filtrage atteint un gain médian de 25x en temps de calcul en simulation, et 18,7x sur hardware réel. L'enjeu industriel est direct : MPC haute fréquence sur SoC embarqué standard (Orin NX, environ 10-15W) sans recourir à un ASIC dédié ou à une approximation neuronale. Un facteur 18,7x de réduction du temps de solve ouvre la porte à des boucles de contrôle plus rapides sur des plateformes commerciales comme le Go2, utilisé massivement dans la recherche académique et les pilotes industriels légers. La certification formelle distingue cette approche des méthodes d'apprentissage du MPC (neural MPC, learning-based warm-starting) qui offrent des speedups similaires mais sans garantie exploitable. Nuance importante : la contribution du certificat à la stabilité en boucle fermée n'est pas statistiquement résolvable à la taille d'échantillon actuelle (n=50). Aucune différence significative n'a été détectée entre les variantes avec et sans cache, ce qui est honnête scientifiquement mais laisse la question de sécurité formelle ouverte. Le MPC pour locomotion quadrupède s'est imposé depuis les travaux d'ETH Zurich (ANYmal) et du MIT (Cheetah), avec des implémentations ouvertes comme ACADOS ou OSQP qui restent les références en solve embarqué. CacheMPC s'inscrit dans un courant distinct : plutôt qu'accélérer le solveur ou substituer le MPC par un réseau de neurones, il exploite la répétabilité des gaits locomoteurs pour réutiliser des solutions passées. Les concurrents directs incluent les approches de warm-starting par apprentissage (DeepMPC, L4DC 2024) et les approximateurs explicites de MPC. Le Unitree Go2 est devenu le benchmark de facto à petit budget pour ce type de validation hardware. Les prochaines étapes naturelles seraient une campagne avec n significativement plus grand pour trancher sur la sécurité certifiée, et une extension aux bipèdes ou aux transitions de mode de contact plus complexes.

RecherchePaper

1 source

STEAM : modélisation de l'avantage par ensemble temporel auto-supervisé pour l'apprentissage robotique réel

44

2arXiv cs.RO

STEAM : modélisation de l'avantage par ensemble temporel auto-supervisé pour l'apprentissage robotique réel

Des chercheurs ont publié le 30 juin 2026 sur arXiv (référence 2606.29834) une méthode baptisée STEAM, pour Self-Supervised Temporal Ensemble Advantage Modeling, visant à améliorer l'apprentissage de politiques robotiques à partir de données hétérogènes. Le problème traité est concret : les jeux de données d'entraînement mélangent inévitablement des démonstrations de qualité avec des séquences de blocage, des corrections maladroites ou des comportements sous-optimaux. STEAM attribue à chaque paire de frames un score d'avantage sans nécessiter d'annotation humaine. Le système entraîne un ensemble de prédicteurs décalés temporellement sur des trajectoires expertes, chaque prédicteur estimant le décalage temporel normalisé entre deux frames pour produire un scalaire d'avantage. Le score final retenu est le minimum de l'ensemble, ce qui confère une posture conservative face aux données ambiguës. Combiné à CFGRL (Classifier-Free Guidance Reinforcement Learning), STEAM a été évalué sur quatre tâches physiques réelles : pliage bimanuel de serviettes, passage de chips en caisse, réassort de canettes de cola, et pick-and-place à un bras. Les gains de taux de succès observés sont respectivement de 59 %, 54,3 %, 23 % et 16,2 % par rapport aux baselines. L'intérêt pour les intégrateurs et les équipes de recherche appliquée est double. D'abord, STEAM est entièrement label-free : il n'exige pas d'annotation manuelle des frames "bonnes" ou "mauvaises", ce qui réduit drastiquement le coût de curation des datasets. Ensuite, les gains mesurés sur des tâches réelles de manipulation, notamment sur le pliage de tissu qui reste un benchmark difficile en robotique souple, suggèrent que la méthode tient face au reality gap, une hypothèse longtemps débattue dans le domaine sim-to-real. La discrimination automatique entre progression utile et stall ou régression est un verrou central pour l'apprentissage à partir de données d'opérateurs humains en environnement industriel, où la qualité des démonstrations est rarement homogène. STEAM s'inscrit dans une vague de méthodes cherchant à rendre le Reinforcement Learning from Demonstrations (RLfD) moins dépendant de données propres et annotées. Des approches voisines comme GAIL, IRL ou les méthodes basées sur des modèles de récompense appris se heurtent toutes à la question de la supervision implicite de la qualité. STEAM tente d'y répondre via une hypothèse simple : la proximité temporelle dans une trajectoire experte est un proxy fiable de la progression. Les auteurs ne mentionnent pas d'affiliations industrielles explicites ni de déploiement prévu à date, et les résultats restent à confirmer sur des environnements plus bruités ou des horizons temporels plus longs. Les prochaines étapes naturelles porteront sur la généralisation à des politiques de type VLA (Vision-Language-Action) et à des configurations multi-robots.

RecherchePaper

1 source

Formage de sensibilité pour la modélisation latente

38

3arXiv cs.RO

Formage de sensibilité pour la modélisation latente

Des chercheurs ont soumis en juin 2026 (arXiv:2606.14585) une méthode de régularisation pour les modèles de dynamique génératifs utilisés en planification robotique. La contribution centrale, baptisée "régularisation de sensibilité au contrôle conditionnée par le support", s'attaque à un angle mort dans les systèmes de détection hors-distribution (OOD) actuels. Le problème identifié : lorsqu'un modèle de dynamique appris est localement insensible à certains choix d'action critiques, une commande non supportée peut produire des prédictions latentes qui ressemblent à des transitions déjà vues à l'entraînement, masquant les signaux OOD malgré des erreurs de prédiction réelles importantes. Les expériences couvrent trois scénarios : l'évitement d'obstacles par vision, la manipulation d'objets, et la navigation sur robot réel en boucle fermée. Ce résultat touche directement le déploiement sûr de robots pilotés par apprentissage dans des environnements non contrôlés. La détection OOD est le filet de sécurité qui permet à un contrôleur de signaler qu'il opère hors de sa distribution de compétence, plutôt que d'extrapoler dangereusement. Les méthodes existantes greffent a posteriori des estimateurs de support sur un modèle de dynamique figé, et échouent précisément dans les zones critiques où le modèle est le moins discriminant sur les actions. La méthode proposée intervient pendant l'entraînement : elle pousse le modèle à répondre de manière sensible aux variations de commande dans les régions à fort support empirique, tout en limitant l'extrapolation instable là où les données manquent. C'est une correction intrinsèque au processus d'apprentissage, pas un ajout post-hoc. Le travail s'inscrit dans le courant des modèles du monde latents pour la robotique, une famille qui inclut des architectures comme RSSM (utilisé dans Dreamer), TDMPC ou les représentations sous-jacentes à des systèmes comme Pi-0 de Physical Intelligence ou GR00T N2 de NVIDIA. La fermeture du "demo-to-reality gap" et la fiabilité en boucle fermée restent des obstacles majeurs pour les intégrateurs cherchant à déployer des robots en milieu industriel non structuré. Les résultats reportés montrent une amélioration de la détection OOD sans dégradation notable de la performance nominale du planificateur, bien que les benchmarks restent limités à des tâches de laboratoire. Une validation sur des plateformes AMR ou humanoïdes en conditions réelles constituerait la prochaine étape naturelle pour crédibiliser l'approche à l'échelle industrielle.

RecherchePaper

1 source

Imiter et affiner le contrôle prédictif par modèle pour une locomotion quadrupède robuste et symétrique

37

4arXiv cs.RO

Imiter et affiner le contrôle prédictif par modèle pour une locomotion quadrupède robuste et symétrique

Une équipe de chercheurs a publié le framework IFM (Imitating and Finetuning Model Predictive Control), une approche hybride pour le contrôle de robots quadrupèdes sur des terrains difficiles. La méthode, disponible sur arXiv sous la référence 2311.02304v3, s'articule en trois phases séquentielles : d'abord, un contrôleur MPC classique est construit à partir de la Programmation Dynamique Différentielle (DDP) couplée à l'heuristique de Raibert pour définir une politique experte ; ensuite, ce contrôleur est cloné par apprentissage par imitation afin de le rendre adaptable par gradient ; enfin, un deep reinforcement learning (RL) à exploration volontairement limitée affine la politique sur des terrains exigeants, notamment surfaces rugueuses, revêtements glissants et tapis roulants. Des expériences menées en simulation puis sur matériel réel valident les performances du framework dans ces trois configurations. Le principal apport d'IFM est de combiner la robustesse formelle du contrôle model-based et la flexibilité de l'apprentissage profond, sans les défauts propres à chaque approche prise isolément. En pratique, IFM produit des allures (gaits) significativement plus symétriques, périodiques et économes en énergie que le RL classique dit "Vanilla RL", tout en réduisant considérablement le travail de reward shaping, c'est-à-dire la conception laborieuse de fonctions de récompense qui constitue l'un des principaux freins industriels au RL pour la locomotion. L'exploration limitée en phase RL est une décision architecturale notable : elle contraint le réseau à rester proche de la politique MPC apprise, ce qui stabilise l'apprentissage sur des terrains hors distribution sans divergence comportementale, un résultat difficile à obtenir avec du RL pur. Le contrôle de la locomotion quadrupède est un champ de recherche dense depuis les travaux fondateurs de Marc Raibert au MIT Leg Lab dans les années 1980, dont l'heuristique de placement de pied est encore employée ici comme référence. Les approches récentes se partagent entre contrôle model-based pur (ETH Zurich avec ANYmal et le groupe RSL), RL pur (UC Berkeley, Carnegie Mellon) et hybrides croissants. IFM s'inscrit dans cette troisième catégorie, en compétition directe avec des pipelines teacher-student d'ETH Zurich ou des frameworks comme DribbleBot. La publication ne mentionne aucun déploiement industriel ni partenariat commercial : il s'agit d'une contribution académique, dont la valeur pratique dépendra de sa transferabilité à des robots commerciaux comme l'Unitree Go2 ou le Boston Dynamics Spot, plateformes sur lesquelles plusieurs groupes appliquent déjà des méthodologies similaires.

RecherchePaper

1 source

ParkourFormer : supervision prédictive et modélisation séquentielle pour la locomotion parkour

À lire aussi

CacheMPC : commande prédictive par modèle certifiée avec cache pour la locomotion quadrupède

STEAM : modélisation de l'avantage par ensemble temporel auto-supervisé pour l'apprentissage robotique réel

Formage de sensibilité pour la modélisation latente

Imiter et affiner le contrôle prédictif par modèle pour une locomotion quadrupède robuste et symétrique