Aller au contenu principal
HALO : locomotion hybride auto-encodée avec dynamiques latentes apprises, cartes de Poincaré et régions d'attraction
RecherchearXiv cs.RO6sem

HALO : locomotion hybride auto-encodée avec dynamiques latentes apprises, cartes de Poincaré et régions d'attraction

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

HALO (Hybrid Auto-encoded Locomotion with Learned Latent Dynamics) est un framework académique publié en avril 2026 sur arXiv (2604.18887) autour d'un problème central de la robotique bipedale : construire des modèles d'ordre réduit qui représentent fidèlement la dynamique hybride des robots à jambes tout en offrant des garanties formelles de stabilité. L'approche combine un autoencodeur neuronal, qui apprend une représentation latente basse dimension depuis des trajectoires de locomotion périodique, avec une carte de Poincaré apprise dans cet espace latent. Cette carte modélise la dynamique pas-à-pas du cycle de marche ou de saut et permet de construire des régions d'attraction (RoA) via une analyse de Lyapunov, projetables ensuite vers l'espace d'état complet via le décodeur. Les validations sont conduites en simulation sur un robot sauteur et un humanoïde corps entier.

Ce travail tente de combler un fossé persistant entre deux familles de méthodes. Les modèles analytiques classiques comme le Linear Inverted Pendulum (LIP) ou le Spring-Loaded Inverted Pendulum (SLIP) offrent des garanties de stabilité rigoureuses, mais approximent mal la dynamique réelle d'un humanoïde haute dimensionnalité. Les méthodes data-driven récentes capturent mieux la physique du système, mais sans transfert formel des propriétés de stabilité au système complet. HALO propose une voie hybride : apprendre la structure de l'espace d'état depuis les données, puis y appliquer les outils classiques de l'automatique. Pour les développeurs de contrôleurs de locomotion, borner formellement des zones de stabilité sans modèle analytique exact constitue un apport potentiellement significatif.

L'approche s'ancre dans une littérature établie sur les systèmes dynamiques hybrides à contacts discontinus, notamment les hybrid zero dynamics et les Control Barrier Functions (CBF) développés par Aaron Ames à Caltech. La carte de Poincaré, outil classique pour analyser les orbites périodiques, est ici apprise depuis les données plutôt que dérivée analytiquement. La limite principale reste l'absence totale de validation sur robot physique : les résultats sont exclusivement en simulation, et le gap sim-to-real n'est pas adressé. Les acteurs industriels comme Boston Dynamics, Agility Robotics ou Figure, qui déploient des humanoïdes en environnement réel, resteront prudents avant d'intégrer des RoA apprises sans expérimentation hardware. Les suites logiques impliqueraient des tests sur plateforme physique et une intégration dans des pipelines MPC ou des frameworks comme Drake.

À lire aussi

Mémoire spatio-sémantique dynamique et résiliente avec localisation hybride pour la manipulation mobile
1arXiv cs.RO 

Mémoire spatio-sémantique dynamique et résiliente avec localisation hybride pour la manipulation mobile

Une équipe de recherche a publié sur arXiv (réf. 2606.00576) DREAM, un framework de manipulation mobile robotique pour environnements intérieurs dynamiques, fonctionnant sans carte pré-construite. Le système construit en temps réel une mémoire voxel spatio-sémantique à partir d'observations RGB-D enregistrées par un backend SLAM hybride LiDAR-inertiel-visuel. Pour retrouver des objets cibles, DREAM combine retrieval 3D conditionné par le langage naturel, détection à vocabulaire ouvert, et vérification sémantique par un grand modèle de langage multimodal (MLLM). Sa contribution technique centrale est le RMP (Redundancy-Aware Memory Pruning), un mécanisme d'élagage conscient du pose-graph qui propage les corrections de pose aux observations historiques tout en maintenant l'empreinte mémoire bornée. Testé sur robot réel dans quatre scènes de laboratoire dynamiques, DREAM améliore les taux de succès sur tâches longue durée : de 40-60% avec le système de référence DynaMem à 55-70%, avec une empreinte mémoire de 0,37 à 0,63 Go et un temps de mise à jour de 0,43 à 0,53 seconde par scène. Ce résultat adresse un blocage fondamental de la manipulation mobile en conditions réelles : les systèmes existants supposent un environnement statique, des estimations de pose précises ou une carte pré-construite, trois hypothèses qui s'effondrent dès qu'un objet est déplacé ou qu'une correction de trajectoire intervient. DREAM répond à ce demo-to-real gap en propageant dynamiquement les corrections de pose à toute la mémoire historique, et en s'appuyant sur un MLLM pour la vérification sémantique plutôt qu'une simple correspondance géométrique. Nuance nécessaire toutefois : un taux de succès de 55-70% signifie encore 30-45% d'échecs en conditions de laboratoire contrôlées, et les tâches exactes testées ne sont pas détaillées dans l'abstract disponible, ce qui rend toute extrapolation à des environnements industriels ou domestiques réels prématurée. DynaMem constitue la référence directe de comparaison. La manipulation mobile autonome en milieu non-structuré est un axe actif chez plusieurs acteurs commerciaux : Figure avec son robot Figure 03, Physical Intelligence avec pi-zero et pi0.5, Boston Dynamics ou encore Agility Robotics. L'approche de DREAM, combinant SLAM dense, mémoire sémantique interrogeable en langage et vérification par LLM, s'inscrit dans la tendance VLA (Vision-Language-Action) qui cherche à combler le sim-to-real gap non par l'entraînement massif mais par une représentation du monde plus dynamique et cohérente. Aucune institution ni partenariat industriel n'est mentionné dans le résumé disponible, classant ce travail pour l'instant comme recherche académique pré-publication, sans timeline de déploiement annoncée.

RecherchePaper
1 source
Prismatic World Model : apprentissage de la dynamique compositionnelle pour la planification dans les systèmes hybrides
2arXiv cs.RO 

Prismatic World Model : apprentissage de la dynamique compositionnelle pour la planification dans les systèmes hybrides

Une équipe de recherche a publié sur arXiv (arXiv:2512.08411v2, décembre 2025) le Prismatic World Model (PRISM-WM), une architecture de modèle du monde destinée à améliorer la planification dans les systèmes robotiques à dynamiques hybrides. Le problème central que PRISM-WM cherche à résoudre est structurel : les mouvements continus sont régulièrement interrompus par des événements discrets, contacts, impacts, transitions de phases (vol vs appui, glissement vs adhérence), qui créent des discontinuités difficiles à modéliser. Les architectures classiques à réseaux neuronaux monolithiques, comme les modèles latents de type RSSM ou DreamerV3, imposent une continuité globale qui lisse ces transitions et génère des erreurs cumulatives lors des simulations à long horizon (rollouts), rendant la planification peu fiable aux frontières physiques. PRISM-WM y répond par un cadre Mixture-of-Experts (MoE) contextuel : un mécanisme de gating identifie implicitement le mode physique courant, et des experts spécialisés prédisent la dynamique de transition associée. Une contrainte d'orthogonalisation latente force la diversité des experts, prévenant l'effondrement de modes. Les expériences portent sur des benchmarks de contrôle continu incluant des humanoïdes haute dimension et des configurations multi-tâches, couplés à l'algorithme d'optimisation de trajectoires TD-MPC. Les résultats montrent que PRISM-WM réduit le drift en simulation lors des rollouts étendus, offrant un substrat de haute fidélité pour les algorithmes d'optimisation de trajectoires. Pour les équipes de contrôle en robotique humanoïde, cela adresse directement le gap simulation-réalité lié à la gestion des contacts, une limitation structurelle des approches model-based existantes. La décomposition en primitives composables ouvre aussi une piste vers des architectures plus interprétables, un enjeu concret pour les déploiements industriels où la robustesse aux variations de terrain ou de tâche est critique. PRISM-WM s'inscrit dans la dynamique des world models pour la robotique, domaine en forte progression depuis les travaux de Hafner et al. sur DreamerV3 et les avancées de TD-MPC sur des tâches de locomotion complexe. L'approche MoE transposée à la dynamique physique rejoint des tendances observées dans les grands modèles de langage (Mixtral, GPT-4). Il n'est pas associé à une entreprise commerciale identifiée ; il s'agit d'une contribution académique pure, sans pilote industriel annoncé. La prochaine étape logique serait une validation sur hardware réel, notamment sur des plateformes humanoïdes où la gestion des contacts reste un verrou technique central de la sim-to-real transfer.

RecherchePaper
1 source
De la cinématique à la dynamique : apprendre à affiner des plans hybrides pour une exécution physiquement faisable
3arXiv cs.RO 

De la cinématique à la dynamique : apprendre à affiner des plans hybrides pour une exécution physiquement faisable

Une équipe de chercheurs présente dans un préprint arXiv (2604.12474, avril 2026) une méthode d'apprentissage par renforcement (RL) conçue pour corriger les trajectoires générées par des planificateurs hybrides temporels avant exécution réelle sur un robot. Le problème central est classique : lorsqu'un robot doit traverser une séquence de régions spatiales en respectant des contraintes de délais, de fenêtres temporelles et de limites en vitesse ou accélération, les planificateurs hybrides actuels modélisent le mouvement via des dynamiques linéaires du premier ordre (cinématique pure), sans tenir compte des contraintes physiques réelles du système. Il en résulte des plans qui sont logiquement valides mais dynamiquement infaisables. Les auteurs formalisent ce problème de raffinement comme un processus de décision markovien (MDP) intégrant explicitement des contraintes analytiques du second ordre (accélération, couple) et entraînent un agent RL en espace continu pour transformer le plan initial en une trajectoire exécutable. L'intérêt pratique est direct pour les intégrateurs et les équipes robotique : le sim-to-real gap le plus coûteux n'est souvent pas dans la perception ou la préhension, mais dans le suivi de trajectoire. Un plan validé par un planificateur symbolique peut générer des couples impossibles ou des profils de vitesse non bornés, forçant les équipes terrain à retoucher les trajectoires à la main ou à surcontraindre le planificateur. La méthode proposée agit comme une couche de post-traitement apprenante qui récupère la faisabilité physique de manière fiable, sans rejeter la séquence d'actions de haut niveau, et sans nécessiter une re-planification complète. Cela positionne l'approche comme un outil de robustification entre le niveau symbolique et le contrôleur bas niveau, un segment peu adressé dans la littérature. Les planificateurs hybrides temporels comme PDDL+ ou ENHSP tentent depuis une décennie d'intégrer la dynamique continue dans la planification symbolique, avec des résultats limités dès que les modèles s'éloignent de la linéarité. Les approches concurrentes incluent le MPC (Model Predictive Control) et les méthodes de trajectory optimization (iLQR, MPPI), mais elles supposent généralement un plan discret déjà fixé ou ignorent les contraintes temporelles symboliques. La contribution ici est leur combinaison explicite via RL. Le papier reste au stade de la preuve de concept sur des scénarios de navigation structurés ; les prochaines étapes naturelles seraient la validation sur hardware avec des dynamiques plus riches (bras manipulateurs, humanoïdes) et des benchmarks comparatifs contre MPC sur des horizons longs.

RecherchePaper
1 source
Apprentissage par renforcement conditionné par objectif et informé par la physique sous dynamique de contact hybride
4arXiv cs.RO 

Apprentissage par renforcement conditionné par objectif et informé par la physique sous dynamique de contact hybride

Des chercheurs ont publié sur arXiv (réf. 2605.30503) une analyse critique des méthodes de GCRL physico-informé (Pi-GCRL) appliquées à la manipulation robotique en contact, accompagnée de deux nouvelles formulations architecturales pour corriger leurs limites. Le GCRL (goal-conditioned reinforcement learning) vise à entraîner des agents capables d'atteindre des objectifs arbitraires à partir d'un signal de récompense rare, en apprenant une notion générale d'accessibilité dans l'espace état-but. Les approches Pi-GCRL enrichissent cette idée en injectant des biais inductifs issus de la commande optimale dans l'apprentissage de la fonction de valeur. L'article montre que, dès lors que les dynamiques deviennent hybrides, c'est-à-dire discontinues lors de transitions de contact, ces biais, appliqués naïvement, dégradent la performance : les paysages de valeur deviennent non-lisses, la contrôlabilité dépend du mode de contact actif, et les hypothèses de régularité sous-jacentes aux méthodes Pi-GCRL ne tiennent plus. L'enjeu est structurel pour la robotique de manipulation industrielle. La quasi-totalité des tâches réelles, assemblage, insertion, saisie d'objets déformables, impliquent des contacts intermittents qui créent précisément ces dynamiques hybrides. Jusqu'ici, Pi-GCRL avait démontré sa robustesse sur la navigation et le goal-reaching sans contact, mais son extension aux tâches de manipulation restait une question ouverte. Ce travail répond en quantifiant rigoureusement l'échec et en proposant deux correctifs : une formulation contact-aware qui adapte les biais inductifs au mode de contact détecté, et une formulation hiérarchique qui décompose le problème de manipulation en sous-problèmes à dynamiques plus régulières. Ces contributions ouvrent une voie méthodologique précise, distincte des approches VLA (vision-language-action) et sim-to-real classiques qui dominent actuellement les annonces industrielles. Le contexte est celui d'une compétition intense dans l'apprentissage pour la manipulation : DeepMind avec RoboCAT, Physical Intelligence avec pi0, Google avec RT-X, et des dizaines de labos universitaires cherchent à franchir le fossé démo-vers-réalité. Pi-GCRL représente une ligne de recherche distincte, héritée des travaux en commande optimale et en GCRL (Andrychowicz, Plappert et al., 2017 et suivants), qui mise sur la structure mathématique du problème plutôt que sur la puissance brute des données. Ce preprint est une contribution académique sans déploiement annoncé ni partenaire industriel identifié ; les suites probables sont des benchmarks sur des environnements contact-rich standardisés (MuJoCo, IsaacGym) et une éventuelle extension aux robots à plusieurs points de contact.

RecherchePaper
1 source