Aller au contenu principal
Bon modèle au bon moment : commande prédictive en cascade de fidélité pour la marche bipède en temps réel
RecherchearXiv cs.RO7sem

Bon modèle au bon moment : commande prédictive en cascade de fidélité pour la marche bipède en temps réel

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Des chercheurs ont soumis sur arXiv le 6 mai 2026 (arXiv:2605.04607) une méthode de contrôle prédictif multi-phase pour la marche bipède, validée en simulation MuJoCo sur HyPer-2, un robot bipède à 18 degrés de liberté. L'approche, dite "cascaded-fidelity MPC", divise l'horizon de prédiction en deux zones : les pas de temps proches s'appuient sur un modèle complet du corps entier (whole-body model), tandis que l'horizon lointain utilise un modèle simplifié à corps rigide unique (SRB). Le problème de commande optimale non linéaire résultant est résolu par programmation quadratique séquentielle (SQP) via le framework acados. Le contrôleur calcule directement des couples articulaires à partir d'un calendrier de contacts et d'une vitesse cible, sans exiger d'emplacements de pas prédéfinis. Il s'agit d'un preprint de recherche ; aucun transfert sur matériel physique n'est encore rapporté.

L'enjeu est d'ordre computationnel : un MPC whole-body complet offre une haute précision dynamique mais reste prohibitif pour un contrôle embarqué temps réel, tandis que les méthodes simplifiées (LIPM, SRBD seul) dégradent la qualité de prédiction. Concentrer la fidélité du modèle sur l'horizon proche, là où elle impacte réellement la commande, est un compromis prometteur. L'absence de dépendance aux pas présélectionnés renforce également la robustesse potentielle en environnement non structuré.

Ce travail s'inscrit dans une compétition académique dense autour du MPC pour la locomotion humanoïde. Des équipes comme ETH Zurich avec le framework OCS2, Carnegie Mellon ou des laboratoires européens explorent des hiérarchisations de modèles analogues. HyPer-2 semble être une plateforme de recherche universitaire non commercialisée. Les prochaines étapes attendues sont le transfert sim-to-real sur matériel physique et la validation sur terrain irrégulier.

Dans nos dossiers

À lire aussi

IMPACT : apprentissage d'une commande prédictive à modèle interne pour la manipulation robotique en force
1arXiv cs.RO 

IMPACT : apprentissage d'une commande prédictive à modèle interne pour la manipulation robotique en force

Une équipe de recherche a publié le 12 juin 2026 sur arXiv (référence 2606.10818) IMPACT, un framework d'apprentissage pour la manipulation robotique dite "forceful", c'est-à-dire impliquant des interactions physiques avec l'environnement : utilisation d'outils de masses variables, transport d'objets lourds, nettoyage de surface par contact prolongé. L'architecture découple le problème en deux blocs distincts : un planificateur de tâche de haut niveau, et un contrôleur prédictif basé sur un modèle interne (internal-model predictive control). Les expériences sont menées à la fois en simulation et sur robot réel, avec évaluation sur des objets non vus lors de l'entraînement. Les auteurs ne publient pas encore les métriques quantitatives précises dans l'abstract arXiv disponible, ce qui limite l'analyse indépendante à ce stade. Le verrou technique adressé est réel et sous-estimé dans les pipelines d'imitation learning actuels. Deux stratégies dominent aujourd'hui : la première laisse les forces émerger implicitement via les erreurs de suivi d'un contrôleur d'impédance, ce qui casse la généralisation dès que la masse de l'objet change ; la seconde commande explicitement les efforts via capteur force/couple ou capteur tactile au poignet, ce qui fonctionne mais alourdit l'intégration matérielle et fragilise les déploiements industriels. IMPACT propose une troisième voie en apprenant un modèle interne de la dynamique de contact, permettant au contrôleur prédictif d'anticiper les forces sans capteur dédié ni dégradation de généralisation. Les gains annoncés en taux de succès, sécurité et efficacité énergétique sont cohérents avec l'approche, mais restent à valider sur des benchmarks standardisés comme DROID ou RoboAgent. Ce travail s'inscrit dans un courant actif qui cherche à marier l'apprentissage par imitation avec les garanties du contrôle prédictif (MPC), après des travaux fondateurs comme ILC, DMP, et plus récemment les architectures VLA de type pi0 (Physical Intelligence) ou RoboDiff. Le problème de la manipulation forcée reste un angle mort des démos grand public, qui privilégient les tâches de pick-and-place sur objets légers. Les concurrents directs incluent les approches sim-to-real de CMU (DexVIP, ACT), d'ETH Zurich (ANYmal) et les travaux de Boston Dynamics Research sur la manipulation lourde. Côté européen, aucun acteur n'est directement cité, mais les travaux de Wandercraft et Enchanted Tools sur la dynamique de contact pourraient bénéficier de ce type de framework. La prochaine étape naturelle serait une validation sur manipulateurs industriels (UR, Franka) en conditions de production réelle.

RecherchePaper
1 source
CADENCE : prédiction du temps d'exécution réel en MAPF au-delà de la somme des coûts
2arXiv cs.RO 

CADENCE : prédiction du temps d'exécution réel en MAPF au-delà de la somme des coûts

Une équipe de chercheurs a publié le 4 juin 2026 CADENCE (Coordination and Action-Driven Estimation for Networked Continuous Execution), une étude expérimentale sur la prédiction du temps d'exécution réel dans les systèmes multi-robots. Le protocole repose sur une cellule de travail fixe de 7x7 cases équipée de sept robots à roues différentielles, sur laquelle 120 plans ont été générés à travers 15 scénarios, cinq en espace vide, cinq en disposition aléatoire intermédiaire, cinq en configuration goulot d'étranglement. Chaque plan a été exécuté quatre fois, constituant un corpus expérimental de 480 essais physiques. L'objectif central : déterminer quelles métriques calculables avant l'exécution permettent de prédire le temps réel de complétion (wall-clock time), à partir de deux modèles statistiques distincts, un modèle ridge par scénario tenu hors entraînement, et un modèle à effets mixtes au niveau essai. Le résultat principal remet en cause un postulat central de l'évaluation MAPF : la Sum of Costs (SoC), métrique quasi-universelle pour comparer les planificateurs, s'avère insuffisante pour estimer le temps d'exécution réel. C'est le "primitive motion burden", une mesure composite qui quantifie les virages, transitions start-stop, mouvements consécutifs et la longueur brute des trajectoires primitives, qui réduit l'erreur de prédiction de 48,6 à 59,8 % en MAE et de 44,2 à 61,4 % en RMSE par rapport aux modèles SoC seuls. Les métriques de coordination inter-robots (liens de dépendance, paires en interaction, profondeur des dépendances) apportent des gains plus modestes et moins stables. Pour un intégrateur d'entrepôt ou un concepteur de flotte AMR, cela signifie qu'un plan jugé optimal sur SoC peut induire des temps de cycle réels significativement plus longs, une erreur coûteuse à l'échelle industrielle. MAPF est un domaine actif depuis plusieurs décennies, avec des algorithmes comme CBS (Conflict-Based Search) ou ECBS largement utilisés dans les systèmes de gestion de flotte pour entrepôts automatisés, notamment chez des acteurs comme 6 River Systems, Locus Robotics, ou Exotec en Europe. La question de l'écart entre planification hors-ligne et exécution physique (le "sim-to-real gap" de la planification de chemin) est un angle sous-exploré dans la littérature. CADENCE propose un premier corpus empirique structuré pour combler ce manque, mais reste limité à une topologie fixe, un type de robot unique, et un nombre restreint de scénarios. Les prochaines étapes naturelles incluent des cellules plus grandes, des robots hétérogènes, et l'intégration de ces features dans des planificateurs adaptatifs capables d'arbitrer en temps réel entre coût planifié et charge de mouvement prédite.

UEExotec, acteur français leader de la logistique automatisée, est directement concerné : ses systèmes de flotte AMR optimisés sur Sum of Costs pourraient sous-estimer les temps de cycle réels, un risque opérationnel mesurable à l'échelle industrielle.

RecherchePaper
1 source
Approximation de la sécurité sans oracle de sécurité via la commande prédictive par modèle
3arXiv cs.RO 

Approximation de la sécurité sans oracle de sécurité via la commande prédictive par modèle

Des chercheurs ont publié sur arXiv (référence 2510.20955v2) un algorithme permettant de vérifier la sécurité des décisions d'un robot mobile sans disposer d'un oracle de sécurité formel. Les approches classiques exigent soit des contraintes explicitement modélisées, soit des données annotées manuellement comme sûres ou dangereuses, deux méthodes coûteuses en ingénierie et sources d'erreurs. L'algorithme proposé contourne ce besoin via un simulateur : avant d'exécuter une action, le système la projette dans le simulateur vers un état futur, puis utilise l'algorithme Model-Predictive Path Integral (MPPI) pour vérifier l'existence d'un chemin de retour vers un état antérieur de la trajectoire. Sous une hypothèse d'invariance positive sur l'espace des états dangereux, si ce chemin de retour existe, l'état courant est mathématiquement garanti hors de la zone à risque. Les expériences montrent que la méthode approche les performances d'un oracle réel, en limitant notamment les faux négatifs, c'est-à-dire les cas où un état dangereux serait classifié à tort comme sûr. L'enjeu pratique est réel pour le déploiement des AMR (Autonomous Mobile Robots) en environnements industriels non structurés. La dépendance aux annotations manuelles de sécurité constitue un goulot d'étranglement majeur : chaque changement de site ou de configuration peut invalider les contraintes précédemment formulées. En exploitant les contraintes implicites déjà encodées dans les simulateurs physiques modernes, cette approche rend les systèmes de contrôle sûr plus généralisables, sans réécriture à chaque nouveau déploiement. Éliminer les faux négatifs est critique : c'est le scénario où un robot exécute une action jugée sûre à tort, avec des conséquences potentiellement irréversibles en conditions réelles. MPPI est un algorithme de planification par échantillonnage stochastique, initialement développé à Georgia Tech dans les travaux de Grady Williams et Evangelos Theodorou, et depuis repris dans de nombreux travaux sur la navigation autonome et les véhicules sans conducteur. Son utilisation ici comme outil de vérification de réversibilité plutôt que de planification directe constitue l'originalité méthodologique centrale de la contribution. Le travail s'inscrit dans un courant de recherche actif sur la sécurité sans supervision dense, aux côtés des Control Barrier Functions (CBF) appris par données et du safe reinforcement learning. L'article reste une contribution académique avec résultats en simulation uniquement, sans partenaire industriel ni déploiement annoncé. La prochaine étape naturelle serait une validation sur hardware réel dans des environnements aux contraintes implicites complexes et une comparaison quantitative avec des méthodes CBF classiques sur des benchmarks standardisés.

RecherchePaper
1 source
GATO : optimisation de trajectoire accélérée par GPU et par lots pour la commande prédictive par modèle embarquée et évolutive
4arXiv cs.RO 

GATO : optimisation de trajectoire accélérée par GPU et par lots pour la commande prédictive par modèle embarquée et évolutive

Une équipe de chercheurs a publié sur arXiv (identifiant 2510.07625v2) GATO, un solveur open source conçu pour accélérer massivement les calculs de trajectoire en temps réel dans les systèmes de contrôle prédictif par modèle (MPC). Concrètement, GATO cible le régime de lots modérés, soit des dizaines à quelques centaines de problèmes d'optimisation de trajectoires non linéaires résolus simultanément à chaque cycle de contrôle. Les benchmarks sur simulateur affichent des gains de 18 à 21 fois par rapport aux solveurs CPU de référence, et de 1,4 à 16 fois par rapport aux approches GPU existantes selon la taille des lots. Le solveur a été validé sur matériel réel via un bras manipulateur industriel, ce qui dépasse le stade de la démonstration purement simulée. Ce résultat comble un angle mort persistant dans l'écosystème MPC pour la robotique : les approches GPU actuelles parallélisent efficacement une seule résolution, ou traitent de très grands lots à des cadences sous temps réel, mais aucune ne couvre bien le régime intermédiaire où opèrent de nombreuses applications avancées, notamment la planification de mouvement pour bras industriels, la locomotion d'humanoïdes ou la navigation d'AMR en environnement dynamique. GATO co-conçoit l'algorithme, le logiciel et l'architecture matérielle en exploitant le parallélisme à trois niveaux : bloc, warp et thread CUDA. Les études de cas montrent une meilleure rejection des perturbations et une convergence accélérée, deux métriques directement pertinentes pour les intégrateurs industriels et les équipes de contrôle embarqué. Le MPC est un standard de facto en robotique et en contrôle de procédés, mais son coût computationnel a longtemps limité son usage aux systèmes à dynamique lente ou aux architectures avec CPU puissants dédiés. Les GPU embarqués, désormais présents sur les plateformes robotiques modernes (Jetson, Orin), rendent ce type de co-design pertinent pour le déploiement edge. Aucun acteur industriel nommé n'est associé à ce travail, qui reste pour l'instant une contribution académique ouverte, sans annonce de commercialisation ni partenariat industriel déclaré. La mise à disposition en open source vise à favoriser la reproductibilité et l'adoption par les équipes de recherche et développement, avec un potentiel d'intégration dans des frameworks MPC existants comme Crocoddyl ou ALTRO.

UECrocoddyl, l'un des frameworks MPC cibles d'intégration mentionnés, est développé au LAAS-CNRS (Toulouse, France), ce qui rend GATO directement pertinent pour les équipes de recherche françaises en contrôle de robots.

RecherchePaper
1 source