Au-delà de l'échantillonnage pur : mécanismes d'optimisation hybrides pour le contrôle prédictif non convexe
Une équipe de chercheurs a publié fin mai 2026 une étude (arXiv:2606.00737) proposant un mécanisme d'optimisation hybride pour la commande prédictive de robots en environnements encombrés. Le framework présenté, baptisé ME-DDP (Maximum Entropy Differential Dynamic Programming), combine deux phases distinctes : une première phase d'exploitation du gradient du paysage de coût via DDP classique, suivie d'une phase de perturbation par échantillonnage depuis des politiques paramétrées par l'inverse de la matrice hessienne de la fonction valeur-action. Trois variantes sont proposées et analysées rigoureusement : ME-DDP gaussien unimodal, ME-DDP gaussien multimodal, et Stein Variational DDP. Les auteurs ont benchmarké ces variantes contre DDP déterministe et MPPI (Model Predictive Path Integral) sur quatre systèmes robotiques naviguant dans des environnements denses, avec validation matérielle sur un quadrotor évoluant dans un champ d'obstacles non-convexe dense.
Ce travail s'attaque à un problème fondamental en robotique : les méthodes purement basées sur le gradient convergent systématiquement vers des minima locaux sous-optimaux dès que le paysage de coût devient non-convexe, ce qui arrive dès qu'on introduit des obstacles multiples ou une dynamique non-linéaire complexe. Les résultats montrent que ME-DDP surpasse MPPI de façon cohérente sur les systèmes de basse dimension, où le paysage de coût reste relativement simple. Sur les systèmes haute dimension en revanche, MPPI peut découvrir ocasionnellement des manoeuvres agressives permettant des trajectoires plus rapides, mais ME-DDP maintient un taux de succès plus élevé et plus stable. La validation sur quadrotor en conditions réelles confirme la robustesse du framework, un point souvent manquant dans les contributions MPC purement simulées.
Le MPC non-convexe est un sujet de recherche actif, porté par des groupes comme ceux travaillant sur les véhicules autonomes et la manipulation dextère. MPPI, développé initialement chez Georgia Tech et popularisé par des implémentations comme celles de l'Université de Washington, reste la référence sampling-based dominante dans la communauté robotique. ME-DDP se positionne comme une alternative plus stable en exploitant la courbure locale du paysage d'optimisation plutôt qu'un échantillonnage purement aléatoire. La prochaine étape naturelle serait l'extension aux manipulateurs multi-DOF et aux robots mobiles terrestres à haute dynamique, terrains où l'arbitrage vitesse/robustesse documenté ici devient particulièrement critique.
Dans nos dossiers




