Aller au contenu principal
RecherchearXiv cs.RO2h

Au-delà de l'échantillonnage pur : mécanismes d'optimisation hybrides pour le contrôle prédictif non convexe

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Une équipe de chercheurs a publié fin mai 2026 une étude (arXiv:2606.00737) proposant un mécanisme d'optimisation hybride pour la commande prédictive de robots en environnements encombrés. Le framework présenté, baptisé ME-DDP (Maximum Entropy Differential Dynamic Programming), combine deux phases distinctes : une première phase d'exploitation du gradient du paysage de coût via DDP classique, suivie d'une phase de perturbation par échantillonnage depuis des politiques paramétrées par l'inverse de la matrice hessienne de la fonction valeur-action. Trois variantes sont proposées et analysées rigoureusement : ME-DDP gaussien unimodal, ME-DDP gaussien multimodal, et Stein Variational DDP. Les auteurs ont benchmarké ces variantes contre DDP déterministe et MPPI (Model Predictive Path Integral) sur quatre systèmes robotiques naviguant dans des environnements denses, avec validation matérielle sur un quadrotor évoluant dans un champ d'obstacles non-convexe dense.

Ce travail s'attaque à un problème fondamental en robotique : les méthodes purement basées sur le gradient convergent systématiquement vers des minima locaux sous-optimaux dès que le paysage de coût devient non-convexe, ce qui arrive dès qu'on introduit des obstacles multiples ou une dynamique non-linéaire complexe. Les résultats montrent que ME-DDP surpasse MPPI de façon cohérente sur les systèmes de basse dimension, où le paysage de coût reste relativement simple. Sur les systèmes haute dimension en revanche, MPPI peut découvrir ocasionnellement des manoeuvres agressives permettant des trajectoires plus rapides, mais ME-DDP maintient un taux de succès plus élevé et plus stable. La validation sur quadrotor en conditions réelles confirme la robustesse du framework, un point souvent manquant dans les contributions MPC purement simulées.

Le MPC non-convexe est un sujet de recherche actif, porté par des groupes comme ceux travaillant sur les véhicules autonomes et la manipulation dextère. MPPI, développé initialement chez Georgia Tech et popularisé par des implémentations comme celles de l'Université de Washington, reste la référence sampling-based dominante dans la communauté robotique. ME-DDP se positionne comme une alternative plus stable en exploitant la courbure locale du paysage d'optimisation plutôt qu'un échantillonnage purement aléatoire. La prochaine étape naturelle serait l'extension aux manipulateurs multi-DOF et aux robots mobiles terrestres à haute dynamique, terrains où l'arbitrage vitesse/robustesse documenté ici devient particulièrement critique.

Dans nos dossiers

À lire aussi

Optimisation globale de trajectoire par échantillonnage pour la manipulation à contact riche via KernelSOS
1arXiv cs.RO 

Optimisation globale de trajectoire par échantillonnage pour la manipulation à contact riche via KernelSOS

Un groupe de chercheurs a publié le 27 avril 2026 sur arXiv (arXiv:2604.27175) une méthode d'optimisation de trajectoires baptisée Global-MPPI, dédiée aux tâches de manipulation dites "contact-rich", des scénarios où le robot entre en contact répété avec son environnement, comme pousser, assembler ou manipuler des objets en main. Le cadre combine deux niveaux : une exploration globale via optimisation kernel sum-of-squares (KernelSOS), suivie d'un raffinement local par la méthode MPPI (Model-Predictive Path Integral). Pour gérer la non-régularité des paysages d'optimisation liée aux dynamiques de contact hybrides, les auteurs introduisent un lissage progressif par log-sum-exp, qui fait évoluer le problème d'un objectif régularisé vers l'objectif non-lisse original. Les tests portent sur deux benchmarks haute dimension à horizon long : la tâche PushT et la manipulation dextère in-hand. Les résultats affichent une convergence plus rapide et des coûts finaux inférieurs aux méthodes de référence, mais uniquement en simulation. Le verrou résolu est structurel : sans mécanisme d'exploration globale, les méthodes par échantillonnage comme MPPI convergent facilement vers de mauvais minima locaux. Pour la manipulation contact-rich, composant critique des bras industriels, des mains robotiques et des humanoïdes, ce phénomène génère des trajectoires sous-optimales dans des environnements géométriquement complexes. L'approche KernelSOS apporte une garantie formelle de couverture de l'espace des solutions là où les variantes purement stochastiques de MPPI restent dépendantes de l'initialisation. La combinaison avec le lissage adaptatif traite directement les discontinuités de contact, qui rendent les méthodes de gradient classiques inapplicables. Le transfert sim-to-real n'est pas évalué dans ce travail, ce qui constitue la principale limite à ce stade. MPPI a été développé à Georgia Tech par Grady Williams et Evangelos Theodorou (2016-2018) et s'est imposé en MPC stochastique temps réel via des implémentations GPU massivement parallèles. L'optimisation sum-of-squares (SOS) est issue des travaux de Parrilo (MIT) et Lasserre (LAAS-CNRS, Toulouse). Global-MPPI constitue le premier cadre à combiner explicitement ces deux familles dans un pipeline de planification de manipulation. Sur le plan concurrentiel, l'approche se positionne face à la Cross-Entropy Method (CEM), aux planificateurs par diffusion comme Pi-0 de Physical Intelligence ou Diffusion Policy, ainsi qu'aux optimiseurs de trajectoires différentiables (Drake, trajopt). Ce preprint n'a pas encore été soumis à une conférence identifiée et aucun code public ni déploiement hardware n'est annoncé à ce stade.

UELes fondements SOS de cette méthode sont issus des travaux de Lasserre au LAAS-CNRS (Toulouse), mais le preprint n'implique aucune institution française ou européenne identifiée et reste sans impact opérationnel direct sur la France/UE à ce stade.

RecherchePaper
1 source
Effets inattendus de la randomisation de domaine sensible au risque pour la commande prédictive par échantillonnage à contacts multiples
2arXiv cs.RO 

Effets inattendus de la randomisation de domaine sensible au risque pour la commande prédictive par échantillonnage à contacts multiples

Des chercheurs ont publié en mai 2026 une étude préliminaire (arXiv:2605.03290) sur les effets de la randomisation de domaine sensible au risque appliquée au contrôle prédictif par échantillonnage (SPC) dans des tâches à contacts physiques denses. La randomisation de domaine (DR) consiste à entraîner un planificateur sur des variantes aléatoires des paramètres physiques, masse, friction, rigidité, pour le rendre robuste aux erreurs de modélisation. Très utilisée en apprentissage par renforcement, elle restait quasiment inexploriée dans le SPC, où la qualité des trajectoires simulées est particulièrement sensible à l'incertitude. Les auteurs comparent trois stratégies d'agrégation de rollouts sous instances de modèles randomisés : moyenne, optimiste (meilleur cas) et pessimiste (pire cas), sur la tâche Push-T, un benchmark de manipulation où un robot pousse un objet en T vers une pose cible. Les résultats révèlent un effet inattendu : la DR ne se contente pas d'améliorer la robustesse aux erreurs de modèle, elle modifie structurellement le paysage de coût perçu par l'optimiseur d'échantillonnage. Selon le profil de risque retenu, le bassin d'attraction autour des actions produisant des contacts physiques est reconfiguré différemment, ce qui influe directement sur la propension de l'optimiseur à explorer ou à éviter les configurations de contact. Pour des applications industrielles, assemblage, manipulation fine ou tri, où les contacts sont inévitables, ce couplage entre incertitude de modèle et stratégie de risque est critique : un mauvais calibrage peut rendre le SPC soit trop conservateur, soit instable face aux contacts non planifiés. La DR a été systématisée dans les simulateurs physiques comme Isaac Sim de NVIDIA et popularisée par les travaux d'OpenAI sur la manipulation dextre (projet Dactyl, 2019). Le SPC, notamment via l'algorithme MPPI (Model Predictive Path Integral), connaît un regain d'intérêt pour la robotique temps réel, en locomotion et manipulation. Cette étude constitue un premier jalon formel à l'intersection des deux approches, jusqu'ici traitées séparément. Elle s'inscrit dans un contexte plus large où les modèles VLA (Vision-Language-Action) et les approches sim-to-real de Google DeepMind ou Physical Intelligence (Pi-0) cherchent à réduire l'écart entre simulation et réalité. Les auteurs ne publient que des résultats initiaux sur une tâche simple et ne proposent pas encore de généralisation ni de calendrier applicatif, ce qui limite la portée immédiate mais ouvre un axe de recherche prometteur pour le contrôle robuste aux contacts.

RecherchePaper
1 source
Commande par échantillonnage via le transport optimal à régularisation entropique
3arXiv cs.RO 

Commande par échantillonnage via le transport optimal à régularisation entropique

Une équipe de chercheurs a publié en mai 2026, sous la référence arXiv:2605.02147, un algorithme de contrôle prédictif par échantillonnage appelé OT-MPC. La méthode repose sur une formulation par transport optimal à régularisation entropique et cible les systèmes robotiques non linéaires nécessitant un contrôle temps réel : navigation autonome, manipulation d'objets et locomotion. Les mises à jour sont calculées en forme close via l'algorithme de Sinkhorn, sans aucun gradient, ce qui permet de traiter des dynamiques discontinues que les optimiseurs classiques basés sur la rétropropagation ne peuvent pas gérer. Les expériences rapportées montrent des taux de succès supérieurs aux méthodes de référence sur l'ensemble des trois catégories de tâches, bien que les chiffres absolus et les benchmarks précis ne soient pas détaillés dans l'abstract publié. L'intérêt pratique réside dans la résolution d'un problème structurel des deux algorithmes dominants du secteur, MPPI (Model Predictive Path Integral) et CEM (Cross-Entropy Method) : le comportement dit de "mode-averaging", où la mise à jour vers la moyenne pondérée des trajectoires candidates produit des solutions sous-optimales lorsque le paysage de coût est multimodal ou fortement non convexe. OT-MPC calcule un couplage optimal entre les séquences de contrôle candidates et les propositions à faible coût, coordonnant les mises à jour sur l'ensemble de l'échantillon pour préserver la couverture de l'espace des solutions tout en affinant chaque candidat vers ses voisins prometteurs. Pour un intégrateur ou un responsable technique, cela se traduit concrètement par une meilleure robustesse lors de transitions de contact, de saisies imprécises ou de mouvements en environnement encombré, sans surcoût de calcul différenciable. MPPI, développé initialement par Georgia Tech et popularisé par des frameworks comme Storm d'NVIDIA, et CEM, utilisé notamment dans les pipelines de planification de Boston Dynamics et de divers labos universitaires, sont aujourd'hui les deux références incontournables du contrôle par échantillonnage. Le transport optimal, formalisé dans un cadre robotique par des travaux antérieurs en imitation et en apprentissage de politiques, trouve ici une application directe au MPC sans nécessiter d'apprentissage préalable. OT-MPC reste à ce stade une contribution académique, sans déploiement annoncé ni partenariat industriel mentionné ; des validations sur hardware réel et des comparaisons de temps de cycle sur cibles embarquées constitueraient les prochaines étapes naturelles avant toute intégration produit.

RecherchePaper
1 source
Planification de mouvement "suivre le chef" par échantillonnage pour robots continus montés sur manipulateur
4arXiv cs.RO 

Planification de mouvement "suivre le chef" par échantillonnage pour robots continus montés sur manipulateur

Des chercheurs du Continuum Robotics Lab (Université de Toronto) ont publié en mai 2025 sur arXiv (arXiv:2605.11618) un planificateur de mouvement par échantillonnage pour robots continuums (CR) montés sur bras manipulateurs. Le principe exploité, dit "follow-the-leader" (FTL), consiste à faire retracer au corps du robot la trajectoire exacte de son extrémité distale, permettant de naviguer dans des espaces confinés sans collision. L'innovation clé est de découpler la recherche de forme globale du calcul de pose de base via une construction géométrique analytique fermée, éliminant toute optimisation itérative en ligne. Validé sur 120 chemins simulés répartis en trois classes de test, le système atteint 0 % d'erreur d'extrémité distale, 1,9 % d'écart de forme moyen (normalisé par la longueur du robot) et 100 % de taux de succès. Une validation matérielle sur un CR à tendons de 6 DOF monté sur manipulateur série confirme la faisabilité pratique. L'apport principal est de lever un verrou structurel : toutes les méthodes FTL antérieures supposaient une base fixe ou un mécanisme d'insertion à un seul DOF. En autorisant une pose de base pleinement actionnée dans SE(3), le problème devient couplé et combinatoirement difficile. En déportant la majorité du calcul hors ligne, l'approche permet une planification en quasi-temps réel sur des plateformes industrielles réelles. Les garanties théoriques formelles (complétude de la recherche de forme, convergence du suivi de waypoints) facilitent la certification de sécurité, ce qui intéresse directement les intégrateurs en robotique chirurgicale ou en inspection d'infrastructures. Bémol notable : les temps de planification effectifs ne sont pas rapportés dans l'abstract, et la généralisation au-delà des trois classes de chemins testés reste à démontrer. Les robots continuums, structures flexibles sans articulations rigides discrètes, sont étudiés depuis les années 2000 pour la chirurgie minimalement invasive, l'inspection de turbines et l'exploration de conduits étroits. Le Continuum Robotics Lab compte parmi les équipes de référence mondiales, aux côtés du groupe Webster III (Vanderbilt) et de l'Université de Leeds. En Europe, des acteurs comme Surgivisio et des projets ANR autour des cathéters robotisés contribuent également au domaine. Ce travail s'inscrit dans la tendance d'intégration des CR sur bras polyarticulés pour dépasser les limitations des plateformes à base fixe. Le code source et les visualisations sont publiés en open source sur la page du laboratoire, facilitant la réplication indépendante.

UELes intégrateurs européens en robotique chirurgicale, dont la startup française Surgivisio et les projets ANR sur cathéters robotisés, pourraient exploiter ce planificateur open source pour franchir le verrou de la base mobile sur leurs plateformes de développement.

RecherchePaper
1 source