Aller au contenu principal
Contrôle par échantillonnage en temps réel sous contraintes strictes : l'approche MPPI avec contraintes de variété
RecherchearXiv cs.RO3h

Contrôle par échantillonnage en temps réel sous contraintes strictes : l'approche MPPI avec contraintes de variété

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Une équipe du RCI Lab publie MC-MPPI (Manifold-Constrained Model Predictive Path Integral), un framework de contrôle temps-réel déposé sur arXiv le 26 mai 2026 (arXiv:2605.24813). La méthode répond à une limitation structurelle du MPPI standard : l'impossibilité de garantir des contraintes d'égalité strictes (hard constraints) lors de tâches de manipulation en chaîne fermée. MC-MPPI sépare le problème en deux niveaux : une planification dans un espace latent de faible dimension, apprise par un VAE (Variational Autoencoder) qui encode la variété de contraintes, suivie d'une correction d'exécution par un contrôleur QP (Quadratic Programming) résolvant en un seul appel l'erreur résiduelle. Sur un système bi-bras à 14 degrés de liberté en chaîne fermée, le framework tourne à 100 Hz aussi bien en simulation qu'en conditions réelles, et surpasse significativement les méthodes de référence en précision de suivi de trajectoire.

Le verrou adressé est structurel : les pénalités de coût douces du MPPI standard ne garantissent pas la faisabilité des trajectoires candidates, rendant la méthode inapplicable à la manipulation bimanuelle contrainte, aux systèmes à deux points de contact rigide, ou à toute chaîne cinématique fermée. MC-MPPI conserve le parallélisme massif qui rend MPPI attractif : le VAE génère des trajectoires quasi-faisables sans modification par échantillon, permettant une linéarisation précise des contraintes et réduisant la correction d'exécution à un QP résolu en un seul passage au lieu d'une projection itérative coûteuse. Pour un intégrateur ou un responsable technique industriel, cela ouvre MPPI à des tâches d'assemblage et de manipulation précise jusqu'ici réservées aux solveurs par optimisation itérative comme iLQR ou SQP.

MPPI est une méthode de contrôle prédictif par échantillonnage stochastique, introduite par Williams et al. à Georgia Tech en 2016 et depuis adoptée en navigation robotique et pour les systèmes sous-actionnés. Les extensions contraintes existantes recourent à des projections itératives coûteuses ou à des reformulations variationnelles qui dégradent la fréquence de contrôle. MC-MPPI se distingue en apprenant la géométrie de contrainte hors-ligne via le VAE, limitant la charge en ligne au seul QP. Les approches concurrentes incluent les méthodes CBF-QP (Control Barrier Function), le MPC différentiable, et les planificateurs neuronaux pour la manipulation bimanuelle. L'équipe met à disposition vidéos et implémentation à rcilab.github.io/mcmppi ; des validations sur des configurations plus complexes ou des manipulateurs mobiles constitueraient des étapes naturelles.

Dans nos dossiers

À lire aussi

Planification de mouvements par échantillonnage sur variétés riemanniennes avec conscience géométrique
1arXiv cs.RO 

Planification de mouvements par échantillonnage sur variétés riemanniennes avec conscience géométrique

Des chercheurs ont publié sur arXiv (arXiv:2602.00992) un cadre de planification de mouvement par échantillonnage opérant directement sur des variétés riemanniennes, adressant une limitation fondamentale des planificateurs classiques : l'usage de distances euclidiennes dans des espaces de configuration à géométrie non euclidienne. La contribution centrale est une approximation par point médian de la distance géodésique riemannienne, dont les auteurs prouvent la convergence au troisième ordre vers la distance réelle. Un planificateur local complète le système en traçant la variété via des rétractions du premier ordre guidées par des gradients naturels riemanniens. Les validations portent sur un bras plan à deux degrés de liberté, un manipulateur Franka à 7-DoF sous métrique d'énergie cinétique, et la planification de corps rigides dans SE(2) avec contraintes non holonomes. Dans chaque cas, l'approche produit des trajectoires de coût inférieur aux planificateurs euclidiens et aux solveurs géodésiques numériques de référence. L'enjeu industriel est direct : pour les bras manipulateurs redondants (6-DoF et plus), les métriques d'énergie cinétique ou de manipulabilité définissent une géométrie non euclidienne que les RRT et RRT standards ignorent, produisant des trajectoires sous-optimales en énergie et en usure des actionneurs. Ce travail comble le fossé entre deux familles de méthodes : les solveurs géodésiques numériques, fidèles géométriquement mais peu scalables en haute dimension, et les planificateurs par échantillonnage, efficaces mais géométriquement naïfs. La preuve de convergence au troisième ordre est un apport théorique solide ; les expériences restent cependant limitées à 2 et 7-DoF, et la tenue à l'échelle sur des systèmes corps entier (20-DoF et plus) n'est pas encore démontrée. La planification géodésique n'est pas une idée nouvelle : CHOMP et les méthodes de Gaussian Process Motion Planning avaient déjà exploité des métriques tâche-espace, mais dans des cadres d'optimisation sans garanties de complétude probabiliste. Ce travail se distingue en intégrant la géométrie riemannienne dans le paradigme par échantillonnage (famille RRT/PRM), ce qui offre des garanties de complétude asymptotique. Les concurrents directs incluent les variantes RRT à métriques personnalisées et les planificateurs sur graphes de visibilité riemanniens. La suite logique serait une validation sur des manipulateurs industriels courants (Universal Robots, KUKA iiwa) et une intégration dans MoveIt 2 ou NVIDIA Isaac/Lula, deux prérequis pour une adoption réelle en production.

RecherchePaper
1 source
Approximation du MPC global à contact implicite par échantillonnage et complémentarité locale
2arXiv cs.RO 

Approximation du MPC global à contact implicite par échantillonnage et complémentarité locale

Des chercheurs ont publié sur arXiv (réf. 2505.13350, mai 2025) un algorithme de contrôle en temps réel pour la manipulation dextère robotique. Démontré sur un bras Franka Panda, il cible la manipulation non-préhensile d'objets à géométrie non convexe, c'est-à-dire par poussée ou glissement sans saisie ferme. Le coeur de l'approche est une décomposition de chaque cycle de contrôle en deux phases exécutées en parallèle : une phase sans contact qui explore globalement des positions candidates de l'effecteur final par échantillonnage basse dimension, suivie d'une phase riche en contacts qui évalue le coût de chaque position candidate via un MPC (Model Predictive Control) implicite en contact local. La sélection de la meilleure position candidate oriente ensuite la commande du robot, combinant exploration globale et optimisation locale en un seul pipeline temps réel. Ce travail s'attaque à une limite fondamentale des contrôleurs MPC implicites en contact existants : confinés à un voisinage local de l'état courant, ils échouent dès que la manipulation requiert d'atteindre une configuration de contact éloignée, nécessitant souvent une intervention extérieure. L'idée d'une phase de scouting sans contact, légère en calcul et parallélisée, contourne ce problème sans recourir à un planificateur global coûteux hors-ligne. Pour les intégrateurs industriels travaillant sur la manipulation de pièces irrégulières en ligne d'assemblage, c'est une piste sérieuse pour réduire le besoin d'intervention humaine sur des configurations non triviales. L'approche contraste aussi avec les méthodes d'apprentissage (diffusion policies, VLA) qui contournent la modélisation physique : elle reste interprétable et moins dépendante des données, ce qui compte en contexte industriel ou certifiable. Le MPC implicite en contact s'est structuré ces cinq dernières années autour de travaux de MIT, CMU et ETH Zurich sur les formulations par complémentarité (LCP, SOCP), dont ce papier constitue une extension directe. Le Franka Panda reste le bras de référence académique dans ce domaine. Les concurrents directs de l'approche incluent les méthodes tout-échantillonnage comme MPPI ou CEM (efficaces sur la cinématique, fragiles sur les contacts rigides) et les politiques génératives comme pi-zero (Physical Intelligence) ou GR00T N2 (NVIDIA), qui généralisent davantage mais exigent des volumes de données considérables. La page projet associée présente les démonstrations expérimentales en laboratoire, mais aucun déploiement industriel ni partenariat commercial n'est annoncé à ce stade.

RechercheActu
1 source
Commande par échantillonnage via le transport optimal à régularisation entropique
3arXiv cs.RO 

Commande par échantillonnage via le transport optimal à régularisation entropique

Une équipe de chercheurs a publié en mai 2026, sous la référence arXiv:2605.02147, un algorithme de contrôle prédictif par échantillonnage appelé OT-MPC. La méthode repose sur une formulation par transport optimal à régularisation entropique et cible les systèmes robotiques non linéaires nécessitant un contrôle temps réel : navigation autonome, manipulation d'objets et locomotion. Les mises à jour sont calculées en forme close via l'algorithme de Sinkhorn, sans aucun gradient, ce qui permet de traiter des dynamiques discontinues que les optimiseurs classiques basés sur la rétropropagation ne peuvent pas gérer. Les expériences rapportées montrent des taux de succès supérieurs aux méthodes de référence sur l'ensemble des trois catégories de tâches, bien que les chiffres absolus et les benchmarks précis ne soient pas détaillés dans l'abstract publié. L'intérêt pratique réside dans la résolution d'un problème structurel des deux algorithmes dominants du secteur, MPPI (Model Predictive Path Integral) et CEM (Cross-Entropy Method) : le comportement dit de "mode-averaging", où la mise à jour vers la moyenne pondérée des trajectoires candidates produit des solutions sous-optimales lorsque le paysage de coût est multimodal ou fortement non convexe. OT-MPC calcule un couplage optimal entre les séquences de contrôle candidates et les propositions à faible coût, coordonnant les mises à jour sur l'ensemble de l'échantillon pour préserver la couverture de l'espace des solutions tout en affinant chaque candidat vers ses voisins prometteurs. Pour un intégrateur ou un responsable technique, cela se traduit concrètement par une meilleure robustesse lors de transitions de contact, de saisies imprécises ou de mouvements en environnement encombré, sans surcoût de calcul différenciable. MPPI, développé initialement par Georgia Tech et popularisé par des frameworks comme Storm d'NVIDIA, et CEM, utilisé notamment dans les pipelines de planification de Boston Dynamics et de divers labos universitaires, sont aujourd'hui les deux références incontournables du contrôle par échantillonnage. Le transport optimal, formalisé dans un cadre robotique par des travaux antérieurs en imitation et en apprentissage de politiques, trouve ici une application directe au MPC sans nécessiter d'apprentissage préalable. OT-MPC reste à ce stade une contribution académique, sans déploiement annoncé ni partenariat industriel mentionné ; des validations sur hardware réel et des comparaisons de temps de cycle sur cibles embarquées constitueraient les prochaines étapes naturelles avant toute intégration produit.

RecherchePaper
1 source
Contrôle neuronal : l'apprentissage adjoint par contraintes d'équilibre
4arXiv cs.RO 

Contrôle neuronal : l'apprentissage adjoint par contraintes d'équilibre

Une équipe de chercheurs a publié en mai 2026 sur arXiv (référence 2605.03288) un framework de contrôle baptisé "Neural Control", conçu pour piloter des systèmes physiques régis par des contraintes d'équilibre implicite. La cible principale est la manipulation d'objets linéaires déformables (DLO, deformable linear objects) tels que câbles, fils ou tuyaux flexibles. Dans ces systèmes, le robot n'actionne qu'un sous-ensemble de degrés de liberté (DoF de frontière), tandis que les DoF libres restants convergent vers une configuration d'énergie potentielle minimale. La difficulté centrale réside dans la multi-stabilité : pour les mêmes conditions aux limites, un câble peut atteindre plusieurs formes d'équilibre distinctes selon la trajectoire d'actionnement suivie. Neural Control résout ce problème en calculant des gradients proxy à travers les conditions d'équilibre via une formulation adjointe, évitant ainsi le déroulage complet des itérations du solveur et réduisant drastiquement l'empreinte mémoire et calcul. Le schéma est intégré dans un MPC à horizon glissant (receding-horizon MPC) qui ré-ancre l'optimisation à chaque pas sur l'équilibre réellement atteint, limitant les basculements entre bassins d'attraction. Les résultats, évalués en simulation et sur robots physiques, surpassent les méthodes sans gradient comme SPSA (Simultaneous Perturbation Stochastic Approximation) et CEM (Cross-Entropy Method). L'enjeu industriel est direct : la manipulation de câblages et de harnais est l'un des goulots d'étranglement non résolus de l'automatisation en assemblage automobile, électronique et médical. Les approches par apprentissage par renforcement standard buttent sur l'espace d'état combinatoire des DLO, et le sim-to-real reste fragile faute de gradients exploitables. La formulation adjointe proposée ici ouvre une voie différentiable sans le coût mémoire prohibitif du backpropagation à travers les solveurs itératifs, ce qui est un apport méthodologique tangible. Il faut noter que les métriques de performance publiées n'incluent pas de temps de cycle ni de taux de succès quantifiés sur cas industriels réels, les expériences physiques semblant rester au stade de validation en laboratoire. Ce travail s'inscrit dans un mouvement plus large de simulation différentiable appliquée à la robotique, avec des contributions récentes de groupes comme MIT, Stanford et ETH Zurich. Sur le segment DLO, il concurrence des approches comme les politiques visuomotrices apprises par imitation et les modèles d'espace d'état pour objets déformables. Aucun partenaire industriel ni déploiement pilote n'est mentionné dans la prépublication, ce qui situe clairement ce travail au stade recherche fondamentale. Les prochaines étapes probables incluent une validation sur des tâches de câblage plus complexes et une intégration dans des pipelines de planification temps-réel.

RecherchePaper
1 source