GATO : optimisation de trajectoire accélérée par GPU et…

cuNRTO : optimisation de trajectoires robustes non linéaires accélérée par GPU

44

1arXiv cs.RO

cuNRTO : optimisation de trajectoires robustes non linéaires accélérée par GPU

Des chercheurs ont mis en ligne sur arXiv (réf. 2603.02642v2) cuNRTO (CUDA Nonlinear Robust Trajectory Optimization), un framework GPU pour l'optimisation de trajectoire robuste sous incertitude bornée. Ces problèmes mènent typiquement à des contraintes de programmation conique du second ordre (SOCP), dont la résolution est très coûteuse sur CPU. Les auteurs proposent deux architectures : NRTO-DR, basée sur le splitting de Douglas-Rachford pour paralléliser les projections SOCP et les résolutions directes creuses, et NRTO-FullADMM, une variante inédite exploitant l'ADMM (Alternating Direction Method of Multipliers) pour améliorer la scalabilité en tirant parti de la structure du problème. L'implémentation repose sur des kernels CUDA personnalisés pour les projections SOC et des chaînes cuBLAS GEMM pour les mises à jour des gains de retour d'état. Testées en simulation sur un modèle unicycle, un quadrirotor et le bras manipulateur Franka Emika, les deux architectures atteignent des accélérations allant jusqu'à 139,6x par rapport aux solveurs CPU de référence. L'enjeu est concret pour les équipes robotique et les intégrateurs : l'optimisation de trajectoire robuste en temps réel reste aujourd'hui hors de portée des architectures CPU pour la plupart des applications embarquées, les solveurs classiques étant cantonnés à une planification hors ligne ou à très basse fréquence. Un gain de 139,6x ouvre la voie à une réplanification en boucle fermée sur des manipulateurs industriels et des drones opérant sous incertitudes réelles (charges variables, perturbations mécaniques). Nuance importante : l'ensemble des benchmarks est produit en simulation. Le gap sim-to-real sur GPU embarqués, où la latence mémoire et la bande passante sont significativement plus contraintes que sur un serveur de calcul, reste entièrement à valider avant tout déploiement opérationnel. Ce travail s'inscrit dans la continuité des efforts d'accélération GPU pour le contrôle optimal, dont cuRobo (NVIDIA) et les variantes GPU de l'MPPI sont les exemples les plus connus. L'optimisation robuste avec contraintes SOCP reste un angle peu couvert par ces frameworks, les formulations quadratiques classiques étant structurellement plus simples à paralléliser. Le papier est un preprint arXiv en version v2, pas encore évalué par une conférence de référence comme ICRA, IROS ou RSS. Le code sera rendu public via cunrto.github.io, ce qui permettra des comparaisons indépendantes. La prochaine étape logique serait une validation hardware sur GPU embarqués de type NVIDIA Jetson Orin, représentatifs du déploiement cible en robotique autonome.

RecherchePaper

1 source

Optimisation des arbres de trajectoires dans l'espace des croyances : de la commande prédictive à la planification de tâches et de mouvements

37

2arXiv cs.RO

Optimisation des arbres de trajectoires dans l'espace des croyances : de la commande prédictive à la planification de tâches et de mouvements

Des chercheurs proposent, dans un preprint arXiv soumis début mai 2026 (arXiv:2605.01860), de planifier des trajectoires arborescentes (trajectory-trees) dans l'espace des croyances (belief space) plutôt que les trajectoires séquentielles classiques. Quand un robot évolue en environnement partiellement observable, la trajectoire optimale dépend d'observations futures encore inconnues: les trajectory-trees branchent à chaque point où l'état de croyance est susceptible de diverger en scénarios distincts. Le papier présente deux contributions: un contrôleur prédictif partiellement observable (PO-MPC) à branchement unique, optimisé par un algorithme parallélisé baptisé D-AuLa (Distributed Augmented Lagrangian) conçu pour satisfaire les contraintes temps-réel du MPC; et un planificateur tâche-et-mouvement (PO-LGP) combinant arbres de décision symboliques et trajectory-trees cinématiques, en étendant le cadre Logic-Geometric-Programming (LGP) aux problèmes partiellement observables. Les validations expérimentales portent sur la conduite autonome pour le MPC et des scénarios de manipulation robotique pour le TAMP. L'enjeu industriel est direct: les environnements réels sont rarement entièrement observables. Un bras triant des pièces dont l'orientation n'est connue qu'après préhension, ou un AGV naviguant en zone d'incertitude sensorielle, nécessitent précisément ce type de planification contingente. Les trajectoires séquentielles obligent le robot à choisir un plan unique à l'avance, ce qui se traduit par des comportements sous-optimaux ou des replanifications coûteuses. L'approche PO-MPC réduit les coûts de contrôle en anticipant les branches d'observation possibles; PO-LGP génère des politiques d'exploration utilisables comme macro-actions dans un plan global. D-AuLa répond à l'objection classique contre la planification en espace de croyance: sa complexité computationnelle prohibitive pour le temps-réel, en exploitant la décomposabilité du problème pour paralléliser l'optimisation. Le cadre LGP étendu par ces travaux a été développé par le groupe de Marc Toussaint (TU Berlin), et constitue l'une des approches TAMP les plus rigoureuses pour la manipulation multi-étapes. La planification en POMDP (Partially Observable Markov Decision Processes) est un domaine actif depuis les années 1990, mais son couplage avec le contrôle continu et la planification symbolique reste un défi ouvert. Des approches concurrentes basées sur l'apprentissage par renforcement (notamment les méthodes VLA et politiques diffusion) ou sur des planificateurs sampling-based adressent des problèmes voisins avec des compromis différents en matière de généralisation et de garanties formelles. Les auteurs reconnaissent eux-mêmes que la méthode est validée sur des belief states de taille restreinte et exclusivement en simulation; la prochaine étape naturelle est une validation hardware sur robots réels avec perception embarquée et latences de capteurs.

UELes travaux étendent le cadre LGP développé par le groupe de Marc Toussaint à TU Berlin, consolidant le leadership académique européen en planification tâche-et-mouvement rigoureuse pour la manipulation robotique multi-étapes.

RecherchePaper

1 source

TurboMPC : commande prédictive par modèle rapide, évolutive et différentiable sur GPU

56

3arXiv cs.RO

TurboMPC : commande prédictive par modèle rapide, évolutive et différentiable sur GPU

Le Toyota Research Institute (TRI) a publié le 24 juin 2026 TurboMPC, un solveur MPC (commande prédictive par modèle) différentiable fonctionnant entièrement sur GPU. Implémenté en JAX-CUDA, il combine programmation quadratique séquentielle (SQP), solveur interne ADMM et différentiation implicite, tout en supportant contraintes d'inégalité sur états et contrôles, intégrateurs implicites, coûts couplés temporellement et variables de slack. Les gains de performance atteignent jusqu'à 15x par rapport aux solveurs CPU différentiables de référence et jusqu'à 58x face aux meilleurs solveurs GPU existants. Validé en simulation sur planification contrainte, imitation learning pour humanoïde et apprentissage par renforcement à fonction de coût neuronale, TurboMPC a également été testé sur un véhicule réel en conduite à temps minimal. L'optimisation bayésienne des paramètres MPC, rendue possible par le traitement par lots sur GPU, y produit des vitesses nettement supérieures au réglage manuel. Le solveur tient jusqu'à 8 000 points de trajectoire sans perdre le contrôle du véhicule. Le code est mis en open source sur GitHub (ToyotaResearchInstitute/turbompc). L'apport central est la réconciliation entre pipelines GPU d'apprentissage profond et solveurs MPC traditionnellement CPU-centric, une friction qui forçait des transferts mémoire coûteux et une hétérogénéité matérielle pénalisante en production. En restant entièrement sur GPU et en étant différentiable de bout en bout, TurboMPC s'intègre directement dans des boucles d'entraînement par gradient, ce qui valide à grande échelle l'hypothèse des "differentiable MPC" longtemps discutée dans la littérature. La démonstration sur imitation learning humanoïde est particulièrement significative: elle montre que des formulations MPC expressives peuvent rivaliser avec les approches purement apprises pour des robots à haute dimensionnalité, sans abandonner les garanties de planification. TRI, branche recherche de Toyota dédiée à la robotique et aux véhicules autonomes, publie face à des alternatives établies comme Crocoddyl du LAAS-CNRS (Toulouse, France), ALTRO (Stanford/CMU) et Theseus (Meta AI), tous majoritairement CPU-centric ou partiellement GPU. La présence de Crocoddyl dans ce paysage concurrentiel donne une visibilité directe au laboratoire toulousain, dont les travaux seront mis en compétition par ces nouveaux benchmarks. La mise en open source facilite l'intégration dans des simulateurs parallèles comme Isaac Lab ou Genesis. Les prochaines étapes probables incluent des évaluations sur plateformes humanoïdes réelles et une adoption dans des pipelines robotiques industriels.

UELe LAAS-CNRS (Toulouse) voit son solveur Crocoddyl directement mis en compétition par TurboMPC sur les benchmarks GPU, ce qui expose la recherche française en commande prédictive robotique à une comparaison défavorable sur les critères de performance.

RecherchePaper

1 source

Approximation de la sécurité sans oracle de sécurité via la commande prédictive par modèle

36

4arXiv cs.RO

Approximation de la sécurité sans oracle de sécurité via la commande prédictive par modèle

Des chercheurs ont publié sur arXiv (référence 2510.20955v2) un algorithme permettant de vérifier la sécurité des décisions d'un robot mobile sans disposer d'un oracle de sécurité formel. Les approches classiques exigent soit des contraintes explicitement modélisées, soit des données annotées manuellement comme sûres ou dangereuses, deux méthodes coûteuses en ingénierie et sources d'erreurs. L'algorithme proposé contourne ce besoin via un simulateur : avant d'exécuter une action, le système la projette dans le simulateur vers un état futur, puis utilise l'algorithme Model-Predictive Path Integral (MPPI) pour vérifier l'existence d'un chemin de retour vers un état antérieur de la trajectoire. Sous une hypothèse d'invariance positive sur l'espace des états dangereux, si ce chemin de retour existe, l'état courant est mathématiquement garanti hors de la zone à risque. Les expériences montrent que la méthode approche les performances d'un oracle réel, en limitant notamment les faux négatifs, c'est-à-dire les cas où un état dangereux serait classifié à tort comme sûr. L'enjeu pratique est réel pour le déploiement des AMR (Autonomous Mobile Robots) en environnements industriels non structurés. La dépendance aux annotations manuelles de sécurité constitue un goulot d'étranglement majeur : chaque changement de site ou de configuration peut invalider les contraintes précédemment formulées. En exploitant les contraintes implicites déjà encodées dans les simulateurs physiques modernes, cette approche rend les systèmes de contrôle sûr plus généralisables, sans réécriture à chaque nouveau déploiement. Éliminer les faux négatifs est critique : c'est le scénario où un robot exécute une action jugée sûre à tort, avec des conséquences potentiellement irréversibles en conditions réelles. MPPI est un algorithme de planification par échantillonnage stochastique, initialement développé à Georgia Tech dans les travaux de Grady Williams et Evangelos Theodorou, et depuis repris dans de nombreux travaux sur la navigation autonome et les véhicules sans conducteur. Son utilisation ici comme outil de vérification de réversibilité plutôt que de planification directe constitue l'originalité méthodologique centrale de la contribution. Le travail s'inscrit dans un courant de recherche actif sur la sécurité sans supervision dense, aux côtés des Control Barrier Functions (CBF) appris par données et du safe reinforcement learning. L'article reste une contribution académique avec résultats en simulation uniquement, sans partenaire industriel ni déploiement annoncé. La prochaine étape naturelle serait une validation sur hardware réel dans des environnements aux contraintes implicites complexes et une comparaison quantitative avec des méthodes CBF classiques sur des benchmarks standardisés.

RecherchePaper

1 source

GATO : optimisation de trajectoire accélérée par GPU et par lots pour la commande prédictive par modèle embarquée et évolutive

À lire aussi

cuNRTO : optimisation de trajectoires robustes non linéaires accélérée par GPU

Optimisation des arbres de trajectoires dans l'espace des croyances : de la commande prédictive à la planification de tâches et de mouvements

TurboMPC : commande prédictive par modèle rapide, évolutive et différentiable sur GPU

Approximation de la sécurité sans oracle de sécurité via la commande prédictive par modèle