Aller au contenu principal
Optimisation des arbres de trajectoires dans l'espace des croyances : de la commande prédictive à la planification de tâches et de mouvements
RecherchearXiv cs.RO7sem

Optimisation des arbres de trajectoires dans l'espace des croyances : de la commande prédictive à la planification de tâches et de mouvements

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Des chercheurs proposent, dans un preprint arXiv soumis début mai 2026 (arXiv:2605.01860), de planifier des trajectoires arborescentes (trajectory-trees) dans l'espace des croyances (belief space) plutôt que les trajectoires séquentielles classiques. Quand un robot évolue en environnement partiellement observable, la trajectoire optimale dépend d'observations futures encore inconnues: les trajectory-trees branchent à chaque point où l'état de croyance est susceptible de diverger en scénarios distincts. Le papier présente deux contributions: un contrôleur prédictif partiellement observable (PO-MPC) à branchement unique, optimisé par un algorithme parallélisé baptisé D-AuLa (Distributed Augmented Lagrangian) conçu pour satisfaire les contraintes temps-réel du MPC; et un planificateur tâche-et-mouvement (PO-LGP) combinant arbres de décision symboliques et trajectory-trees cinématiques, en étendant le cadre Logic-Geometric-Programming (LGP) aux problèmes partiellement observables. Les validations expérimentales portent sur la conduite autonome pour le MPC et des scénarios de manipulation robotique pour le TAMP.

L'enjeu industriel est direct: les environnements réels sont rarement entièrement observables. Un bras triant des pièces dont l'orientation n'est connue qu'après préhension, ou un AGV naviguant en zone d'incertitude sensorielle, nécessitent précisément ce type de planification contingente. Les trajectoires séquentielles obligent le robot à choisir un plan unique à l'avance, ce qui se traduit par des comportements sous-optimaux ou des replanifications coûteuses. L'approche PO-MPC réduit les coûts de contrôle en anticipant les branches d'observation possibles; PO-LGP génère des politiques d'exploration utilisables comme macro-actions dans un plan global. D-AuLa répond à l'objection classique contre la planification en espace de croyance: sa complexité computationnelle prohibitive pour le temps-réel, en exploitant la décomposabilité du problème pour paralléliser l'optimisation.

Le cadre LGP étendu par ces travaux a été développé par le groupe de Marc Toussaint (TU Berlin), et constitue l'une des approches TAMP les plus rigoureuses pour la manipulation multi-étapes. La planification en POMDP (Partially Observable Markov Decision Processes) est un domaine actif depuis les années 1990, mais son couplage avec le contrôle continu et la planification symbolique reste un défi ouvert. Des approches concurrentes basées sur l'apprentissage par renforcement (notamment les méthodes VLA et politiques diffusion) ou sur des planificateurs sampling-based adressent des problèmes voisins avec des compromis différents en matière de généralisation et de garanties formelles. Les auteurs reconnaissent eux-mêmes que la méthode est validée sur des belief states de taille restreinte et exclusivement en simulation; la prochaine étape naturelle est une validation hardware sur robots réels avec perception embarquée et latences de capteurs.

Impact France/UE

Les travaux étendent le cadre LGP développé par le groupe de Marc Toussaint à TU Berlin, consolidant le leadership académique européen en planification tâche-et-mouvement rigoureuse pour la manipulation robotique multi-étapes.

À lire aussi

Planification de mouvement vérifiée dans l'espace des tâches sous contraintes articulaires
1arXiv cs.RO 

Planification de mouvement vérifiée dans l'espace des tâches sous contraintes articulaires

Une équipe de chercheurs présente dans un preprint arXiv (2605.22991, mai 2026) une méthode pour certifier formellement la planification de mouvement des bras manipulateurs face aux limites articulaires. Les planificateurs réactifs dans l'espace cartésien comme Bug2 opèrent avec des pas fixes sans tenir compte des butées angulaires ; lorsque la jacobienne est mal conditionnée, même un petit déplacement cartésien peut forcer un mouvement articulaire hors limites, provoquant une dérive de suivi et l'échec d'atteinte de l'objectif. La solution calcule, à chaque pas, le plus grand hyperrectangle cartésien certifiablement atteignable via une approximation polynomiale du second ordre de la cinématique inverse et la procédure S, qui forment un programme semi-défini positif (SDP) résolu par bisection en moins d'une milliseconde ; ce certificat est intégré à Bug2 pour adapter dynamiquement le pas au conditionnement cinématique local. Sur 94 scénarios adversariaux couvrant six configurations de limites articulaires, le planificateur SOS-vérifié atteint zéro violation articulaire et 100 % de taux de succès, contre 6 à 11 % de violations et jusqu'à 18 % d'échecs pour le Bug2 standard. Ce résultat comble une lacune bien connue : la planification dans l'espace de travail et la gestion des contraintes articulaires sont traitées séparément dans la plupart des architectures, ce qui génère des comportements indésirables près des singularités cinématiques. La résolution sous-milliseconde rend le module intégrable dans des boucles de contrôle temps réel, le positionnant comme couche de sécurité potentielle au-dessus des planificateurs existants sur des bras industriels comme le KUKA iiwa, l'Universal Robots UR10 ou le Franka Emika Panda. Bug2 est un algorithme réactif classique des années 1980-90, robuste mais agnostique aux propriétés cinématiques du robot, dont l'adaptation aux manipulateurs modernes multi-DDL a toujours souffert de ce manque de cohérence entre espaces cartésien et articulaire. L'usage de la procédure S et des programmes semi-définis pour certifier des atteignabilités locales s'inscrit dans une tendance plus large d'intégration de la vérification formelle (barrières de contrôle, Lyapunov, SOS) dans la planification de mouvement. Ce travail reste un preprint de recherche sans implémentation open-source ni déploiement industriel annoncé ; la validation sur robots physiques multi-DDL en conditions dynamiques réelles demeure l'étape manquante avant toute adoption industrielle.

UEKUKA (Allemagne) et Universal Robots (Danemark) sont cités comme cibles d'intégration directe, ce qui positionne les constructeurs de bras industriels européens comme premiers bénéficiaires potentiels si une implémentation open-source est publiée.

RecherchePaper
1 source
Optimisation par entropie croisée de plans de tâches et de mouvements à ancrage physique
2arXiv cs.RO 

Optimisation par entropie croisée de plans de tâches et de mouvements à ancrage physique

Une équipe de recherche a publié sur arXiv (réf. 2512.11571) une méthode de planification de tâches et de mouvements (TAMP) qui intègre un simulateur physique parallélisé sur GPU et une optimisation par entropie croisée. Le système planifie simultanément les actions discrètes à haut niveau et les trajectoires continues à bas niveau, en tenant compte explicitement des dynamiques physiques et des contacts avec l'environnement. Les paramètres des contrôleurs sont échantillonnés par entropie croisée dans le simulateur, puis transférés directement au robot réel, les contrôleurs simulés et physiques étant identiques. Les démonstrations portent sur des tâches de manipulation où le robot exploite la géométrie de l'environnement pour déplacer des objets, avec code et vidéos disponibles sur le site du premier auteur, Andreu Matoses. L'écart entre planification symbolique et exécution physique reste l'un des obstacles majeurs de la robotique de manipulation : les algorithmes TAMP classiques comme PDDLStream ou STRIPStream produisent des plans logiquement valides mais physiquement irréalisables, car ils ignorent frottements, dynamiques d'actionneurs et contacts réels. En rendant le simulateur physique central à l'optimisation, cette approche contourne les abstractions géométriques simplificatrices qui créent cet écart. L'identité entre contrôleurs simulés et réels réduit mécaniquement le sim-to-real gap, facteur d'échec récurrent lors du déploiement de politiques apprises en simulation vers des robots physiques. La planification TAMP est portée depuis plus de vingt ans par des travaux fondateurs comme ceux de Kaelbling et Lozano-Pérez au MIT CSAIL. La tendance récente privilégie l'intégration de modèles de fondation visuels (VLA), dont pi-zero de Physical Intelligence ou GR00T N2 de NVIDIA, pour opérer dans des environnements ouverts et non structurés. L'approche par entropie croisée et simulation physique constitue une alternative plus classique et interprétable, proche des méthodes MPPI ou MuJoCo MPC. Ce travail reste une démonstration académique sur des tâches de manipulation contrôlées : aucun déploiement industriel ni partenariat commercial n'est annoncé.

RecherchePaper
1 source
GATO : optimisation de trajectoire accélérée par GPU et par lots pour la commande prédictive par modèle embarquée et évolutive
3arXiv cs.RO 

GATO : optimisation de trajectoire accélérée par GPU et par lots pour la commande prédictive par modèle embarquée et évolutive

Une équipe de chercheurs a publié sur arXiv (identifiant 2510.07625v2) GATO, un solveur open source conçu pour accélérer massivement les calculs de trajectoire en temps réel dans les systèmes de contrôle prédictif par modèle (MPC). Concrètement, GATO cible le régime de lots modérés, soit des dizaines à quelques centaines de problèmes d'optimisation de trajectoires non linéaires résolus simultanément à chaque cycle de contrôle. Les benchmarks sur simulateur affichent des gains de 18 à 21 fois par rapport aux solveurs CPU de référence, et de 1,4 à 16 fois par rapport aux approches GPU existantes selon la taille des lots. Le solveur a été validé sur matériel réel via un bras manipulateur industriel, ce qui dépasse le stade de la démonstration purement simulée. Ce résultat comble un angle mort persistant dans l'écosystème MPC pour la robotique : les approches GPU actuelles parallélisent efficacement une seule résolution, ou traitent de très grands lots à des cadences sous temps réel, mais aucune ne couvre bien le régime intermédiaire où opèrent de nombreuses applications avancées, notamment la planification de mouvement pour bras industriels, la locomotion d'humanoïdes ou la navigation d'AMR en environnement dynamique. GATO co-conçoit l'algorithme, le logiciel et l'architecture matérielle en exploitant le parallélisme à trois niveaux : bloc, warp et thread CUDA. Les études de cas montrent une meilleure rejection des perturbations et une convergence accélérée, deux métriques directement pertinentes pour les intégrateurs industriels et les équipes de contrôle embarqué. Le MPC est un standard de facto en robotique et en contrôle de procédés, mais son coût computationnel a longtemps limité son usage aux systèmes à dynamique lente ou aux architectures avec CPU puissants dédiés. Les GPU embarqués, désormais présents sur les plateformes robotiques modernes (Jetson, Orin), rendent ce type de co-design pertinent pour le déploiement edge. Aucun acteur industriel nommé n'est associé à ce travail, qui reste pour l'instant une contribution académique ouverte, sans annonce de commercialisation ni partenariat industriel déclaré. La mise à disposition en open source vise à favoriser la reproductibilité et l'adoption par les équipes de recherche et développement, avec un potentiel d'intégration dans des frameworks MPC existants comme Crocoddyl ou ALTRO.

UECrocoddyl, l'un des frameworks MPC cibles d'intégration mentionnés, est développé au LAAS-CNRS (Toulouse, France), ce qui rend GATO directement pertinent pour les équipes de recherche françaises en contrôle de robots.

RecherchePaper
1 source
TCBiRRT : planification rapide de mouvement pour manipulateur spatial à deux bras couplés par expansion aléatoire dans l'espace des tâches
4arXiv cs.RO 

TCBiRRT : planification rapide de mouvement pour manipulateur spatial à deux bras couplés par expansion aléatoire dans l'espace des tâches

Des chercheurs ont publié le 27 mai 2026 sur arXiv (identifiant 2605.27167) un algorithme de planification de mouvement baptisé TCBiRRT (Task-space Constrained Bidirectional Rapidly-exploring Random Tree), conçu pour les manipulateurs spatiaux bi-bras à chaîne cinématique fermée. Le problème visé est concret : lors de l'assemblage orbital de grandes structures spatiales, un bras double qui tient rigidement un objet forme une boucle fermée entre ses deux effecteurs, ce qui réduit drastiquement l'espace de configurations valides. TCBiRRT contourne cette difficulté en effectuant l'échantillonnage aléatoire directement dans l'espace tâche, défini par la pose de l'objet manipulé, plutôt que dans l'espace articulaire de haute dimension. Un algorithme de cinématique inverse sur chemin mappe ensuite chaque noeud tâche vers une trajectoire articulaire continue, intégré dans un cadre RRT bidirectionnel avec mécanisme de re-saisie. Les simulations portent sur plusieurs scénarios d'assemblage orbital à complexité environnementale variable. Les résultats annoncés sont significatifs sur le plan algorithmique : taux de succès nettement supérieurs et temps de planification améliorés de plusieurs ordres de grandeur par rapport aux planificateurs de référence. Pour un intégrateur travaillant sur des systèmes robotiques orbitaux, cela se traduit par des fenêtres d'action plus courtes et une meilleure fiabilité dans des environnements encombrés, pièces de structure, équipements déjà déployés. Il faut cependant souligner que tous les résultats reposent exclusivement sur simulation ; aucun test en microgravité réelle ni sur prototype physique n'est rapporté à ce stade. Le gap sim-to-real reste donc entier, question centrale pour toute qualification de vol. La planification de mouvement sous contraintes de chaîne fermée est un problème ancien en robotique, mais son application aux manipulateurs orbitaux bi-bras, type Canadarm2 ou les projets plus récents de bras d'assemblage pour les stations lunaires Gateway et les futures plateformes LEO commerciales, redevient stratégique. Côté concurrence algorithmique, les approches existantes (CBiRRT, planificateurs config-space classiques) peinent à passer à l'échelle dans des environnements complexes : c'est précisément ce verrou que TCBiRRT prétend lever. Aucun lien industriel ni partenariat agence spatiale n'est mentionné dans le préprint ; les prochaines étapes naturelles seraient une validation matérielle et une intégration dans des simulateurs de référence comme NASA's RSVP ou ESA's VREP.

UEAucun partenariat institutionnel européen confirmé, mais l'ESA VREP est cité comme cible d'intégration naturelle pour une validation future, ce qui représente un intérêt indirect pour les projets orbitaux européens (Gateway, stations LEO commerciales).

RecherchePaper
1 source