RecherchearXiv cs.RO 11 juin 2026

Apprentissage d'unions d'ensembles convexes par décomposition latente invertible pour la planification de trajectoires

1 source couvre ce sujet·Source originale ↗·

Résumé IASource uniqueImpact UE

Une équipe de chercheurs publie sur arXiv (référence 2606.12027) ILD, pour Invertible Latent Decomposition, un framework de planification de trajectoires sans collision dans des espaces de configuration encombrés. ILD apprend conjointement un mapping inversible et un ensemble de polytopes convexes explicites dans l'espace latent correspondant : la planification s'effectue sur ces convexes latents, et le mapping inversible retraduit les chemins vers l'espace d'origine en préservant la faisabilité vis-à-vis des régions sûres explicites. Le framework intègre également VGS (Visibility-Guided Sampling), une méthode d'échantillonnage guidée par la visibilité conçue pour maintenir la connectivité entre ensembles convexes lors de la planification. Les évaluations couvrent la navigation 2D, un manipulateur à 6 degrés de liberté (DOF) et un bras bimanuel à 14-DOF. Sur ce dernier, les auteurs démontrent une planification temps réel avec un affinement à l'exécution (test-time refinement) s'adaptant aux changements de géométrie de scène, confirmé sur un bras 6-DOF réel. Zéro faux positif n'est observé après cet affinement, contre des taux non nuls pour les méthodes de référence testées.

L'enjeu industriel est la résolution d'un arbitrage fondamental en robotique de manipulation : les représentations explicites comme les unions de polytopes convexes s'intègrent directement dans les planificateurs à base d'optimisation comme contraintes dures, garantissant l'absence de collision, mais leur complexité de paramétrage explose avec la dimension de l'espace de configuration. Les représentations implicites passent mieux à l'échelle géométrique mais n'offrent pas ces garanties formelles. ILD combine les deux avantages. Pour un intégrateur ou un responsable de production, la planification temps réel sur 14-DOF avec adaptation dynamique à la scène représente un seuil d'utilisabilité concret en environnement industriel, à condition que les performances tiennent hors des conditions contrôlées de laboratoire, point sur lequel les auteurs restent prudemment ouverts.

La planification sous contraintes de collision est un problème adressé depuis des décennies par des planificateurs probabilistes (RRT, PRM) et des méthodes d'optimisation convexe comme IRIS et GCS (Graph of Convex Sets), issus en particulier des travaux de Russ Tedrake au MIT CSAIL. ILD s'inscrit dans la tendance récente qui hybride apprentissage profond et garanties formelles plutôt que d'opposer les deux approches. Le preprint ne mentionne ni partenaire industriel ni calendrier de commercialisation, restant au stade académique. Les extensions attendues concernent la robustesse sur des scènes plus dynamiques et le passage à des espaces de configuration supérieurs à 14-DOF, en vue des manipulateurs humanoïdes à bras multiples dont les architectures dépassent souvent 28-DOF.

Dans nos dossiers

arXiv cs.RO

À lire aussi

1arXiv cs.RO

Convex-Neural RRT* : échantillonnage guidé par apprentissage pour une planification de trajectoire robotique rapide et fiable

Une équipe de recherche a publié en mai 2026 sur arXiv (réf. 2605.25006) les travaux sur Convex-Neural RRT, une variante de l'algorithme de planification de chemin RRT intégrant un guidage neuronal pour accélérer la recherche de trajectoires optimales. Le principe : un réseau de neurones prédit des régions "waypoints" prometteuses autour des chemins de haute qualité, puis des zones convexes sont extraites de ces prédictions pour concentrer l'exploration sur les zones géométriquement pertinentes tout en maintenant une couverture globale de l'espace. Évalué sur 18 cartes de benchmark réparties en 3 types d'environnements, l'algorithme réduit le temps de calcul de 30 à 75 % par rapport aux variantes neurales existantes (Neural RRT, Neural Informed RRT), et de 88 à 98 % par rapport à LTA. La longueur des chemins produits diminue en moyenne de 5 % par rapport au RRT classique, avec des gains plus marqués dans les environnements complexes. Le taux de succès reste supérieur à 99 % quelle que soit la densité d'obstacles. Ces résultats s'attaquent à un goulot d'étranglement bien documenté du planning probabiliste : les méthodes à base d'échantillonnage sont théoriquement complètes mais lentes à converger vers des solutions de qualité, ce qui freine leur déploiement embarqué où le temps de réponse est critique (robots mobiles, bras industriels, véhicules autonomes). L'utilisation de zones convexes comme proxy des prédictions neuronales est une décision d'ingénierie notable : elle préserve les garanties de convergence de RRT* tout en rendant l'heuristique géométriquement tractable, évitant les dérives habituelles des méthodes purement apprises qui échouent hors distribution. À noter que les gains de 5 % en longueur de chemin restent modestes et que les benchmarks sont réalisés en simulation ; aucune validation sur robot physique n'est rapportée. RRT (Rapidly-exploring Random Tree Star), introduit par Karaman et Frazzoli en 2011, est devenu un standard en planification de mouvement robotique. Ses variantes neurales récentes ont cherché à apprendre des heuristiques d'échantillonnage depuis des données de trajectoires, mais au prix d'une surcharge computationnelle qui annulait souvent le bénéfice. Convex-Neural RRT s'inscrit dans cette lignée en ajoutant une contrainte géométrique qui assainit les prédictions. Les concurrents directs incluent LTA, IRRT et les approches par diffusion (Motion Planning Diffusion). Cette publication préliminaire ne mentionne aucun déploiement industriel ; les prochaines étapes attendues sont une validation sur robots physiques et une extension aux espaces de configuration de haute dimension, notamment les bras 6-7 DOF et les humanoïdes.

RecherchePaper

1 source

2arXiv cs.RO

Utilisateur-guidé : apprentissage par démonstration de trajectoire et d'impédance

Des chercheurs publient sur arXiv (papier 2607.16998, juillet 2026) une nouvelle méthode d'apprentissage par démonstration (Learning from Demonstration, LfD) pilotée par l'utilisateur, validée sur un bras robotique KUKA LWR IV+ à 7 degrés de liberté (DOF). Le système combine un algorithme de "Fast Diffeomorphic Matching" (FDM) tridimensionnel avec un générateur de mouvement basé sur les systèmes dynamiques (DS), complété par un filtre de Kalman étendu (EKF) qui compense les erreurs de reproduction et permet au robot de récupérer après une perturbation externe. Une fonction de paramétrisation d'impédance apprend en temps réel les variations de raideur du bras à partir d'une unique démonstration, notamment pour maintenir un contact stable avec une surface. L'objectif affiché est d'éliminer le réenseignement répété d'une même tâche, en apprenant en une seule fois (single-shot) à la fois la trajectoire et la conformité mécanique nécessaires pour la reproduire avec précision. Pour les intégrateurs et les équipes de robotique industrielle, l'enjeu est la sécurité et l'efficacité de l'interaction homme-robot (HRI). Les trajectoires classiques indexées dans le temps, rigides par nature, posent un problème de sécurité dès qu'un opérateur interagit physiquement avec le bras ou qu'un obstacle imprévu survient, le robot suivant son chemin sans s'adapter. En apprenant simultanément la géométrie du mouvement et son impédance, la méthode cherche à combiner précision de reproduction et sécurité intrinsèque, sans complexifier la phase d'enseignement pour l'opérateur qui ne réalise la démonstration qu'une seule fois. C'est un signal, parmi d'autres travaux récents en LfD, que la communauté robotique cherche à sortir du dilemme précision contre compliance qui limite aujourd'hui le déploiement des bras collaboratifs sur des tâches de contact (polissage, assemblage, ébavurage) en environnement partagé avec des humains. Cette approche s'inscrit dans la lignée des méthodes de LfD basées sur les systèmes dynamiques (DS-GMM, DMP et variantes), déjà largement étudiées pour encoder des trajectoires robustes aux perturbations, mais qui peinent traditionnellement à intégrer une impédance variable sans multiplier les démonstrations ou les phases de réglage manuel. Le choix du KUKA LWR IV+, bras à sept degrés de liberté doté d'un contrôle en couple aux articulations, reste une plateforme de référence académique pour ce type d'expérimentation en contrôle d'impédance et en manipulation compliante. Déposé sur arXiv comme nouvelle soumission, le papier n'en est qu'au stade de la validation expérimentale en laboratoire: aucune indication d'industrialisation ni de partenariat n'est mentionnée, et des essais sur d'autres plateformes et des tâches d'usine réelles seront nécessaires pour juger de sa portée au-delà du cas d'étude KUKA.

RecherchePaper

1 source

3arXiv cs.RO

Robots à travers différentes scènes : planification rapide et sûre de trajectoires par composition de diffusion

Une équipe de recherche présente un nouveau cadre de planification de trajectoire baptisé RSTP (diffusion composition), publié sur arXiv (2507.04384v4) avec une page projet dédiée. La méthode combine un champ d'énergie appris de façon conservative avec un processus de diffusion, ce qui permet d'intégrer plusieurs contraintes de sécurité et de cinématique sans réentraînement pour chaque nouvel environnement. Un filtre de sécurité léger est ajouté en aval pour garantir en temps réel le respect des contraintes de faisabilité cinématique. Les chercheurs ont aussi développé un pipeline de génération de données basé sur du contrôle prédictif (MPC), indépendant de la scène, pour produire à grande échelle des trajectoires d'entraînement dynamiquement réalisables. En simulation, le planificateur atteint un temps de calcul moyen de 0,21 seconde par trajectoire et un taux d'échec de seulement 0,57 %. Les tests réels ont été menés sur la plateforme robotique F1TENTH, où le système a maintenu une distance moyenne de sécurité de 0,26 mètre par rapport aux obstacles, même en présence d'incertitude des capteurs et dans des environnements dynamiques inédits. Cette avancée s'adresse directement à un problème central en robotique mobile et en navigation autonome: la difficulté de garantir simultanément vitesse de calcul, sécurité et généralisation face à des obstacles mouvants sans connaître à l'avance la scène. Les méthodes de diffusion, déjà populaires pour la génération de trajectoires en manipulation robotique et en conduite autonome, souffrent souvent d'un temps d'inférence trop long pour un usage temps réel, ou d'un manque de garanties de sécurité formelles. En démontrant un temps de planification compatible avec le temps réel tout en conservant un filtre de sécurité explicite, ce travail répond à une critique récurrente adressée aux approches génératives en robotique: leur difficulté à passer de la démonstration en simulation à un déploiement fiable sur robot physique. Le papier, une version révisée (v4) d'un article initialement soumis en juillet, s'inscrit dans la lignée des travaux combinant modèles de diffusion et planification sous contrainte, en concurrence avec des approches plus classiques de type MPC pur ou de champs de potentiel. La validation sur F1TENTH, plateforme standard de recherche en course autonome à petite échelle, ouvre la voie à des tests sur des robots de taille industrielle ou des véhicules autonomes complets, sans calendrier de déploiement commercial précisé à ce stade.

RecherchePaper

1 source

4arXiv cs.RO

Apprentissage de politiques de trajectoire multi-modales pour la manipulation robotique efficace en données

Des chercheurs ont publié le 1er juin 2026 sur arXiv (2606.01047) MATE (Multi-Modal Trajectory Policies), un cadre de prédiction de trajectoires pour la manipulation robotique construit sur une architecture Mixture-of-Experts (MoE). MATE traite simultanément des entrées hétérogènes, observations visuelles, instructions en langage naturel et représentations de trajectoires, en introduisant un routeur cosinus cross-modal qui garantit une affectation stable entre experts spécialisés, indépendamment de l'échelle des représentations. Un mécanisme de routage à température contrôlée avec injection de bruit stochastique prévient l'effondrement prématuré des experts (expert collapse). Sur le benchmark LIBERO, MATE améliore le taux de succès moyen de 4,75% par rapport aux politiques guidées par trajectoires existantes, particulièrement dans des scénarios à faible volume de données d'entraînement. Des tests en conditions réelles sur un robot jouant au ping-pong complètent la validation expérimentale. Le problème ciblé est la "modality interference" : quand une politique transformer unique traite dans le même espace de paramètres des signaux aussi disparates que des images RGB, du texte et des coordonnées de trajectoire, les représentations se perturbent mutuellement et les performances chutent. C'est un goulot d'étranglement bien documenté dans le développement des VLAs (Vision-Language-Action models) : les données de démonstration de qualité coûtent cher à collecter en environnement industriel. En proposant un découplage fin au niveau sub-token par spécialisation d'experts, MATE réduit cette interférence sans nécessiter de données supplémentaires. Pour les équipes robotique opérant avec des budgets de téléopération limités, c'est un signal positif, bien que les gains absolus (+4,75%) restent modestes et mesurés sur un benchmark académique contrôlé. La manipulation robotique généraliste est sous forte compétition depuis l'émergence des architectures transformer dédiées à la robotique vers 2022-2023. Des travaux comme ACT, Diffusion Policy, puis les VLAs OpenVLA (Berkeley/Stanford), pi0 de Physical Intelligence et GR00T N2 de NVIDIA ont progressivement unifié vision, langage et action. L'approche MoE reste moins explorée en robotique qu'en LLMs (GPT-4, Mixtral, DeepSeek-MoE), et MATE tente d'en résoudre les instabilités de routage propres aux modalités hétérogènes. Le benchmark LIBERO, développé par des institutions académiques américaines, est devenu une référence standard pour évaluer la généralisation en manipulation. À ce stade, il n'y a pas de déploiement industriel ni de partenariat annoncé : MATE est une preuve de concept académique, avec validation réelle limitée à un robot de ping-pong.

RechercheOpinion

1 source