Aller au contenu principal
DynaRetarget : un retargeting dynamiquement réalisable par optimisation de trajectoire par échantillonnage
RecherchearXiv cs.RO1j

DynaRetarget : un retargeting dynamiquement réalisable par optimisation de trajectoire par échantillonnage

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Des chercheurs ont publié en février 2026 sur arXiv (2602.06827v2) une méthode baptisée DynaRetarget, un pipeline complet visant à adapter automatiquement des mouvements humains en politiques de contrôle exécutables par des robots humanoïdes. Le coeur du système est un cadre d'optimisation de trajectoire par échantillonnage (Sampling-Based Trajectory Optimization, SBTO) qui transforme des trajectoires cinématiques imparfaites en mouvements dynamiquement faisables. La particularité technique de SBTO réside dans l'avancement incrémental de l'horizon d'optimisation, ce qui permet de traiter des tâches longues sans exploser en complexité computationnelle. Les auteurs rapportent avoir validé l'approche sur des centaines de démonstrations impliquant des interactions humanoïde-objet, avec des taux de succès supérieurs à l'état de l'art. Le pipeline se montre également capable de généraliser à des objets aux propriétés variables (masse, taille, géométrie) sans nécessiter de réentraînement spécifique. L'article ne fournit pas de métriques chiffrées dans son résumé (cycles de temps, charges utiles, DOF exploités) : les détails quantitatifs sont réservés au corps du papier.

L'enjeu industriel est direct : collecter des données de loco-manipulation en conditions réelles reste le bottleneck principal pour entraîner les politiques d'imitation learning ou les modèles VLA (Vision-Language-Action) sur des humanoïdes. En permettant de générer des datasets synthétiques à grande échelle à partir de démonstrations humaines retargetées, DynaRetarget contourne partiellement la contrainte de la télé-opération coûteuse et de la capture de mouvement sur robot physique. La capacité à maintenir la faisabilité dynamique (et pas seulement cinématique) est un progrès concret : un humanoïde physique peut tomber ou violer ses limites d'actionneurs si la trajectoire n'est pas dynamiquement cohérente, un problème que les approches purement cinématiques ignorent.

Le retargeting de mouvement humain vers robot humanoïde est un champ de recherche actif depuis une décennie, mais l'accélération actuelle est portée par la course aux données pour entraîner des politiques généralisables. Physical Intelligence (Pi-0), NVIDIA (GR00T N2) et Google DeepMind investissent massivement dans des méthodes de génération de données synthétiques et de sim-to-real. DynaRetarget s'inscrit dans cette dynamique en proposant une brique d'infrastructure, sans acteur commercial spécifique identifié dans le papier : c'est une contribution académique, probablement destinée à alimenter des pipelines d'entraînement amont plutôt qu'un produit déployable en l'état. Aucun partenariat industriel ni timeline de déploiement n'est annoncé.

À lire aussi

Optimisation globale de trajectoire par échantillonnage pour la manipulation à contact riche via KernelSOS
1arXiv cs.RO 

Optimisation globale de trajectoire par échantillonnage pour la manipulation à contact riche via KernelSOS

Un groupe de chercheurs a publié le 27 avril 2026 sur arXiv (arXiv:2604.27175) une méthode d'optimisation de trajectoires baptisée Global-MPPI, dédiée aux tâches de manipulation dites "contact-rich", des scénarios où le robot entre en contact répété avec son environnement, comme pousser, assembler ou manipuler des objets en main. Le cadre combine deux niveaux : une exploration globale via optimisation kernel sum-of-squares (KernelSOS), suivie d'un raffinement local par la méthode MPPI (Model-Predictive Path Integral). Pour gérer la non-régularité des paysages d'optimisation liée aux dynamiques de contact hybrides, les auteurs introduisent un lissage progressif par log-sum-exp, qui fait évoluer le problème d'un objectif régularisé vers l'objectif non-lisse original. Les tests portent sur deux benchmarks haute dimension à horizon long : la tâche PushT et la manipulation dextère in-hand. Les résultats affichent une convergence plus rapide et des coûts finaux inférieurs aux méthodes de référence, mais uniquement en simulation. Le verrou résolu est structurel : sans mécanisme d'exploration globale, les méthodes par échantillonnage comme MPPI convergent facilement vers de mauvais minima locaux. Pour la manipulation contact-rich, composant critique des bras industriels, des mains robotiques et des humanoïdes, ce phénomène génère des trajectoires sous-optimales dans des environnements géométriquement complexes. L'approche KernelSOS apporte une garantie formelle de couverture de l'espace des solutions là où les variantes purement stochastiques de MPPI restent dépendantes de l'initialisation. La combinaison avec le lissage adaptatif traite directement les discontinuités de contact, qui rendent les méthodes de gradient classiques inapplicables. Le transfert sim-to-real n'est pas évalué dans ce travail, ce qui constitue la principale limite à ce stade. MPPI a été développé à Georgia Tech par Grady Williams et Evangelos Theodorou (2016-2018) et s'est imposé en MPC stochastique temps réel via des implémentations GPU massivement parallèles. L'optimisation sum-of-squares (SOS) est issue des travaux de Parrilo (MIT) et Lasserre (LAAS-CNRS, Toulouse). Global-MPPI constitue le premier cadre à combiner explicitement ces deux familles dans un pipeline de planification de manipulation. Sur le plan concurrentiel, l'approche se positionne face à la Cross-Entropy Method (CEM), aux planificateurs par diffusion comme Pi-0 de Physical Intelligence ou Diffusion Policy, ainsi qu'aux optimiseurs de trajectoires différentiables (Drake, trajopt). Ce preprint n'a pas encore été soumis à une conférence identifiée et aucun code public ni déploiement hardware n'est annoncé à ce stade.

UELes fondements SOS de cette méthode sont issus des travaux de Lasserre au LAAS-CNRS (Toulouse), mais le preprint n'implique aucune institution française ou européenne identifiée et reste sans impact opérationnel direct sur la France/UE à ce stade.

RecherchePaper
1 source
Commande par échantillonnage via le transport optimal à régularisation entropique
2arXiv cs.RO 

Commande par échantillonnage via le transport optimal à régularisation entropique

Une équipe de chercheurs a publié en mai 2026, sous la référence arXiv:2605.02147, un algorithme de contrôle prédictif par échantillonnage appelé OT-MPC. La méthode repose sur une formulation par transport optimal à régularisation entropique et cible les systèmes robotiques non linéaires nécessitant un contrôle temps réel : navigation autonome, manipulation d'objets et locomotion. Les mises à jour sont calculées en forme close via l'algorithme de Sinkhorn, sans aucun gradient, ce qui permet de traiter des dynamiques discontinues que les optimiseurs classiques basés sur la rétropropagation ne peuvent pas gérer. Les expériences rapportées montrent des taux de succès supérieurs aux méthodes de référence sur l'ensemble des trois catégories de tâches, bien que les chiffres absolus et les benchmarks précis ne soient pas détaillés dans l'abstract publié. L'intérêt pratique réside dans la résolution d'un problème structurel des deux algorithmes dominants du secteur, MPPI (Model Predictive Path Integral) et CEM (Cross-Entropy Method) : le comportement dit de "mode-averaging", où la mise à jour vers la moyenne pondérée des trajectoires candidates produit des solutions sous-optimales lorsque le paysage de coût est multimodal ou fortement non convexe. OT-MPC calcule un couplage optimal entre les séquences de contrôle candidates et les propositions à faible coût, coordonnant les mises à jour sur l'ensemble de l'échantillon pour préserver la couverture de l'espace des solutions tout en affinant chaque candidat vers ses voisins prometteurs. Pour un intégrateur ou un responsable technique, cela se traduit concrètement par une meilleure robustesse lors de transitions de contact, de saisies imprécises ou de mouvements en environnement encombré, sans surcoût de calcul différenciable. MPPI, développé initialement par Georgia Tech et popularisé par des frameworks comme Storm d'NVIDIA, et CEM, utilisé notamment dans les pipelines de planification de Boston Dynamics et de divers labos universitaires, sont aujourd'hui les deux références incontournables du contrôle par échantillonnage. Le transport optimal, formalisé dans un cadre robotique par des travaux antérieurs en imitation et en apprentissage de politiques, trouve ici une application directe au MPC sans nécessiter d'apprentissage préalable. OT-MPC reste à ce stade une contribution académique, sans déploiement annoncé ni partenariat industriel mentionné ; des validations sur hardware réel et des comparaisons de temps de cycle sur cibles embarquées constitueraient les prochaines étapes naturelles avant toute intégration produit.

RecherchePaper
1 source
Flow-Opt : optimisation centralisée et scalable de trajectoires multi-robots par flow matching et optimisation différentiable
3arXiv cs.RO 

Flow-Opt : optimisation centralisée et scalable de trajectoires multi-robots par flow matching et optimisation différentiable

Flow-Opt est une méthode de planification de trajectoires multi-robots publiée sur arXiv (référence 2510.09204v2) qui s'attaque à un verrou connu de la robotique en essaim : l'optimisation centralisée dans l'espace joint de plusieurs robots est théoriquement supérieure (accès à un espace de solutions plus large, trajectoires plus fluides dans les espaces contraints), mais devient informatiquement intractable dès que la flotte dépasse quelques unités. L'approche proposée décompose le problème en deux étapes : un modèle génératif basé sur le flow matching, implémenté via un diffusion transformer (DiT) augmenté d'encodeurs invariants aux permutations pour les positions des robots et la carte, produit des trajectoires candidates ; un Safety-Filter (SF) différentiable, doté d'un réseau de neurones qui prédit une initialisation spécifique au contexte de façon auto-supervisée, garantit ensuite la satisfaction des contraintes à l'inférence. Résultat annoncé : génération de trajectoires pour des dizaines de robots en environnement encombré en quelques dizaines de millisecondes, avec la capacité de résoudre plusieurs dizaines d'instances en parallèle en une fraction de seconde. Ces performances, si elles se confirment hors benchmark contrôlé, changeraient concrètement le dimensionnement des systèmes de gestion de flotte (FMS) pour les AMR en entrepôt ou en environnement industriel. Aujourd'hui, les planificateurs centralisés sont réservés à de petites flottes ou nécessitent des horizons de planification longs ; les approches décentralisées sacrifient l'optimalité globale. Flow-Opt revendique de combler cet écart en rendant le calcul centralisé compatible avec les contraintes temps-réel. La capacité de batching est particulièrement notable : elle permet de traiter des dizaines d'instances simultanément, ce qui ouvre la voie à une planification à re-planification fréquente ou à des architectures de simulation-dans-la-boucle. Il faut cependant noter que les résultats sont présentés sur des benchmarks simulés et que le gap sim-to-real n'est pas adressé dans ce papier. La planification de trajectoires multi-robots centralisée est un problème ouvert depuis les années 2010, avec des travaux fondateurs comme CBS (Conflict-Based Search) et ses dérivés. Les approches par apprentissage profond, notamment les modèles de diffusion appliqués à la planification (DDPM, Score Matching), ont montré des gains de vitesse mais peinaient à garantir la faisabilité des trajectoires produites. Flow-Opt se positionne comme une alternative plus rapide et plus fiable face à ces baselines diffusion, tout en restant dans le registre académique : aucun déploiement industriel n'est annoncé. Les acteurs comme Exotec (Hauts-de-France), qui opère des flottes denses de robots Skypod, ou MiR et Locus Robotics, pourraient être des débouchés naturels si les auteurs industrialisent leur approche. La prochaine étape logique serait une validation sur hardware réel avec des perturbations dynamiques.

UEExotec (Hauts-de-France), opérateur de flottes denses de robots Skypod, est explicitement cité comme débouché naturel si la méthode est industrialisée, ce qui représente un impact potentiel direct sur l'écosystème robotique français.

RecherchePaper
1 source
Planification de trajectoires multi-objectifs pour flottes de robots hétérogènes par échantillonnage
4arXiv cs.RO 

Planification de trajectoires multi-objectifs pour flottes de robots hétérogènes par échantillonnage

Une équipe de chercheurs en robotique vient de publier sur arXiv (référence 2503.03509, troisième révision) un ensemble de planificateurs de trajectoires conçus pour coordonner plusieurs robots évoluant simultanément dans un espace de travail partagé, chacun devant atteindre plusieurs objectifs successifs dans des configurations physiques variées. Le problème ciblé, dit "multi-modal multi-robot multi-goal", couvre des scénarios concrets tels que le passage de pièces entre bras robotiques (handover), la navigation avec changements de mode de préhension, ou la coordination de flottes sur des horizons de planification longs. Les planificateurs proposés sont des extensions de méthodes classiques à base d'échantillonnage (de type RRT/PRM) adaptées à l'espace composite de l'ensemble des robots, et sont prouvés probabilistically complete et asymptotically optimal, deux propriétés formelles rarement réunies dans ce contexte. Le code source et le benchmark de validation sont disponibles publiquement. L'apport principal est théorique et algorithmique : les approches existantes pour ce type de problème reposent soit sur la priorisation entre robots (un robot cède le passage à un autre selon un rang fixé), soit sur une hypothèse de complétion synchrone des tâches. Ces simplifications sacrifient à la fois l'optimalité (la solution trouvée n'est pas la meilleure possible) et la complétude (l'algorithme peut rater des solutions valides). En reformulant le problème comme un seul problème centralisé de planification, les auteurs montrent qu'on peut lever ces limitations sans explosion combinatoire, au prix d'une planification dans un espace de dimension élevée. Pour les intégrateurs de cellules robotisées multi-bras ou les concepteurs de systèmes pick-and-place collaboratifs, cela ouvre la voie à des planificateurs de référence plus rigoureux que les heuristiques actuellement déployées en production. Ce travail s'inscrit dans un courant de recherche actif sur la planification multi-robot, aux côtés de travaux comme CBS (Conflict-Based Search) pour les AMR en entrepôt ou les approches de task-and-motion planning (TAMP) développées notamment chez MIT CSAIL, TU Berlin ou dans des labos liés à Boston Dynamics et Intrinsic (Alphabet). La distinction entre planification centralisée et décentralisée reste un axe structurant du domaine : cette contribution penche résolument du côté centralisé, ce qui la rend plus adaptée aux cellules industrielles fixes qu'aux flottes mobiles à grande échelle. La prochaine étape naturelle serait une validation sur hardware réel et une confrontation aux contraintes temps-réel des contrôleurs industriels.

RecherchePaper
1 source