Aller au contenu principal
Muninn : un modèle de diffusion de trajectoires, désormais plus rapide
RecherchearXiv cs.RO19h

Muninn : un modèle de diffusion de trajectoires, désormais plus rapide

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Une équipe de chercheurs a publié Muninn (arXiv:2605.09999), un module d'accélération sans réentraînement pour les planificateurs de trajectoires basés sur la diffusion. Le système atteint jusqu'à 4,6x de gain en vitesse d'exécution sur plusieurs architectures de diffusion en espace d'état, sans dégradation mesurée des performances ni des métriques de sécurité. Muninn fonctionne comme un wrapper de cache : à chaque étape du débruitage itératif, il choisit en temps réel de recalculer la sortie du denoiser ou de réutiliser le résultat mis en cache. Cette décision repose sur deux signaux analytiques calibrés hors-ligne, une sonde légère de l'évolution de la représentation interne de la trajectoire et des coefficients de propagation d'erreur du denoiser, qui produisent ensemble un budget d'incertitude par étape. Ce budget borne formellement l'écart maximal entre la trajectoire mise en cache et celle qui aurait été calculée à pleine puissance de calcul. Les gains ont été validés sur matériel réel, en navigation en boucle fermée et en manipulation.

La lenteur des modèles de diffusion en planification de trajectoires est un verrou bien identifié pour la robotique temps-réel. Les accélérations existantes imposaient jusqu'ici un compromis inévitable : modifier le sampler dégradait la qualité de trajectoire, tandis que la compression du réseau nécessitait un réentraînement coûteux. Muninn contourne ce dilemme en opérant strictement sans modifier les poids du modèle, ce qui le rend applicable immédiatement à n'importe quel planificateur diffusion déjà entraîné. Pour un intégrateur ou une équipe robotique industrielle, cela rend concrètement viables des architectures comme Diffusion Policy dans des boucles de contrôle haute fréquence. La certification analytique des bornes de déviation constitue un argument de poids pour les déploiements où la sécurité est une contrainte réglementaire.

Les politiques par diffusion appliquées à la robotique ont émergé vers 2022-2023, portées notamment par Diffusion Policy (Chi et al., Columbia University), et se sont depuis déployées dans des architectures VLA et des planificateurs en espace d'état. Les méthodes d'accélération antérieures, DDIM et distillation par connaissance en tête, ne proposaient pas de cache adaptatif avec bornes certifiées, ce qui positionne Muninn comme une surcouche orthogonale et rétrocompatible avec l'existant. En tant que preprint arXiv, les résultats n'ont pas encore été soumis à revue par les pairs. Les prochaines étapes logiques concernent les stacks robotiques humanoïdes et industriels (Figure, Unitree, Boston Dynamics) qui expérimentent des politiques diffusion et cherchent à réduire la latence de planification en production. Le code est publié publiquement sur GitHub (gokulp01/Muninn).

À lire aussi

Discussion sur la prédiction de trajectoires conditionnelles
1arXiv cs.RO 

Discussion sur la prédiction de trajectoires conditionnelles

Des chercheurs ont déposé en avril 2026 sur arXiv (référence 2604.18126) une nouvelle méthode de prédiction de trajectoire conditionnelle baptisée CiT, pour Cross-time-domain intention-interactive method for conditional Trajectory prediction. L'objectif est de permettre à un robot évoluant parmi des humains ou d'autres agents mobiles de prédire précisément leurs trajectoires futures, en tenant compte non seulement de leurs interactions sociales mutuelles, mais aussi du mouvement propre du robot lui-même. Le système génère un ensemble de trajectoires candidates pour chaque agent environnant, en fonction des intentions de déplacement possibles de l'ego agent. Testé sur plusieurs benchmarks standards du domaine, CiT dépasse selon ses auteurs les méthodes de l'état de l'art existantes. La distinction centrale de CiT par rapport aux approches concurrentes réside dans l'intégration explicite du mouvement de l'ego agent dans la boucle de prédiction. La quasi-totalité des méthodes existantes modélisent les interactions sociales à partir d'informations statiques, ignorant le fait que le robot lui-même modifie le comportement des agents qui l'entourent. CiT s'inspire du concept de "théorie de l'esprit" en robotique sociale : chaque agent anticipe les intentions des autres pour ajuster les siennes. Techniquement, la méthode opère une analyse conjointe des intentions comportementales sur plusieurs domaines temporels, permettant aux informations d'interaction d'un domaine de corriger et affiner les estimations d'intention de l'autre. Cette complémentarité temporelle est présentée comme le levier principal du gain de performance. Pour des intégrateurs de systèmes de navigation autonome ou de robots collaboratifs (cobots), cette capacité à modéliser la réciprocité comportementale est directement exploitable dans des modules de planification de chemin et de contrôle. La prédiction de trajectoire conditionelle est un champ de recherche en pleine activité, alimenté par les besoins des véhicules autonomes et de la robotique de service. Des équipes comme Waymo, NVIDIA (avec son framework Isaac Perceptor) ou des laboratoires académiques comme Stanford et ETH Zurich ont posé les bases de la modélisation sociale de trajectoires. CiT s'inscrit dans cette lignée en ciblant explicitement les systèmes d'interaction humain-robot, un segment distinct des systèmes véhiculaires. L'article reste à ce stade un preprint non évalué par les pairs, sans données de déploiement réel ni validation hors benchmarks publics, ce qui limite l'interprétation des résultats annoncés. Les prochaines étapes naturelles seraient une validation en conditions réelles et une intégration dans des architectures ROS2 ou similaires.

RecherchePaper
1 source
Flow-Opt : optimisation centralisée et scalable de trajectoires multi-robots par flow matching et optimisation différentiable
2arXiv cs.RO 

Flow-Opt : optimisation centralisée et scalable de trajectoires multi-robots par flow matching et optimisation différentiable

Flow-Opt est une méthode de planification de trajectoires multi-robots publiée sur arXiv (référence 2510.09204v2) qui s'attaque à un verrou connu de la robotique en essaim : l'optimisation centralisée dans l'espace joint de plusieurs robots est théoriquement supérieure (accès à un espace de solutions plus large, trajectoires plus fluides dans les espaces contraints), mais devient informatiquement intractable dès que la flotte dépasse quelques unités. L'approche proposée décompose le problème en deux étapes : un modèle génératif basé sur le flow matching, implémenté via un diffusion transformer (DiT) augmenté d'encodeurs invariants aux permutations pour les positions des robots et la carte, produit des trajectoires candidates ; un Safety-Filter (SF) différentiable, doté d'un réseau de neurones qui prédit une initialisation spécifique au contexte de façon auto-supervisée, garantit ensuite la satisfaction des contraintes à l'inférence. Résultat annoncé : génération de trajectoires pour des dizaines de robots en environnement encombré en quelques dizaines de millisecondes, avec la capacité de résoudre plusieurs dizaines d'instances en parallèle en une fraction de seconde. Ces performances, si elles se confirment hors benchmark contrôlé, changeraient concrètement le dimensionnement des systèmes de gestion de flotte (FMS) pour les AMR en entrepôt ou en environnement industriel. Aujourd'hui, les planificateurs centralisés sont réservés à de petites flottes ou nécessitent des horizons de planification longs ; les approches décentralisées sacrifient l'optimalité globale. Flow-Opt revendique de combler cet écart en rendant le calcul centralisé compatible avec les contraintes temps-réel. La capacité de batching est particulièrement notable : elle permet de traiter des dizaines d'instances simultanément, ce qui ouvre la voie à une planification à re-planification fréquente ou à des architectures de simulation-dans-la-boucle. Il faut cependant noter que les résultats sont présentés sur des benchmarks simulés et que le gap sim-to-real n'est pas adressé dans ce papier. La planification de trajectoires multi-robots centralisée est un problème ouvert depuis les années 2010, avec des travaux fondateurs comme CBS (Conflict-Based Search) et ses dérivés. Les approches par apprentissage profond, notamment les modèles de diffusion appliqués à la planification (DDPM, Score Matching), ont montré des gains de vitesse mais peinaient à garantir la faisabilité des trajectoires produites. Flow-Opt se positionne comme une alternative plus rapide et plus fiable face à ces baselines diffusion, tout en restant dans le registre académique : aucun déploiement industriel n'est annoncé. Les acteurs comme Exotec (Hauts-de-France), qui opère des flottes denses de robots Skypod, ou MiR et Locus Robotics, pourraient être des débouchés naturels si les auteurs industrialisent leur approche. La prochaine étape logique serait une validation sur hardware réel avec des perturbations dynamiques.

UEExotec (Hauts-de-France), opérateur de flottes denses de robots Skypod, est explicitement cité comme débouché naturel si la méthode est industrialisée, ce qui représente un impact potentiel direct sur l'écosystème robotique français.

RecherchePaper
1 source
AnchorRefine : manipulation synergique par ancrage de trajectoire et raffinement résiduel pour les modèles VLA
3arXiv cs.RO 

AnchorRefine : manipulation synergique par ancrage de trajectoire et raffinement résiduel pour les modèles VLA

Une équipe de chercheurs a publié sur arXiv (arXiv:2604.17787) AnchorRefine, un framework hiérarchique conçu pour améliorer les modèles vision-langage-action (VLA) dans les tâches de manipulation robotique de précision. Le principe central repose sur une décomposition en deux niveaux : un planificateur d'ancres de trajectoire (anchor planner) qui génère un squelette de mouvement grossier, et un module de raffinement résiduel qui corrige les déviations en phase d'exécution pour améliorer la précision géométrique et de contact. Le système intègre également un mécanisme de raffinement de pince sensible aux transitions discrètes (decision-aware gripper refinement), conçu pour mieux capturer le caractère binaire et critique aux frontières du contrôle de préhension. Évalué sur les benchmarks LIBERO et CALVIN, ainsi que sur des tâches en robot réel, AnchorRefine affiche des gains allant jusqu'à 7,8 points de pourcentage en taux de succès en simulation et 18 points en conditions réelles, sur des backbones VLA à base de régression comme de diffusion. Le problème que cette architecture cherche à résoudre est structurel dans la conception actuelle des politiques VLA : lorsqu'une politique génère toutes les actions dans un espace unifié, les grands mouvements de transport dominent l'optimisation et noient les signaux correctifs de faible amplitude, pourtant critiques pour les tâches de précision comme l'assemblage, l'insertion ou la manipulation d'objets fragiles. En séparant explicitement la planification macroscopique de l'ajustement microscopique, AnchorRefine reproduit une structure proche de la motricité humaine, où la trajectoire globale et la correction locale sont des processus distincts. Le gain de 18 % en conditions réelles est significatif car il suggère une réduction effective du sim-to-real gap sur les tâches de contact, un verrou majeur pour la commercialisation des manipulateurs polyvalents. Ce travail s'inscrit dans une tendance de fond en robotique académique : l'hybridation entre planification à haut niveau (souvent guidée par le langage ou la vision) et contrôle fin en boucle fermée. Des approches comme pi0 (Physical Intelligence) ou GR00T N2 (NVIDIA) intègrent déjà des mécanismes proches, tandis que des labos comme celui de Chelsea Finn (Stanford) ou Sergey Levine (Berkeley) explorent la hiérarchie action depuis plusieurs années. AnchorRefine se distingue en proposant une solution modulaire compatible avec des backbones existants sans réentraîner l'ensemble du modèle, ce qui facilite potentiellement son intégration dans des pipelines VLA déjà déployés. Les auteurs ne mentionnent pas de partenariat industriel ni de timeline de déploiement, et les évaluations restent cantonnées à des benchmarks académiques, ce qui tempère les conclusions sur la robustesse en environnement non contrôlé.

RechercheOpinion
1 source
IMPACT : Lagrangien augmenté à ensemble actif implicite pour l'optimisation rapide de trajectoires à contact implicite
4arXiv cs.RO 

IMPACT : Lagrangien augmenté à ensemble actif implicite pour l'optimisation rapide de trajectoires à contact implicite

Des chercheurs ont déposé mi-mai 2026 sur arXiv (arXiv:2605.09127) un préprint décrivant IMPACT, un nouvel algorithme d'optimisation de trajectoires en contact implicite (CITO). La méthode repose sur une formulation augmented-Lagrangian pour résoudre les programmes mathématiques à contraintes de complémentarité (MPCC) qui gouvernent la planification de mouvements impliquant des contacts physiques, sans qu'il soit nécessaire de spécifier à l'avance la séquence des modes de contact. L'implémentation en C++ a été évaluée sur deux benchmarks open-source de référence, CITO et CI-MPC (model predictive control implicite en contact) : sur le premier, IMPACT affiche des accélérations comprises entre 2,9x et 70x par rapport aux solveurs existants les plus compétitifs, avec une moyenne géométrique de 13,8x. Sur les tâches de manipulation dextère en simulation (CI-MPC), la qualité du contrôle progresse également. Une validation sur robot physique a été conduite sur une tâche de poussée d'un objet en T, tâche simple mais représentative du problème de contact. La CITO est une approche unifiée pour planifier et contrôler des robots dans des environnements à contacts multiples, qu'il s'agisse de manipulation d'objets complexes ou de locomotion. Son atout principal est de ne pas imposer de séquence de modes de contact en entrée, éliminant une étape d'ingénierie manuelle coûteuse et peu robuste aux situations imprévues. Le verrou historique était le mauvais conditionnement numérique des MPCC sous-jacents, qui rendait les solveurs génériques instables et prohibitivement lents pour des applications embarquées. Un gain de 13,8x en moyenne géométrique sur des benchmarks standardisés est un signal fort : IMPACT rapproche le CI-MPC d'une viabilité en boucle fermée rapide. Pour les intégrateurs et les équipes de robotique dextère, c'est une avancée concrète vers des manipulateurs capables de gérer des contacts variés sans reprogrammation manuelle à chaque changement de tâche. La CITO mobilise des équipes académiques depuis une décennie, notamment au MIT, à Carnegie Mellon et à ETH Zurich. Les solveurs polyvalents comme IPOPT ou SNOPT montraient des limites sévères sur les MPCC liés au contact ; des travaux récents comme CALIPSO avaient amorcé des améliorations, mais sans garanties de stationnarité systématiques ni gains de vitesse aussi prononcés. IMPACT introduit une identification implicite des branches de modes de contact à la volée pendant les itérations d'optimisation, ce qui constitue sa différence algorithmique principale. Le code est soumis aux benchmarks publics, ce qui permettra à la communauté de reproduire et d'auditer les chiffres annoncés. La suite logique serait l'intégration dans des contrôleurs embarqués sur robots manipulateurs industriels ou humanoïdes, où la planification en contact temps réel reste un problème largement ouvert.

RecherchePaper
1 source