Aller au contenu principal
Muninn : un modèle de diffusion de trajectoires, désormais plus rapide
RecherchearXiv cs.RO6sem

Muninn : un modèle de diffusion de trajectoires, désormais plus rapide

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Une équipe de chercheurs a publié Muninn (arXiv:2605.09999), un module d'accélération sans réentraînement pour les planificateurs de trajectoires basés sur la diffusion. Le système atteint jusqu'à 4,6x de gain en vitesse d'exécution sur plusieurs architectures de diffusion en espace d'état, sans dégradation mesurée des performances ni des métriques de sécurité. Muninn fonctionne comme un wrapper de cache : à chaque étape du débruitage itératif, il choisit en temps réel de recalculer la sortie du denoiser ou de réutiliser le résultat mis en cache. Cette décision repose sur deux signaux analytiques calibrés hors-ligne, une sonde légère de l'évolution de la représentation interne de la trajectoire et des coefficients de propagation d'erreur du denoiser, qui produisent ensemble un budget d'incertitude par étape. Ce budget borne formellement l'écart maximal entre la trajectoire mise en cache et celle qui aurait été calculée à pleine puissance de calcul. Les gains ont été validés sur matériel réel, en navigation en boucle fermée et en manipulation.

La lenteur des modèles de diffusion en planification de trajectoires est un verrou bien identifié pour la robotique temps-réel. Les accélérations existantes imposaient jusqu'ici un compromis inévitable : modifier le sampler dégradait la qualité de trajectoire, tandis que la compression du réseau nécessitait un réentraînement coûteux. Muninn contourne ce dilemme en opérant strictement sans modifier les poids du modèle, ce qui le rend applicable immédiatement à n'importe quel planificateur diffusion déjà entraîné. Pour un intégrateur ou une équipe robotique industrielle, cela rend concrètement viables des architectures comme Diffusion Policy dans des boucles de contrôle haute fréquence. La certification analytique des bornes de déviation constitue un argument de poids pour les déploiements où la sécurité est une contrainte réglementaire.

Les politiques par diffusion appliquées à la robotique ont émergé vers 2022-2023, portées notamment par Diffusion Policy (Chi et al., Columbia University), et se sont depuis déployées dans des architectures VLA et des planificateurs en espace d'état. Les méthodes d'accélération antérieures, DDIM et distillation par connaissance en tête, ne proposaient pas de cache adaptatif avec bornes certifiées, ce qui positionne Muninn comme une surcouche orthogonale et rétrocompatible avec l'existant. En tant que preprint arXiv, les résultats n'ont pas encore été soumis à revue par les pairs. Les prochaines étapes logiques concernent les stacks robotiques humanoïdes et industriels (Figure, Unitree, Boston Dynamics) qui expérimentent des politiques diffusion et cherchent à réduire la latence de planification en production. Le code est publié publiquement sur GitHub (gokulp01/Muninn).

À lire aussi

VOLT : segmentation de trajectoires vision-langage pour des politiques plus rapides que la démonstration
1arXiv cs.RO 

VOLT : segmentation de trajectoires vision-langage pour des politiques plus rapides que la démonstration

Une équipe de recherche publie VOLT (Vision and Language Trajectory Segmentation), une méthode d'apprentissage par imitation conçue pour que les robots exécutent des tâches plus vite que ne le font les humains lors des démonstrations. Le constat de départ est simple : dans les applications industrielles, la vitesse d'un démonstrateur humain est rarement la vitesse optimale du robot. La solution naive, sous-échantillonner uniformément la trajectoire enregistrée pour l'accélérer globalement, pose problème : certaines phases peuvent être accélérées sans risque (mouvements libres en espace non contraint), d'autres exigent une précision millimétrée (saisie d'objet, assemblage, manipulation fine). VOLT exploite des indices visuels et langagiers issus des vidéos de démonstration pour segmenter automatiquement ces deux types de phases, n'accélérer que les segments non critiques, et conserver le rythme original là où la précision compte. Les trajectoires reformatées servent ensuite à entraîner des politiques d'imitation standards, notamment des diffusion policies. L'article démontre que la qualité de la segmentation est le facteur déterminant : les méthodes de référence mal segmentées produisent des politiques soit trop prudentes, soit peu fiables sur les phases délicates. Pour les intégrateurs industriels, cela ouvre concrètement la voie à des robots apprenant depuis des démonstrations humaines tout en atteignant des cadences proches de leurs limites physiques, sans programmation explicite des profils de vitesse. L'approche est compatible avec les architectures d'imitation learning existantes, ce qui facilite l'intégration dans des pipelines déjà déployés. À noter : le papier ne fournit pas de métriques chiffrées précises (taux de succès, gains de temps en secondes), ce qui rend difficile une comparaison quantitative indépendante. VOLT s'inscrit dans la vague actuelle de l'apprentissage par imitation, portée par l'essor des diffusion policies et des modèles vision-langage-action (VLA) comme pi-0 de Physical Intelligence ou les variantes de ACT de Stanford. La méthode est publiée en préprint sur arXiv (2606.06323v1) et n'a pas encore été évaluée par les pairs ni validée en déploiement réel, ce qui interdit de la considérer comme un produit livrable à ce stade. Aucun acteur français ou européen n'est impliqué. Les prochaines étapes naturelles incluent une validation sur des tâches industrielles représentatives et une intégration dans des pipelines de téléopération à grande échelle, où la question de la vitesse d'exécution relative à la démonstration est particulièrement critique.

RechercheOpinion
1 source
Attaques par redirection de trajectoire sur les modèles vision-langage-action (VLA)
2arXiv cs.RO 

Attaques par redirection de trajectoire sur les modèles vision-langage-action (VLA)

Des chercheurs ont publié le 12 juin 2026 un article (arXiv:2606.12978) introduisant une nouvelle classe d'attaques adversariales sur les politiques robotiques de type VLA (Vision-Language-Action), ces architectures qui combinent un modèle de langage, une vision par caméra et un contrôleur moteur pour exécuter des tâches de manipulation à partir d'instructions textuelles. L'attaque baptisée "command-preserving trajectory redirection" (redirection de trajectoire préservant la commande) consiste à modifier subtilement le prompt d'entrée de façon à ce qu'il reste visuellement et sémantiquement proche de l'instruction légitime, mais provoque un résultat physique entièrement différent. Le modèle de menace est strict : l'attaquant ne modifie ni les poids du modèle, ni l'environnement, il choisit un seul prompt avant l'épisode, et ce prompt reste dans la norme syntaxique de la commande originale, sans mots-cibles ni langage correctif. Les auteurs proposent une méthode de recherche "on-policy" qui exploite des rollouts réels du robot pour identifier les perturbations textuelles dont le comportement en boucle fermée dévie vers une tâche cible. Les expériences sont conduites en simulation et sur robot physique, confirmant le transfert de l'attaque au monde réel. Ce résultat est significatif pour les intégrateurs et les décideurs industriels qui évaluent l'adoption des VLA en production, notamment dans les contextes de manipulation collaborative ou d'assemblage. La vulnérabilité exploite une propriété structurelle des VLA en boucle fermée : le même prompt est réappliqué à chaque étape de re-planification, et chaque action conditionnée modifie les observations futures sur lesquelles la politique agit. Un prompt malveillant peut donc cumuler ses effets sur toute une trajectoire, là où les attaques précédentes se limitaient à des perturbations action-par-action ou à la persistance d'actions basses. Cela contredit implicitement l'hypothèse que la robustesse visuelle d'un VLA suffit à garantir son intégrité comportementale, et soulève des questions concrètes sur la validation de sécurité avant déploiement. Les modèles VLA sont au coeur de plusieurs développements récents : pi0 de Physical Intelligence, OpenVLA, RT-2 de Google DeepMind, ou encore les politiques embarquées sur les humanoïdes Figure et 1X. La recherche en sécurité adversariale sur ces architectures était jusqu'ici dominée par des attaques sur les observations visuelles ou sur les actions individuelles ; ce travail ouvre formellement le champ des attaques au niveau de l'instruction textuelle à horizon long. Les auteurs n'annoncent pas de correctif ni de contre-mesure validée, ce qui laisse ouverte la question de la robustification des pipelines VLA. Les prochaines étapes attendues dans la communauté concerneront vraisemblablement la détection de prompts adversariaux à la volée et l'évaluation de ce vecteur d'attaque sur des modèles déployés commercialement. Le site projet est accessible à l'adresse indiquée dans le papier.

RechercheOpinion
1 source
Robots comme tokens : un transformeur de diffusion unifié pour la génération de trajectoires multi-robots coordonnées
3arXiv cs.RO 

Robots comme tokens : un transformeur de diffusion unifié pour la génération de trajectoires multi-robots coordonnées

Des chercheurs ont publié sur arXiv (2606.15550) Roken, pour "Robots as Tokens", un transformeur de diffusion unifié capable de générer simultanément des trajectoires coordonnées pour plusieurs robots mobiles. Contrairement aux approches dominantes, qui soit se limitent à la planification monorobot, soit enchaînent les trajectoires de façon séquentielle avant d'appliquer des post-traitements itératifs pour résoudre les conflits inter-robots, Roken produit l'ensemble des trajectoires en une seule passe feed-forward. Chaque robot est représenté comme un token discret dans le modèle, ce qui lui permet d'interagir naturellement avec les autres via la self-attention, et de se référer aux tokens de carte pour percevoir l'environnement par cross-attention. Des tâches auxiliaires fondées sur le théorème de Bayes fournissent une supervision spatio-temporelle multi-échelle pour apprendre la distribution conditionnelle. À l'inférence, le modèle supporte indifféremment la planification monorobot, la génération coordonnée multi-robot et la génération conditionnelle (en fixant certains tokens comme conditions). Les expériences, menées en simulation dans des environnements encombrés variés, montrent des taux de succès élevés sur des tâches de navigation avec contraintes de connectivité, dépassant le planificateur classique qui avait servi à générer les données d'entraînement. L'intérêt principal de Roken réside dans sa scalabilité et sa généralisation : le modèle est entraîné sur des équipes de tailles mixtes et se généralise à des équipes et des environnements non vus lors de l'entraînement, y compris en observation partielle. Pour les intégrateurs de flottes AMR ou les systèmes multi-agents en entrepôt, cette capacité à planifier pour N robots sans replanification itérative représente un gain de latence significatif. Que le modèle surpasse son propre générateur de données d'entraînement est notable, mais il faut souligner que toutes les expériences sont en simulation ; le transfert sim-to-real reste non démontré, ce qui est le verrou habituel pour ce type d'approche. Ce travail s'inscrit dans une vague de recherche qui transpose les succès des modèles génératifs (diffusion, transformeurs) du langage et de la vision vers la planification robotique. Des travaux comme Pi-0 (Physical Intelligence) ou GR00T N2 (NVIDIA) explorent des architectures similaires pour le contrôle mono-robot, mais la coordination multi-agents via des tokens partagés reste un territoire peu défriché. Roken propose une formalisation élégante du problème, mais son évaluation reste entièrement simulée à ce stade. Les prochaines étapes naturelles seraient une validation sur robots réels et une comparaison avec des planificateurs multi-agents classiques comme CBS (Conflict-Based Search) sur des métriques standardisées.

RecherchePaper
1 source
Régions circulaires sûres à expansion rapide pour une planification locale de trajectoires efficace
4arXiv cs.RO 

Régions circulaires sûres à expansion rapide pour une planification locale de trajectoires efficace

Des chercheurs ont publié sur arXiv (2605.16009, mai 2026) une méthode géométrique de navigation locale pour robots mobiles, baptisée FESCR (Fast Expanding Safe Circular Regions). Le principe repose sur le calcul d'une séquence de régions circulaires dérivées d'un scan LiDAR local : ces cercles s'étendent progressivement dans la direction du but tout en restant confinés à l'espace libre détecté. L'algorithme génère ainsi un couloir navigable en temps quasi-réel, sans recourir à un solveur d'optimisation. La méthode a été intégrée dans le framework ROS2 et évaluée dans un environnement simulé. Aucun déploiement sur hardware réel ni chiffres de benchmark précis (temps de calcul en ms, fréquence de replanning) ne sont fournis dans la prépublication. L'intérêt principal de cette approche est sa complexité algorithmique réduite par rapport aux méthodes concurrentes. Le Dynamic Window Approach (DWA) et le Model Predictive Control (MPC) reposent sur des boucles d'optimisation coûteuses, difficiles à tenir en temps réel dans des environnements denses ou changeants. Les Control Barrier Functions (CBF) et les techniques d'apprentissage apportent de la robustesse théorique mais introduisent soit une charge computationnelle élevée soit une dépendance aux données d'entraînement. FESCR contourne ces contraintes par une construction géométrique directe, ce qui, selon les auteurs, permet des horizons de planification plus longs à charge CPU égale. C'est un argument pertinent pour les intégrateurs AMR opérant sur des plateformes embarquées à ressources limitées, même si l'affirmation reste à valider sur des benchmarks standardisés (ex. nav2_benchmark, BARN dataset). La navigation locale est un problème ouvert depuis les travaux fondateurs de Fox et al. sur le DWA (1997). Les approches récentes comme TEB (Timed Elastic Band) ou MPPI (Model Predictive Path Integral) ont progressivement repoussé les limites de performance, mais au prix d'une complexité d'intégration croissante. FESCR s'inscrit dans un mouvement de retour aux méthodes géométriques légères, observable aussi dans des travaux comme les corridor-based planners de Carnegie Mellon ou les méthodes à champ de potentiel revisitées. Les prochaines étapes naturelles sont la validation sur robot réel (terrain irrégulier, obstacles dynamiques) et la comparaison quantitative avec nav2 DWB sur le benchmark BARN, ce que la prépublication ne fournit pas encore.

RecherchePaper
1 source