RecherchearXiv cs.RO 16 juin 2026

Robots comme tokens : un transformeur de diffusion unifié pour la génération de trajectoires multi-robots coordonnées

1 source couvre ce sujet·Source originale ↗·

Résumé IASource uniqueImpact UE

Des chercheurs ont publié sur arXiv (2606.15550) Roken, pour "Robots as Tokens", un transformeur de diffusion unifié capable de générer simultanément des trajectoires coordonnées pour plusieurs robots mobiles. Contrairement aux approches dominantes, qui soit se limitent à la planification monorobot, soit enchaînent les trajectoires de façon séquentielle avant d'appliquer des post-traitements itératifs pour résoudre les conflits inter-robots, Roken produit l'ensemble des trajectoires en une seule passe feed-forward. Chaque robot est représenté comme un token discret dans le modèle, ce qui lui permet d'interagir naturellement avec les autres via la self-attention, et de se référer aux tokens de carte pour percevoir l'environnement par cross-attention. Des tâches auxiliaires fondées sur le théorème de Bayes fournissent une supervision spatio-temporelle multi-échelle pour apprendre la distribution conditionnelle. À l'inférence, le modèle supporte indifféremment la planification monorobot, la génération coordonnée multi-robot et la génération conditionnelle (en fixant certains tokens comme conditions). Les expériences, menées en simulation dans des environnements encombrés variés, montrent des taux de succès élevés sur des tâches de navigation avec contraintes de connectivité, dépassant le planificateur classique qui avait servi à générer les données d'entraînement.

L'intérêt principal de Roken réside dans sa scalabilité et sa généralisation : le modèle est entraîné sur des équipes de tailles mixtes et se généralise à des équipes et des environnements non vus lors de l'entraînement, y compris en observation partielle. Pour les intégrateurs de flottes AMR ou les systèmes multi-agents en entrepôt, cette capacité à planifier pour N robots sans replanification itérative représente un gain de latence significatif. Que le modèle surpasse son propre générateur de données d'entraînement est notable, mais il faut souligner que toutes les expériences sont en simulation ; le transfert sim-to-real reste non démontré, ce qui est le verrou habituel pour ce type d'approche.

Ce travail s'inscrit dans une vague de recherche qui transpose les succès des modèles génératifs (diffusion, transformeurs) du langage et de la vision vers la planification robotique. Des travaux comme Pi-0 (Physical Intelligence) ou GR00T N2 (NVIDIA) explorent des architectures similaires pour le contrôle mono-robot, mais la coordination multi-agents via des tokens partagés reste un territoire peu défriché. Roken propose une formalisation élégante du problème, mais son évaluation reste entièrement simulée à ce stade. Les prochaines étapes naturelles seraient une validation sur robots réels et une comparaison avec des planificateurs multi-agents classiques comme CBS (Conflict-Based Search) sur des métriques standardisées.

Dans nos dossiers

NVIDIA GR00T Physical Intelligence — π0 arXiv cs.RO

À lire aussi

1arXiv cs.RO

Planification unifiée de trajectoires multi-contacts pour les robots à déplacement roulant

Des chercheurs ont publié sur arXiv (ref. 2606.29065) un cadre unifié de planification de trajectoire pour les robots à roulement multi-contacts sous contraintes de non-glissement. Le problème central est la planification de mouvement dans des systèmes où plusieurs corps sphériques roulent simultanément sans glisser, ce qui génère des contraintes non-holonomes couplées et une configuration évoluant sur une variété courbe. Le framework proposé repose sur la formulation de Montana en coordonnées de contact, où chaque point de contact est représenté par un vecteur d'état à cinq dimensions. Sur cette base géométrique, les auteurs construisent une carte routière de type Voronoï directement sur la variété de contact sphérique, intègrent des obstacles en calotte sphérique et des zones d'exclusion mutuelle via une vérification de collision sur la variété, puis raffinent les chemins discrets par un lissage log-exp cohérent avec la géométrie différentielle. Les trajectoires lissées sont ensuite remontées en mouvements de roulement admissibles via la cinématique Montana et validées par simulation forward. Cette publication s'attaque à une lacune réelle en planification de mouvement : les approches classiques peinent à gérer simultanément les contraintes non-holonomes, la topologie des variétés de contact et la présence de plusieurs points de contact couplés. L'intégration d'un Voronoï directement sur la variété sphérique, plutôt que dans un espace euclidien aplati, est la contribution technique principale, car elle préserve la géométrie intrinsèque sans distorsions. Il convient cependant de noter que la validation reste purement simulée : aucune expérience sur plateforme physique n'est rapportée, ce qui constitue une limite explicitement reconnue par les auteurs. Le domaine des robots à roulement sphérique reste une niche académique, distinct des humanoïdes ou des AMR (robots mobiles autonomes) à roues classiques, mais pertinent pour des plateformes comme les robots à roulement omnidirectionnel ou les systèmes de manipulation interne par sphère. La cinématique de Montana, référence fondatrice des années 1980-90 en mécanique de contact, est ici réemployée comme socle formel. Les auteurs annoncent trois extensions futures : géométries non-sphériques, environnements à obstacles dynamiques, et validation expérimentale sur plateforme réelle. En l'état, il s'agit d'une contribution théorique solide, pas encore d'un outil intégrable en production industrielle.

RecherchePaper

1 source

2arXiv cs.RO

Diffusion pour la planification de trajectoires multi-robots à long horizon dans des environnements partagés avec des humains

Des chercheurs publient sur arXiv (référence 2607.09911, soumis le 14 juillet 2026) un nouveau framework baptisé Multi-Robot Rolling Diffusion (MRRD), conçu pour la planification de trajectoires de flottes de robots évoluant dans des environnements partagés avec des humains, comme des foules denses. Le système combine trois mécanismes : un schéma à horizon glissant qui s'adapte à la fenêtre de prédiction limitée du mouvement humain, une inférence par diffusion parallélisée capable de générer des trajectoires réalistes à grande échelle, et une recherche basée sur la résolution de conflits pour éviter les collisions entre robots. MRRD intègre aussi un conditionnement temporel dit "d'urgence", permettant de produire des trajectoires à vitesse variable, ainsi que des termes de guidage différenciés pour équilibrer prudence sociale autour des humains et coordination efficace entre robots. Dans les tests menés en environnement encombré, le framework passe à l'échelle jusqu'à 15 robots en temps réel, avec des taux de sécurité et de réussite de mission supérieurs aux méthodes de référence existantes. L'enjeu dépasse la simple prouesse technique : les modèles de diffusion produisent des trajectoires réputées pour leur fluidité et leur ressemblance au comportement humain, mais souffraient jusqu'ici d'une limite structurelle, une durée de trajectoire fixe et une latence de calcul trop élevée pour un déploiement temps réel. En résolvant ce compromis, MRRD s'attaque directement à l'un des points de friction qui freinaient l'adoption de la génération par diffusion dans la robotique de flotte, un domaine où AMR (robots mobiles autonomes) et humains doivent cohabiter en entrepôt, en usine ou en espace public. Pour les intégrateurs qui déploient des flottes en environnement partagé, ce type d'avancée conditionne directement la capacité à faire cohabiter davantage de robots sans dégrader la sécurité perçue par les opérateurs humains. Le travail s'inscrit dans une lignée de recherche active sur la planification de trajectoires multi-robots, où les approches classiques (basées sur l'optimisation ou le graphe) peinent à modéliser des comportements socialement acceptables face à des humains imprévisibles. Les auteurs ne précisent pas d'affiliation industrielle ni de partenaire de déploiement dans le résumé ; il s'agit à ce stade d'un résultat de recherche évalué en simulation, dont la prochaine étape logique serait une validation sur robots physiques en conditions réelles.

RecherchePaper

1 source

3arXiv cs.RO

Distributed Model-Based Diffusion pour l'optimisation de trajectoires multi-robots à grande échelle

Des chercheurs viennent de publier sur arXiv (2607.20992) une méthode baptisée Distributed Model-Based Diffusion (DMBD), conçue pour résoudre l'optimisation de trajectoires pour des flottes de robots évoluant dans des environnements fortement non convexes, non linéaires et non différentiables. Le point de départ est le Model-Based Diffusion (MBD), une approche d'optimisation par échantillonnage qui avait déjà montré des résultats prometteurs pour un robot unique, mais qui devient un problème d'inférence centralisé et de très haute dimension dès qu'on l'étend à plusieurs robots, avec une perte nette d'efficacité d'échantillonnage due à la malédiction de la dimensionnalité, et la nécessité d'un accès global à la dynamique, aux contraintes et aux objectifs de chaque robot. DMBD contourne ce verrou en décomposant le processus de diffusion inverse en processus de diffusion conditionnels locaux : chaque robot débruite sa propre trajectoire dans son sous-espace de commande, en se conditionnant sur les estimations de trajectoires des autres robots, agrégées et redistribuées par un serveur central. Les auteurs valident l'approche sur quatre scénarios de simulation : échange de positions entre robots (goal swapping), couverture multi-étages, stationnement (parking) et trafic dense (rush-hour), avec des temps de résolution annoncés en dessous de la seconde. Cette architecture serveur-robots répond directement à un goulot d'étranglement connu de la planification multi-robots : la coordination centralisée s'effondre en calcul et en bande passante dès que le nombre d'agents augmente, ce qui limite aujourd'hui le déploiement de flottes d'AMR ou de robots mobiles en entrepôt, en logistique ou en coordination aérienne à grande échelle. Si les gains de scalabilité annoncés se confirment au-delà des scénarios simulés, la méthode pourrait intéresser les intégrateurs qui cherchent à faire cohabiter de nombreux robots autonomes sans dépendre d'un planificateur central surchargé, tout en gardant chaque robot capable de calculer localement sa propre trajectoire. Le travail s'inscrit dans la lignée récente des méthodes de diffusion appliquées à la planification robotique, où le MBD a émergé comme alternative aux solveurs d'optimisation classiques pour un seul robot. L'extension au multi-robot reste un champ actif de recherche, avec plusieurs équipes explorant des architectures distribuées ou décentralisées pour éviter l'explosion combinatoire. À ce stade, DMBD reste une contribution académique validée uniquement en simulation, sans démonstration sur robots physiques ni benchmark comparatif détaillé publié dans l'abstract.

RecherchePaper

1 source

4arXiv cs.RO

Diffusion coordonnée : générer des comportements multi-agents sans démonstrations multi-agents

Une équipe de chercheurs publie sur arXiv (réf. 2605.11485, mai 2026) CoDi (Coordinated Diffusion), un cadre d'apprentissage par imitation qui permet à plusieurs robots de se coordonner en n'utilisant que des données mono-agent. La méthode entraîne indépendamment une politique de diffusion par agent, puis les couple à l'inférence via une fonction de coût définie par l'utilisateur. Mathématiquement, le score de diffusion se décompose en politiques individuelles pré-entraînées auxquelles s'ajoute un terme de guidage piloté par le coût. Ce terme s'estime sans calcul de gradient, rendant CoDi applicable à des fonctions boîte noire non différentiables, sans ré-entraînement ni données coordonnées supplémentaires. Les validations couvrent des simulations et un banc matériel réel de manipulation bimanuelle à deux bras. Le verrou central adressé est l'explosion combinatoire des données : l'espace état-action d'un système multi-agent croît exponentiellement avec le nombre d'agents, rendant la collecte de démonstrations coordonnées prohibitivement coûteuse. CoDi contourne ce problème en réutilisant des démonstrations mono-agent, plus accessibles, et surpasse des baselines multi-agents classiques en efficacité de données. Pour un intégrateur déployant deux bras en coopération, cela représente une réduction potentiellement significative de la charge de télé-opération. L'indépendance vis-à-vis de la différentiabilité du coût élargit également l'applicabilité à des contraintes de sécurité ou opérationnelles arbitraires. L'abstract ne communique cependant pas de métriques précises de taux de succès ni de temps de cycle, ce qui limite l'évaluation externe de ce preprint. CoDi s'inscrit dans la vague des politiques de diffusion pour la robotique, popularisée par Diffusion Policy (2023, Columbia) et les architectures VLA comme Pi-0 de Physical Intelligence. Là où des systèmes comme GR00T N2 de NVIDIA ou Helix de Figure cherchent la généralisation sur un seul corps humanoïde, CoDi cible la coordination multi-corps, un problème distinct et encore peu résolu à l'échelle industrielle. Les approches concurrentes incluent le reinforcement learning multi-agent (MARL) et l'imitation centralisée, toutes deux très consommatrices de démonstrations coordonnées. L'étape suivante naturelle serait la montée en charge au-delà de deux agents et la validation sur des tâches industrielles complexes, dimensions que cette version préliminaire n'aborde pas encore.

RecherchePaper

1 source