Aller au contenu principal
Robots comme tokens : un transformeur de diffusion unifié pour la génération de trajectoires multi-robots coordonnées
RecherchearXiv cs.RO1h

Robots comme tokens : un transformeur de diffusion unifié pour la génération de trajectoires multi-robots coordonnées

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Des chercheurs ont publié sur arXiv (2606.15550) Roken, pour "Robots as Tokens", un transformeur de diffusion unifié capable de générer simultanément des trajectoires coordonnées pour plusieurs robots mobiles. Contrairement aux approches dominantes, qui soit se limitent à la planification monorobot, soit enchaînent les trajectoires de façon séquentielle avant d'appliquer des post-traitements itératifs pour résoudre les conflits inter-robots, Roken produit l'ensemble des trajectoires en une seule passe feed-forward. Chaque robot est représenté comme un token discret dans le modèle, ce qui lui permet d'interagir naturellement avec les autres via la self-attention, et de se référer aux tokens de carte pour percevoir l'environnement par cross-attention. Des tâches auxiliaires fondées sur le théorème de Bayes fournissent une supervision spatio-temporelle multi-échelle pour apprendre la distribution conditionnelle. À l'inférence, le modèle supporte indifféremment la planification monorobot, la génération coordonnée multi-robot et la génération conditionnelle (en fixant certains tokens comme conditions). Les expériences, menées en simulation dans des environnements encombrés variés, montrent des taux de succès élevés sur des tâches de navigation avec contraintes de connectivité, dépassant le planificateur classique qui avait servi à générer les données d'entraînement.

L'intérêt principal de Roken réside dans sa scalabilité et sa généralisation : le modèle est entraîné sur des équipes de tailles mixtes et se généralise à des équipes et des environnements non vus lors de l'entraînement, y compris en observation partielle. Pour les intégrateurs de flottes AMR ou les systèmes multi-agents en entrepôt, cette capacité à planifier pour N robots sans replanification itérative représente un gain de latence significatif. Que le modèle surpasse son propre générateur de données d'entraînement est notable, mais il faut souligner que toutes les expériences sont en simulation ; le transfert sim-to-real reste non démontré, ce qui est le verrou habituel pour ce type d'approche.

Ce travail s'inscrit dans une vague de recherche qui transpose les succès des modèles génératifs (diffusion, transformeurs) du langage et de la vision vers la planification robotique. Des travaux comme Pi-0 (Physical Intelligence) ou GR00T N2 (NVIDIA) explorent des architectures similaires pour le contrôle mono-robot, mais la coordination multi-agents via des tokens partagés reste un territoire peu défriché. Roken propose une formalisation élégante du problème, mais son évaluation reste entièrement simulée à ce stade. Les prochaines étapes naturelles seraient une validation sur robots réels et une comparaison avec des planificateurs multi-agents classiques comme CBS (Conflict-Based Search) sur des métriques standardisées.

À lire aussi

Diffusion coordonnée : générer des comportements multi-agents sans démonstrations multi-agents
1arXiv cs.RO 

Diffusion coordonnée : générer des comportements multi-agents sans démonstrations multi-agents

Une équipe de chercheurs publie sur arXiv (réf. 2605.11485, mai 2026) CoDi (Coordinated Diffusion), un cadre d'apprentissage par imitation qui permet à plusieurs robots de se coordonner en n'utilisant que des données mono-agent. La méthode entraîne indépendamment une politique de diffusion par agent, puis les couple à l'inférence via une fonction de coût définie par l'utilisateur. Mathématiquement, le score de diffusion se décompose en politiques individuelles pré-entraînées auxquelles s'ajoute un terme de guidage piloté par le coût. Ce terme s'estime sans calcul de gradient, rendant CoDi applicable à des fonctions boîte noire non différentiables, sans ré-entraînement ni données coordonnées supplémentaires. Les validations couvrent des simulations et un banc matériel réel de manipulation bimanuelle à deux bras. Le verrou central adressé est l'explosion combinatoire des données : l'espace état-action d'un système multi-agent croît exponentiellement avec le nombre d'agents, rendant la collecte de démonstrations coordonnées prohibitivement coûteuse. CoDi contourne ce problème en réutilisant des démonstrations mono-agent, plus accessibles, et surpasse des baselines multi-agents classiques en efficacité de données. Pour un intégrateur déployant deux bras en coopération, cela représente une réduction potentiellement significative de la charge de télé-opération. L'indépendance vis-à-vis de la différentiabilité du coût élargit également l'applicabilité à des contraintes de sécurité ou opérationnelles arbitraires. L'abstract ne communique cependant pas de métriques précises de taux de succès ni de temps de cycle, ce qui limite l'évaluation externe de ce preprint. CoDi s'inscrit dans la vague des politiques de diffusion pour la robotique, popularisée par Diffusion Policy (2023, Columbia) et les architectures VLA comme Pi-0 de Physical Intelligence. Là où des systèmes comme GR00T N2 de NVIDIA ou Helix de Figure cherchent la généralisation sur un seul corps humanoïde, CoDi cible la coordination multi-corps, un problème distinct et encore peu résolu à l'échelle industrielle. Les approches concurrentes incluent le reinforcement learning multi-agent (MARL) et l'imitation centralisée, toutes deux très consommatrices de démonstrations coordonnées. L'étape suivante naturelle serait la montée en charge au-delà de deux agents et la validation sur des tâches industrielles complexes, dimensions que cette version préliminaire n'aborde pas encore.

RecherchePaper
1 source
Génération itérative et compositionnelle de données pour le contrôle de robots
2arXiv cs.RO 

Génération itérative et compositionnelle de données pour le contrôle de robots

Une équipe de chercheurs propose, dans un article arXiv (2512.10891, cinquième révision), un modèle génératif appelé "semantic compositional diffusion transformer" pour produire des données d'entraînement en manipulation robotique. Le principe central consiste à décomposer chaque transition dans l'espace d'état en quatre composantes distinctes, propres au robot, aux objets manipulés, aux obstacles, et à l'objectif de la tâche, dont les interactions sont apprises via des mécanismes d'attention. Entraîné sur un sous-ensemble limité de combinaisons de tâches, le modèle génère en inférence zéro-shot des transitions synthétiques de haute qualité pour des configurations jamais vues : nouveaux objets, nouveaux environnements, nouvelles associations robot-tâche. Un processus d'auto-amélioration itératif complète l'approche : les données synthétiques générées sont validées par apprentissage par renforcement hors-ligne (offline RL), puis réintégrées dans les rounds d'entraînement suivants. Au terme de ce cycle, le système résout la quasi-totalité des tâches de test non vues lors de l'entraînement. L'enjeu industriel est direct : collecter des démonstrations robotiques réelles pour couvrir l'espace combinatoire de toutes les tâches possibles en environnement multi-objets, multi-robots, multi-sites est économiquement prohibitif. Ce travail démontre qu'une structure compositionnelle apprise permet de briser cette malédiction combinatoire, sans démonstrations exhaustives. La boucle génération-validation-réentraînement est particulièrement notable : elle réduit le risque classique de drift sim-to-real en filtrant les transitions synthétiques non viables avant qu'elles ne contaminent le pipeline de policy learning. Les résultats surpassent significativement les baselines monolithiques et les approches compositionnelles à règles fixes (hard-coded), ce qui suggère que la structure compositionnelle émergente est réellement capturée par les représentations apprises, et non artificiellement injectée. Ce travail s'inscrit dans une dynamique de recherche qui cherche à contourner le goulot d'étranglement des données en robotique, aux côtés d'approches comme Diffusion Policy (Chi et al., CMU) ou les Visual Language Action models (VLA) tels que Pi-0 (Physical Intelligence) et GR00T N2 (NVIDIA). Là où ces derniers misent sur des fondations visuolinguistiques massives, cette contribution cible la généralisation compositionnelle avec des données d'entraînement réduites. La première soumission datant de décembre 2025 et le papier en étant à sa cinquième révision, les auteurs ont visiblement consolidé leurs expériences au fil des retours communautaires. Les prochaines étapes naturelles seraient une validation sur hardware réel et une extension aux chaînes de manipulation longue-horizon, domaine où l'absence de compositionnalité reste le principal point de rupture des approches actuelles.

RecherchePaper
1 source
Planification de trajectoire STL et analyse des risques pour la collaboration humain-robot avec un drone multi-rotors
3arXiv cs.RO 

Planification de trajectoire STL et analyse des risques pour la collaboration humain-robot avec un drone multi-rotors

Des chercheurs ont publié sur arXiv (référence 2509.10692, troisième révision en avril 2026) un framework de planification de mouvement et d'analyse de risque pour la collaboration humain-robot avec un véhicule aérien multirotor. Le coeur du système repose sur la Signal Temporal Logic (STL), un formalisme mathématique permettant d'encoder des objectifs de mission structurés : contraintes de sécurité, exigences temporelles, et préférences humaines incluant l'ergonomie et le confort de l'opérateur. Un planificateur par optimisation génère des trajectoires dynamiquement faisables en tenant compte des dynamiques non-linéaires du drone et de ses contraintes d'actuation. Pour résoudre le problème d'optimisation non-convexe et non-lisse qui en résulte, le framework adopte des approximations de robustesse différentiables combinées à des méthodes de gradient. Le système inclut également un mécanisme de replanification en ligne déclenché par événements, activé lorsque des perturbations menacent les marges de sécurité. La validation s'appuie exclusivement sur des simulations MATLAB et Gazebo, sur une tâche de remise d'objet inspirée de la maintenance de lignes électriques. Ce travail adresse un verrou réel dans le déploiement de drones en environnement industriel partagé : la cohabitation sûre avec des techniciens humains dont la posture est incertaine et dynamique. L'analyse de risque probabiliste quantifie la vraisemblance de violations de spécifications sous incertitude de pose humaine, ce qui représente une avancée par rapport aux approches conservatrices à marge fixe. La replanification événementielle permet une récupération en ligne sans interrompre la mission, un critère déterminant pour les applications en conditions réelles. Cela dit, l'absence de validation physique sur hardware réel constitue une limite importante : le gap sim-to-real pour les drones en proximité humaine reste un problème ouvert, et les résultats en simulation Gazebo ne peuvent pas être directement extrapolés à un déploiement terrain. Le contexte de ce travail s'inscrit dans un effort plus large de la communauté robotique aérienne pour rendre les drones industriels opérables à proximité immédiate des travailleurs, notamment dans les secteurs de l'énergie et de la maintenance d'infrastructures. Côté concurrence, des acteurs comme Skydio (USA) ou Flyability (Suisse) avancent sur des drones robustes en environnement contraint, mais sans formalisme STL ni modèle explicite d'interaction humain-robot. En Europe, des projets académiques financés par l'ANR et H2020 explorent des pistes similaires. La prochaine étape naturelle pour ce framework serait une validation sur banc physique avec un multirotor réel et des opérateurs humains instrumentés, condition sine qua non avant toute intégration industrielle.

UEDes projets ANR et H2020 explorent des approches similaires ; ce framework STL pourrait alimenter la recherche européenne sur les drones industriels en proximité humaine, notamment pour la maintenance d'infrastructures énergétiques.

RecherchePaper
1 source
Apprentissage de politiques de trajectoire multi-modales pour la manipulation robotique efficace en données
4arXiv cs.RO 

Apprentissage de politiques de trajectoire multi-modales pour la manipulation robotique efficace en données

Des chercheurs ont publié le 1er juin 2026 sur arXiv (2606.01047) MATE (Multi-Modal Trajectory Policies), un cadre de prédiction de trajectoires pour la manipulation robotique construit sur une architecture Mixture-of-Experts (MoE). MATE traite simultanément des entrées hétérogènes, observations visuelles, instructions en langage naturel et représentations de trajectoires, en introduisant un routeur cosinus cross-modal qui garantit une affectation stable entre experts spécialisés, indépendamment de l'échelle des représentations. Un mécanisme de routage à température contrôlée avec injection de bruit stochastique prévient l'effondrement prématuré des experts (expert collapse). Sur le benchmark LIBERO, MATE améliore le taux de succès moyen de 4,75% par rapport aux politiques guidées par trajectoires existantes, particulièrement dans des scénarios à faible volume de données d'entraînement. Des tests en conditions réelles sur un robot jouant au ping-pong complètent la validation expérimentale. Le problème ciblé est la "modality interference" : quand une politique transformer unique traite dans le même espace de paramètres des signaux aussi disparates que des images RGB, du texte et des coordonnées de trajectoire, les représentations se perturbent mutuellement et les performances chutent. C'est un goulot d'étranglement bien documenté dans le développement des VLAs (Vision-Language-Action models) : les données de démonstration de qualité coûtent cher à collecter en environnement industriel. En proposant un découplage fin au niveau sub-token par spécialisation d'experts, MATE réduit cette interférence sans nécessiter de données supplémentaires. Pour les équipes robotique opérant avec des budgets de téléopération limités, c'est un signal positif, bien que les gains absolus (+4,75%) restent modestes et mesurés sur un benchmark académique contrôlé. La manipulation robotique généraliste est sous forte compétition depuis l'émergence des architectures transformer dédiées à la robotique vers 2022-2023. Des travaux comme ACT, Diffusion Policy, puis les VLAs OpenVLA (Berkeley/Stanford), pi0 de Physical Intelligence et GR00T N2 de NVIDIA ont progressivement unifié vision, langage et action. L'approche MoE reste moins explorée en robotique qu'en LLMs (GPT-4, Mixtral, DeepSeek-MoE), et MATE tente d'en résoudre les instabilités de routage propres aux modalités hétérogènes. Le benchmark LIBERO, développé par des institutions académiques américaines, est devenu une référence standard pour évaluer la généralisation en manipulation. À ce stade, il n'y a pas de déploiement industriel ni de partenariat annoncé : MATE est une preuve de concept académique, avec validation réelle limitée à un robot de ping-pong.

RechercheOpinion
1 source