Aller au contenu principal
Navigation multimodale par apprentissage par renforcement multi-agents
RecherchearXiv cs.RO7sem

Navigation multimodale par apprentissage par renforcement multi-agents

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Des chercheurs ont publié CRONA (Cross-Modal Navigation), un framework basé sur l'apprentissage par renforcement multi-agent (MARL), disponible en préprint sur arXiv (identifiant 2605.06595). Plutôt que d'entraîner un modèle monolithique fusionnant simultanément plusieurs flux sensoriels, ce qui génère des espaces de représentation complexes et élargit considérablement l'espace de politiques à explorer, CRONA déploie des agents légers spécialisés par modalité, coordonnés par un critique centralisé multi-modal disposant d'un état global partagé et de représentations auxiliaires orientées contrôle. Les expériences portent sur des tâches de navigation visuo-acoustique : CRONA surpasse les baselines à agent unique en performance et en efficacité. Les auteurs identifient trois régimes distincts : la collaboration homogène (agents de même modalité) suffit pour la navigation courte portée avec indices saillants ; la collaboration hétérogène (modalités complémentaires) est généralement efficace ; les grands environnements complexes réclament une perception plus riche et une capacité modèle accrue.

L'enjeu industriel est la modularité. Fusionner vision, audio et autres capteurs dans un seul réseau reste un obstacle majeur pour les robots incarnés opérant en milieux non contrôlés, entrepôts, espaces publics, bâtiments industriels. En découplant les modalités en agents parallèles indépendants, CRONA simplifie l'acquisition de données (chaque modalité peut être entraînée séparément) et permet de remplacer ou affiner un capteur sans réentraîner l'ensemble du système. Pour les intégrateurs B2B, la taxonomie des trois régimes de navigation constitue une heuristique pratique pour dimensionner les architectures embarquées selon la complexité des scénarios cibles.

La navigation audio-visuelle incarnée s'appuie sur des environnements de référence établis comme SoundSpaces et Matterport3D. L'originalité de CRONA réside dans l'application du MARL à ce problème, là où la littérature récente privilégie les architectures Transformer multi-modales de type VLA (Vision-Language-Action). Aucun partenariat industriel ni calendrier de déploiement n'est mentionné : il s'agit d'un preprint sans validation sur hardware réel, ce qui laisse ouverte la question du sim-to-real gap, particulièrement critique pour les signaux acoustiques en environnement non contrôlé. La prochaine étape logique serait une validation sur plateforme robotique physique.

Dans nos dossiers

À lire aussi

Saut à la corde en coopération grâce à l'apprentissage par renforcement multi-agents
1arXiv cs.RO 

Saut à la corde en coopération grâce à l'apprentissage par renforcement multi-agents

Des chercheurs ont publié sur arXiv (2606.08064) un framework baptisé Marope permettant à plusieurs robots humanoïdes de pratiquer le saut à la corde collective en coordination. Le scénario implique deux robots Unitree G1 chargés de faire tourner la corde en synchronie, pendant qu'un troisième participant saute à des rythmes variables. L'architecture repose sur un apprentissage par renforcement multi-agents (MARL) hiérarchique : au niveau bas, des politiques décentralisées contrôlent indépendamment chaque bras de rotation de corde ; au niveau haut, une politique centralisée de scheduling orchestre l'exécution et la coordination entre ces modules. Les auteurs ont validé le système à la fois en simulation et en déploiement réel sur des Unitree G1, montrant que Marope surpasse les baselines testées en termes de stabilité de manipulation et de capacité d'adaptation à différents styles de saut. Ce travail illustre une lacune importante dans la recherche sur la locomotion athlétique des humanoïdes : la quasi-totalité des résultats existants (course, danse, parkour) opèrent en mode mono-agent ou sans interaction précise avec d'autres participants. Le saut à la corde impose une contrainte temporelle stricte et bidirectionnelle : les deux tourneurs doivent anticiper et s'adapter au rythme du sauteur en temps réel, ce qui constitue un banc d'essai réel pour la coordination multi-agent en boucle fermée. L'intégration de politiques de saut diversifiées dans l'entraînement coopératif, pour renforcer la généralisation, est un choix méthodologique notable. La démonstration en conditions réelles sur du matériel commercial reste modeste en scope, mais elle valide que le sim-to-real ne s'effondre pas sur cette tâche rythmique. Unitree est le fournisseur dominant sur le marché des humanoïdes accessibles (G1 à environ 16 000 USD), face à Figure, Agility Robotics ou Boston Dynamics sur le segment premium. Côté MARL appliqué aux humanoïdes, les travaux récents de DeepMind sur les agents sportifs et les recherches de Carnegie Mellon sur les interactions physiques constituent le terrain immédiat. Marope n'est pas encore un produit déployé ni un système industrialisé : c'est une preuve de concept académique, sans annonce de commercialisation ni de partenariat industriel à ce stade.

RecherchePaper
1 source
Fusion multimodale pour le transfert simulation-réel en apprentissage par renforcement visuel
2arXiv cs.RO 

Fusion multimodale pour le transfert simulation-réel en apprentissage par renforcement visuel

Une équipe de recherche a soumis sur arXiv (identifiant 2507.09180, actuellement à la version 4) une architecture de fusion multimodale pour améliorer le transfert sim-to-real en apprentissage par renforcement visuel appliqué à la manipulation robotique. L'approche combine deux flux d'entrée, RGB et profondeur (depth), traités en parallèle par des réseaux convolutifs séparés (CNN stems), dont les représentations fusionnées sont transmises à un vision transformer (ViT) scalable. L'information de profondeur, naturellement robuste aux variations d'apparence de scène, fournit des détails spatiaux 3D absents des images RGB seules. Le pipeline intègre un schéma d'apprentissage contrastif à tokens masqués et non masqués pour améliorer l'efficacité d'échantillonnage, combiné à une randomisation de domaine progressive (curriculum-based domain randomization) pour stabiliser l'entraînement. En simulation, la méthode surpasse les baselines comparées. La validation clé se fait en transfert zéro-shot : sans ré-entraînement sur données réelles, le modèle réalise des tâches de manipulation physique. Le sim-to-real gap reste l'obstacle central en robotique d'apprentissage : les politiques entraînées en simulation échouent fréquemment face à la variabilité visuelle du monde réel. La fusion RGB + depth attaque directement ce problème en réduisant la dépendance aux indices visuels fragiles comme l'éclairage ou les textures. L'apprentissage contrastif à tokens partiels suggère une meilleure invariance aux perturbations apparentes sans nécessiter de volumes massifs de données réelles. Pour les intégrateurs industriels et les équipes de développement en manipulation, le transfert zéro-shot validé expérimentalement est un signal concret : la politique capture des abstractions géométriques suffisamment générales pour opérer hors simulation, ce qui est précisément la promesse que le secteur cherche à tenir depuis des années. Ce travail s'inscrit dans une compétition de représentations visuelles pour la robotique qui inclut la randomisation de domaine agressive popularisée par OpenAI dès 2017, les encodeurs préentraînés par masquage (MAE, R3M, DINOv2), et les politiques vision-langage-action (VLA) comme pi0 de Physical Intelligence ou OpenVLA. L'originalité revendiquée est la fusion RGB + depth au niveau du transformer plutôt qu'en aval, couplée au curriculum adaptatif. Le passage à la version 4 sur arXiv signale un travail en révision active, probablement vers une conférence type ICRA ou IROS. Les prochaines étapes attendues incluent une validation sur benchmarks standardisés (RLBench, MetaWorld) et des tests sur plateformes physiques plus complexes.

RecherchePaper
1 source
Planification du mouvement multi-robots par modèle de diffusion guidé par apprentissage par renforcement multi-agents
3arXiv cs.RO 

Planification du mouvement multi-robots par modèle de diffusion guidé par apprentissage par renforcement multi-agents

Une équipe de chercheurs propose, dans un préprint arXiv (2606.00933) publié début juin 2026, un cadre de planification de trajectoires pour flottes de robots mobiles combinant modèles de diffusion génératifs et apprentissage par renforcement multi-agents (MARL). Concrètement, chaque robot génère indépendamment des trajectoires candidates via un modèle de diffusion entraîné sur des données mono-agent, puis une fonction de valeur centralisée, apprise par MARL, oriente le processus de débruitage par gradient pour réduire les conflits entre agents. Ce mécanisme dit d'"exponential tilting" pousse la distribution de débruitage vers les trajectoires associées au meilleur retour collectif attendu. Évalué en simulation sur un labyrinthe avec quatre robots mobiles, le système réduit le taux d'interférence inter-agents de 55,4 % à 41,8 %, sans nécessiter de ré-entraînement du modèle génératif ni de planification jointe centralisée. Ce résultat attaque directement le compromis historique entre planification centralisée (précise mais peu scalable à mesure que la flotte grossit) et planification décentralisée (scalable mais aveugle aux autres agents). Le fait que la coordination soit injectée via un signal de guidage externe sans modifier le planificateur diffusion de base ouvre la voie à des architectures modulaires : on entraîne une fois le modèle de trajectoire mono-agent, puis on greffe la coordination selon l'environnement de déploiement. Pour les intégrateurs de systèmes multi-robots en entrepôt ou en manufacture, cela suggère qu'un découplage entre planification locale et coordination globale est techniquement praticable, ce qui simplifierait la mise à l'échelle des flottes hétérogènes sans refonte complète du pipeline. Le domaine est depuis longtemps dominé par des méthodes à base de graphes comme CBS (Conflict-Based Search) ou des approches réactives décentralisées comme ORCA, avec des tentatives d'apprentissage profond restées limitées en conditions réelles. L'application des modèles de diffusion à la génération de trajectoires robotiques constitue un courant émergent, illustré notamment par Diffusion Policy (Chi et al., 2023) en manipulation, mais rarement couplé au MARL pour la coordination de flotte. Ce travail reste pour l'instant une preuve de concept en simulation sur quatre robots dans un environnement simple, et la généralisation à des scènes dynamiques, à des flottes plus larges ou à des robots hétérogènes demeure un défi non adressé. Les prochaines étapes naturelles incluent la validation sur hardware réel et la confrontation aux benchmarks de référence du MAPF (Multi-Agent Path Finding).

RecherchePaper
1 source
COLSON : navigation sociale contrôlable par apprentissage par renforcement basé sur la diffusion
4arXiv cs.RO 

COLSON : navigation sociale contrôlable par apprentissage par renforcement basé sur la diffusion

Des chercheurs proposent COLSON (Controllable Learning-based Social Navigation), une méthode de navigation sociale pour robots mobiles autonomes (AMR) en milieux piétons, fondée sur l'apprentissage par renforcement couplé à des modèles de diffusion. Publiée sur arXiv (2503.13934v2), cette étude traite d'un verrou persistant pour les robots de service : naviguer de façon fluide et socialement cohérente parmi des piétons dynamiques, sans violer leurs espaces de proximité ni générer de comportements erratiques. Les approches à base de règles telles qu'ORCA ou DWA montrent leurs limites dans les environnements denses, tandis que les méthodes de deep RL conventionnelles reposent sur des distributions gaussiennes qui contraignent la variété des trajectoires produites. COLSON contourne cette limitation en exploitant les distributions d'actions plus riches offertes par les modèles de diffusion appliqués au RL, capables de représenter des comportements multimodaux (hésiter, contourner à gauche ou à droite) que les politiques gaussiennes tendent à lisser. L'apport central de la méthode est sa capacité de généralisation à des scénarios inédits sans ré-entraînement. Dans les démonstrations présentées, le robot adapte son comportement à des obstacles statiques absents du jeu d'entraînement, ou change d'objectif pour accompagner un piéton cible tout en évitant les autres passants. Pour les intégrateurs d'AMR en milieux hospitaliers, aéroportuaires ou logistiques, cette propriété de contrôlabilité zero-shot est stratégiquement importante : elle réduit le coût de re-paramétrage à chaque nouveau site de déploiement. Elle valide aussi partiellement l'hypothèse que les diffusion models peuvent atténuer le sim-to-real gap en navigation sociale, en générant des distributions d'actions plus robustes face à l'imprévu. Le champ de la social navigation par deep RL est actif depuis une décennie, avec des travaux fondateurs comme CADRL (2017), SARL et CrowdNav. L'application des modèles de diffusion au RL dans la robotique est plus récente, s'appuyant notamment sur Diffusion Policy (Columbia/MIT, 2023) dans le domaine de la manipulation. COLSON transfère cette logique vers la planification de mouvement en espace ouvert. Il s'agit à ce stade d'un preprint académique avec validation uniquement en simulation ; aucun déploiement sur robot réel ni partenariat industriel n'est mentionné, ce qui invite à tempérer les conclusions. Les éditeurs actifs sur la navigation sociale autonome incluent Boston Dynamics, ANYbotics et Clearpath Robotics, et côté européen Enchanted Tools (France) ou PAL Robotics (Espagne) pour les robots de service. Les prochaines étapes naturelles seraient une validation en environnement réel et un benchmarking sur les datasets standardisés ETH/UCY.

UELes intégrateurs AMR européens (dont Enchanted Tools en France, PAL Robotics en Espagne) pourraient à terme bénéficier de la contrôlabilité zero-shot de COLSON pour réduire les coûts de redéploiement multi-sites, mais la méthode reste validée uniquement en simulation sans partenariat industriel déclaré.

RecherchePaper
1 source