Aller au contenu principal
Apprentissage par renforcement résiduel incrémental pour la navigation sociale en conditions réelles
RecherchearXiv cs.RO3h

Apprentissage par renforcement résiduel incrémental pour la navigation sociale en conditions réelles

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Des chercheurs ont publié sur arXiv (réf. 2604.07945, version 2) une méthode baptisée IRRL, Incremental Residual Reinforcement Learning, conçue pour permettre aux robots mobiles d'apprendre à naviguer parmi les piétons directement dans des environnements physiques réels, sans passer par une étape de simulation exhaustive. L'approche combine deux mécanismes distincts : l'apprentissage incrémental, un processus léger qui ne nécessite ni replay buffer ni mise à jour par batch, et le RL résiduel, qui restreint l'apprentissage aux corrections à apporter par rapport à une politique de base préexistante. Les expériences couvrent à la fois des environnements simulés et des déploiements réels sur robot physique, avec pour cible explicite les dispositifs edge à ressources computationnelles contraintes.

L'enjeu industriel est concret : la navigation sociale, faire circuler un robot autonome parmi des piétons en respectant les conventions implicites de déplacement, est un verrou majeur pour les AMR déployés dans des espaces publics, des entrepôts partagés ou des établissements de santé. Le problème du sim-to-real gap est ici particulièrement prononcé, car les dynamiques piétonnes varient fortement selon les régions, les cultures et les configurations d'espace, rendant toute couverture exhaustive par simulation illusoire. IRRL propose une réponse directe : laisser le robot continuer à apprendre une fois déployé, en se limitant aux résidus par rapport à une politique de base, ce qui réduit drastiquement la charge computationnelle. Les résultats publiés montrent des performances comparables aux méthodes classiques avec replay buffer en simulation, et une supériorité sur les approches d'apprentissage incrémental existantes. Les expériences en environnement réel confirment une adaptation effective à des situations inédites. Ces résultats restent toutefois à interpréter avec prudence : il s'agit d'un preprint académique, sans benchmark standardisé ni déploiement à l'échelle annoncé.

Le domaine de la navigation sociale par deep RL est actif depuis plusieurs années, porté par des travaux comme CrowdNav (ICRA 2019) ou des méthodes basées sur ORCA et ses extensions apprenantes. L'approche résiduelle n'est pas nouvelle en soi, elle est notamment utilisée dans le contrôle de robots manipulateurs pour corriger une politique classique, mais son application à la navigation sociale en conditions réelles avec contrainte edge reste peu explorée. Aucune institution ni entreprise n'est identifiée dans l'abstract disponible, et aucun partenariat industriel ni pilote terrain n'est mentionné. Les prochaines étapes naturelles seraient une validation sur des plateformes AMR commerciales (type Clearpath ou unitree) et une confrontation aux benchmarks publics de navigation sociale tels que BARN ou SocNavBench.

Dans nos dossiers

À lire aussi

COLSON : navigation sociale contrôlable par apprentissage par renforcement basé sur la diffusion
1arXiv cs.RO 

COLSON : navigation sociale contrôlable par apprentissage par renforcement basé sur la diffusion

Des chercheurs proposent COLSON (Controllable Learning-based Social Navigation), une méthode de navigation sociale pour robots mobiles autonomes (AMR) en milieux piétons, fondée sur l'apprentissage par renforcement couplé à des modèles de diffusion. Publiée sur arXiv (2503.13934v2), cette étude traite d'un verrou persistant pour les robots de service : naviguer de façon fluide et socialement cohérente parmi des piétons dynamiques, sans violer leurs espaces de proximité ni générer de comportements erratiques. Les approches à base de règles telles qu'ORCA ou DWA montrent leurs limites dans les environnements denses, tandis que les méthodes de deep RL conventionnelles reposent sur des distributions gaussiennes qui contraignent la variété des trajectoires produites. COLSON contourne cette limitation en exploitant les distributions d'actions plus riches offertes par les modèles de diffusion appliqués au RL, capables de représenter des comportements multimodaux (hésiter, contourner à gauche ou à droite) que les politiques gaussiennes tendent à lisser. L'apport central de la méthode est sa capacité de généralisation à des scénarios inédits sans ré-entraînement. Dans les démonstrations présentées, le robot adapte son comportement à des obstacles statiques absents du jeu d'entraînement, ou change d'objectif pour accompagner un piéton cible tout en évitant les autres passants. Pour les intégrateurs d'AMR en milieux hospitaliers, aéroportuaires ou logistiques, cette propriété de contrôlabilité zero-shot est stratégiquement importante : elle réduit le coût de re-paramétrage à chaque nouveau site de déploiement. Elle valide aussi partiellement l'hypothèse que les diffusion models peuvent atténuer le sim-to-real gap en navigation sociale, en générant des distributions d'actions plus robustes face à l'imprévu. Le champ de la social navigation par deep RL est actif depuis une décennie, avec des travaux fondateurs comme CADRL (2017), SARL et CrowdNav. L'application des modèles de diffusion au RL dans la robotique est plus récente, s'appuyant notamment sur Diffusion Policy (Columbia/MIT, 2023) dans le domaine de la manipulation. COLSON transfère cette logique vers la planification de mouvement en espace ouvert. Il s'agit à ce stade d'un preprint académique avec validation uniquement en simulation ; aucun déploiement sur robot réel ni partenariat industriel n'est mentionné, ce qui invite à tempérer les conclusions. Les éditeurs actifs sur la navigation sociale autonome incluent Boston Dynamics, ANYbotics et Clearpath Robotics, et côté européen Enchanted Tools (France) ou PAL Robotics (Espagne) pour les robots de service. Les prochaines étapes naturelles seraient une validation en environnement réel et un benchmarking sur les datasets standardisés ETH/UCY.

UELes intégrateurs AMR européens (dont Enchanted Tools en France, PAL Robotics en Espagne) pourraient à terme bénéficier de la contrôlabilité zero-shot de COLSON pour réduire les coûts de redéploiement multi-sites, mais la méthode reste validée uniquement en simulation sans partenariat industriel déclaré.

RecherchePaper
1 source
KinematicRL : framework d'apprentissage par renforcement sim-vers-réel pour la navigation sociale à faisabilité cinodynamique
2arXiv cs.RO 

KinematicRL : framework d'apprentissage par renforcement sim-vers-réel pour la navigation sociale à faisabilité cinodynamique

Des chercheurs ont présenté KinematicRL, un cadre de navigation sociale par apprentissage par renforcement profond (DRL) conçu pour combler l'écart sim-to-real freinant le déploiement des robots mobiles en environnements humains, publié sur arXiv en juin 2026 (arXiv:2606.12042). Ciblant les robots à entraînement différentiel, architecture répandue dans les AGV et robots de service, le framework combine trois composants : un espace d'action DRL au second ordre plutôt qu'au premier ordre habituel, un régulateur LQR itératif stochastique (iLQR) pré-entraînant la politique par minimisation de divergence, et un pipeline de suivi humain fonctionnant uniquement sur LiDAR 2D, sans fusion caméra. Un bloc de gating résiduel non biaisé complète le système pour équilibrer comportements réactifs et mémoriels selon la taille variable des foules détectées, les auteurs rapportant un déploiement sur robot réel avec modifications minimales. L'apport théorique central est la démonstration formelle que l'erreur de suivi entre position simulée et réelle décroît exponentiellement avec l'ordre de contrôle, justifiant rigoureusement l'adoption du second ordre pour les politiques DRL. En pratique, cela renforce le transfert simulation-vers-réel sans calibration complexe. En associant les détections humaines par proximité spatiale et similarité de vitesse, le pipeline LiDAR maintient une estimation de vélocité stable par agrégation temporelle, différenciant fiablement les piétons proches sans recourir à une caméra RGB. Pour les intégrateurs, ces deux choix réduisent sensiblement la dette d'ingénierie liée au déploiement terrain. La navigation sociale reste l'un des problèmes ouverts les plus difficiles de la robotique mobile, face aux méthodes analytiques comme ORCA ou le modèle de force sociale, et aux politiques DRL end-to-end. Les récents travaux en Vision-Language-Action (VLA) ont relancé l'ambition du domaine mais peinent à garantir la faisabilité cinématique en temps réel. KinematicRL adopte une posture plus conservatrice et formellement motivée, mieux adaptée aux déploiements en milieux contraints tels qu'entrepôts, hôpitaux ou aéroports. Les auteurs ne précisent ni le modèle de robot ni les durées de test, ce qui invite à interpréter les résultats avec prudence avant tout passage à l'échelle industrielle.

RecherchePaper
1 source
Apprentissage par renforcement résiduel pour la téléopération de robots sous délais stochastiques
3arXiv cs.RO 

Apprentissage par renforcement résiduel pour la téléopération de robots sous délais stochastiques

Les délais de communication en téleopération robotique ne sont jamais constants : latences variables selon la charge réseau, paquets perdus, jitter. Ces instabilités stochastiques introduisent des discontinuités dans les observations reçues par le contrôleur. En conditions réelles, les méthodes classiques d'apprentissage par renforcement (RL) s'effondrent face à ces délais : l'agent, confronté à des états incohérents, produit des commandes oscillantes à haute fréquence, un phénomène dit de chattering, qui dégrade la stabilité mécanique et l'exécution des tâches. Une équipe de chercheurs publie sur arXiv (identifiant 2605.15480, mai 2025) un cadre hybride baptisé delay-resilient RL, combinant un estimateur d'état basé sur un réseau LSTM (Long Short-Term Memory) avec une politique RL résiduelle. Le LSTM reconstruit des estimations d'état lisses et continues à partir des observations retardées, permettant à l'agent d'apprendre une politique de compensation résiduelle en couple (residual torque). La validation expérimentale a été conduite sur des robots Franka Panda, bras 7-DOF largement utilisé comme référence en recherche sur la manipulation. L'approche tire parti de la complémentarité de deux techniques établies : les réseaux LSTM pour la reconstruction temporelle de séquences, et le RL résiduel pour corriger un contrôleur de base sans le remplacer. En séparant l'estimation d'état du problème de contrôle, les auteurs évitent que le chattering contamine le signal de commande, un défaut récurrent des architectures RL pures opérant avec des espaces d'observation augmentés. Pour les opérateurs industriels déployant des systèmes de téleopération en conditions réseau dégradées, maintenance en milieu hostile, chirurgie à distance ou contrôle d'assets offshore, la robustesse aux délais à forte variance représente un critère discriminant souvent absent des benchmarks académiques. Les résultats publiés montrent une supériorité sur les baselines état de l'art même sous des délais stochastiques élevés, suggérant une voie viable vers des contrôleurs plus robustes en déploiement réel. Le Franka Panda, produit par Franka Robotics (Munich), s'est imposé comme référence de facto dans les laboratoires de manipulation grâce à sa compliance active et son API ouverte. Les approches concurrentes pour gérer les délais en RL incluent l'augmentation de l'espace d'états avec l'historique d'observations ou les prédicteurs à horizon fixe ; la combinaison LSTM et RL résiduel reste une direction moins explorée dans la littérature. Ce travail est un preprint arXiv non évalué par les pairs, et les résultats restent limités à un environnement expérimental contrôlé avec un seul type de robot. Les prochaines étapes naturelles impliquent des validations sur des plateformes bimanuelles ou humanoïdes, ainsi que des tests en conditions réseau réelles plutôt que simulées.

UEFranka Robotics (Munich) est la plateforme de référence utilisée, et cette approche de robustesse aux délais stochastiques pourrait intéresser les équipes européennes travaillant sur la téleopération industrielle en milieu hostile ou la chirurgie à distance, domaines en développement dans l'UE.

RecherchePaper
1 source
Navigation multimodale par apprentissage par renforcement multi-agents
4arXiv cs.RO 

Navigation multimodale par apprentissage par renforcement multi-agents

Des chercheurs ont publié CRONA (Cross-Modal Navigation), un framework basé sur l'apprentissage par renforcement multi-agent (MARL), disponible en préprint sur arXiv (identifiant 2605.06595). Plutôt que d'entraîner un modèle monolithique fusionnant simultanément plusieurs flux sensoriels, ce qui génère des espaces de représentation complexes et élargit considérablement l'espace de politiques à explorer, CRONA déploie des agents légers spécialisés par modalité, coordonnés par un critique centralisé multi-modal disposant d'un état global partagé et de représentations auxiliaires orientées contrôle. Les expériences portent sur des tâches de navigation visuo-acoustique : CRONA surpasse les baselines à agent unique en performance et en efficacité. Les auteurs identifient trois régimes distincts : la collaboration homogène (agents de même modalité) suffit pour la navigation courte portée avec indices saillants ; la collaboration hétérogène (modalités complémentaires) est généralement efficace ; les grands environnements complexes réclament une perception plus riche et une capacité modèle accrue. L'enjeu industriel est la modularité. Fusionner vision, audio et autres capteurs dans un seul réseau reste un obstacle majeur pour les robots incarnés opérant en milieux non contrôlés, entrepôts, espaces publics, bâtiments industriels. En découplant les modalités en agents parallèles indépendants, CRONA simplifie l'acquisition de données (chaque modalité peut être entraînée séparément) et permet de remplacer ou affiner un capteur sans réentraîner l'ensemble du système. Pour les intégrateurs B2B, la taxonomie des trois régimes de navigation constitue une heuristique pratique pour dimensionner les architectures embarquées selon la complexité des scénarios cibles. La navigation audio-visuelle incarnée s'appuie sur des environnements de référence établis comme SoundSpaces et Matterport3D. L'originalité de CRONA réside dans l'application du MARL à ce problème, là où la littérature récente privilégie les architectures Transformer multi-modales de type VLA (Vision-Language-Action). Aucun partenariat industriel ni calendrier de déploiement n'est mentionné : il s'agit d'un preprint sans validation sur hardware réel, ce qui laisse ouverte la question du sim-to-real gap, particulièrement critique pour les signaux acoustiques en environnement non contrôlé. La prochaine étape logique serait une validation sur plateforme robotique physique.

RecherchePaper
1 source