Robots de livrable : navigation en foule via apprentissage des préférences sociales (SPLC)
Une équipe de recherche présente SPLC (Social Preference Learning for Crowd Robot Navigation), un nouvel algorithme d'apprentissage par renforcement hors ligne conçu pour faire naviguer des robots au milieu de foules de piétons sans avoir à concevoir manuellement une fonction de récompense. Publié sur arXiv le 2 juillet 2026 (arXiv:2607.01925v1), le système introduit un mécanisme de retour de préférences sociales qui génère automatiquement des données de préférence à partir de critères d'évaluation prédéfinis, en tenant compte explicitement de la dynamique complexe des piétons. Les auteurs ont testé SPLC en combinaison avec plusieurs méthodes de RL hors ligne et rapportent des gains constants par rapport aux meilleures références actuelles sur des métriques de performance standard, avant de valider l'approche en conditions réelles sur un robot TurtleBot4. Le code et des démonstrations vidéo sont disponibles sur le dépôt GitHub du projet (sklus949/SPLC).
L'enjeu pratique est la conception des récompenses en RL, un goulot d'étranglement bien connu pour déployer des robots mobiles autonomes dans des environnements humains partagés, entrepôts, hôpitaux, espaces commerciaux. Écrire à la main une fonction qui capture des normes sociales floues (garder ses distances, céder le passage, anticiper une trajectoire) introduit des biais et ne généralise pas d'une foule à l'autre. En automatisant la génération de préférences plutôt que la récompense elle-même, SPLC s'attaque directement au problème du "reward hacking" et du décalage entre simulation et réel, un point sensible pour tout intégrateur qui envisage des robots de navigation autonome en zones piétonnes denses. Le passage à un test réel sur TurtleBot4, plutôt qu'une simple démonstration en simulateur, distingue ce travail de nombreuses publications qui restent cantonnées au benchmark.
Ce travail s'inscrit dans une lignée de recherches sur le RL hors ligne appliqué à la navigation sociale, un axe où les laboratoires cherchent à réduire la dépendance aux interactions coûteuses en environnement réel pendant l'entraînement. Les approches concurrentes reposent généralement sur du reward shaping manuel ou sur de l'apprentissage par imitation à partir de trajectoires humaines annotées, des méthodes que les auteurs positionnent comme moins robustes face à la variabilité des comportements piétons. Les prochaines étapes annoncées ne sont pas détaillées dans le résumé, mais la mise à disposition du code laisse présager des évaluations comparatives par d'autres équipes, et potentiellement une extension à des plateformes robotiques plus complexes que le TurtleBot4.
Dans nos dossiers




