EvoNav : conception évolutionnaire de fonctions de récompense pour la navigation robotique avec des grands modèles de langage
Un préprint déposé sur arXiv le 16 mai 2025 (référence 2605.11859) présente EvoNav, un cadre évolutionnaire automatisant la conception de fonctions de récompense pour la navigation robotique en environnements dynamiques peuplés d'humains. Le problème de fond : en reinforcement learning (RL), la qualité d'une politique de navigation dépend directement de sa fonction de récompense, un processus manuel coûteux en expertise et porteur de biais difficilement auditables. EvoNav confie cette tâche à un grand modèle de langage (LLM) dans une boucle évolutionnaire. Chaque candidat-récompense proposé par le LLM est évalué selon une procédure en trois étapes progressives : proxies analytiques peu coûteux (petits jeux de données, règles analytiques), rollouts légers, puis entraînement complet de la politique. Cette progression évite d'entraîner une politique complète pour chaque candidat, réduisant significativement le coût de calcul. Les auteurs concluent qu'EvoNav surpasse les récompenses artisanales et les méthodes de référence actuelles, sans détailler les métriques précises dans le résumé disponible.
Pour les équipes développant des robots sociaux ou des AMR en environnements non structurés, l'enjeu est structurel : le reward engineering est l'une des étapes les plus chronophages du développement RL, nécessitant des allers-retours coûteux entre experts domaine et ingénieurs ML. Automatiser ce processus via LLM déplace le goulot d'étranglement de l'expertise tacite vers une boucle d'optimisation pilotée par données. Point de vigilance : le papier est un préprint sans relecture par les pairs, et les comparaisons avec l'état de l'art manquent de détails sur les benchmarks et les configurations de test utilisées, ce qui rend difficile une évaluation indépendante des gains annoncés.
EvoNav s'inscrit dans un courant initié notamment par EUREKA (NVIDIA, 2023), qui avait démontré que GPT-4 pouvait générer des récompenses surpassant des experts humains sur des tâches de dextérité en manipulation. La navigation sociale est un terrain plus difficile, car elle implique la prédiction de comportements humains en temps réel dans des espaces ouverts. Aucun partenaire industriel ni institution de recherche n'est identifié dans le document accessible ; les prochaines étapes naturelles seraient une validation sur robot physique et une comparaison directe avec des approches VLA (vision-language-action), qui constituent une alternative architecturale de plus en plus crédible pour la navigation en environnement ouvert.
Dans nos dossiers




