RoamFlow : une politique de navigation par image-objectif alignée par renforcement en une seule étape
Des chercheurs ont publié en juin 2026 sur arXiv (2606.29934) RoamFlow, un framework de navigation robotique ciblant l'image-goal navigation : un robot mobile doit rejoindre une destination définie uniquement par une image de la cible, sans carte préétablie ni coordonnées GPS. Le système repose sur MeanFlow, une approche générative qui prédit le champ de vitesse moyen d'une trajectoire, réduisant le nombre d'étapes d'inférence par rapport à une diffusion itérative classique et abaissant ainsi la latence en conditions temps réel. L'entraînement se déroule en deux phases : une imitation d'expert pour initialiser la politique de manière stable, suivie d'un affinage par apprentissage par renforcement (RL) pour optimiser la performance sur la tâche cible. Les expériences sont conduites dans le simulateur Habitat de Meta et sur des plateformes robotiques physiques.
L'intérêt de l'approche réside dans la combinaison d'une inférence rapide avec un modèle génératif, là où les politiques RL classiques peinent à modéliser des dépendances long-horizon et produisent des trajectoires sous-optimales. MeanFlow contourne le débruitage itératif des modèles de diffusion standards, un verrou réel pour les applications embarquées sous contraintes temps réel. La stratégie imitation-puis-RL adresse un problème bien documenté : le behavioral cloning seul ne généralise pas hors distribution, tandis que le RL pur est instable à l'initialisation. Toutefois, l'abstract ne fournit aucune métrique précise : ni taux de succès, ni temps de cycle, ni comparaison quantitative avec l'état de l'art, ce qui limite l'évaluation indépendante à ce stade de publication.
Ce travail s'inscrit dans le champ de la navigation incarnée (embodied navigation), organisé autour des benchmarks Habitat de Meta, dont PointNav, ObjectNav et ImageNav. Les approches concurrentes combinent des transformers visuels avec du RL proximal (PPO), ou exploitent des modèles VLA comme pi0 de Physical Intelligence ou GR00T N2 de NVIDIA pour la généralisation inter-tâches. MeanFlow s'apparente aux travaux récents sur le flow matching appliqué à la robotique (Diffusion Policy, π0-flow), avec une reformulation par champ de vitesse moyen qui reste à valider à grande échelle et sur des benchmarks standardisés. Ce papier est un preprint arXiv, non encore évalué par les pairs, sans date de soumission à une conférence ni annonce de déploiement industriel.
Dans nos dossiers




