Aller au contenu principal
RecherchearXiv cs.RO19min

CoFL-S : champs de flux sectoriels interrogeables spatialement pour la navigation locale conditionnée par le langage

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

La navigation par instructions en langage naturel (Vision-Language Navigation, VLN) a surtout progressé ces dernières années sur le raisonnement de haut niveau : compréhension des consignes, mémoire, cartographie globale, découpage des instructions en sous-tâches. La représentation d'action de bas niveau, elle, restait largement négligée. Une équipe de recherche propose CoFL-S (papier arXiv 2607.02222, publié début juillet 2026), un framework vision-langage-action qui prédit un champ de flux ("flow field") conditionné par le langage sur le secteur local visible du robot, puis génère des trajectoires continues en suivant ce champ. Pour l'entraîner, les chercheurs ont converti les épisodes du jeu de données VLN-CE, initialement des instructions complètes associées à des séquences d'actions, en supervision locale image par image, avec sous-instructions alignées, actions, trajectoires et champs de flux appariés. Ils introduisent aussi un nouveau benchmark Habitat en temps continu, qui isole l'interface d'action de bas niveau du découpage des instructions et fait passer toutes les méthodes par un contrôleur de commande de vitesse partagé, permettant une comparaison en boucle fermée indépendante de la fréquence du planificateur, plutôt que les transitions discrètes fixes (avancer/tourner) de VLN-CE classique.

Cette distinction entre haut niveau et bas niveau touche un vrai angle mort du secteur : une bonne compréhension d'instruction ne garantit pas une exécution fluide si la couche de contrôle reste rigide ou dépendante d'une fréquence de planification fixe. En isolant cette couche et en la testant à différentes fréquences, l'équipe évalue si une politique d'action tient réellement la route en conditions variables, un enjeu direct pour tout déploiement réel de robots mobiles guidés par le langage, où la latence de calcul et la fréquence de décision varient selon le matériel.

Sous encodeurs et réglages d'entraînement identiques, CoFL-S dépasse de façon constante les méthodes de référence à base de tokens d'action et de blocs d'action ("action-chunk"), quelle que soit la fréquence du planificateur testée. Les auteurs rapportent également un déploiement réel en zero-shot, en boucle fermée, où l'avantage de leur approche se confirme au-delà de la simulation, un point notable puisque le transfert sim-to-real reste l'un des obstacles les plus fréquemment cités dans la littérature VLN.

À lire aussi

Apprentissage par renforcement résiduel incrémental pour la navigation sociale en conditions réelles
1arXiv cs.RO 

Apprentissage par renforcement résiduel incrémental pour la navigation sociale en conditions réelles

Des chercheurs ont publié sur arXiv (réf. 2604.07945, version 2) une méthode baptisée IRRL, Incremental Residual Reinforcement Learning, conçue pour permettre aux robots mobiles d'apprendre à naviguer parmi les piétons directement dans des environnements physiques réels, sans passer par une étape de simulation exhaustive. L'approche combine deux mécanismes distincts : l'apprentissage incrémental, un processus léger qui ne nécessite ni replay buffer ni mise à jour par batch, et le RL résiduel, qui restreint l'apprentissage aux corrections à apporter par rapport à une politique de base préexistante. Les expériences couvrent à la fois des environnements simulés et des déploiements réels sur robot physique, avec pour cible explicite les dispositifs edge à ressources computationnelles contraintes. L'enjeu industriel est concret : la navigation sociale, faire circuler un robot autonome parmi des piétons en respectant les conventions implicites de déplacement, est un verrou majeur pour les AMR déployés dans des espaces publics, des entrepôts partagés ou des établissements de santé. Le problème du sim-to-real gap est ici particulièrement prononcé, car les dynamiques piétonnes varient fortement selon les régions, les cultures et les configurations d'espace, rendant toute couverture exhaustive par simulation illusoire. IRRL propose une réponse directe : laisser le robot continuer à apprendre une fois déployé, en se limitant aux résidus par rapport à une politique de base, ce qui réduit drastiquement la charge computationnelle. Les résultats publiés montrent des performances comparables aux méthodes classiques avec replay buffer en simulation, et une supériorité sur les approches d'apprentissage incrémental existantes. Les expériences en environnement réel confirment une adaptation effective à des situations inédites. Ces résultats restent toutefois à interpréter avec prudence : il s'agit d'un preprint académique, sans benchmark standardisé ni déploiement à l'échelle annoncé. Le domaine de la navigation sociale par deep RL est actif depuis plusieurs années, porté par des travaux comme CrowdNav (ICRA 2019) ou des méthodes basées sur ORCA et ses extensions apprenantes. L'approche résiduelle n'est pas nouvelle en soi, elle est notamment utilisée dans le contrôle de robots manipulateurs pour corriger une politique classique, mais son application à la navigation sociale en conditions réelles avec contrainte edge reste peu explorée. Aucune institution ni entreprise n'est identifiée dans l'abstract disponible, et aucun partenariat industriel ni pilote terrain n'est mentionné. Les prochaines étapes naturelles seraient une validation sur des plateformes AMR commerciales (type Clearpath ou unitree) et une confrontation aux benchmarks publics de navigation sociale tels que BARN ou SocNavBench.

RecherchePaper
1 source
GROVE : simulation de piétons fondée sur le langage naturel pour la navigation sociale interactive de robots
2arXiv cs.RO 

GROVE : simulation de piétons fondée sur le langage naturel pour la navigation sociale interactive de robots

GROVE (Grounded Robot-Oriented Vehicle Environment), présenté dans un preprint arXiv (2606.25504) déposé fin juin 2026, est un framework de simulation de piétons piloté par langage naturel, conçu pour entraîner et évaluer des robots de navigation sociale. Le système accepte des instructions textuelles pour générer des scénarios de simulation: trois presets préconfigurés couvrent les situations d'urgence, de file d'attente et de déplacement ordinaire, mais l'utilisateur peut aussi saisir un prompt libre pour obtenir un scénario entièrement personnalisé. Trois modules distincts gèrent respectivement le comportement humain à long horizon (trajectoires et intentions globales), la navigation piétonne à moyen horizon (évitement, flots de foule), et les interactions sociales à court horizon entre robot et individus. GROVE s'intègre nativement dans Isaac Sim (NVIDIA), Gazebo et RViz. Les scènes de validation couvrent des environnements résidentiels, hospitaliers et de bureau. Le principal verrou que GROVE cherche à lever est le coût de génération manuelle de données de simulation: aujourd'hui, produire un scénario crédible (couloir d'hôpital en heure de pointe, évacuation d'urgence) exige un travail de paramétrage fastidieux, répété à chaque variante. Déléguer cette configuration au langage naturel réduit la friction pour les équipes non-spécialistes et accélère la diversification des données d'entraînement. La sélection dynamique des algorithmes de l'état de l'art par module vise explicitement à comprimer le sim-to-real gap, défaillance structurelle qui pénalise le transfert des politiques apprises en simulation vers des robots déployés en milieu réel. Sur le papier, l'architecture modulaire permet aussi de mettre à jour chaque couche indépendamment quand un nouvel algorithme de navigation ou de prédiction de trajectoire devient disponible. La navigation sociale robotique est un champ actif depuis plus d'une décennie, avec des modèles fondateurs comme le Social Force Model et des outils de simulation existants (PedSim, pedsim\_ros, SEAN) qui imposaient des paramétrages rigides et manuels. GROVE s'inscrit dans une tendance plus large d'utilisation des LLM comme interface de configuration pour les pipelines de simulation, une direction explorée parallèlement dans la génération procédurale de scènes 3D. Important à noter: la validation présentée est uniquement qualitative, sans benchmark quantitatif sur des métriques standardisées comme celles de trajnet++ ou BARN. Les affirmations sur la "haute fidélité" de simulation restent donc à vérifier sur robot réel. Le preprint ne mentionne ni déploiement en production ni partenariat industriel.

RecherchePaper
1 source
MiniVLA-Nav v1 : un jeu de données de simulation multi-scènes pour la navigation robotique guidée par le langage
3arXiv cs.RO 

MiniVLA-Nav v1 : un jeu de données de simulation multi-scènes pour la navigation robotique guidée par le langage

MiniVLA-Nav v1 est un dataset de simulation publié sur HuggingFace pour la navigation robotique conditionnée par le langage naturel, tâche désignée LCOA (Language-Conditioned Object Approach). Un robot différentiel NVIDIA Nova Carter reçoit une instruction courte et doit atteindre l'objet nommé en s'arrêtant à moins d'un mètre. Le dataset couvre 1 174 épisodes dans quatre scènes Isaac Sim photoréalistes (bureau, hôpital, entrepôt complet, entrepôt à étagères multiples), chacun annoté avec images RGB 640x640, cartes de profondeur métriques float32, masques de segmentation d'instance et labels d'action à 60 Hz (commandes continues v/omega et tokenisation 7x7 via contrôleur proportionnel visuel). Trois tiers de distance d'initialisation (1,5-3,5 m, 3,5-7,0 m, et lointain curatés) assurent la diversité des trajectoires, avec une corrélation Pearson r=0,94 entre distance de départ et longueur. Douze catégories d'objets et 30 templates (18 d'entraînement, 12 hors distribution) structurent cinq splits d'évaluation. La rareté de données annotées pour entraîner des modèles VLA (Vision-Language-Action) orientés navigation reste un frein reconnu dans la communauté. MiniVLA-Nav v1 y répond avec un benchmark à cinq axes : précision en distribution, robustesse aux paraphrases et généralisation hors distribution sur de nouvelles catégories. La tâche LCOA isole délibérément le grounding linguistique, c'est-à-dire la capacité à relier une instruction verbale à un objet physique, sans mélanger avec la planification globale de chemin. Les labels moteurs continus à 60 Hz offrent une supervision plus fine que la majorité des datasets de navigation verbale existants, souvent limités à des waypoints discrets. La compatibilité native avec l'écosystème Isaac Sim et la plateforme Nova Carter facilite un éventuel transfert sim-to-real vers des robots physiques en milieu industriel ou hospitalier. Ce travail s'inscrit dans la lignée de R2R et REVERIE pour la navigation à instruction verbale, mais avec un focus bas niveau peu commun. La publication, signée Ali Bustami et déposée sur arXiv en mai 2025 (2605.00397), ne présente pas encore de modèle baseline entraîné sur ces données, ce qui en limite la portée empirique immédiate : c'est un dataset, pas une preuve de performance. L'écosystème concurrent inclut Meta AI avec Habitat, Allen AI avec AI2-THOR et plusieurs benchmarks récents de Google DeepMind, mais aucun ne cible spécifiquement le LCOA avec commandes continues à 60 Hz sur plateforme NVIDIA. Le dataset est librement accessible sur HuggingFace (alibustami/miniVLA-Nav), en attente d'un modèle VLA de référence et d'expériences de transfert sim-to-real sur robot physique.

RechercheOpinion
1 source
D-CLING : affinage conditionné par la profondeur pour les modèles fondation de navigation, avec préservation des connaissances antérieures
4arXiv cs.RO 

D-CLING : affinage conditionné par la profondeur pour les modèles fondation de navigation, avec préservation des connaissances antérieures

D-CLING est une méthode de fine-tuning pour les Navigation Foundation Models (NFM) présentée dans un preprint arXiv (2605.19690) par des chercheurs de Toyota Frontier Research Center. Les NFM sont des politiques visuomotrices entraînées sur de larges ensembles de données multi-robots, capables de naviguer dans des environnements variés. Le problème identifié est récurrent dans le déploiement terrain : adapter un NFM à un nouveau contexte par fine-tuning classique dégrade ses capacités, provoquant soit un évitement d'obstacles défaillant, soit une incapacité à atteindre les objectifs fixés. D-CLING s'inspire directement de ControlNet, l'architecture de contrôle conditionné développée pour les modèles de diffusion d'images, en attachant une copie entraînable du backbone pré-entraîné via des connexions résiduelles initialisées à zéro. Ce mécanisme permet au modèle d'acquérir des indices géométriques de profondeur sans écraser le prior pré-entraîné. Les évaluations en navigation réelle montrent une réduction significative des collisions et des interventions humaines sur des trajectoires longue distance. Le problème adressé est central pour la commercialisation des robots mobiles : les NFM généralistes sont puissants mais rarement utilisables sans adaptation sur un site spécifique. Le fine-tuning sur données locales provoque typiquement un phénomène d'érosion du prior, autrement dit l'oubli catastrophique des capacités acquises en pré-entraînement. En isolant l'apprentissage géométrique dans une branche parallèle non destructive, D-CLING préserve la généralisation du modèle de base tout en permettant une adaptation ciblée à la configuration caméra et à la géométrie de l'environnement. L'analyse offline montre que la méthode maintient, voire améliore, la prédiction d'actions au-delà du dataset de fine-tuning, un résultat structurant pour le continual learning en robotique mobile. Pour un intégrateur déployant des AMR avec une configuration optique non standard, cela ouvre une voie d'adaptation sans réentraînement complet du modèle. Toyota Frontier Research Center s'inscrit dans une dynamique plus large : plusieurs équipes industrielles cherchent à capitaliser sur les NFM généralistes issus de travaux de Google DeepMind, Stanford ou Berkeley, plutôt que de repartir de zéro par plateforme. Le transfert méthodologique depuis ControlNet illustre la porosité croissante entre la recherche en génération d'images et la robotique, notamment via les architectures à diffusion. Les concurrents directs incluent les adaptations LoRA appliquées aux politiques robotiques et les approches de domain adaptation sans ré-entraînement. D-CLING reste pour l'instant un preprint, sans benchmark standardisé publié ni déploiement à grande échelle annoncé ; les résultats sont prometteurs, mais la validation sur des environnements industriels diversifiés reste entière.

UEImpact indirect : les intégrateurs européens d'AMR déployant des modèles de navigation généralistes pourraient adopter cette méthode d'adaptation sans réentraînement complet, mais aucun acteur ou déploiement EU n'est impliqué à ce stade.

RechercheOpinion
1 source