FlashNav : entraînement ultra-rapide d'une…

Simulateur de monde interactif pour l'entraînement et l'évaluation des politiques de robots

44

1Robohub

Simulateur de monde interactif pour l'entraînement et l'évaluation des politiques de robots

Une équipe de recherche présente un simulateur de monde interactif destiné à l'entraînement et à l'évaluation de politiques robotiques, conçu pour remplacer une partie du travail réalisé aujourd'hui sur robot réel. Il s'agit d'un modèle de prédiction vidéo conditionné par l'action, entraîné sans aucun moteur physique intégré : à partir d'une image et d'une séquence d'actions robotiques, le système prédit les frames suivantes directement en pixels. Concrètement, un opérateur peut brancher un dispositif de téléopération et piloter un bras robotique à travers ce modèle appris pendant plus de dix minutes, à 15 images par seconde, sur une seule carte graphique RTX 4090, tout en conservant une vidéo stable et physiquement plausible. Le modèle a été entraîné sur quatre tâches de manipulation aux régimes physiques très différents : le poussage d'un objet en T (contact rigide), le routage d'une corde dans un clip (interaction déformable-rigide), la préhension d'une tasse (dynamique fine de la pince) et le balayage de tas d'objets. L'architecture repose sur deux étapes : un autoencodeur compresse d'abord les images RGB en représentations latentes compactes, puis un modèle de dynamique conditionné par l'action, entraîné dans cet espace latent gelé, prédit les états latents futurs qui sont ensuite décodés en images, de manière autorégressive. L'enjeu dépasse la simple démonstration technique. La collecte de démonstrations et l'évaluation de politiques sur robot réel restent les deux goulots d'étranglement classiques de l'apprentissage robotique : matériel qui casse, éclairage qui varie, objets qui dérivent, chaque nouvelle tâche exigeant des heures de manipulation en laboratoire. Si un simulateur appris atteint un niveau de fidélité suffisant, il devient possible de générer des données d'entraînement à moindre coût directement dans le simulateur, et surtout d'évaluer plusieurs politiques dans des conditions rigoureusement identiques et reproductibles, ce qu'un banc de test physique ne permet pas. Les exemples montrés, comme la distinction correcte entre une corde effectivement insérée dans un clip et une corde qui le frôle sans contact, ou la simulation d'une tasse qui glisse hors de la pince, suggèrent que le modèle capture des dynamiques fines sans recourir à des a priori physiques codés en dur, un point que le secteur observe de près depuis l'essor des modèles VLA (vision-language-action). Cette approche s'inscrit dans une lignée de travaux sur les "world models" appliqués à la robotique, où l'ambition est de remplacer les simulateurs physiques classiques, coûteux à construire et souvent imparfaitement fidèles à la réalité, par des modèles vidéo appris directement à partir de données d'interaction. Le projet met à disposition une démonstration interactive en ligne, jouable au clavier depuis un navigateur, ce qui permet une vérification indépendante des affirmations avancées. Les prochaines étapes attendues par le secteur portent sur le passage à l'échelle vers davantage de tâches et de configurations matérielles, ainsi que sur la démonstration effective que des politiques entraînées dans ce simulateur transfèrent avec succès vers des robots réels, condition encore non confirmée à ce stade par l'article.

RecherchePaper

1 source

RoamFlow : une politique de navigation par image-objectif alignée par renforcement en une seule étape

33

2arXiv cs.RO

RoamFlow : une politique de navigation par image-objectif alignée par renforcement en une seule étape

Des chercheurs ont publié en juin 2026 sur arXiv (2606.29934) RoamFlow, un framework de navigation robotique ciblant l'image-goal navigation : un robot mobile doit rejoindre une destination définie uniquement par une image de la cible, sans carte préétablie ni coordonnées GPS. Le système repose sur MeanFlow, une approche générative qui prédit le champ de vitesse moyen d'une trajectoire, réduisant le nombre d'étapes d'inférence par rapport à une diffusion itérative classique et abaissant ainsi la latence en conditions temps réel. L'entraînement se déroule en deux phases : une imitation d'expert pour initialiser la politique de manière stable, suivie d'un affinage par apprentissage par renforcement (RL) pour optimiser la performance sur la tâche cible. Les expériences sont conduites dans le simulateur Habitat de Meta et sur des plateformes robotiques physiques. L'intérêt de l'approche réside dans la combinaison d'une inférence rapide avec un modèle génératif, là où les politiques RL classiques peinent à modéliser des dépendances long-horizon et produisent des trajectoires sous-optimales. MeanFlow contourne le débruitage itératif des modèles de diffusion standards, un verrou réel pour les applications embarquées sous contraintes temps réel. La stratégie imitation-puis-RL adresse un problème bien documenté : le behavioral cloning seul ne généralise pas hors distribution, tandis que le RL pur est instable à l'initialisation. Toutefois, l'abstract ne fournit aucune métrique précise : ni taux de succès, ni temps de cycle, ni comparaison quantitative avec l'état de l'art, ce qui limite l'évaluation indépendante à ce stade de publication. Ce travail s'inscrit dans le champ de la navigation incarnée (embodied navigation), organisé autour des benchmarks Habitat de Meta, dont PointNav, ObjectNav et ImageNav. Les approches concurrentes combinent des transformers visuels avec du RL proximal (PPO), ou exploitent des modèles VLA comme pi0 de Physical Intelligence ou GR00T N2 de NVIDIA pour la généralisation inter-tâches. MeanFlow s'apparente aux travaux récents sur le flow matching appliqué à la robotique (Diffusion Policy, π0-flow), avec une reformulation par champ de vitesse moyen qui reste à valider à grande échelle et sur des benchmarks standardisés. Ce papier est un preprint arXiv, non encore évalué par les pairs, sans date de soumission à une conférence ni annonce de déploiement industriel.

RecherchePaper

1 source

Co-entraînement avec vidéo égocentrique et démonstration pour la navigation robotique

42

3arXiv cs.RO

Co-entraînement avec vidéo égocentrique et démonstration pour la navigation robotique

Des chercheurs ont publié sur arXiv (réf. 2606.01951) un cadre d'apprentissage par imitation pour robots mobiles qui exploite des vidéos égocentrées tournées par des humains en train de marcher. Le principe : estimer le mouvement de la caméra à partir de ces séquences piétonnes, puis convertir ce flux en représentations d'actions compatibles avec des robots mobiles au sol. Un modèle VLA (Vision-Language-Action) est ensuite entraîné conjointement sur ces données dérivées de vidéos humaines et sur des trajectoires collectées directement par le robot. Les expériences portent sur une tâche de navigation avec recherche de fruits, où le robot doit localiser des objets cibles dans un environnement non structuré en suivant des instructions en langage naturel. L'intérêt de cette approche réside dans sa réponse au principal goulot d'étranglement de la robotique apprise : la collecte de données sur robot réel est coûteuse, lente, et difficilement scalable. Si recycler des vidéos égocentrées humaines pour l'apprentissage de tâches de manipulation existe déjà dans la littérature (notamment via des datasets comme EPIC-Kitchens ou des pipelines type ACT), l'étendre à la navigation mobile reste difficile car les changements de point de vue lors de la locomotion créent des discontinuités que les modèles de manipulation ne rencontrent pas. Les résultats montrent que l'entraînement conjoint dépasse les deux sources de données prises isolément, aussi bien en compréhension du langage qu'en robustesse de génération d'actions. Cela valide partiellement l'hypothèse que le sim-to-human-video-to-real peut fonctionner pour la navigation, sans simulation physique. Ce travail s'inscrit dans une course plus large à la scalabilité des données pour les VLA, où des acteurs comme Physical Intelligence (pi0), Google DeepMind (RT-2, GR00T N2 pour Nvidia) ou Boston Dynamics cherchent des pipelines moins dépendants de la téléopération humaine sur robot. La navigation mobile reste moins couverte que la manipulation dans cette littérature, et ce papier ouvre une voie de co-training à moindre coût. Les prochaines étapes naturelles seraient d'évaluer la généralisation à des environnements plus complexes, de mesurer le ratio optimal données humaines/données robot, et de tester sur des plateformes AMR commerciales. Le code et les datasets ne sont pas encore publiés au moment de la soumission arXiv.

RechercheOpinion

1 source

EgoWalk : un jeu de données multimodal pour la navigation robotique en conditions réelles

44

4arXiv cs.RO

EgoWalk : un jeu de données multimodal pour la navigation robotique en conditions réelles

Une équipe de chercheurs a publié EgoWalk, un dataset multimodal de 50 heures de navigation humaine destiné à entraîner des algorithmes de navigation robotique en conditions réelles. Les données ont été collectées dans une grande variété d'environnements intérieurs et extérieurs, sur plusieurs saisons et sites géographiques différents. Le dataset comprend les données brutes ainsi qu'un format prêt pour l'apprentissage par imitation (Imitation Learning), accompagné de pipelines automatisés générant deux types de sous-datasets dérivés : des annotations d'objectifs en langage naturel et des masques de segmentation de traversabilité. L'ensemble des pipelines de traitement et la description de la plateforme matérielle utilisée pour la collecte sont publiés en open source. L'intérêt principal d'EgoWalk réside dans la rareté des datasets de navigation en conditions non contrôlées, à grande échelle et couvrant plusieurs saisons. La majorité des systèmes de navigation robotique actuels souffrent d'un écart sim-to-real persistant, faute de données réelles suffisamment diversifiées. En proposant simultanément des annotations langage naturel et des masques de traversabilité générés automatiquement, EgoWalk vise à réduire le coût de labellisation manuelle qui freine le développement de modèles vision-langage-action (VLA) pour la navigation outdoor. La publication open source des pipelines permet aux équipes de réplication de reconstruire des datasets similaires sur leur propre plateforme, ce qui est un signal positif pour la reproductibilité dans le domaine. La navigation autonome en environnements non structurés reste l'un des défis centraux de la robotique mobile, que ce soit pour les robots de livraison, les plateformes de surveillance ou les assistants mobiles. EgoWalk s'inscrit dans un mouvement plus large de constitution de datasets ego-centriques, aux côtés d'initiatives comme SCAND (UT Austin) ou des travaux de Boston Dynamics et de Google DeepMind sur la navigation en extérieur. Le fait que les données soient collectées du point de vue humain, plutôt que depuis un robot, soulève la question du transfert de domaine, que les auteurs reconnaissent implicitement en proposant des benchmarks et études de diversité. Les prochaines étapes naturelles seraient la validation sur des plateformes robotiques réelles et l'intégration dans des architectures de type foundation model pour la navigation.

RechercheActu

1 source

FlashNav : entraînement ultra-rapide d'une politique de navigation robotique en 20 secondes

À lire aussi

Simulateur de monde interactif pour l'entraînement et l'évaluation des politiques de robots

RoamFlow : une politique de navigation par image-objectif alignée par renforcement en une seule étape

Co-entraînement avec vidéo égocentrique et démonstration pour la navigation robotique

EgoWalk : un jeu de données multimodal pour la navigation robotique en conditions réelles