Aller au contenu principal
NavOL : une politique de navigation par apprentissage par imitation en ligne
IA physiquearXiv cs.RO6sem

NavOL : une politique de navigation par apprentissage par imitation en ligne

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

NavOL est une approche d'apprentissage en ligne par imitation pour les politiques de navigation robotique, présentée dans un preprint arXiv (2605.11762) en mai 2026. Le système repose sur une politique de diffusion préentraînée qui projette des observations locales vers des waypoints futurs. Son apprentissage s'organise en boucle rollout-mise à jour : en phase de rollout, la politique agit dans un simulateur et interroge un planificateur global disposant d'un accès privilégié à l'environnement complet pour obtenir des segments de trajectoire optimaux comme labels de référence ; en phase de mise à jour, la politique s'entraîne sur ces paires observation-trajectoire collectées en ligne. Construit sur IsaacLab avec rendu parallèle haute fidélité et randomisation de domaine (pose de caméra, paires départ-arrivée), le système s'entraîne simultanément sur 50 scènes sur 8 GPU RTX 4090, collectant plus de 2 000 trajectoires nouvelles par heure, chacune comptant en moyenne plus de 400 pas. Les auteurs introduisent également un benchmark de navigation visuelle en intérieur avec des positions de départ et d'arrivée prédéfinies, conçu pour évaluer la généralisation zéro-shot.

NavOL s'attaque à deux blocages classiques de la navigation robotique autonome : le décalage de distribution de l'imitation hors ligne, qui génère des erreurs composées lors du déploiement réel, et la nécessité de concevoir des fonctions de récompense pour l'apprentissage par renforcement. En entraînant la politique sur ses propres rollouts explorés plutôt que sur un corpus statique, le système réduit ce gap de manière plus systématique. Le volume de données généré automatiquement (2 000+ trajectoires/heure) et les gains de performance cohérents sur le benchmark NavDP ainsi que sur le benchmark propriétaire des auteurs indiquent que l'approche pourrait remplacer des pipelines de collecte de données expertes coûteux pour les intégrateurs travaillant sur la navigation en intérieur structuré.

Les politiques de navigation visuelle pour robots mobiles constituent un champ actif, avec des approches récentes comme les VLA (Vision-Language-Action models) et les politiques de diffusion qui cherchent à généraliser sans reward engineering. NavOL s'inscrit dans cette dynamique en exploitant IsaacLab, le simulateur d'NVIDIA, pour un entraînement massivement parallèle requérant 8 GPU RTX 4090 haut de gamme. Un point de vigilance : les expériences en conditions réelles mentionnées dans le papier restent peu détaillées dans le résumé, et la performance en simulation peut diverger significativement des résultats terrain, un écart (sim-to-real gap) que ce type d'approche prétend atténuer sans nécessairement le supprimer. Les prochaines étapes naturelles concerneraient l'évaluation sur des environnements extérieurs plus ouverts et l'intégration avec des VLA pour des tâches impliquant un raisonnement sémantique plus riche.

Dans nos dossiers

À lire aussi

Optimisation de politique par dérive : apprentissage natif en une étape pour le contrôle robotique en ligne
1arXiv cs.RO 

Optimisation de politique par dérive : apprentissage natif en une étape pour le contrôle robotique en ligne

Une équipe de chercheurs publie sur arXiv (réf. 2604.03540, version 3) un cadre en deux étapes baptisé Drift-Based Policy Optimization (DBPO), conçu pour ramener les politiques génératives de manipulation robotique à une seule passe de réseau au moment de l'inférence. La première brique, la Drift-Based Policy (DBP), exploite des objectifs de "fixed-point drifting" pour internaliser le raffinement itératif directement dans les paramètres du modèle pendant l'entraînement, supprimant ainsi le besoin de débruitage multi-étapes à l'exécution. La seconde brique, DBPO, greffe sur ce backbone une interface stochastique compatible avec le renforcement en ligne, autorisant des mises à jour on-policy stables sans sacrifier la propriété de déploiement en une étape. Sur un robot bi-bras réel, le système atteint 105,2 Hz en boucle fermée, soit une fréquence comparable aux contrôleurs industriels classiques. Sur les benchmarks de manipulation, DBP égale ou dépasse les politiques de diffusion multi-étapes tout en réduisant le coût d'inférence jusqu'à un facteur 100 en nombre d'évaluations réseau (NFEs). Ce résultat touche directement l'un des verrous les plus concrets du déploiement de politiques diffusion en robotique : le coût computationnel à l'inférence. Les politiques de diffusion actuelles (Diffusion Policy, Chi et al., 2023) nécessitent typiquement 10 à 100 NFEs par action, ce qui les rend incompatibles avec du contrôle haute fréquence sans accélérateur dédié. Transférer ce coût vers l'entraînement plutôt que l'inférence change le profil économique du déploiement : un robot en production n'a plus besoin de GPU haut de gamme pour tourner en temps réel. Par ailleurs, coupler une politique one-step avec du renforcement en ligne ouvre la voie à une adaptation continue post-déploiement, hypothèse clé pour les environnements industriels non-structurés. Les politiques de diffusion pour la manipulation ont émergé comme référence de facto depuis 2022-2023, portées par des travaux comme Diffusion Policy ou les architectures VLA de Physical Intelligence (pi0) et d'autres. La course à réduire leur latence a produit plusieurs approches concurrentes : distillation de consistance (Consistency Policy), flow matching en une étape (comme dans certaines variantes de pi0-fast), ou encore les politiques à action chunking. DBPO s'inscrit dans cette compétition avec une approche qui revendique de préserver la modélisation multimodale tout en atteignant la vitesse des méthodes one-shot. Les prochaines étapes naturelles seraient un test à plus grande échelle de tâches et de morphologies robotiques, ainsi qu'une validation sur des plateformes humanoïdes telles que celles de Figure AI ou 1X Technologies, pour lesquelles la fréquence de contrôle est un critère de sécurité, pas seulement de performance.

UELes équipes de recherche et industriels européens en robotique manipulatrice pourraient réduire leurs besoins en accélérateurs GPU à l'inférence en adoptant cette approche, mais aucun acteur français ou européen n'est directement impliqué.

IA physiquePaper
1 source
Apprentissage par imitation à partir de données sous-optimales en robotique : la politique de diffusion ambiante
2arXiv cs.RO 

Apprentissage par imitation à partir de données sous-optimales en robotique : la politique de diffusion ambiante

Des chercheurs ont publié le 12 juin 2026 un article sur arXiv (2606.12365) présentant l'Ambient Diffusion Policy, une méthode d'apprentissage par imitation conçue pour exploiter des données de démonstration sous-optimales en robotique. Le problème de fond est économique : collecter des données de haute qualité, spécifiques à une tâche, reste coûteux et chronophage, tandis que des datasets hétérogènes, bruités ou hors distribution sont abondants. La méthode introduit un nouvel axe de co-entraînement fondé sur le bruit : la contribution des données sous-optimales est restreinte aux seuls niveaux de bruit élevés et faibles dans le processus de diffusion, plutôt que sur l'ensemble des timesteps d'entraînement. Cette sélectivité permet d'extraire les caractéristiques utiles tout en neutralisant les signaux parasites. Testée sur six tâches couvrant quatre types de données dégradées (trajectoires bruitées, écart sim-to-réel, désalignement de tâche, mélanges de datasets à grande échelle), la méthode surpasse les baselines de co-entraînement existantes de jusqu'à 33% sur Open X-Embodiment, un dataset public de référence regroupant des données robotiques hétérogènes issues de multiples plates-formes. L'impact pour les intégrateurs et les équipes R&D est direct : l'un des goulots d'étranglement majeurs du déploiement de politiques de contrôle apprises n'est plus la quantité de données parfaites disponibles, mais la capacité à valoriser des données imparfaites déjà collectées. La justification théorique repose sur l'observation que les données d'action robotique suivent une loi de puissance spectrale, ce qui induit deux propriétés exploitables dans les Diffusion Policies : une hiérarchie global-to-local et une propriété de localité. Ces propriétés permettent de comprendre pourquoi les niveaux de bruit extrêmes encodent respectivement la structure globale du mouvement et les détails fins, et donc pourquoi la restriction de la contribution des données sous-optimales à ces deux régimes fonctionne. C'est un résultat notable : la méthode n'exige pas de filtrage préalable ni de pondération manuelle des sources, ce qui simplifie le pipeline d'ingestion de données. L'Ambient Diffusion Policy s'inscrit dans le sillage des Diffusion Policies (Chi et al., 2023, Columbia University), devenues une référence dans le contrôle robotique par imitation depuis leur démonstration sur des tâches de manipulation précise. Le co-entraînement sur données hétérogènes est un défi actif, notamment pour les grandes politiques généralistes comme RT-2, Octo ou OpenVLA, qui s'appuient sur Open X-Embodiment. L'approche "Ambient" s'inspire des travaux sur l'apprentissage par diffusion à partir de données corrompues (Gokaslan et al., 2023), ici réinterprétés pour le contexte robotique. Les concurrents directs incluent les méthodes de filtrage par récompense (IQL, AWR) et les approches de pondération implicite comme DWSL. La prochaine étape naturelle, non annoncée dans l'article, serait une intégration dans des pipelines de fine-tuning de politiques fondatrices (foundation policies) où la qualité des données de démonstration spécifiques au site de déploiement reste variable.

UELes équipes R&D robotique françaises et européennes travaillant sur des politiques d'imitation peuvent directement exploiter la méthode pour valoriser leurs datasets de démonstration hétérogènes existants, réduisant le coût de collecte de données haute qualité pour le déploiement industriel ou humanoïde.

IA physiquePaper
1 source
Apprentissage en boucle fermée d'un modèle du monde vidéo et d'une politique VLA
3arXiv cs.RO 

Apprentissage en boucle fermée d'un modèle du monde vidéo et d'une politique VLA

Une équipe de chercheurs a publié en février 2026 sur arXiv (identifiant 2602.06508v2) World-VLA-Loop, un cadre d'entraînement qui couple un modèle de monde vidéo et une politique VLA (Vision-Language-Action) dans une boucle d'amélioration mutuelle. Le problème de départ est concret : raffiner une politique VLA par apprentissage par renforcement (RL) dans le monde physique coûte cher, entre les rollouts répétés, les remises à l'état initial, la supervision humaine et les risques de sécurité. Les approches existantes utilisent des modèles de monde vidéo conditionnés sur les actions comme simulateurs virtuels, mais ces simulateurs peinent à reproduire les échecs proches du succès ("near-success failures") et ne produisent pas nativement de signal de récompense. World-VLA-Loop propose deux innovations fondamentales : SANS, un protocole de curation qui mélange délibérément trajectoires réussies et trajectoires quasi-réussies pour améliorer l'alignement action-résultat ; et un modèle de monde vidéo "state-aware" qui prédit simultanément frames futures et récompenses binaires à partir des latents de diffusion, intégrant l'estimation de récompense directement dans le générateur plutôt que dans un module séparé. L'apport principal est d'adresser le problème du décalage de distribution dynamique. Lorsqu'une politique VLA évolue pendant le RL, un simulateur figé se désaligne progressivement avec la politique mise à jour. World-VLA-Loop ferme cette boucle en réinjectant les rollouts de chaque politique améliorée pour affiner le modèle de monde, lequel alimente à son tour le post-entraînement VLA suivant. Cette co-évolution itérative réduit la dépendance aux interactions physiques coûteuses. Les expériences couvrent des environnements de simulation et des robots réels, avec des améliorations de performance significatives annoncées, bien que les métriques précises et les benchmarks ne soient pas détaillés dans le résumé disponible, ce qui limite l'évaluation indépendante à ce stade. Ce travail s'inscrit dans l'essor rapide des politiques VLA depuis 2024 : Pi-0 de Physical Intelligence, GR00T N2 de NVIDIA, OpenVLA ou Helix de Figure AI constituent l'écosystème de référence. L'enjeu commun est de dépasser le behavior cloning pur pour intégrer du RL sans exploser les coûts de collecte de données réelles. World-VLA-Loop reste un preprint académique en attente de révision par les pairs, sans déploiement industriel annoncé. Les concurrents directs sur la thématique des world models appliqués à la robotique incluent DreamerV3 et les approches de Google DeepMind. Les prochaines étapes naturelles seraient une validation sur des tâches de manipulation plus complexes et une comparaison quantitative publiée contre ces baselines.

IA physiqueOpinion
1 source
Apprentissage de la navigation au dernier mètre par catégorie à partir de démonstrations RGB d'une instance unique
4arXiv cs.RO 

Apprentissage de la navigation au dernier mètre par catégorie à partir de démonstrations RGB d'une instance unique

Des chercheurs du RPM Lab de l'Université du Minnesota présentent dans un preprint arXiv (2512.11173v3) un framework d'imitation learning pour la navigation au "dernier mètre" d'un robot manipulateur mobile quadrupède. L'enjeu : positionner la base du robot à quelques centimètres de l'objet cible avant toute action de manipulation, une phase où les systèmes RGB existants échouent, ne garantissant qu'une précision métrique insuffisante. Le système n'utilise que des caméras RGB embarquées et fonctionne avec trois entrées : des images objectif, des observations RGB multi-vues, et un prompt texte nommant l'objet cible. Un module de segmentation guidé par le langage et un décodeur de matrice de score spatial gèrent l'ancrage de l'objet et le raisonnement en pose relative. Entraîné sur une seule instance physique par catégorie, le système atteint 74,58 % de succès en edge-alignment (évaluation sur l'orientation réelle) et 89,42 % en object-alignment sur des instances et environnements inédits, y compris avec des conditions d'éclairage et de fond difficiles. Ce résultat comble un angle mort structurel de la manipulation mobile : les politiques de manipulation sont entraînées sur des configurations précises, et un positionnement approximatif suffit à les faire sortir de leur distribution d'entraînement, causant des échecs en chaîne à l'exécution. Supprimer LiDAR, capteurs de profondeur et cartes préalables tout en conservant une précision centimétrique rend le pipeline nettement plus déployable sur des plateformes sans capteurs premium. La généralisation catégorielle (une seule démonstration réelle, des dizaines d'instances inconnues) réduit massivement le coût de collecte de données, un verrou majeur pour la manipulation hors environnement contrôlé. Ce travail s'inscrit dans la dynamique des VLA (Vision-Language-Action) qui cherchent à unifier perception, langage et action dans des politiques généralisables. Les acteurs dominants sur la manipulation mobile incluent Physical Intelligence (Pi-0), Figure AI et les équipes académiques de Stanford et CMU, qui investissent massivement dans la collecte de données téléopérées à grande échelle. L'approche ici contraste délibérément : une seule démonstration par catégorie plutôt que des milliers d'épisodes. Ce résultat reste un démonstrateur académique sans déploiement industriel annoncé ni partenaire B2B identifié, mais une page projet avec des démonstrations visuelles est disponible en ligne.

IA physiqueActu
1 source