Aller au contenu principal
Wavelet Policy : apprentissage par imitation dans le domaine des échelles avec mémoire a priori du monde
IA physiquearXiv cs.RO6sem

Wavelet Policy : apprentissage par imitation dans le domaine des échelles avec mémoire a priori du monde

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Une équipe de chercheurs propose Wavelet Policy (arXiv:2504.04991), un framework léger d'apprentissage par imitation pour la manipulation robotique. L'approche combine deux innovations : une mémoire de scène persistante appelée World Prior Memory (WPM), qui encode la structure statique de l'environnement à partir d'images de fond dans des vecteurs compacts, et une modélisation des actions par décomposition en ondelettes (wavelet-domain decomposition). L'architecture résultante, baptisée Single-Encoder Multiple-Decoder (SE2MD), décompose les représentations latentes des actions en sous-bandes temporelles distinctes, reconstruites via transformée inverse avant d'être projetées en séquences d'actions exécutables. Validée sur quatre tâches simulées et six tâches réelles de manipulation robotique, la méthode surpasse les baselines de référence sur l'ensemble des benchmarks. Le code source, les données et les poids du modèle sur tâches simulées sont disponibles publiquement sur GitHub.

L'enjeu central est double. D'une part, les politiques visuomotrices classiques (ACT, Diffusion Policy) opèrent entièrement dans le domaine temporel et peinent à maintenir une conscience cohérente de la scène physique sur des horizons longs. D'autre part, les architectures à modèle du monde qui résolvent ce problème imposent un surcoût computationnel significatif, incompatible avec un déploiement embarqué sur robot. Wavelet Policy avance que la décomposition fréquentielle des représentations d'actions latentes suffit à capturer simultanément les composantes rapides (corrections fines) et lentes (planification gestuelle) sans recourir à un modèle du monde explicite. Pour les intégrateurs industriels et les équipes R&D embarquées, cela ouvre la voie à des politiques de manipulation longue-horizon déployables avec des ressources de calcul modestes.

Le travail s'inscrit dans une compétition intense sur les politiques visuomotrices généralisées : Physical Intelligence a publié π0 fin 2024 sur des tâches de manipulation complexes, NVIDIA a proposé GR00T N2 avec apprentissage par simulation, et des laboratoires académiques comme Stanford ou Berkeley poussent des variantes de Diffusion Policy et d'imitation par Transformer. Wavelet Policy se positionne comme une alternative légère, sans prétendre au déploiement sur robot humanoïde : les expériences réelles restent au stade du bras manipulateur en environnement contrôlé. Publié en version preprint (v4, avril 2025), le travail n'a pas encore fait l'objet d'une publication dans une conférence de rang A (ICRA, CoRL, RSS), ce qui invite à nuancer la portée des résultats annoncés avant validation par les pairs.

À lire aussi

NavOL : une politique de navigation par apprentissage par imitation en ligne
1arXiv cs.RO 

NavOL : une politique de navigation par apprentissage par imitation en ligne

NavOL est une approche d'apprentissage en ligne par imitation pour les politiques de navigation robotique, présentée dans un preprint arXiv (2605.11762) en mai 2026. Le système repose sur une politique de diffusion préentraînée qui projette des observations locales vers des waypoints futurs. Son apprentissage s'organise en boucle rollout-mise à jour : en phase de rollout, la politique agit dans un simulateur et interroge un planificateur global disposant d'un accès privilégié à l'environnement complet pour obtenir des segments de trajectoire optimaux comme labels de référence ; en phase de mise à jour, la politique s'entraîne sur ces paires observation-trajectoire collectées en ligne. Construit sur IsaacLab avec rendu parallèle haute fidélité et randomisation de domaine (pose de caméra, paires départ-arrivée), le système s'entraîne simultanément sur 50 scènes sur 8 GPU RTX 4090, collectant plus de 2 000 trajectoires nouvelles par heure, chacune comptant en moyenne plus de 400 pas. Les auteurs introduisent également un benchmark de navigation visuelle en intérieur avec des positions de départ et d'arrivée prédéfinies, conçu pour évaluer la généralisation zéro-shot. NavOL s'attaque à deux blocages classiques de la navigation robotique autonome : le décalage de distribution de l'imitation hors ligne, qui génère des erreurs composées lors du déploiement réel, et la nécessité de concevoir des fonctions de récompense pour l'apprentissage par renforcement. En entraînant la politique sur ses propres rollouts explorés plutôt que sur un corpus statique, le système réduit ce gap de manière plus systématique. Le volume de données généré automatiquement (2 000+ trajectoires/heure) et les gains de performance cohérents sur le benchmark NavDP ainsi que sur le benchmark propriétaire des auteurs indiquent que l'approche pourrait remplacer des pipelines de collecte de données expertes coûteux pour les intégrateurs travaillant sur la navigation en intérieur structuré. Les politiques de navigation visuelle pour robots mobiles constituent un champ actif, avec des approches récentes comme les VLA (Vision-Language-Action models) et les politiques de diffusion qui cherchent à généraliser sans reward engineering. NavOL s'inscrit dans cette dynamique en exploitant IsaacLab, le simulateur d'NVIDIA, pour un entraînement massivement parallèle requérant 8 GPU RTX 4090 haut de gamme. Un point de vigilance : les expériences en conditions réelles mentionnées dans le papier restent peu détaillées dans le résumé, et la performance en simulation peut diverger significativement des résultats terrain, un écart (sim-to-real gap) que ce type d'approche prétend atténuer sans nécessairement le supprimer. Les prochaines étapes naturelles concerneraient l'évaluation sur des environnements extérieurs plus ouverts et l'intégration avec des VLA pour des tâches impliquant un raisonnement sémantique plus riche.

IA physiqueActu
1 source
CLAW : apprentissage de modèles du monde à actions latentes continues par régularisation latente adversariale
2arXiv cs.RO 

CLAW : apprentissage de modèles du monde à actions latentes continues par régularisation latente adversariale

Des chercheurs ont publié sur arXiv (2606.04130) un cadre d'apprentissage auto-supervisé baptisé CLAW (Continuous Latent Action World Models via Adversarial Latent Regularization), conçu pour apprendre simultanément un modèle du monde et des représentations d'actions latentes continues à partir de vidéos non annotées. La méthode ne nécessite aucun label d'action : elle s'appuie sur une régularisation adversariale des représentations latentes et sur la génération vidéo par diffusion pour inférer une structure sémantique des actions directement depuis les transitions visuelles observées. Le modèle d'action latente (LAM) et le modèle du monde sont entraînés conjointement en bout en bout, permettant au système de raisonner sur la façon dont les actions inférées induisent des transitions dans l'environnement. CLAW supporte deux modes d'utilisation : le clonage comportemental par imitation depuis l'observation, où les actions latentes extraites de vidéos brutes suffisent à reproduire un comportement, et la planification dirigée par objectif, où le système génère des séquences d'actions latentes puis les mappe vers des actions exécutables. L'enjeu central ici est l'accès aux données. La robotique souffre d'un déficit chronique de données d'entraînement annotées avec des paires (observation, action), car les capteurs proprioceptifs et la capture de mouvement sont coûteux. CLAW ouvre la voie à l'exploitation de vidéos tierces non instrumentées, comme des démonstrations humaines filmées ou des contenus web, pour entraîner des politiques et des planificateurs. Si les résultats se confirment hors laboratoire, cela réduit drastiquement le coût de collecte de données pour les intégrateurs robotiques et les équipes d'ingénierie travaillant sur le transfer sim-to-real. Les auteurs rapportent des performances supérieures aux méthodes existantes sur des tâches variées et plusieurs morphologies robotiques, bien que les benchmarks spécifiques et les métriques quantitatives détaillées ne soient pas accessibles dans l'abstract seul. CLAW s'inscrit dans un courant de recherche actif sur les modèles d'actions latentes (LAM), dont les travaux fondateurs incluent LAPO et des approches basées sur des modèles de dynamique inversale (IDM). Il se distingue en combinant génération par diffusion et régularisation adversariale là où ses prédécesseurs utilisaient souvent des encodeurs déterministes ou des VQ-VAE. Les concurrents directs dans l'espace des world models pour la robotique comprennent UniSim (Google DeepMind), GAIA-1 (Wayve) côté génération vidéo, et des approches VLA comme pi-0 (Physical Intelligence) ou GR00T N2 (NVIDIA) côté politique. CLAW se positionne en amont de ces pipelines, comme brique d'apprentissage de représentation plutôt que comme politique complète. Les prochaines étapes naturelles seront une validation sur des environnements physiques réels et l'intégration dans des boucles de fine-tuning pour des robots humanoïdes ou manipulateurs.

IA physiqueOpinion
1 source
Tirer parti des échecs : apprentissage adaptatif pour les modèles vision-langage-action (VLA)
3arXiv cs.RO 

Tirer parti des échecs : apprentissage adaptatif pour les modèles vision-langage-action (VLA)

Les modèles Vision-Language-Action (VLA), qui combinent perception visuelle, instructions en langage naturel et génération de commandes motrices, dominent la recherche en manipulation robotique généraliste. Leur faiblesse structurelle : entraînés exclusivement sur des démonstrations réussies par clonage comportemental, ils deviennent cassants dès qu'une erreur d'exécution les place hors distribution, les erreurs se cumulant jusqu'à des états non récupérables. Des chercheurs proposent sur arXiv (2605.08434, mai 2026) AFIL (Adaptive Failure-Informed Learning), un framework qui intègre les trajectoires d'échec comme signal de guidage négatif dans les politiques VLA diffusion-based. AFIL exploite un VLA pré-entraîné pour générer automatiquement des rollouts échoués en ligne, sans annotation manuelle ni supervision humaine, puis entraîne deux générateurs d'actions parallèles (Dual Action Generators, DAG) partageant un backbone vision-langage commun pour un surcoût paramétrique modeste. À l'inférence, le DAG dédié aux échecs oriente la génération loin des zones à risque, avec une force de guidage proportionnelle à la distance entre distributions de succès et d'échec à chaque étape de diffusion. Les expériences sur des tâches courte et longue portée, en domaine et hors domaine, montrent des gains constants en taux de succès face aux baselines VLA existants. Ce résultat touche un point critique du déploiement industriel : Pi-0 (Physical Intelligence), GR00T N2 (NVIDIA) et OpenVLA partagent cette vulnérabilité inhérente au behavioral cloning pur, où l'absence de signal correctif laisse le robot sans mécanisme de récupération. AFIL se distingue parce qu'il ne requiert ni données d'échec labellisées ni boucle de retour humaine, ce qui le rend potentiellement scalable pour des pipelines de production à grande échelle. Sa robustesse hors domaine est particulièrement pertinente pour les intégrateurs industriels qui déploient des robots dans des environnements variables non couverts par les jeux d'entraînement. Le travail s'inscrit dans la vague des politiques diffusion-based initiée par Diffusion Policy (Chi et al., 2023), que Physical Intelligence a popularisée avec Pi-0 et que suivent de près des acteurs européens comme Enchanted Tools, dont le robot humanoïde Mirokaï est développé en France. Face à la fragilité du behavioral cloning, des approches concurrentes coexistent : DAgger (agrégation de données avec supervision interactive), apprentissage par renforcement, ou récupération par planification symbolique. AFIL se positionne comme une solution à intégration native dans le processus de diffusion, sans rupture architecturale. L'article reste une prépublication arXiv, sans évaluation par les pairs ni déploiement terrain annoncé.

UEEnchanted Tools (Paris), dont le robot Mirokaï repose sur des politiques diffusion-based similaires, est directement concernée par cette avancée qui pourrait renforcer la robustesse de ses pipelines VLA sans rupture architecturale.

💬 Le behavioral cloning pur, c'est élégant sur le papier, et fragile dès le premier écart en conditions réelles. Ce qui est malin dans AFIL, c'est qu'il génère lui-même les données d'échec, sans annotation humaine, ce qui rend ça scalable sans exploser le budget data. Les gens d'Enchanted Tools, qui bossent sur exactement ce type de politiques diffusion-based avec Mirokaï, ont matière à creuser.

IA physiqueOpinion
1 source
Système de collecte de données visuo-tactiles avec retour haptique pour l'apprentissage par imitation du grossier au précis
4arXiv cs.RO 

Système de collecte de données visuo-tactiles avec retour haptique pour l'apprentissage par imitation du grossier au précis

Des chercheurs ont publié sur arXiv (référence 2605.08757) un système de collecte de données visuo-tactile conçu pour générer des démonstrations de manipulation riches en contacts, destinées à l'apprentissage par imitation. Le dispositif repose sur une pince à entraînement direct que l'opérateur actionne directement avec ses doigts, préservant ainsi le retour haptique naturel pendant l'exécution des tâches. Des capteurs visuels embarqués et des réseaux de capteurs tactiles personnalisés capturent simultanément des flux d'images et la géométrie des contacts. Un bouton-poussoir monté sur la poignée permet à l'opérateur d'annoter en temps réel la structure temporelle de la tâche, en marquant les phases critiques au moment même où elles se produisent. L'ensemble produit des jeux de données multimodaux structurés temporellement, exploitables par des algorithmes d'apprentissage "coarse-to-fine" (du grossier au fin). L'apport principal est d'ordre méthodologique : les systèmes de téleopération conventionnels dissocient l'opérateur des forces de contact, ce qui empêche de démontrer les modulations fines de force nécessaires à des manipulations précises, serrage d'une pièce fragile, insertion avec ajustement, assemblage à faible jeu. En couplant la perception des forces en main avec une annotation temporelle in situ, le système permet de produire des politiques de manipulation de meilleure qualité sans augmenter le volume de données collectées. Pour les intégrateurs qui cherchent à déployer des robots sur des tâches de contact (assemblage, tri délicat, industrie pharmaceutique), c'est une piste sérieuse pour réduire le "demo gap" entre les démonstrations humaines et ce que le robot reproduit réellement. Ce travail s'inscrit dans une dynamique intense autour de la collecte de données de haute qualité pour le robot learning. Les architectures de référence actuelles, ALOHA et ACT de Stanford, UMI de Columbia, ou encore les systèmes de Physical Intelligence derrière pi-0, ont montré que la qualité des démonstrations prime souvent sur leur quantité. Là où ALOHA mise sur la téleopération bimanuelle et UMI sur la portabilité via poignée universelle, ce système parie sur la boucle haptique fermée et l'annotation sémantique embarquée. Aucun déploiement industriel ni partenaire commercial n'est mentionné à ce stade : il s'agit d'une contribution de recherche, sans timeline de productisation annoncée.

IA physiquePaper
1 source