
Apprentissage de la manipulation d'objets depuis zéro par interaction contrastive
Une équipe de chercheurs propose sur arXiv (réf. 2606.11525, juin 2025) une méthode baptisée Interaction-weighted Resampling (IWR) pour améliorer l'apprentissage par renforcement contrastif (CRL) appliqué à la manipulation robotique. Le CRL apprend des représentations structurées des dynamiques pour résoudre des tâches conditionnées par objectif, mais peinait à gérer les contacts et les saisies. L'article formalise ce problème en modélisant la dynamique de manipulation comme un processus de Markov lisse par morceaux : les changements de mode induits par les contacts créent des structures d'accessibilité non linéaires que les fonctions d'énergie CRL standard ne représentent pas correctement. L'IWR rééchantillonne de manière pondérée autour des trois phases clés (avant, pendant et après le contact) pour que la représentation apprise préserve ces frontières de mode. En simulation, la méthode améliore de 19,8 % en moyenne les performances par rapport aux méthodes CRL existantes sur plusieurs environnements (contrôle 2D dynamique, manipulation, hockey sur table). En transfert sim-to-real, un agent de hockey sur table conditionné par objectif voit son taux de réussite passer de 25 % à 60 %.
Ce résultat est notable pour les équipes qui misent sur le RL pur pour la manipulation, un domaine dominé depuis 2023 par l'imitation learning et les politiques de diffusion comme ACT, Diffusion Policy ou pi-0. Le principal obstacle, la discontinuité dynamique liée aux contacts, était jusqu'ici contourné par des démonstrations humaines ou des curricula manuels ; IWR propose une approche mathématiquement fondée pour l'attaquer sans supervision. La progression de 25 % à 60 % en conditions réelles reste cependant modeste, et le domaine de test (hockey sur table planaire, tâche répétitive et bien contrainte) est éloigné de la dextérité multidimensionnelle requise en milieu industriel. Aucune comparaison directe avec des architectures VLA ou diffusion policy sur des benchmarks communs n'est fournie dans le preprint.
Le CRL pour la manipulation avait été porté par des travaux issus de Berkeley et de Google DeepMind (GCRL, QuaSAR), sans jamais franchir le verrou du contact-rich. Ce preprint arXiv de juin 2025, non encore soumis à peer-review, s'inscrit dans un effort académique plus large face à la montée en puissance des VLA comme pi-0 de Physical Intelligence ou GR00T N2 de NVIDIA. Aucun partenaire industriel ni calendrier de déploiement n'est mentionné ; le projet reste à un stade de recherche fondamentale. Le code et les démonstrations vidéo sont disponibles sur la page projet IWR-arxiv.github.io.




