Instrumentation pour l'apprentissage par imitation : enrichissement des données d'entraînement pour l'insertion de cintres
Des chercheurs ont publié en mai 2026 sur arXiv (2605.23847) une étude portant sur l'instrumentation des objets manipulés comme levier pour améliorer l'apprentissage par imitation en robotique. La tâche choisie est l'insertion d'un cintre sur une tringle, opération représentative des défis de manipulation fine avec contact. L'équipe a collecté 180 démonstrations téléopérées pour entraîner des politiques de diffusion (diffusion policies), en comparant des variantes avec et sans accès aux données d'instrumentation, c'est-à-dire des capteurs intégrés directement dans l'objet manipulé plutôt que dans le robot. Les résultats montrent que les politiques exploitant ces signaux surpassent les variantes vision-only de 14 à 25 points de pourcentage, avec une meilleure conscience de la tâche. Point notable : une politique boîte noire apprend à prioriser spontanément les signaux capteurs sans guidage explicite lors de l'entraînement. Une approche student-teacher complète le tableau : en enrichissant le jeu de données avec des rollouts générés par un expert instrumenté, une politique vision-only étudiante atteint des performances comparables à cet expert, surpassant ainsi la ligne de base vision-only originale. Les datasets sont disponibles sur Zenodo.
Ce résultat adresse un verrou structurel du domaine : les grands modèles de comportement (large behaviour models) pour la manipulation robotique restent bridés par des exigences de données prohibitives, contrairement aux modèles de vision-langage qui ont pu capitaliser sur des corpus massifs issus d'internet. L'instrumentation des objets, en fournissant des informations d'état précises sur les contacts et les forces lors de chaque démonstration, augmente la densité informationnelle sans multiplier le nombre de démos. L'approche student-teacher est particulièrement stratégique pour le déploiement industriel : elle permet de distiller la connaissance sensorielle dans un modèle déployable avec une simple caméra, sans instrumentation permanente de la production.
Ces travaux s'inscrivent dans une dynamique plus large autour des politiques de diffusion en manipulation, popularisées par Chi et al. (2023) et intégrées dans des systèmes comme Pi-0 (Physical Intelligence) ou ACT. La piste de l'instrumentation rejoint des efforts parallèles sur les peaux tactiles et les capteurs force-couple, explorés notamment par MIT CSAIL, ETH Zurich, et des équipes INRIA côté européen. La portée reste cependant à nuancer : 180 démos sur une tâche de laboratoire contrôlée ne constitue pas une validation à l'échelle industrielle, et les auteurs ne rapportent aucune expérience en environnement de production réel. La mise à disposition publique des données sur Zenodo ouvre toutefois la voie à des reproductions et extensions indépendantes sur des tâches plus complexes.
Les équipes INRIA et laboratoires européens travaillant sur les politiques de diffusion pour la manipulation peuvent directement exploiter les datasets publics Zenodo et reproduire l'approche student-teacher pour améliorer l'efficacité de leurs pipelines d'apprentissage par imitation.
Dans nos dossiers




