
Apprentissage par imitation : sélection efficace des données d'échec via les différences de distribution dans l'attention
Des chercheurs ont déposé sur arXiv en mai 2026 (arXiv:2605.07560) une méthode visant à exploiter les démonstrations d'échec dans l'apprentissage par imitation pour la robotique. La quasi-totalité des politiques d'imitation sont actuellement entraînées exclusivement sur des démonstrations réussies, bien que la collecte humaine produise inévitablement une proportion significative d'échecs. La méthode proposée apprend des représentations latentes des divergences succès-échec et les intègre dans le mécanisme d'attention du réseau, permettant au système de sélectionner au moment de l'inférence un mode latent adapté à partir de l'observation initiale. Les auteurs introduisent également une métrique post-entraînement qui quantifie la divergence d'attention entre chaque démonstration d'échec et le corpus de succès, afin de filtrer automatiquement les échantillons d'échec réellement bénéfiques à l'apprentissage.
L'enjeu est considérable pour les pipelines industriels de collecte de données robotiques : une fraction structurelle des démonstrations humaines sont des échecs, jusqu'ici systématiquement écartés ou nécessitant un traitement manuel coûteux. Les approches existantes pour exploiter ces données s'appuient généralement sur des mises à jour itératives de la politique via des rollouts autonomes, ce qui complique leur intégration stable et directe dans un pipeline de production. Cette méthode opère en revanche directement sur les données brutes collectées sans itérations supplémentaires, ce qui la rend potentiellement plus accessible pour des équipes travaillant en conditions réelles de déploiement. Les résultats en simulation montrent une amélioration des taux de succès par rapport à un entraînement basé uniquement sur des démonstrations réussies, et la métrique proposée identifie correctement les échantillons d'échec dont l'ajout est bénéfique.
L'apprentissage par imitation est devenu un paradigme central en robotique manipulatrice, porté par des architectures comme ACT, Diffusion Policy ou pi-0 de Physical Intelligence, et la gestion des données hors-distribution reste un défi ouvert du domaine. Que faire des trajectoires partiellement réussies ou des démonstrations ambiguës constitue une question de recherche active, d'autant que les coûts de re-collecte sur robot physique sont prohibitifs à grande échelle. Ce travail s'inscrit dans ce courant sans rupture radicale : les résultats sont limités à la simulation et aucun déploiement sur hardware réel n'est mentionné dans le preprint, ce qui appelle une validation expérimentale indépendante. La prochaine étape naturelle sera la validation sur robots physiques en manipulation dextère, contexte où le taux d'échec lors de la collecte humaine est structurellement élevé et où le gain potentiel d'un tel filtrage automatique serait le plus significatif.
Dans nos dossiers




