Aller au contenu principal
RecherchearXiv cs.RO2h

Instrumentation pour l'apprentissage par imitation : enrichissement des données d'entraînement pour l'insertion de cintres

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Des chercheurs ont publié en mai 2026 sur arXiv (2605.23847) une étude portant sur l'instrumentation des objets manipulés comme levier pour améliorer l'apprentissage par imitation en robotique. La tâche choisie est l'insertion d'un cintre sur une tringle, opération représentative des défis de manipulation fine avec contact. L'équipe a collecté 180 démonstrations téléopérées pour entraîner des politiques de diffusion (diffusion policies), en comparant des variantes avec et sans accès aux données d'instrumentation, c'est-à-dire des capteurs intégrés directement dans l'objet manipulé plutôt que dans le robot. Les résultats montrent que les politiques exploitant ces signaux surpassent les variantes vision-only de 14 à 25 points de pourcentage, avec une meilleure conscience de la tâche. Point notable : une politique boîte noire apprend à prioriser spontanément les signaux capteurs sans guidage explicite lors de l'entraînement. Une approche student-teacher complète le tableau : en enrichissant le jeu de données avec des rollouts générés par un expert instrumenté, une politique vision-only étudiante atteint des performances comparables à cet expert, surpassant ainsi la ligne de base vision-only originale. Les datasets sont disponibles sur Zenodo.

Ce résultat adresse un verrou structurel du domaine : les grands modèles de comportement (large behaviour models) pour la manipulation robotique restent bridés par des exigences de données prohibitives, contrairement aux modèles de vision-langage qui ont pu capitaliser sur des corpus massifs issus d'internet. L'instrumentation des objets, en fournissant des informations d'état précises sur les contacts et les forces lors de chaque démonstration, augmente la densité informationnelle sans multiplier le nombre de démos. L'approche student-teacher est particulièrement stratégique pour le déploiement industriel : elle permet de distiller la connaissance sensorielle dans un modèle déployable avec une simple caméra, sans instrumentation permanente de la production.

Ces travaux s'inscrivent dans une dynamique plus large autour des politiques de diffusion en manipulation, popularisées par Chi et al. (2023) et intégrées dans des systèmes comme Pi-0 (Physical Intelligence) ou ACT. La piste de l'instrumentation rejoint des efforts parallèles sur les peaux tactiles et les capteurs force-couple, explorés notamment par MIT CSAIL, ETH Zurich, et des équipes INRIA côté européen. La portée reste cependant à nuancer : 180 démos sur une tâche de laboratoire contrôlée ne constitue pas une validation à l'échelle industrielle, et les auteurs ne rapportent aucune expérience en environnement de production réel. La mise à disposition publique des données sur Zenodo ouvre toutefois la voie à des reproductions et extensions indépendantes sur des tâches plus complexes.

Impact France/UE

Les équipes INRIA et laboratoires européens travaillant sur les politiques de diffusion pour la manipulation peuvent directement exploiter les datasets publics Zenodo et reproduire l'approche student-teacher pour améliorer l'efficacité de leurs pipelines d'apprentissage par imitation.

À lire aussi

Raffinement de démonstrations accélérées par contrôle itératif incrémental pour l'apprentissage par imitation à contact riche
1arXiv cs.RO 

Raffinement de démonstrations accélérées par contrôle itératif incrémental pour l'apprentissage par imitation à contact riche

Une équipe de chercheurs a publié en avril 2026 sur arXiv (arXiv:2604.16850) une méthode baptisée I2RLC (Incremental Iterative Reference Learning Control) pour générer automatiquement des démonstrations robotiques rapides et précises, sans intervention humaine à haute vitesse. Le constat de départ est simple : en apprentissage par imitation (IL), les humains ne peuvent pas démontrer physiquement une tâche à 5x ou 10x leur vitesse naturelle, et accélérer naïvement un enregistrement dégrade la dynamique de contact et crée des erreurs de suivi qui corrompent les données d'entraînement. L'I2RLC résout ce problème en augmentant progressivement la vitesse d'exécution tout en corrigeant itérativement la trajectoire de référence à partir des erreurs observées. La méthode a été validée sur robot réel, sur deux tâches à contact riche : effacement de tableau blanc et insertion cheville-trou (peg-in-hole), en utilisant un système de téleopération composé d'un bras suiveur à contrôle de compliance et d'un leader haptic imprimé en 3D. Les résultats atteignent des démonstrations 10x plus rapides avec réduction des erreurs de suivi, et I2RLC améliore la similarité spatiale aux trajectoires originales de 22,5 % en moyenne par rapport à la version non-incrémentale (IRLC), sur trois tâches et plusieurs vitesses (3x à 10x). Les politiques entraînées sur ces données atteignent 100 % de taux de réussite sur la tâche peg-in-hole, y compris pour des positions non vues à l'entraînement, avec des forces de contact inférieures. Ce résultat adresse un angle mort fréquent dans le développement des politiques d'imitation : la qualité des démonstrations elle-même. La grande majorité des approches IL (Diffusion Policy, ACT, Pi-0) suppose des démos propres et représentatives, sans se préoccuper du fossé entre la vitesse humaine et la vitesse de déploiement réelle. Ici, la généralisation à des positions non vues avec 100 % de succès constitue un signal concret de robustesse, pas simplement une performance en conditions contrôlées. Pour les intégrateurs industriels, l'enjeu est direct : si l'on peut automatiser la génération de trajectoires rapides à partir de démos lentes, le coût de collecte de données pour des tâches d'assemblage ou de manutention chute significativement. L'apprentissage par imitation pour la manipulation à contact riche est un axe de recherche très actif depuis 2022-2023, porté par des travaux comme ACT (Stanford), Diffusion Policy (MIT/Columbia) et les architectures VLA type Pi-0 (Physical Intelligence). Le problème de la "vitesse des démos" reste cependant peu traité dans la littérature. L'I2RLC s'inscrit dans une lignée de méthodes de contrôle itératif (ILC) adaptées à la robotique apprenante. Aucune entreprise commerciale n'est citée dans cette publication académique, mais les applications industrielles naturelles touchent l'assemblage électronique, le câblage, et toute manipulation nécessitant précision et cadence. Les prochaines étapes probables incluent une extension aux politiques diffusives modernes et une validation sur des tâches multi-étapes en environnement non structuré.

RecherchePaper
1 source
Un indicateur efficace pour mesurer la qualité des données en apprentissage par imitation
2arXiv cs.RO 

Un indicateur efficace pour mesurer la qualité des données en apprentissage par imitation

Des chercheurs ont proposé sur arXiv (arXiv:2605.01544, mai 2026) une métrique automatisée pour évaluer la qualité des démonstrations en apprentissage par imitation (IL), fondée sur la densité spectrale de puissance (PSD) des trajectoires enregistrées. Une PSD faible signale une trajectoire lisse et exploitable ; une PSD élevée indique oscillations, corrections abruptes et mouvements erratiques qui dégradent les politiques apprises. Contrairement aux méthodes existantes, la métrique ne requiert ni rollout de politique, ni interaction avec l'environnement, ni étiquetage expert. Elle a été évaluée sur deux benchmarks IL et via une étude terrain avec des résidents âgés d'un établissement de retraite, dont les démonstrations ont servi à affiner π0.5 de Physical Intelligence pour une tâche de vie quotidienne. Les politiques issues des données filtrées par PSD surpassent les baselines non filtrées et deux méthodes concurrentes en taux de succès et en fluidité d'exécution. Le déploiement réel de robots guidés par imitation bute sur les scénarios hors distribution (OOD), aggravés par la faible qualité des démonstrations d'utilisateurs finaux. Les approches existantes de curation automatisée exigeaient des rollouts en environnement, coûteux et impraticables à grande échelle. La métrique PSD supprime ce verrou : applicable avant tout entraînement, elle filtre les démonstrations directement au moment de la collecte terrain. Pour les intégrateurs de robots manipulateurs en environnements non contrôlés, cela réduit concrètement le coût de mise en qualité des données sans ressources RL dédiées. Le travail s'inscrit dans l'essor des VLA (Vision-Language-Action models), où π0.5 de Physical Intelligence figure parmi les modèles de fondation robotique disponibles pour le fine-tuning, mais le défi du "demo-to-reality gap" reste l'un des freins majeurs au passage à l'échelle de l'IL. En ciblant des utilisateurs âgés peu habitués au guidage de robots, l'étude ouvre une piste vers la robotique d'assistance, segment où des acteurs comme Enchanted Tools en France cherchent à s'implanter. La prochaine étape logique serait l'intégration de cette métrique dans des pipelines de collecte en production, couplée à des retours temps réel pour guider les utilisateurs vers de meilleures démonstrations dès la capture.

UELa métrique PSD pourrait réduire le coût de curation de données pour des acteurs européens comme Enchanted Tools (France), actifs en robotique d'assistance, en supprimant le besoin de rollouts environnementaux coûteux lors du fine-tuning de modèles VLA.

RechercheOpinion
1 source
Apprentissage par imitation : sélection efficace des données d'échec via les différences de distribution dans l'attention
3arXiv cs.RO 

Apprentissage par imitation : sélection efficace des données d'échec via les différences de distribution dans l'attention

Des chercheurs ont déposé sur arXiv en mai 2026 (arXiv:2605.07560) une méthode visant à exploiter les démonstrations d'échec dans l'apprentissage par imitation pour la robotique. La quasi-totalité des politiques d'imitation sont actuellement entraînées exclusivement sur des démonstrations réussies, bien que la collecte humaine produise inévitablement une proportion significative d'échecs. La méthode proposée apprend des représentations latentes des divergences succès-échec et les intègre dans le mécanisme d'attention du réseau, permettant au système de sélectionner au moment de l'inférence un mode latent adapté à partir de l'observation initiale. Les auteurs introduisent également une métrique post-entraînement qui quantifie la divergence d'attention entre chaque démonstration d'échec et le corpus de succès, afin de filtrer automatiquement les échantillons d'échec réellement bénéfiques à l'apprentissage. L'enjeu est considérable pour les pipelines industriels de collecte de données robotiques : une fraction structurelle des démonstrations humaines sont des échecs, jusqu'ici systématiquement écartés ou nécessitant un traitement manuel coûteux. Les approches existantes pour exploiter ces données s'appuient généralement sur des mises à jour itératives de la politique via des rollouts autonomes, ce qui complique leur intégration stable et directe dans un pipeline de production. Cette méthode opère en revanche directement sur les données brutes collectées sans itérations supplémentaires, ce qui la rend potentiellement plus accessible pour des équipes travaillant en conditions réelles de déploiement. Les résultats en simulation montrent une amélioration des taux de succès par rapport à un entraînement basé uniquement sur des démonstrations réussies, et la métrique proposée identifie correctement les échantillons d'échec dont l'ajout est bénéfique. L'apprentissage par imitation est devenu un paradigme central en robotique manipulatrice, porté par des architectures comme ACT, Diffusion Policy ou pi-0 de Physical Intelligence, et la gestion des données hors-distribution reste un défi ouvert du domaine. Que faire des trajectoires partiellement réussies ou des démonstrations ambiguës constitue une question de recherche active, d'autant que les coûts de re-collecte sur robot physique sont prohibitifs à grande échelle. Ce travail s'inscrit dans ce courant sans rupture radicale : les résultats sont limités à la simulation et aucun déploiement sur hardware réel n'est mentionné dans le preprint, ce qui appelle une validation expérimentale indépendante. La prochaine étape naturelle sera la validation sur robots physiques en manipulation dextère, contexte où le taux d'échec lors de la collecte humaine est structurellement élevé et où le gain potentiel d'un tel filtrage automatique serait le plus significatif.

RecherchePaper
1 source
Des étiquettes aux ensembles d'actions : repenser la supervision pour l'apprentissage par imitation à partir de retours correctifs
4arXiv cs.RO 

Des étiquettes aux ensembles d'actions : repenser la supervision pour l'apprentissage par imitation à partir de retours correctifs

Le comportement par clonage (behavior cloning, BC) est l'une des méthodes les plus utilisées pour entraîner des politiques robotiques à partir de démonstrations humaines : chaque geste fourni par l'opérateur y est traité comme une étiquette exacte à reproduire. Des chercheurs ont publié en février 2025 (arXiv:2502.07645, version 3 disponible) une alternative baptisée CLIC, Contrastive policy Learning from Interactive Corrections, qui remplace ces étiquettes ponctuelles par des cibles dites à ensemble de valeurs (set-valued action targets). Au lieu d'optimiser la politique vers un seul geste cible, CLIC utilise les corrections humaines en temps réel pour construire et affiner des ensembles d'actions désirées, puis entraîne le modèle à placer de la masse de probabilité sur cet ensemble plutôt que sur un point unique. Cette reformulation adresse un problème connu mais sous-estimé du BC classique : lorsque les démonstrations humaines sont imparfaites, gestes partiels, corrections relatives ("un peu plus à gauche"), ambiguïtés multimodales, forcer la politique à reproduire chaque label à la lettre peut la faire dériver loin du comportement voulu, notamment avec des modèles expressifs tels que les energy-based models (EBMs). Les expériences en simulation et sur robot réel montrent que CLIC reste compétitif avec l'état de l'art quand les données sont propres, et se révèle substantiellement plus robuste sous données bruitées, corrections relatives ou feedback partiel. Pour les équipes de déploiement robotique, c'est une voie concrète pour réduire les coûts de collecte de démonstrations de haute qualité : CLIC tolère des opérateurs moins expérimentés ou des interfaces de téléopération imprécises sans dégradation majeure des performances. Le BC reste une brique fondamentale de l'apprentissage par imitation, popularisé par les travaux de Pieter Abbeel au début des années 2000 et au coeur aujourd'hui des politiques VLA (Vision-Language-Action) comme Pi-0 de Physical Intelligence ou les politiques diffusion-based d'OpenPI. CLIC s'inscrit dans un courant "human-in-the-loop" qui inclut DAgger, HG-DAgger et TAMER, mais se distingue par la formalisation ensembliste des corrections. Le code et les environnements de test sont disponibles publiquement sur clic-webpage.github.io. Les auteurs n'annoncent pas de partenariat industriel ni de déploiement terrain, ce qui positionne ce travail comme une contribution aux fondations méthodologiques de l'imitation learning, avec des implications directes pour les pipelines de téléopération et de fine-tuning de politiques générales.

UEImpact indirect : la méthode CLIC, en réduisant les besoins en démonstrations de haute qualité, pourrait bénéficier aux équipes de R&D robotique européennes travaillant sur des pipelines d'imitation learning et de téléopération, sans lien direct avec un acteur français ou une réglementation UE.

RechercheOpinion
1 source