
La curation localisée par phase n'améliore pas le filtrage de démonstrations : un résultat négatif
Une équipe de chercheurs publie sur arXiv (identifiant 2606.15064) un résultat négatif sur la curation de démonstrations pour l'apprentissage par imitation en robotique. L'hypothèse testée était la suivante : segmenter chaque trajectoire en phases temporelles, appliquer à chaque phase la métrique de qualité localement la plus informative, puis agréger les scores pour sélectionner les meilleures démonstrations. Les expériences portent sur trois tâches de saisie-dépose ("pick-and-place") de la suite de benchmarks LIBERO, avec un défaut structurel contrôlé dit "early-release" (relâchement prématuré de l'objet saisi), évalué sur cinq seeds aléatoires par condition. Résultat sans ambiguïté : la curation par phase n'est jamais la meilleure stratégie, et s'avère la pire sur deux tâches sur trois. Les chiffres sont nets : tâche 1, 86,0 % de taux de succès pour la méthode phasée contre 92,0 % pour la métrique globale unique ; tâche 3, 22,7 % contre 48,0 % pour l'application uniforme de la même métrique.
Le mécanisme d'échec est tracé précisément : lorsque le signal de défaut est concentré dans une seule phase, l'agrégation des scores sur l'ensemble des phases dilue ce signal avec des valeurs non informatives issues des segments sans défaut, dégradant la sélection du sous-ensemble de démonstrations. Second problème structurel : les métriques gagnantes par phase ne se transfèrent pas d'une tâche à l'autre, aucune phase ne partageant la même métrique optimale entre deux tâches distinctes. La méthode est donc non réutilisable et exige une re-dérivation coûteuse pour chaque nouveau contexte. Pour les praticiens du "behavior cloning" et de l'apprentissage par imitation, ce résultat recadre une intuition répandue : la structure temporelle des démonstrations ne justifie pas une curation localisée quand le défaut est ponctuel.
Ce travail s'inscrit dans la problématique croissante de la qualité des données en imitation learning. Des travaux antérieurs avaient établi qu'une métrique globale unique peut être le meilleur détecteur d'un défaut tout en étant le pire curateur de la politique résultante, tension qui avait motivé l'hypothèse phasée. La conclusion pratique est inverse : identifier une seule métrique informative sur le défaut et l'appliquer uniformément surpasse systématiquement la décomposition par phase. Le pipeline complet, les implémentations de métriques et les résultats par seed sont publiés en open source. Le sujet gagne en importance industrielle à mesure que les pipelines VLA (vision-language-action) et les systèmes de collecte téléopérée à grande échelle, notamment pour les robots humanoïdes en cours de déploiement chez Figure, 1X ou Apptronik, font du filtrage de démonstrations un levier critique pour la qualité des politiques apprises.
Dans nos dossiers




