Sur les capacités de généralisation, les choix de conception et les limites de l'apprentissage par imitation de points clés
Une équipe de chercheurs publie en mai 2026 sur arXiv (arXiv:2605.26649) une évaluation systématique du Keypoint Imitation Learning (KIL), méthode d'apprentissage par imitation pour la manipulation robotique. Le principe : plutôt que d'alimenter directement un modèle avec des images RGB brutes, on extrait d'abord des points-clés visuels via des modèles fondationnels (de type DINOv2 ou SAM), utilisés comme représentation intermédiaire compacte. Sur plus de 2 000 exécutions réelles couvrant cinq tâches de manipulation distinctes, le KIL atteint un taux de succès global de 75 %, contre 47 % pour la baseline RGB pure, et légèrement au-dessus de S2-diffusion (73 %), méthode concurrente fondée sur la diffusion. L'étude teste également la généralisation à des objets et configurations de scène inédits, et étend la méthode aux tâches impliquant plusieurs instances d'un même objet.
Ce résultat consolide le KIL comme approche data-efficiente : moins de démonstrations humaines sont nécessaires pour atteindre une performance correcte, ce qui est un levier critique pour tout intégrateur cherchant à réduire le coût d'annotation en manipulation industrielle. Cependant, les auteurs tempèrent eux-mêmes l'enthousiasme : le KIL ne surpasse pas systématiquement les représentations alternatives sur l'ensemble des métriques, et hérite des limitations des modèles fondationnels utilisés pour l'extraction des points-clés, notamment la sensibilité aux occultations et aux ambiguïtés multi-instances. Les 75 % annoncés couvrent cinq tâches sans détail des conditions exactes de chaque scénario, et les vidéos disponibles sur le site compagnon restent des démonstrations sélectionnées, pas une validation en production.
L'apprentissage par imitation à base de RGB souffre depuis plusieurs années d'une faible généralisation hors distribution, ce qui a stimulé des travaux sur les représentations intermédiaires : keypoints, poses 6D, champs de distance implicites. Côté positionnement concurrentiel, les approches par diffusion (Diffusion Policy, S2-diffusion) et les VLA (Vision-Language-Action, dont OpenVLA ou pi-0 de Physical Intelligence) dominent actuellement la recherche en manipulation dextère. Le KIL se positionne comme alternative plus légère et plus interprétable, sans prétendre détrôner ces approches sur les tâches complexes. Les auteurs indiquent comme suites l'extension à des scènes plus encombrées et la robustification de l'extraction de keypoints face aux imperfections des modèles fondationnels.




