Exploration de poses-clés : étiquetage automatique de t…

Des chercheurs ont publié sur arXiv en juin 2026 une méthode d'étiquetage automatique de trajectoires pour la manipulation robotique, baptisée Keypose Exploration. Le pipeline combine des modèles vision-langage (VLM) pour la détection sémantique d'événements avec une analyse classique de trajectoire pour l'alignement temporel précis, en limitant l'inférence VLM à une seule démonstration par tâche parmi des répétitions. Les données labellisées entraînent une Diffusion Policy (DP) guidée par keyposes, des points de passage critiques qui décomposent des tâches longues en sous-étapes apprenables. Le transfert inter-embodiment est également exploré : des keyposes candidates sont filtrées via une carte d'accessibilité cinématique (reachability map) pour n'orienter la politique que vers des configurations atteignables par le robot cible. Les résultats préliminaires portent sur deux tâches du benchmark robomimic en simulation (assemblage et insertion multimodale).

L'annotation manuelle des données de démonstration reste un goulot d'étranglement majeur pour le déploiement de politiques de manipulation à l'échelle industrielle. Réduire l'inférence VLM à un seul exemple par tâche est une contribution pragmatique pour industrialiser l'apprentissage par imitation sans exploser les coûts de labellisation. Sur le transfert inter-embodiment, les conclusions restent prudentes : le conditionnement par keyposes filtrés cinématiquement "peut bénéficier" au transfert zéro-shot sur l'insertion multimodale, mais seulement "lorsque des candidats faisables sont disponibles", une restriction importante que les auteurs reconnaissent explicitement. Il s'agit d'une étude de faisabilité préliminaire en simulation, sans validation sur robots physiques.

Ce travail s'inscrit dans l'écosystème de la Diffusion Policy (Chi et al., Columbia/MIT, 2023), devenue socle expérimental standard pour la manipulation généraliste. Le transfert inter-embodiment est un défi structurant du secteur où Physical Intelligence (π0), Google DeepMind (RT-2) et NVIDIA (GR00T N2) investissent massivement pour réduire le coût de re-spécialisation d'une politique entre robots distincts. Le benchmark robomimic (Mandlekar et al., Stanford/NVIDIA) est un standard de simulation, mais le gap sim-to-real reste non adressé dans cet article, et la suite logique serait une validation sur des robots physiques avec mesure de taux de réussite en conditions réelles.

Exploration de poses-clés : étiquetage automatique de trajectoires et transfert de politique entre robots

À lire aussi

Apprentissage de politiques de trajectoire multi-modales pour la manipulation robotique efficace en données

ExpertGen : apprentissage de politiques expertes par transfert simulation-réel à partir de comportements imparfaits

Transfert de trajectoires humain-robot centré sur la main à partir de vidéos via localisation de contacts en monde ouvert

Apprentissage d'une politique de suivi de trajectoire asynchrone dans l'espace des tâches du haut du corps pour robots humanoïdes