CORE : régularités communes issues de démonstrations visuelles sans actions pour la manipulation robotique
Des chercheurs ont publié fin juin 2026 CORE (Common Outcome Regularities from Action-Free Visual Demonstrations), un cadre d'apprentissage de politique robotique conçu pour exploiter des vidéos humaines sans annotations de mouvements, afin d'entraîner des robots manipulateurs. La méthode s'appuie sur une observation clé : bien que les trajectoires menant à une même tâche varient, leurs états terminaux partagent des configurations d'objets stables, des relations spatiales et des contraintes de contact reproductibles. CORE entraîne d'abord un encodeur d'état terminal par apprentissage contrastif et objectifs temporels auxiliaires, agrège ensuite les embeddings terminaux réussis en prototypes visuels de but (visual goal prototypes), puis injecte ces prototypes comme conditions globales dans la politique de contrôle du robot. Les gains de taux de succès mesurés sur les benchmarks de référence sont de +3,9 points de pourcentage sur Meta-World, +11,1 pp sur RoboTwin 2.0, et jusqu'à +17,0 pp en manipulation réelle.
L'enjeu est direct pour les intégrateurs : collecter des démonstrations robotiques est coûteux en équipement, en opérateurs et en temps de setup, tandis que des millions d'heures de vidéos humaines d'assemblage, de logistique ou de cuisine existent déjà. L'écart morphologique entre la main humaine et un préhenseur robotique a jusqu'ici rendu ces vidéos inutilisables pour l'apprentissage par imitation direct. CORE contourne le problème en ne cherchant pas à transférer les actions elles-mêmes, mais uniquement les régularités des états finaux. Le gain de +17 pp en conditions réelles est particulièrement notable car il indique une réduction du fossé sim-to-real sans contrainte sur la morphologie du robot. En surpassant les variantes conditionnées par texte (architecture VLA classique), CORE suggère que les prototypes visuels de but apportent des contraintes géométriques et physiques plus exploitables que les instructions en langage naturel, une nuance importante pour la calibration de politiques multi-tâches.
L'apprentissage par imitation depuis des vidéos humaines est un axe de recherche actif, porté notamment par Google DeepMind avec RT-2, Physical Intelligence avec pi-0, et Meta FAIR. Des méthodes comme R3M ou VIP apprennent des représentations visuelles transférables depuis des vidéos humaines, mais CORE cible spécifiquement les états terminaux plutôt que les représentations d'observation générales, ce qui constitue sa distinction architecturale principale. Les benchmarks retenus, Meta-World et RoboTwin 2.0, sont reconnus sans être universellement adoptés, ce qui limite les comparaisons directes avec les résultats concurrents. Aucun partenariat industriel ni déploiement commercial n'est mentionné : il s'agit d'un preprint arXiv, dont les suites dépendront de réplications indépendantes et d'extensions vers des tâches plus complexes, notamment la manipulation en chaîne longue ou en environnements non structurés.




