
Imiter ce qui fonctionne : apprentissage de politiques modulaires filtré par simulation depuis des vidéos humaines
Des chercheurs publient sur arXiv (2602.13197v2) un cadre d'apprentissage baptisé PSI (Perceive-Simulate-Imitate), conçu pour entraîner un robot à des tâches de manipulation à partir de vidéos humaines, sans aucune donnée robot. La cible est la manipulation préhensile, c'est-à-dire les tâches combinant une phase de saisie d'objet et des mouvements post-saisie (vissage, transfert, assemblage). PSI adopte une architecture modulaire : un générateur de saisies dédiées produit des prises stables, tandis que la composante imitation extrait les trajectoires post-saisie directement depuis les vidéos. Entre les deux s'intercale une étape de filtrage en simulation, qui attribue à chaque saisie candidate un label de compatibilité avec la tâche aval, permettant d'entraîner via apprentissage supervisé un module de saisie orienté vers l'objectif final. Les expériences en conditions réelles confirment des performances significativement plus robustes que l'usage naïf d'un générateur de saisies standard, sans que des métriques chiffrées précises (taux de succès, nombre d'objets testés) ne soient détaillées dans l'abstract.
L'enjeu est structurant pour l'industrie : les vidéos humaines représentent un gisement de données quasi-illimité comparé aux démonstrations téléopérées, coûteuses à collecter à grande échelle. Le problème identifié par les auteurs est que les saisies arbitrairement stables ne sont pas forcément compatibles avec la tâche en aval, un robot peut tenir correctement un outil tout en l'orientant de façon à rendre impossible l'opération suivante. PSI tranche ce nœud en injectant du jugement simulé avant l'imitation, ce qui le distingue des pipelines naïfs de transfert vidéo-vers-robot. Pour un intégrateur ou une équipe R&D souhaitant élargir le catalogue de tâches d'un robot sans multiplier les sessions de téléopération, la proposition est directement lisible.
Ce travail s'inscrit dans le courant de l'imitation depuis des vidéos in-the-wild (dans la lignée de Vid2Robot, DIME ou des travaux récents sur les Visual Language Actions), qui cherche à contourner le goulot d'étranglement de la collecte de données robotiques. La spécificité de PSI tient à son découplage explicite entre qualité de saisie et qualité de trajectoire, médiatisé par la simulation. Côté concurrent, des approches comme pi-0 (Physical Intelligence) ou GR00T N2 (NVIDIA) misent davantage sur des architectures unifiées entraînées sur des corpus massifs mixtes. Aucun partenaire industriel ni déploiement n'est annoncé : il s'agit d'un résultat académique dont la généralisation à un large éventail d'objets et de morphologies de mains reste à démontrer.
Dans nos dossiers




