
EgoAERO : apprendre la manipulation habile à partir d'une seule vidéo égocentrique sans ressources d'objet
Des chercheurs ont publié en juin 2026 sur arXiv un framework baptisé EgoAERO, capable d'apprendre la manipulation dextre à partir d'une unique démonstration vidéo RGB-D égocentrique humaine, sans recourir à aucun asset 3D de l'objet manipulé. Le pipeline enchaîne trois modules : un tracking et une reconstruction de l'objet sans asset préalable, une compensation du mouvement égocentrique de la caméra, et une optimisation adaptative des contacts main-objet. Les trajectoires cohérentes obtenues sont ensuite converties en politiques robotiques via un apprentissage résiduel en deux étapes. Les auteurs introduisent également un mécanisme d'évaluation de qualité en ligne et publient EgoDex-R, un dataset de 4,3 millions de frames RGB-D pour l'entraînement de politiques dextres. En simulation comme en conditions réelles, EgoAERO atteint des performances proches des reconstructions assistées par modèles CAD sur le benchmark HOI4D, référence standard pour l'interaction main-objet.
Le verrou technique levé ici est structurant pour la robotique dextre : jusqu'ici, les méthodes d'imitation à partir de vidéo humaine exigeaient soit des scans 3D préalables des objets, soit plusieurs démonstrations, soit des marqueurs visuels. Or, scanner chaque objet d'un environnement industriel ou domestique est un frein majeur à la scalabilité des systèmes. EgoAERO suggère qu'une caméra RGB-D standard (de type Intel RealSense ou intégrée à des lunettes connectées) et une seule prise vidéo suffisent pour bootstrapper une politique robotique fonctionnelle. C'est un signal fort en faveur d'une démocratisation de la collecte de données dextres, potentiellement réalisable par des opérateurs non spécialisés plutôt que par des sessions de télé-opération coûteuses.
Ce travail s'inscrit dans une vague de recherche visant à exploiter les corpus vidéo égocentrique à grande échelle (Ego4D, HOI4D, EPIC-Kitchens), jusqu'ici sous-utilisés pour le robot learning faute de géométrie objet exploitable. Les approches concurrentes en manipulation dextre reposent encore largement sur la télé-opération avec gants haptiques (Physical Intelligence avec pi0, Dexterous Manipulation Lab de CMU) ou sur des assets CAD (DITTO, DexMV). EgoAERO n'est à ce stade qu'un preprint, sans déploiement industriel annoncé ni validation sur une large variété d'objets du monde réel : les expériences rapportées restent sur des scènes contrôlées du benchmark HOI4D, et la robustesse à des objets déformables ou transparents reste à démontrer.
Dans nos dossiers




