
EgoKit : vers une collecte de données égocentriques unifiée et économique avec des dispositifs hétérogènes
Une équipe de chercheurs a publié en mai 2026 sur arXiv (2605.16797) EgoKit, un kit de collecte de données égocentrées conçu pour fonctionner de manière unifiée sur six types d'appareils hétérogènes : smartphones Android, iPhone, iPad, lunettes connectées et casques de réalité étendue (XR). L'outil expose un workflow d'enregistrement identique sur toutes ces plateformes et produit des vidéos stockées localement dans un format de log uniforme. Sur les casques XR, il enregistre en plus la pose de la tête et un suivi de la main à 26 degrés de liberté (DOF), conforme au standard OpenXR, synchronisé avec les flux vidéo. Des accessoires compagnons, deux caméras de poignet avec supports, un bandeau crânien et un hub USB-C, permettent d'ajouter une vue « wrist-view » à n'importe quel appareil supporté, sans fabrication de matériel sur mesure.
La collecte de données égocentrées à grande échelle est devenue un verrou central dans l'apprentissage par imitation et l'entraînement de modèles vision-langage-action (VLA), qui alimentent aujourd'hui les robots humanoïdes et les systèmes d'IA incarnée. Jusqu'ici, chaque plateforme matérielle exposait son propre SDK, ses propres contraintes d'accès à la caméra brute et ses propres limites sur les périphériques USB, forçant les équipes à s'enfermer dans un seul écosystème propriétaire ou à développer des rigs ad hoc non transférables. EgoKit propose une couche d'abstraction commune, ce qui devrait permettre de constituer des datasets plus larges, plus diversifiés et moins biaisés par les contraintes matérielles d'une seule plateforme.
La démarche s'inscrit dans un mouvement plus large porté par des projets comme Ego4D (Meta/CMU) ou EPIC-Kitchens, qui ont démontré la valeur des données égocentrées pour la compréhension d'activités et la manipulation. L'enjeu du sim-to-real gap pousse les labos à privilégier les données réelles capturées en conditions naturelles, et EgoKit vise à réduire le coût de cette collecte. Le projet, disponible à l'adresse egokit.chuange.org, en est pour l'instant au stade de publication académique ; aucun partenariat industriel ni déploiement à grande échelle n'est annoncé. La prochaine étape logique serait une validation sur des pipelines d'imitation learning existants pour quantifier l'impact concret de la diversité multi-dispositifs sur la qualité des politiques apprises.
Dans nos dossiers




