
EgoGuide : guidage égocentrique pour collecter des démonstrations sans robot et apprendre efficacement
Une équipe de chercheurs a publié en juin 2026 sur arXiv (2606.14665) EgoGuide, une interface de collecte de démonstrations robotiques sans robot physique. Le système enregistre simultanément deux flux vidéo : une caméra au poignet de l'opérateur (wrist view) et une caméra égocentrique portée sur la tête (egocentric view). Un module de guidage visuel-géométrique en ligne évalue la qualité de chaque épisode en temps réel et signale les données redondantes ou peu informatives avant leur accumulation dans le jeu d'entraînement. Les auteurs introduisent également une "Gated Egocentric Residual Policy", une architecture qui mobilise la vue égocentrique pour corriger les ambiguïtés de la vue poignet, tout en préservant la stabilité du contrôle moteur local. Les expériences en conditions réelles confirment une réduction du nombre d'épisodes de démonstration nécessaires et une meilleure robustesse face aux occultations visuelles.
L'apport principal est de s'attaquer à un goulot d'étranglement bien identifié dans le domaine : le coût humain de la collecte de données de qualité. Les pipelines de type UMI (Universal Manipulation Interface), qui permettent à un opérateur de collecter des démonstrations manuellement sans robot dédié, produisent souvent des épisodes redondants et manquent de contexte global de scène. Le guidage en ligne réduit ce gaspillage dès la source. La politique résiduelle répond à un problème concret des systèmes d'imitation : la vue poignet seule est ambiguë lors d'occultations ou de passages critiques dans la trajectoire. Donner au modèle un accès conditionnel (gated) à la vue globale lève ces ambiguïtés sans déstabiliser le contrôle fin. Pour un intégrateur, cela signifie potentiellement moins d'heures de collecte humaine pour atteindre un niveau de performance équivalent.
EgoGuide s'inscrit dans la lignée directe de l'UMI, développé par Cheng Chi et ses collaborateurs à Stanford et Columbia, qui a popularisé la collecte de démonstrations via des dispositifs portatifs instrumentés. Le verrou adressé ici n'est pas la quantité brute de données mais leur qualité et leur diversité informationnelle. Les approches concurrentes incluent ACT (Action Chunking Transformer), Diffusion Policy et les plateformes de téléopération à faible coût comme ALOHA. Ce travail reste une publication académique arXiv sans déploiement industriel annoncé, et les expériences présentées restent à l'échelle laboratoire. La combinaison guidage en ligne et politique bi-caméra présente toutefois un intérêt direct pour les équipes cherchant à réduire le coût opérationnel de la démonstration à grande échelle.
Dans nos dossiers




