WristCompass : le couplage cinématique comme concept visuel appris pour l'orientation d'une caméra égocentrique
Une équipe de chercheurs a publié sur arXiv (2605.30671) WristCompass, un modèle léger d'estimation de l'orientation d'une caméra ego-centrique à partir de vidéos de manipulation robotique. Le défi central est de dissocier le mouvement de la main du mouvement de la caméra, étape indispensable pour l'apprentissage par imitation à partir de démonstrations en vue subjective. L'approche naïve, basée sur la reconstruction géométrique de la scène, échoue dès que les mains occultent le cadre : VGGT, un modèle de reconstruction 3D à 1 milliard de paramètres, fait moins bien qu'un prédicteur constant sur le benchmark TACO dans ces conditions. WristCompass contourne ce problème en exploitant un concept visuel différent : la dynamique de couplage cinématique, soit la relation physique structurée entre le mouvement du poignet et l'orientation de la caméra, imposée par la chaîne bras-épaule-tête. Le modèle repose sur un GRU de seulement 200 000 paramètres opérant sur des fenêtres temporelles courtes, avec des features inter-poignets en 4 dimensions, et atteint une erreur géodésique médiane de 14,3 degrés sur Epic Kitchens, un jeu de données de vidéos culinaires sur lequel il n'a jamais été entraîné.
Ce résultat interpelle directement les équipes qui travaillent sur l'apprentissage par imitation en robotique humanoïde et manipulation. Le fait qu'un modèle à 200 000 paramètres, entraîné exclusivement sur des vidéos de manipulation de bureau, batte en transfert zéro-shot un modèle 5 000 fois plus grand contredit l'hypothèse dominante selon laquelle la reconstruction géométrique dense est le bon prior pour comprendre les vidéos ego-centriques. Plus concrètement, cela ouvre une voie pour exploiter massivement des démonstrations humaines filmées en première personne (type EPIC-Kitchens, EgoExo4D) sans capteurs IMU ni marqueurs, ce qui est le goulot d'étranglement actuel dans les pipelines de Robot Learning from Demonstration.
WristCompass s'inscrit dans un effort plus large de la communauté pour extraire des représentations utiles des vidéos humaines en vue d'entraîner des politiques robotiques, un champ structuré par des travaux comme ACT, Diffusion Policy ou pi-0 de Physical Intelligence. La compacité anatomique du signal exploité, invariant à la scène et à l'individu, est ce qui permet le transfert zéro-shot : c'est de la physique, pas de l'apparence. Les auteurs mentionnent explicitement Epic Kitchens et TACO comme benchmarks de validation ; la suite logique serait de coupler WristCompass à un pipeline VLA complet pour mesurer l'impact en aval sur la qualité des politiques imitées, ce que le papier ne fait pas encore.
Dans nos dossiers




