
EgoInfinity : moteur de données 4D d'interaction main-objet pour le reciblage robot et l'apprentissage vidéo-vers-action
EgoInfinity est un moteur de données 4D présenté en juin 2026 dans un article arXiv (2606.17385), conçu pour convertir automatiquement des vidéos RGB de manipulation humaine en données d'entraînement exploitables par des robots. Son architecture modulaire enchaîne perception, segmentation, reconstruction 3D, raffinement contextuel et reciblage cinématique. À partir d'une vidéo ordinaire, le système produit des représentations 4D indépendantes de l'agent : trajectoires de main, poses d'objets à 6 degrés de liberté (6-DoF) et états de contact. Un module de reciblage de mouvement compile ensuite ces données en trajectoires articulaires exécutables pour n'importe quelle morphologie de robot, à partir de tout angle de vue ou cadrage, même lorsque le corps humain n'est que partiellement visible. Le pipeline a été validé sur des tâches de préhension, coupe, essuyage et versage en conditions réelles.
L'enjeu industriel est direct : les données de manipulation collectées en laboratoire ou en usine restent rares, coûteuses et peu diversifiées, plafonnant la généralisation des systèmes d'apprentissage par imitation. EgoInfinity ouvre théoriquement l'accès à Internet comme réservoir de données à l'échelle du web, sans annotation humaine dans la boucle. Le raffinement dit "interaction-aware" (conscient des contacts) corrige les dérives métriques et incohérences de contact fréquentes dans les reconstructions purement visuelles, problème récurrent dans les pipelines sim-to-real. Pour un intégrateur ou un COO industriel, l'argument clé est la portabilité : un même pipeline produit des trajectoires pour des morphologies différentes, sans re-collecte de données.
Ce travail s'inscrit dans une compétition intense autour de la donnée pour robots manipulateurs. Les approches concurrentes incluent les datasets collaboratifs comme Open X-Embodiment, les données téléopérées de Physical Intelligence (Pi-0) ou 1X Technologies, et les efforts open-source de HuggingFace (Paris) avec LeRobot, qui cible précisément la démocratisation de la collecte de données à faible coût. L'originalité d'EgoInfinity est d'exploiter des vidéos "in the wild" plutôt que des démonstrations contrôlées, une approche qui reste à valider à grande échelle : les résultats publiés portent sur des tâches isolées, et le passage à des scénarios industriels complexes n'est pas documenté.
Concurrence directe pour HuggingFace/LeRobot (Paris) sur le segment de la démocratisation des données de manipulation robotique à faible coût.
Dans nos dossiers




