
ACE-Ego-0 : unification des données égocentrées humaines et robotiques pour le préentraînement VLA
Pré-publiée sur arXiv en juin 2026 (identifiant 2606.17200), ACE-EGO-0 est un cadre de pretraining pour modèles Vision-Langage-Action (VLA) qui exploite conjointement 4 530 heures de données robotiques et de simulation, et 1 480 heures de vidéos égocentrées humaines converties en pseudo-trajectoires robot. Le pipeline automatise la transformation de vidéos à la première personne en séquences d'actions au format démonstration téléopérée, en représentant les mouvements dans l'espace caméra plutôt que dans un référentiel corporel. Pour atténuer le bruit inhérent à ces pseudo-labels, un objectif d'entraînement reliability-aware concentre la supervision sur les segments les plus fiables via une perte auxiliaire dédiée. Évalué sur RoboCasa GR1 TableTop (robot humanoïde GR1 de Fourier Intelligence) et RoboTwin 2.0, ACE-EGO-0 atteint les meilleures performances publiées sur les deux benchmarks et démontre, selon les auteurs, un transfert vers la manipulation bimanuelle en conditions réelles.
L'apport central est la résolution d'un problème structurel : les divergences d'espaces d'action, de morphologie et de dynamiques temporelles entre humains et robots rendaient jusqu'ici l'entraînement conjoint instable ou contre-productif. En unifiant la représentation via des actions caméra-space et un time-aligned action chunking avec morphology conditioning, les auteurs montrent que des jeux de données égocentrés existants comme Ego4D ou EPIC-Kitchens peuvent fournir un signal complémentaire valide à grande échelle. Pour les équipes R&D en robotique, l'implication pratique est directe : réduire significativement le coût de collecte de trajectoires robot, l'un des principaux goulots d'étranglement du déploiement VLA à l'échelle industrielle.
La course aux politiques robotiques généralisables s'est accélérée depuis Pi-0 de Physical Intelligence (novembre 2024), OpenVLA et RT-2 de Google DeepMind. Des travaux antérieurs comme Dobb-E ou Human2Robot avaient déjà exploré les données humaines égocentrées comme supervision complémentaire, mais sans framework unifié à cette échelle ni évaluation systématique. ACE-EGO-0 propose une recette reproductible évaluée sur deux benchmarks de référence, dont RoboTwin 2.0, particulièrement pertinent car la manipulation bimanuelle reste un défi ouvert pour les humanoïdes commerciaux tels que Figure 03, Optimus Gen 3 ou Unitree H1. La prépublication ne mentionne ni partenaire industriel ni déploiement annoncé : ACE-EGO-0 est pour l'instant une contribution de recherche, pas un produit livrable.
Dans nos dossiers




