Aller au contenu principal
HumanEgo : apprentissage robotique zéro-shot à partir de quelques minutes de vidéos égocentrées
IA physiquearXiv cs.RO3h

HumanEgo : apprentissage robotique zéro-shot à partir de quelques minutes de vidéos égocentrées

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Des chercheurs ont publié le 27 mai 2026 sur arXiv (2605.24934) HumanEgo, un framework permettant d'entraîner un robot à manipuler des objets en lui montrant uniquement des vidéos egocentrées filmées par un humain, sans aucune donnée robot, sans télé-opération, et sans recollecte hardware. Avec seulement 30 minutes de vidéos humaines par tâche, le système atteint 92,5 % de taux de succès moyen sur quatre tâches de manipulation en conditions réelles. Avec 15 minutes de vidéos, ce score descend à 75 %, ce qui reste compétitif. Comparé à une collecte de données robot par télé-opération sur le même budget temps, HumanEgo surpasse cette baseline de 41 points de pourcentage. Le transfert est dit zero-shot : une politique entraînée sur des vidéos humaines s'exécute directement sur des robots, caméras et environnements non vus pendant l'entraînement.

L'enjeu central que HumanEgo adresse est le "embodiment gap" : la différence d'apparence visuelle et de cinématique entre une main humaine et un effecteur robot rend l'imitation directe peu fiable. Le framework contourne ce problème en extrayant une représentation intermédiaire dite "entity-level" des interactions main-objet, puis en entraînant une politique par flow matching enrichie d'objectifs auxiliaires denses qui exploitent chaque frame de chaque trajectoire. Cela signifie que la collecte de données peut être confiée à n'importe quel humain avec une caméra egocentric (type GoPro ou lunettes), réduisant drastiquement le coût et le temps de déploiement dans un contexte industriel ou logistique. Pour les intégrateurs robotiques, c'est un levier potentiel majeur : les goulots d'étranglement liés à la télé-opération spécialisée ou aux bras de démo pourraient être contournés.

HumanEgo s'inscrit dans un corpus de travaux récents cherchant à exploiter des données "in the wild" pour généraliser les politiques robot, aux côtés d'approches comme ACT, Diffusion Policy, ou pi-0 de Physical Intelligence. Contrairement à ces dernières, qui restent dépendantes de données robot, HumanEgo pousse plus loin la séparation entre collecte humaine et exécution robot. Le paper ne mentionne pas de partenaires industriels ni de timeline de déploiement commercial ; il s'agit d'une publication académique. Les prochaines questions ouvertes sont la robustesse sur des tâches à plus haute complexité gestuelle et la scalabilité au-delà de quatre tâches contrôlées.

Impact France/UE

Impact indirect : les intégrateurs robotiques européens pourraient bénéficier d'une réduction drastique des coûts de collecte de données si le framework est libéré en open-source, sans acteur EU impliqué à ce stade.

À lire aussi

HumanNet : passage à l'échelle de l'apprentissage vidéo centré sur l'humain à un million d'heures
1arXiv cs.RO 

HumanNet : passage à l'échelle de l'apprentissage vidéo centré sur l'humain à un million d'heures

Des chercheurs ont publié HumanNet, un corpus vidéo d'un million d'heures centré sur les activités humaines, conçu pour alimenter l'apprentissage de l'intelligence embodied à grande échelle. Disponible sous forme de preprint arXiv (2605.06747), le dataset couvre des perspectives à la fois à la première et à la troisième personne, et capture des interactions fines avec des objets, l'utilisation d'outils, et des comportements de longue durée dans des environnements réels variés. Au-delà de la vidéo brute, HumanNet fournit des annotations centrées sur l'interaction : légendes textuelles, descriptions de mouvement, et signaux liés aux mains et au corps. L'expérience clé de validation compare deux configurations d'entraînement continu à partir du modèle Qwen VLM : 1 000 heures de vidéo égocentrique tirées de HumanNet surpassent 100 heures de données issues de robots réels (Magic Cobot) sur un ensemble fixe de données de validation. Ce résultat, s'il se confirme à plus grande échelle, remet en cause un dogme du secteur : l'idée que les modèles VLA (Vision-Language-Action) nécessitent impérativement des données collectées sur des robots physiques pour progresser. La collecte de données robot est coûteuse, lente, et difficile à diversifier, ce qui constitue l'un des principaux goulots d'étranglement dans la course aux systèmes généralistes. HumanNet propose un chemin alternatif : exploiter la vidéo humaine comme substitut scalable et économique, en transférant des représentations motrices et interactives vers les systèmes robotiques. Il faut toutefois nuancer l'ambition de la démonstration : la validation présentée se limite à une seule ablation contrôlée sur un sous-ensemble de tâches, et aucun résultat en déploiement réel sur des robots n'est encore disponible. Ce projet s'inscrit dans une compétition plus large pour constituer des datasets à grande échelle pour l'embodied AI. Des corpus comme Ego4D (Meta, 3 500 heures), Epic-Kitchens ou Something-Something ont posé des jalons, mais aucun n'atteignait le million d'heures ni ne proposait ce niveau d'annotation motion-aware. Côté modèles, les concurrents directs incluent pi-0 de Physical Intelligence, OpenVLA, RT-2 de Google DeepMind et Helix de Figure AI, tous confrontés au même problème de rareté des données robot. HumanNet ne s'accompagne d'aucune annonce commerciale ni de timeline de déploiement industriel ; il s'agit pour l'instant d'une contribution de recherche qui devra être validée dans des contextes robotiques réels avant de modifier les pratiques des intégrateurs.

💬 1000 heures de vidéo humaine qui surpassent 100 heures de données robot réel, c'est le genre de résultat qui fait mal au dogme du secteur. Si ça se confirme, ça change tout sur le goulot d'étranglement de la robotique généraliste : la collecte de données robot est un cauchemar logistique et financier, et là on parle de le contourner avec du YouTube. Bon, une ablation sur un sous-ensemble de tâches, c'est pas encore la preuve en déploiement, mais l'idée est là.

IA physiqueOpinion
1 source
Apprendre la physique à partir de modèles vidéo préentraînés : modèles du monde continus et séquentiels pour la manipulation robotique
2arXiv cs.RO 

Apprendre la physique à partir de modèles vidéo préentraînés : modèles du monde continus et séquentiels pour la manipulation robotique

Une équipe de chercheurs propose PhysGen, un cadre d'apprentissage publié en prépublication sur arXiv (réf. 2603.00110v2), qui exploite des modèles de génération vidéo pré-entraînés comme substituts de simulateurs physiques pour la manipulation robotique. L'idée centrale est de traiter la vidéo générée de manière autorégressive comme un proxy du monde physique, et d'y greffer des actions robotiques continues via une représentation unifiée baptisée "physical tokens", des jetons partagés qui fusionnent la modalité vidéo et les commandes motrices. Pour assurer la convergence, PhysGen intègre du masquage causal, de la cinématique inverse, une prédiction multi-tokens anticipative (L-MTP) et du cache clé-valeur (KV caching). Sur les benchmarks Libero et ManiSkill, le système surpasse OpenVLA de 13,8 points et WorldVLA de 8,8 points. Plus frappant : en conditions réelles, PhysGen atteint les performances de π₀ (Physical Intelligence) sur des tâches physiquement exigeantes, notamment la saisie d'objets transparents, sans avoir bénéficié d'un pré-entraînement spécifique aux données d'action. L'enjeu pour l'industrie est direct : la pénurie de données robotiques à grande échelle reste le principal frein à la généralisation des politiques de manipulation. PhysGen contourne ce goulot en recyclant des modèles vidéo entraînés sur des corpus massifs d'internet pour en extraire une intuition physique implicite, permanence des objets, dynamique de contact, sans collecter de trajectoires robot. Le fait de rivaliser avec π₀ sans son pré-entraînement propriétaire sur des données d'action est une validation partielle de l'hypothèse que le "sim-to-real gap" peut être réduit par la connaissance du monde visuel plutôt que par des démonstrations téléopérées. Cela dit, les résultats restent issus d'un papier de recherche avec des benchmarks sélectifs ; la robustesse sur des scènes industrielles non structurées reste à démontrer. PhysGen s'inscrit dans un courant actif qui voit les laboratoires de robotique piller les architectures de génération multimodale pour nourrir leurs politiques de contrôle : UniSim, Genie, et surtout WorldVLA avaient déjà exploré cette piste. Physical Intelligence (π₀) représente aujourd'hui la référence en termes de performances sur tâches réelles grâce à son pré-entraînement massif sur données d'action hétérogènes, ce qui rend la comparaison de PhysGen d'autant plus significative. OpenVLA (Berkeley) constitue le concurrent open-source direct. La prochaine étape logique pour les auteurs serait une évaluation sur des manipulateurs industriels multi-DOF en environnement non contrôlé, et une intégration avec des pipelines de données synthétiques pour réduire encore la dépendance aux démonstrations humaines.

IA physiqueOpinion
1 source
Apprentissage robotique à partir de vidéos humaines : une synthèse
3arXiv cs.RO 

Apprentissage robotique à partir de vidéos humaines : une synthèse

Une équipe de chercheurs a publié sur arXiv (arXiv:2604.27621) un état de l'art complet sur l'apprentissage des compétences robotiques à partir de vidéos humaines. Le papier recense les techniques permettant de transférer des habiletés gestuelles filmées vers des robots manipulateurs, en s'appuyant sur la masse de vidéos d'activités humaines disponibles en ligne. Les auteurs proposent une taxonomie hiérarchique structurée en trois axes : l'apprentissage orienté tâche (le robot déduit l'objectif), l'apprentissage orienté observation (alignement visuel entre humain et robot), et l'apprentissage orienté action (estimation directe des mouvements moteurs). Le survey couvre également les fondements de données, en analysant les principaux jeux de données de vidéos humaines existants ainsi que les schémas de génération vidéo synthétique. Une liste exhaustive des travaux référencés est disponible sur GitHub (IRMVLab/awesome-robot-learning-from-human-videos). Ce travail de synthèse arrive à un moment clé : le manque de données robotiques à grande échelle constitue aujourd'hui le principal goulot d'étranglement pour les systèmes d'IA incarnée généralistes. Les vidéos humaines représentent une ressource passive quasi illimitée, et leur exploitation pourrait contourner le coût exorbitant de la collecte de démonstrations téléopérées. Le papier analyse explicitement comment les différentes approches se comportent selon les paradigmes d'apprentissage (imitation, renforcement, diffusion) et les configurations de données, ce qui est directement utile pour des intégrateurs qui cherchent à choisir une architecture VLA (Vision-Language-Action) selon leur contrainte de données terrain. Le survey souligne aussi honnêtement les limitations du champ : le gap démo-réalité reste non résolu dans la plupart des pipelines, et les métriques de transfert restent hétérogènes d'un papier à l'autre. Ce type de survey émerge dans un contexte où plusieurs labos et startups misent sur le video-based learning comme levier de scalabilité : Physical Intelligence (pi-0), NVIDIA (GR00T N2), et Google DeepMind ont tous intégré des données humaines ou des vidéos internet dans leurs pipelines d'entraînement récents. Côté recherche académique, les travaux comme R3M, UniPi ou RoboAgent ont posé les jalons de cette approche ces deux dernières années. Ce survey offre donc une base de référence structurée pour les équipes qui entrent maintenant dans ce champ, avec des pistes de recherche ouvertes notamment sur la synchronisation temporelle corps-robot et la génération de données vidéo simulées pour la diversification des trajectoires.

UELes équipes de recherche françaises (CEA-List, INRIA) et les startups européennes travaillant sur des architectures VLA peuvent exploiter cette taxonomie structurée pour orienter leurs choix méthodologiques selon leurs contraintes de données terrain.

RecherchePaper
1 source
COBALT : apprentissage robotique collaboratif par téléopération cloud via smartphones
4arXiv cs.RO 

COBALT : apprentissage robotique collaboratif par téléopération cloud via smartphones

Des chercheurs ont publié sur arXiv (2605.19138) COBALT, une plateforme de télé-opération robotique cloud conçue pour collecter massivement des données de démonstration via des appareils grand public, smartphones, casques VR, souris 3D ou clavier. L'infrastructure repose sur des environnements vectorisés et un équilibrage de charge permettant à plusieurs utilisateurs de téléopérer simultanément sur un seul GPU, avec une latence bout-en-bout inférieure à 100 ms et une fréquence de contrôle de 20 Hz pour jusqu'à 8 utilisateurs par GPU. La montée en charge a été validée jusqu'à 256 clients simulés répartis sur 8 GPUs. En cinq jours, et depuis neuf pays, COBALT a permis de constituer un jeu de données pilote de plus de 7 500 démonstrations, soit plus de 50 heures de manipulation enregistrées. Un système de métriques en temps réel filtre automatiquement les démonstrations de mauvaise qualité, et un curriculum de formation des opérateurs améliore significativement la qualité des données collectées. L'intérêt majeur de ce travail réside dans l'attaque frontale du goulot d'étranglement principal du robot learning par imitation : la rareté des données de haute qualité à grande échelle. Les approches comme ACT, Diffusion Policy ou Pi-0 (Physical Intelligence) ont démontré que l'apprentissage par imitation fonctionne, mais leur passage à l'échelle bute sur le coût et la logistique de la collecte. COBALT démontre que la télé-opération par smartphone est comparable, parfois supérieure, au matériel spécialisé type ALOHA ou bras haptiques, ce qui élimine une barrière d'entrée majeure. Pour les intégrateurs et les équipes R&D industrielles, cela ouvre la voie à une collecte distribuée sans infrastructure physique dédiée, potentiellement transformatrice pour le coût de développement de politiques de manipulation. Le projet s'inscrit dans une dynamique plus large de constitution de grands jeux de données robotiques ouverts, comparable à Open-X Embodiment (Google DeepMind, 2023) ou au dataset DROID (Berkeley, Stanford). Les concurrents directs incluent l'initiative AgiBot World en Chine, qui a annoncé 1 million de trajectoires collectées via des bras téléopérés dédiés, et Universal Manipulation Interface (UMI) qui mise sur des dispositifs portables. COBALT se distingue par l'accessibilité des équipements et la scalabilité cloud, mais reste à ce stade un preprint académique sans déploiement industriel annoncé. La prochaine étape crédible est la validation sur des tâches réelles de manipulation, les auteurs ayant pour l'instant publié les résultats de politiques entraînées sur ce dataset sans préciser les benchmarks atteints.

UELes équipes R&D françaises et européennes (INRIA, CEA-List, startups robot learning) pourraient exploiter COBALT pour collecter des données de démonstration à faible coût sans infrastructure physique dédiée, mais aucune institution européenne n'est impliquée dans ce projet.

IA physiqueOpinion
1 source