Phantom : entraîner des robots sans robots,…

Apprentissage robotique à partir de vidéos humaines : une synthèse

41

1arXiv cs.RO

Apprentissage robotique à partir de vidéos humaines : une synthèse

Une équipe de chercheurs a publié sur arXiv (arXiv:2604.27621) un état de l'art complet sur l'apprentissage des compétences robotiques à partir de vidéos humaines. Le papier recense les techniques permettant de transférer des habiletés gestuelles filmées vers des robots manipulateurs, en s'appuyant sur la masse de vidéos d'activités humaines disponibles en ligne. Les auteurs proposent une taxonomie hiérarchique structurée en trois axes : l'apprentissage orienté tâche (le robot déduit l'objectif), l'apprentissage orienté observation (alignement visuel entre humain et robot), et l'apprentissage orienté action (estimation directe des mouvements moteurs). Le survey couvre également les fondements de données, en analysant les principaux jeux de données de vidéos humaines existants ainsi que les schémas de génération vidéo synthétique. Une liste exhaustive des travaux référencés est disponible sur GitHub (IRMVLab/awesome-robot-learning-from-human-videos). Ce travail de synthèse arrive à un moment clé : le manque de données robotiques à grande échelle constitue aujourd'hui le principal goulot d'étranglement pour les systèmes d'IA incarnée généralistes. Les vidéos humaines représentent une ressource passive quasi illimitée, et leur exploitation pourrait contourner le coût exorbitant de la collecte de démonstrations téléopérées. Le papier analyse explicitement comment les différentes approches se comportent selon les paradigmes d'apprentissage (imitation, renforcement, diffusion) et les configurations de données, ce qui est directement utile pour des intégrateurs qui cherchent à choisir une architecture VLA (Vision-Language-Action) selon leur contrainte de données terrain. Le survey souligne aussi honnêtement les limitations du champ : le gap démo-réalité reste non résolu dans la plupart des pipelines, et les métriques de transfert restent hétérogènes d'un papier à l'autre. Ce type de survey émerge dans un contexte où plusieurs labos et startups misent sur le video-based learning comme levier de scalabilité : Physical Intelligence (pi-0), NVIDIA (GR00T N2), et Google DeepMind ont tous intégré des données humaines ou des vidéos internet dans leurs pipelines d'entraînement récents. Côté recherche académique, les travaux comme R3M, UniPi ou RoboAgent ont posé les jalons de cette approche ces deux dernières années. Ce survey offre donc une base de référence structurée pour les équipes qui entrent maintenant dans ce champ, avec des pistes de recherche ouvertes notamment sur la synchronisation temporelle corps-robot et la génération de données vidéo simulées pour la diversification des trajectoires.

UELes équipes de recherche françaises (CEA-List, INRIA) et les startups européennes travaillant sur des architectures VLA peuvent exploiter cette taxonomie structurée pour orienter leurs choix méthodologiques selon leurs contraintes de données terrain.

RecherchePaper

1 source

Co-entraînement avec vidéo égocentrique et démonstration pour la navigation robotique

42

2arXiv cs.RO

Co-entraînement avec vidéo égocentrique et démonstration pour la navigation robotique

Des chercheurs ont publié sur arXiv (réf. 2606.01951) un cadre d'apprentissage par imitation pour robots mobiles qui exploite des vidéos égocentrées tournées par des humains en train de marcher. Le principe : estimer le mouvement de la caméra à partir de ces séquences piétonnes, puis convertir ce flux en représentations d'actions compatibles avec des robots mobiles au sol. Un modèle VLA (Vision-Language-Action) est ensuite entraîné conjointement sur ces données dérivées de vidéos humaines et sur des trajectoires collectées directement par le robot. Les expériences portent sur une tâche de navigation avec recherche de fruits, où le robot doit localiser des objets cibles dans un environnement non structuré en suivant des instructions en langage naturel. L'intérêt de cette approche réside dans sa réponse au principal goulot d'étranglement de la robotique apprise : la collecte de données sur robot réel est coûteuse, lente, et difficilement scalable. Si recycler des vidéos égocentrées humaines pour l'apprentissage de tâches de manipulation existe déjà dans la littérature (notamment via des datasets comme EPIC-Kitchens ou des pipelines type ACT), l'étendre à la navigation mobile reste difficile car les changements de point de vue lors de la locomotion créent des discontinuités que les modèles de manipulation ne rencontrent pas. Les résultats montrent que l'entraînement conjoint dépasse les deux sources de données prises isolément, aussi bien en compréhension du langage qu'en robustesse de génération d'actions. Cela valide partiellement l'hypothèse que le sim-to-human-video-to-real peut fonctionner pour la navigation, sans simulation physique. Ce travail s'inscrit dans une course plus large à la scalabilité des données pour les VLA, où des acteurs comme Physical Intelligence (pi0), Google DeepMind (RT-2, GR00T N2 pour Nvidia) ou Boston Dynamics cherchent des pipelines moins dépendants de la téléopération humaine sur robot. La navigation mobile reste moins couverte que la manipulation dans cette littérature, et ce papier ouvre une voie de co-training à moindre coût. Les prochaines étapes naturelles seraient d'évaluer la généralisation à des environnements plus complexes, de mesurer le ratio optimal données humaines/données robot, et de tester sur des plateformes AMR commerciales. Le code et les datasets ne sont pas encore publiés au moment de la soumission arXiv.

RechercheOpinion

1 source

Robot humanoïde à partir de vidéos humaines : apprentissage zéro-shot avec des corps alignés sur l'humain

43

3arXiv cs.RO

Robot humanoïde à partir de vidéos humaines : apprentissage zéro-shot avec des corps alignés sur l'humain

Des chercheurs présentent Human-as-Humanoid, un système qui permet d'entraîner des robots humanoïdes directement à partir de vidéos humaines, sans passer par la téléopération classique. Le framework s'appuie sur PrimeU, un humanoïde à 60 degrés de liberté (DoF) pour le haut du corps conçu pour reproduire l'anatomie humaine. La méthode combine des vidéos synchronisées en vue égocentrique (depuis les yeux du démonstrateur) et exocentrique (vue extérieure) : la première fournit une observation alignée sur ce que "verra" le robot en déploiement, la seconde permet de reconstruire précisément le mouvement humain. Ce mouvement est ensuite converti, via une cinématique inverse (IK) en plusieurs étapes, en séquences d'actions directement exploitables par le contrôleur du robot, avant d'entraîner un modèle vision-langage-action (VLA) avec une supervision tenant compte de la cinématique directe (FK) pour préserver la géométrie du poignet et des doigts. Les auteurs rapportent un gain de débit de collecte de données de 4,8 à 7,2 fois supérieur à la téléopération humanoïde classique. L'enjeu dépasse le simple gain de vitesse : la vraie difficulté pour les VLA humanoïdes à haut DoF, c'est le manque chronique de données action-observation de qualité, la téléopération restant lente et coûteuse à grande échelle. En montrant que des politiques entraînées uniquement sur des vidéos humaines converties généralisent à un déploiement réel sans démonstration robotique dédiée à la tâche cible, cette étude appuie l'hypothèse que le goulot d'étranglement des données humanoïdes peut être contourné par les vidéos humaines abondantes sur le web, plutôt que résolu uniquement par plus de téléopération ou plus de simulation. Ce travail s'inscrit dans une lignée de recherches (Pi-0, GR00T N2, Helix) qui cherchent à exploiter des sources de données hétérogènes pour les VLA robotiques, l'originalité ici étant l'alignement explicite entre morphologie humaine et robot via PrimeU. Les auteurs valident leur chaîne de conversion à trois niveaux (récupération du mouvement, espace d'action du robot, déploiement réel), mais les résultats restent circonscrits à quelques tâches de manipulation testées en laboratoire, sans indication de volumes de déploiement industriel à ce stade.

RechercheActu

1 source

L'action latente axée sur le mouvement permet l'entraînement VLA multi-morphologie depuis des vidéos subjectives humaines

42

4arXiv cs.RO

L'action latente axée sur le mouvement permet l'entraînement VLA multi-morphologie depuis des vidéos subjectives humaines

Une équipe de chercheurs a publié un cadre d'entraînement basé sur des actions latentes permettant de former des modèles VLA (Vision-Language-Action) généralistes à partir de vidéos égocentriques humaines non annotées, sous l'identifiant arXiv:2606.18955. L'architecture centrale, baptisée Hybrid Disentangled VQ-VAE, décompose les dynamiques de mouvement des arrière-plans environnementaux via des masques physiques et construit un codebook d'actions multi-embodiment. Pré-entraîné exclusivement sur des vidéos humaines sans étiquettes d'action, le modèle ne requiert que 50 trajectoires robotiques annotées pour s'adapter à un embodiment cible, contre des milliers généralement exigés par les approches concurrentes. Les résultats, validés en simulation et en environnement réel, affichent des performances comparables aux meilleurs modèles VLA entraînés sur des jeux de données massifs et entièrement annotés. Une stratégie de découplage intention-perception complète l'architecture : le backbone VLM prédit l'intention d'action tandis qu'un encodeur visuel gelé distinct fournit les caractéristiques propres à l'état courant à un module expert d'action, réduisant ainsi les hallucinations d'action. Ce travail s'attaque directement au principal goulot d'étranglement du domaine : la rareté des données robotiques avec annotations de haute fidélité. Les vidéos humaines égocentriques, abondantes sur internet et capturant une grande diversité environnementale, restaient jusqu'ici inexploitables dans les paradigmes d'entraînement classiques faute de labels d'action. Descendre à 50 trajectoires pour l'adaptation aval représente un changement d'ordre de grandeur pour les intégrateurs industriels qui n'ont ni la logistique ni le budget pour constituer des datasets robotiques à grande échelle. Le codebook cross-embodiment ouvre en outre la voie à des modèles fondamentaux transférables entre différentes morphologies de robots, ce qui répond à l'un des reproches récurrents faits aux approches VLA : leur faible généralisation inter-plateforme. Le contexte concurrentiel est dense. Pi-0 de Physical Intelligence, GR00T N2 de NVIDIA et OpenVLA visent tous à former des modèles VLA généralistes, mais s'appuient principalement sur des datasets robotiques annotés comme OpenX-Embodiment ou des jeux propriétaires. Des travaux antérieurs comme UniSim ou des approches de pré-entraînement sur vidéo internet avaient déjà exploré cette direction sans atteindre ce niveau de frugalité en données. Ce preprint arXiv reste à ce stade une contribution de recherche : pas de déploiement industriel annoncé, pas de partenariat déclaré. Les prochaines étapes naturelles seraient une évaluation sur des benchmarks standardisés comme LIBERO ou RoboSuite, et une validation sur une palette plus large de morphologies robotiques réelles.

RechercheOpinion

1 source

Phantom : entraîner des robots sans robots, uniquement avec des vidéos humaines

À lire aussi

Apprentissage robotique à partir de vidéos humaines : une synthèse

Co-entraînement avec vidéo égocentrique et démonstration pour la navigation robotique

Robot humanoïde à partir de vidéos humaines : apprentissage zéro-shot avec des corps alignés sur l'humain

L'action latente axée sur le mouvement permet l'entraînement VLA multi-morphologie depuis des vidéos subjectives humaines