Aller au contenu principal
L'action latente axée sur le mouvement permet l'entraînement VLA multi-morphologie depuis des vidéos subjectives humaines
RecherchearXiv cs.RO2h

L'action latente axée sur le mouvement permet l'entraînement VLA multi-morphologie depuis des vidéos subjectives humaines

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Une équipe de chercheurs a publié un cadre d'entraînement basé sur des actions latentes permettant de former des modèles VLA (Vision-Language-Action) généralistes à partir de vidéos égocentriques humaines non annotées, sous l'identifiant arXiv:2606.18955. L'architecture centrale, baptisée Hybrid Disentangled VQ-VAE, décompose les dynamiques de mouvement des arrière-plans environnementaux via des masques physiques et construit un codebook d'actions multi-embodiment. Pré-entraîné exclusivement sur des vidéos humaines sans étiquettes d'action, le modèle ne requiert que 50 trajectoires robotiques annotées pour s'adapter à un embodiment cible, contre des milliers généralement exigés par les approches concurrentes. Les résultats, validés en simulation et en environnement réel, affichent des performances comparables aux meilleurs modèles VLA entraînés sur des jeux de données massifs et entièrement annotés. Une stratégie de découplage intention-perception complète l'architecture : le backbone VLM prédit l'intention d'action tandis qu'un encodeur visuel gelé distinct fournit les caractéristiques propres à l'état courant à un module expert d'action, réduisant ainsi les hallucinations d'action.

Ce travail s'attaque directement au principal goulot d'étranglement du domaine : la rareté des données robotiques avec annotations de haute fidélité. Les vidéos humaines égocentriques, abondantes sur internet et capturant une grande diversité environnementale, restaient jusqu'ici inexploitables dans les paradigmes d'entraînement classiques faute de labels d'action. Descendre à 50 trajectoires pour l'adaptation aval représente un changement d'ordre de grandeur pour les intégrateurs industriels qui n'ont ni la logistique ni le budget pour constituer des datasets robotiques à grande échelle. Le codebook cross-embodiment ouvre en outre la voie à des modèles fondamentaux transférables entre différentes morphologies de robots, ce qui répond à l'un des reproches récurrents faits aux approches VLA : leur faible généralisation inter-plateforme.

Le contexte concurrentiel est dense. Pi-0 de Physical Intelligence, GR00T N2 de NVIDIA et OpenVLA visent tous à former des modèles VLA généralistes, mais s'appuient principalement sur des datasets robotiques annotés comme OpenX-Embodiment ou des jeux propriétaires. Des travaux antérieurs comme UniSim ou des approches de pré-entraînement sur vidéo internet avaient déjà exploré cette direction sans atteindre ce niveau de frugalité en données. Ce preprint arXiv reste à ce stade une contribution de recherche : pas de déploiement industriel annoncé, pas de partenariat déclaré. Les prochaines étapes naturelles seraient une évaluation sur des benchmarks standardisés comme LIBERO ou RoboSuite, et une validation sur une palette plus large de morphologies robotiques réelles.

À lire aussi

ActiveMimic : pré-entraînement sur vidéo égocentrique avec perception active
1arXiv cs.RO 

ActiveMimic : pré-entraînement sur vidéo égocentrique avec perception active

Des chercheurs ont publié ActiveMimic (arXiv:2606.06194, juin 2026), un framework de pré-entraînement robotique qui exploite des vidéos égocentrées humaines captées par une simple caméra RGB portée sur le corps. La contribution technique centrale : plutôt que de traiter les mouvements de caméra comme du bruit, comme le font les pipelines standards, ActiveMimic récupère des trajectoires synchronisées de la caméra et du poignet depuis ce seul flux vidéo, puis modélise le déplacement de la caméra comme une "action de point de vue" à part entière. Le framework apprend ainsi simultanément la perception active et la manipulation à partir de vidéos humaines capturées en conditions réelles, avant d'être adapté à un robot cible via fine-tuning. Sur plusieurs tâches de manipulation impliquant des degrés variés de perception active, les expériences en conditions réelles montrent qu'ActiveMimic surpasse les baselines pré-entraînées sur vidéo humaine classique et atteint les performances des modèles pré-entraînés sur données robotiques. Ce résultat est notable car la vidéo égocentrée humaine est disponible à grande échelle sans nécessiter de robot, mais les modèles qui en étaient issus sous-performaient systématiquement face à ceux entraînés sur données robotiques. ActiveMimic identifie le signal manquant : la perception active, soit le comportement naturel par lequel un humain repositionne continuellement son point de vue pendant une manipulation. Ce mécanisme, invisible pour les pipelines qui traitent la motion de caméra comme artefact, s'avère être le facteur clé pour extraire la valeur de ces vidéos. Les expériences indiquent en outre que la capacité de perception active émerge du pré-entraînement sur vidéo humaine et non du fine-tuning robot-spécifique, ce qui suggère une transférabilité potentielle à d'autres architectures et morphologies. Ce travail s'inscrit dans une compétition dense autour des modèles vision-action (VLA) pour la manipulation robotique généraliste. Physical Intelligence avec Pi-0, Google DeepMind avec RT-2, et les équipes de Figure AI exploitent des architectures VLA pré-entraînées, mais s'appuient majoritairement sur des données de téléopération robotique, coûteuses et lentes à collecter. Si l'approche d'ActiveMimic se confirme sur des benchmarks indépendants et des environnements non contrôlés, elle pourrait réduire significativement ce goulot d'étranglement en substituant une partie des données robotiques par de la vidéo humaine abondante. Les prochaines étapes naturelles incluent la validation industrielle, l'extension à des morphologies variées, et l'évaluation de la scalabilité avec des volumes de vidéo égocentrée plus importants.

RechercheOpinion
1 source
Entraînement hybride pour les modèles vision-langage-action (VLA)
2arXiv cs.RO 

Entraînement hybride pour les modèles vision-langage-action (VLA)

Une équipe de chercheurs a publié sur arXiv (identifiant 2510.00600, version 2) un framework nommé Hybrid Training (HyT), conçu pour les modèles Vision-Language-Action (VLA) utilisés en robotique de manipulation. Le problème central est le suivant : le raisonnement par chaîne de pensée (Chain-of-Thought, CoT), qui consiste à générer des "pensées" intermédiaires avant chaque action, améliore les performances des VLA mais allonge mécaniquement le temps d'inférence. Dans des tâches requérant de longues séquences d'actions successives, ce délai compromet l'utilisabilité réelle du système. HyT découple la phase d'apprentissage de la phase d'exécution : le modèle s'entraîne en intégrant les pensées intermédiaires, acquiert les gains de performance associés, puis peut les omettre entièrement lors du déploiement. Le framework supporte trois modes à l'inférence selon le contexte : prédiction directe d'actions, génération CoT complète, ou suivi d'instructions. Les auteurs ont validé l'approche sur plusieurs benchmarks simulés et sur des expériences en conditions réelles. Ce découplage entraînement/inférence répond à l'une des tensions fondamentales dans le déploiement industriel des VLA : les techniques qui améliorent la fiabilité dégradent souvent la réactivité. Pour un intégrateur ou un COO industriel, un système qui "réfléchit" trop longtemps avant d'agir est difficilement intégrable sur une ligne de production cadencée. HyT avance que les bénéfices du raisonnement explicite peuvent être distillés dans les poids du modèle et activés implicitement, sans générer de tokens supplémentaires au runtime. Si ce résultat se confirme à plus grande échelle, il simplifierait le compromis latence/performance qui freine aujourd'hui le déploiement de bras manipulateurs VLA en environnement non structuré. C'est également une réponse indirecte au "demo gap" fréquemment reproché à ces modèles : de bonnes performances en simulation ne garantissent pas une vitesse d'exécution acceptable sur le terrain. L'essor des VLA s'est accéléré depuis 2023 avec RT-2 (Google DeepMind), OpenVLA (UC Berkeley), Pi-0 (Physical Intelligence) et GR00T N2 (NVIDIA), qui combinent vision, langage et prédiction d'actions dans un seul réseau. L'application du CoT à la robotique prolonge les travaux fondateurs sur les LLMs, mais se heurte aux contraintes temps-réel absentes du traitement de texte. HyT s'inscrit dans un courant de recherche orienté déployabilité, aux côtés de la distillation de politiques et des architectures à flux de tokens réduit. La publication est une preprint arXiv non peer-reviewed, et les résultats en conditions réelles restent à confirmer à plus grande échelle industrielle. Aucun acteur européen n'est impliqué dans ces travaux ; les laboratoires cités opèrent principalement depuis les États-Unis.

RechercheOpinion
1 source
Phantom : entraîner des robots sans robots, uniquement avec des vidéos humaines
3arXiv cs.RO 

Phantom : entraîner des robots sans robots, uniquement avec des vidéos humaines

Une équipe de chercheurs a publié Phantom (arXiv:2503.00779), un framework d'entraînement de politiques de manipulation robotique n'utilisant aucune donnée robot : uniquement des vidéos de démonstrations humaines. Le pipeline extrait les trajectoires via estimation de pose des mains (hand pose estimation), efface le bras humain par inpainting, puis superpose un rendu 3D du robot cible pour produire des paires observation-action directement exploitables. Déployé en zero-shot sur matériel réel sans fine-tuning, le système atteint jusqu'à 92 % de taux de réussite sur des tâches de manipulation d'objets déformables, de balayage multi-objets et d'insertion de composants. Les politiques supportent l'exécution en boucle fermée (closed-loop) et généralisent à des environnements inédits non vus à l'entraînement. L'enjeu est la scalabilité des données. La téléopération, méthode dominante chez Figure, 1X ou Physical Intelligence, exige du matériel disponible, des opérateurs qualifiés et des sessions d'enregistrement coûteuses. En substituant des vidéos humaines à ces démos, Phantom compresse drastiquement le coût d'acquisition du dataset. Si les taux de réussite annoncés se confirment en dehors des conditions contrôlées du laboratoire, cela représenterait un argument solide contre le "reality gap" classique entre simulation et déploiement industriel. La capacité à généraliser sans fine-tuning, point souvent problématique pour les modèles VLA (Visual Language Action), mérite toutefois une validation sur des environnements plus variés que ceux présentés dans le papier. Le problème des données hors-robot n'est pas nouveau : DexMV, ACT et les travaux autour de GR00T N2 de NVIDIA ont exploré des voies comparables, et Physical Intelligence avec pi-0 a parié sur la diversité massive de données multi-embodiment. Les approches sim-to-real via IsaacLab ou Genesis constituent les concurrents méthodologiques directs, contournant le même obstacle par la simulation plutôt que par la vidéo humaine. Phantom se distingue par sa légèreté : pas de flotte de robots nécessaire pour constituer le dataset initial. Le travail reste à ce stade une preuve de concept académique, sans partenariat ni déploiement industriel annoncé. La prochaine étape attendue serait une validation sur des morphologies robotiques variées et des tâches à précision sub-millimétrique.

RechercheOpinion
1 source
Entraînement au moment de l'inférence pour les modèles vision-langage-action à prévision visuelle (VLA)
4arXiv cs.RO 

Entraînement au moment de l'inférence pour les modèles vision-langage-action à prévision visuelle (VLA)

Des chercheurs proposent T³VF (Test-Time Training Visual Foresight VLA), une méthode d'adaptation à l'inférence publiée sur arXiv en mai 2025 (réf. 2605.08215). Les architectures Visual Foresight VLA, qui figurent parmi les plus performantes pour le contrôle de robots manipulateurs, fonctionnent en deux temps : elles prédisent d'abord une image future représentant l'état visuel attendu après l'action, puis génèrent la commande motrice à partir de cette prédiction. Cette dépendance en cascade crée une vulnérabilité double aux situations hors-distribution (OOD) : une prédiction visuelle dégradée corrompt directement la décision motrice en aval. T³VF exploite l'écart entre l'image future prédite et l'observation réellement reçue comme signal de supervision naturel, permettant au modèle de s'ajuster en continu pendant l'exécution, sans modification architecturale ni modules auxiliaires. Un mécanisme de filtrage adaptatif sélectionne les mises à jour pertinentes pour éviter la dérive par accumulation d'erreurs indiscriminée. Pour les équipes de déploiement, l'enjeu est direct : les VLA sont benchmarkés en laboratoire mais confrontés en production à des variations de scène (éclairage, textures, disposition des objets) rarement couvertes par les données d'entraînement. T³VF propose une adaptation sans annotation humaine ni nouvelle session d'entraînement, le robot se corrigeant à partir de ses propres observations, avec un surcoût d'inférence qualifié de modeste par les auteurs, une affirmation à vérifier selon les environnements cibles. Si les résultats se confirment à plus grande échelle, la méthode pourrait réduire les cycles de re-fine-tuning lors du passage en production, un poste de coût opérationnel significatif pour les intégrateurs industriels. Les VLA s'imposent depuis 2023 comme architecture dominante en manipulation robotique, portés par des modèles comme RT-2 (Google DeepMind), OpenVLA ou Pi-0 de Physical Intelligence. Les variantes Visual Foresight, qui ajoutent une prédiction d'état futur avant l'action, ont montré des gains sur les tâches de précision, mais leur fragilité face aux shifts de distribution restait peu adressée dans la littérature. Ce travail s'inscrit dans un courant croissant de Test-Time Training (TTT) appliqué à la robotique, distinct du fine-tuning classique en ce qu'il n'exige aucune supervision externe. Aucun partenariat industriel ni timeline de transfert technologique n'est mentionné : ce pré-print académique ne décrit pas de produit ou de déploiement commercialisé associé.

RechercheOpinion
1 source