Aller au contenu principal
IA physiquearXiv cs.RO2h

VLK : apprentissage de la loco-manipulation humanoïde à partir d'interactions synthétiques dans des scènes reconstruites

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Des chercheurs ont publié fin juin 2026, via arXiv (2606.30645), une méthode baptisée VLK (Vision-Language-Kinematics) permettant à un humanoïde d'apprendre à se déplacer et à manipuler des objets à partir d'observations égocentriques, sans aucune annotation humaine. Le pipeline génère automatiquement 48 000 trajectoires supervisées en reconstruisant des environnements intérieurs en 3D grâce à la technique de 3D Gaussian Splatting, puis en synthétisant des trajectoires de navigation et d'interaction avec des objets en exploitant les données de scène privilégiées, et enfin en rendant les images égocentriques correspondantes après coup. Une politique VLK est ensuite entraînée à prédire des trajectoires cinématiques corps entier à court horizon, converties en commandes physiques par un tracker corps entier. Les expériences physiques ont été réalisées sur le robot humanoïde Unitree G1, sur des tâches de navigation et de transport d'un objet unique dans des scènes reconstruites.

L'intérêt technique de cette approche est de répondre à un verrou de données structurel : aucune source existante ne fournit à grande échelle le triplet complet (images égocentriques synchronisées, instructions en langage naturel, trajectoires cinématiques compatibles avec un humanoïde). VLK résout ce problème par génération synthétique totale, sans capture de mouvement, sans télé-opération, sans annotation. Cela positionne la méthode comme un levier de scalabilité réel pour les politiques VLA (Vision-Language-Action) appliquées aux humanoïdes, à condition que le rendu synthétique soit suffisamment fidèle pour passer le sim-to-real, ce que les auteurs revendiquent mais sur un périmètre de tâches encore limité (transport mono-objet, scènes intérieures).

Le contexte situe ce travail dans la vague des politiques génératives pour humanoïdes, aux côtés de Pi-0 (Physical Intelligence), GR00T N2 (Nvidia) ou des approches diffusion-based de Figure. Le Unitree G1, plateforme abordable à environ 16 000 dollars, est devenu un banc de test standard dans la communauté académique, ce qui facilite la reproductibilité. La reconstruction par Gaussian Splatting, popularisée depuis 2023, permet ici de créer des environnements d'entraînement photoréalistes à partir de scans de quelques minutes. Les prochaines étapes naturelles seront d'étendre la méthode à la manipulation bi-manuelle, à des scènes plus dynamiques et à des horizons de prédiction plus longs, où la dérive cinématique reste un problème ouvert.

À lire aussi

ROVE : l'apprentissage par renforcement pour débloquer les interventions humaines dans la manipulation par humanoïdes
1arXiv cs.RO 

ROVE : l'apprentissage par renforcement pour débloquer les interventions humaines dans la manipulation par humanoïdes

Une équipe de chercheurs a publié fin juin 2026 ROVE (Reinforcement learning for humanoid VLA post-training with imperfect human interventions), un framework de renforcement dédié à l'amélioration des modèles Vision-Language-Action (VLA) sur robots humanoïdes à partir d'interventions humaines imparfaites. Le principe : un opérateur prend la main sur le robot lors des phases d'échec, générant des trajectoires correctives qui servent ensuite à affiner le modèle. Le problème bien identifié par les auteurs est que ces interventions humaines sont souvent hésitantes, sous-optimales, voire erronées, ce qui rend l'imitation naïve contre-productive. ROVE introduit deux mécanismes centraux : un pipeline human-in-the-loop capable de collecter simultanément des données de déploiement autonome et d'intervention, et une méthode d'estimation de valeur dite "optimiste" (Optimistic Value Estimation, OVE) qui filtre les comportements à haute valeur depuis des trajectoires de qualité mixte. Le framework intègre également des vidéos d'expériences humaines cross-embodiment pour enrichir la supervision sur les modes de défaillance et de récupération rares. Sur des tâches réelles de manipulation à contact-riche et fine-grained, ROVE surpasse les baselines par apprentissage par expérience et s'améliore de manière consistante à chaque itération rollout-intervention. L'enjeu central ici est la scalabilité du déploiement humanoïde en conditions réelles. Les modèles VLA, Pi-0 de Physical Intelligence, GR00T N2 de NVIDIA, OpenVLA -- ont démontré des capacités de généralisation remarquables, mais leur post-training sur hardware humanoïde reste un goulot d'étranglement : la cinématique whole-body et le contrôle de mains dextères compliquent radicalement la collecte de données téléopérées de qualité. ROVE invalide l'hypothèse selon laquelle l'intervention humaine doit être experte pour être utile : OVE permet d'extraire un signal d'avantage informatif même depuis des démonstrations imparfaites, ce qui signifie qu'on peut utiliser des opérateurs non-spécialistes pour améliorer continûment le modèle en production. C'est un changement de paradigme potentiellement significatif pour les intégrateurs : la qualité du déploiement n'est plus bornée par la disponibilité d'experts en téléopération. Ce travail s'inscrit dans une vague de recherches sur le RLHF appliqué à la robotique physique, après les travaux pionniers sur l'imitation par intervention (HATO, HITL-TAMER) et les approches par feedback correctif. Les humanoïdes ciblés restent non précisés dans l'abstract (preprint arXiv, les détails hardware seront à vérifier dans le papier complet), mais les résultats sur tâches contact-rich suggèrent une applicabilité aux plateformes type Figure 03, Unitree H1/G1 ou Agility Digit. Le positionnement concurrentiel est clair : là où Physical Intelligence mise sur la qualité des données téléopérées en amont, ROVE parie sur la rectification en boucle fermée en aval. Les prochaines étapes probables incluent des tests à plus grande échelle et une évaluation sur plusieurs architectures VLA, mais en l'état de preprint, aucun déploiement commercial n'est annoncé.

IA physiqueOpinion
1 source
SSI-Policy : apprentissage d'interfaces de scène structurées pour la manipulation robotique vision-langage
2arXiv cs.RO 

SSI-Policy : apprentissage d'interfaces de scène structurées pour la manipulation robotique vision-langage

Des chercheurs ont déposé SSI-Policy sur arXiv (2606.26800, juin 2026), un framework modulaire pour la manipulation robotique en régime de faibles données. Le système repose sur une représentation intermédiaire appelée Structured Scene Interface (SSI), une couche RGB-only qui encode simultanément des caractéristiques de profondeur monoculaire, des dispositions spatiales d'objets ancrées dans le langage naturel, et des trajectoires 2D conditionnées par instruction. Sur le benchmark LIBERO avec seulement 10 démonstrations par tâche, SSI-Policy dépasse la meilleure méthode concurrente de près de 15 points, et reste compétitif face aux approches à 50 démonstrations recourant au préentraînement externe à large échelle. Les auteurs valident également sur 13 tâches réelles : raisonnement spatial, transfert cross-embodiment et manipulation avec contact. L'apport central est architectural : en découplant la perception du contrôle via l'interface SSI, la politique aval peut apprendre à partir de très peu de démonstrations. Que l'interface soit entraînable sur des vidéos sans annotation d'action est particulièrement précieux pour les intégrateurs industriels qui peinent à collecter des données de téléopération à grande échelle. L'absence de capteur de profondeur, le système fonctionnant en pure RGB, réduit les prérequis matériels et facilite le déploiement sur des bras standards. Le caractère robot-agnostique de SSI cible directement la faiblesse récurrente des VLA (Vision-Language Action models) comme Pi-0 de Physical Intelligence, OpenVLA ou GR00T N2 de NVIDIA : leur difficulté à transférer vers de nouveaux embodiments sans réentraînement coûteux. SSI-Policy se positionne face à trois familles de méthodes : les approches vidéo (SuSIE, UniSim), sujettes à dérive géométrique sur les horizons longs ; les méthodes 3D (Act3D, RoboPoint), qui exigent du RGB-D ; et les interfaces de flux optique, sans structure géométrique explicite. SSI-Policy prétend en combiner les avantages, affirmation partiellement étayée par les ablations publiées mais restant à confirmer sur des benchmarks plus larges comme RLBench ou DROID. L'article est un preprint, non soumis à évaluation par les pairs. La suite logique : validation sur plateformes humanoïdes complètes et pilotes industriels réels, deux domaines où la robustesse en faible nombre d'exemples reste le verrou commercial principal.

IA physiqueOpinion
1 source
SUGAR : cadre d'apprentissage généralisable et extensible pour la loco-manipulation humanoïde par vidéos humaines
3arXiv cs.RO 

SUGAR : cadre d'apprentissage généralisable et extensible pour la loco-manipulation humanoïde par vidéos humaines

Des chercheurs présentent SUGAR (Scalable hUman-video-driven GenerAlizable humanoid loco-manipulation leaRning), un framework publié en préprint sur arXiv (arXiv:2605.20373, mai 2026), conçu pour entraîner des robots humanoïdes à des tâches de loco-manipulation à partir de vidéos humaines non structurées, sans ingénierie de récompenses propre à chaque tâche. Le pipeline se décompose en trois étapes : extraction automatisée de priors cinématiques (trajectoires humain-objet et labels de contact) depuis des vidéos brutes ; raffinement physique via un mimic reward unifié et un progressive state pool qui transforment ces priors imparfaits en mouvements physiquement cohérents ; puis distillation dans une politique hiérarchique composée d'un générateur et d'un suiveur de commandes. Le système a été évalué sur six tâches de loco-manipulation, en simulation et sur matériel humanoïde réel, avec transfert zero-shot vers le monde physique, récupération autonome après échec, et robustesse aux perturbations externes. L'enjeu central est la scalabilité : là où la téléopération humaine, méthode utilisée par Figure AI, Apptronik ou 1X, reste coûteuse et difficile à industrialiser, SUGAR exploite le corpus massif de vidéos humaines disponibles. Le verrou technique était que les priors cinématiques extraits de ces vidéos sont intrinsèquement bruités (occlusions, artefacts de contact, erreurs de retargeting) et inutilisables en l'état pour l'apprentissage. L'étape de raffinement physique est ici la contribution principale. Le fait que la performance scale clairement avec le volume de données vidéo est un résultat significatif : il oriente la recherche vers l'augmentation de données plutôt que l'ingénierie manuelle de récompenses, un changement de paradigme pour les équipes travaillant sur des humanoïdes généralistes. SUGAR s'inscrit dans la vague de contrôle humanoïde piloté par les données, en concurrence directe avec les approches VLA de Physical Intelligence (Pi-0), Google DeepMind, et Nvidia (GR00T N2). Le sim-to-real zero-shot revendiqué reste le défi emblématique du secteur ; les auteurs affirment l'atteindre de manière fiable avec récupération autonome des échecs, mais la sélection de seulement six tâches de démonstration mérite d'être notée. À ce stade, il s'agit d'un résultat académique sans timeline de déploiement commercial : les limites immédiates concernent la diversité des tâches et des environnements testés, qui conditionneront la généralisation à des déploiements industriels réels.

IA physiquePaper
1 source
CLAP : pré-entraînement contrastif par actions latentes pour l'apprentissage de modèles VLA à partir de vidéos humaines
4arXiv cs.RO 

CLAP : pré-entraînement contrastif par actions latentes pour l'apprentissage de modèles VLA à partir de vidéos humaines

Des chercheurs ont soumis sur arXiv (2601.04061v2, janvier 2026) un framework appelé CLAP, pour Contrastive Latent Action Pretraining, conçu pour entraîner des modèles Vision-Language-Action (VLA) généralistes à partir de vidéos humaines non étiquetées. Le pipeline repose sur deux étapes: un module Act-VAE construit d'abord un vocabulaire d'actions exécutables à partir de trajectoires robotiques existantes, puis un apprentissage contrastif aligne les transitions visuelles extraites de vidéos humaines sur ce vocabulaire latent, pseudo-étiquetant ainsi ces vidéos sans collecte téléopérée supplémentaire. Sur cette base, CLAP-NTP est entraîné comme VLA autorégressif combinant démonstrations robotiques réelles et vidéos humaines étiquetées. Pour le déploiement, CLAP-RF ajoute une tête à flux rectifié (Rectified Flow) permettant la prédiction de chunks d'actions continus à faible latence, couplée à une régularisation dite Knowledge Matching qui préserve les connaissances sémantiques préentraînées lors du fine-tuning sur domaine cible. L'obstacle central des VLA généralistes reste la rareté des données robotiques étiquetées face à l'abondance de vidéos humaines disponibles en ligne. Les approches antérieures de type Latent Action Models tentaient d'exploiter ces vidéos mais encodaient du bruit visuel plutôt que des compétences de manipulation réelles, un problème qualifié d'enchevêtrement visuel (visual entanglement). CLAP contourne cette limitation en ancrant l'espace latent sur des trajectoires physiquement fondées via l'apprentissage contrastif, sans reconstruire l'apparence. Pour les intégrateurs industriels, la promesse concrète est de réduire le coût de collecte téléopérée, estimé à plusieurs milliers de dollars par heure, tout en améliorant la généralisation à de nouveaux objets sans démonstrations robotiques exhaustives. Les résultats expérimentaux rapportés montrent de bonnes performances face aux baselines comparatives, mais la validation externe reste à confirmer. Le domaine des VLA est en pleine effervescence depuis l'émergence de Pi-0 (Physical Intelligence), GR00T N2 (NVIDIA), OpenVLA et Helix (Figure AI), tous confrontés à la même pénurie de données étiquetées exploitables. Google DeepMind a exploré des voies similaires avec des travaux comme UniSim. CLAP se distingue en proposant une approche plus physiquement ancrée que les méthodes purement génératives ou reconstructrices. Ce preprint n'a pas encore été évalué par les pairs et n'annonce aucun déploiement en production. Les prochaines étapes naturelles seraient une validation sur un éventail plus large de plateformes robotiques ainsi qu'une comparaison systématique avec les Diffusion Policies, méthodes actuellement dominantes sur les benchmarks Open X-Embodiment.

IA physiqueActu
1 source