Aller au contenu principal
NoTVLA : adapter les robots humanoïdes via des interfaces d'action narratives sans modifier le modèle VLA
IA physiquearXiv cs.RO6sem

NoTVLA : adapter les robots humanoïdes via des interfaces d'action narratives sans modifier le modèle VLA

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Des chercheurs ont publié sur arXiv (référence 2510.03895v2) NoTVLA, un framework pour modèles robotiques de type Vision-Language-Action (VLA) qui s'attaque au problème du catastrophic forgetting, soit la tendance d'un modèle à oublier les tâches apprises lors du fine-tuning sur de nouvelles. L'approche, baptisée Narrowing of Trajectory VLA, abandonne les séquences d'action denses (action chunks) au profit de trajectoires creuses (sparse trajectories), en concentrant l'apprentissage sur la trajectoire de l'effecteur terminal plutôt que sur celle de l'objet cible. Le système applique une compression temporelle et un élagage du raisonnement spatial pour réduire le volume d'information d'entraînement. Dans des scénarios multi-tâches, NoTVLA surpasse pi0, le modèle de foundation robotique de Physical Intelligence, en zero-shot, tout en utilisant plus d'un ordre de grandeur moins de puissance de calcul, et sans nécessiter de caméra montée sur le poignet.

Ce gain opérationnel est concret : le catastrophic forgetting constitue l'un des obstacles majeurs au déploiement industriel des VLA généralistes. Chaque fine-tuning sur un nouvel environnement tend à effacer les capacités précédemment acquises, forçant les intégrateurs à maintenir des modèles séparés par application, une contrainte coûteuse en infrastructure et en données étiquetées. NoTVLA contourne ce problème en évitant l'entraînement sur des trajectoires denses, lesquelles créent des silos de données isolés qui perturbent la rétention de connaissance entre tâches. L'absence de caméra poignet simplifie également l'intégration matérielle sur des bras industriels standard. Fait notable : le framework préserve les capacités linguistiques du modèle de base, ce qui permet une généralisation zero-shot depuis des perspectives de caméra inédites et un déploiement unifié sur plusieurs plateformes robotiques, avec des performances proches de modèles experts mono-tâche.

NoTVLA s'inscrit dans la compétition intense autour des VLA, apparus comme paradigme dominant depuis fin 2023. Physical Intelligence (pi0), NVIDIA (GR00T N2), Google DeepMind (RT-2) et des acteurs académiques comme le Berkeley RAIL Lab (OpenVLA) se disputent la définition du standard de foundation robotique. Ce papier reste une publication académique arXiv, pas encore un produit commercialisé ni un déploiement terrain annoncé : aucun code public ni dataset n'est mentionné dans l'abstract, et les résultats reposent sur des évaluations en simulation ou banc de test contrôlé. La prochaine étape logique sera la validation sur robots physiques en conditions réelles, avec des benchmarks sur plateformes comme Franka ou UR5. La promesse d'efficacité, dix fois moins de puissance de calcul que pi0, pourrait intéresser des intégrateurs européens cherchant à s'affranchir des infrastructures GPU massives des grands clouds américains.

Impact France/UE

La réduction de 10x des besoins de calcul par rapport à pi0 pourrait permettre à des intégrateurs européens de déployer des VLA généralistes sans dépendre des infrastructures GPU massives des grands clouds américains.

À lire aussi

MotionVLA : un modèle vision-langage-action pour les robots humanoïdes
1arXiv cs.RO 

MotionVLA : un modèle vision-langage-action pour les robots humanoïdes

Une équipe de l'AIGeeksGroup a publié le 18 juin 2026 sur arXiv (2606.15142) MotionVLA, un modèle de type Vision-Language-Action conçu pour générer du mouvement humanoïde réaliste à partir d'images de scène et d'instructions textuelles. Le coeur de la contribution repose sur DSFT (Dual-Stream Frequency Tokenizer), un tokeniseur qui décompose le signal de mouvement en deux flux distincts : un flux Base capturant la sémantique de pose basse fréquence, et un flux Phys encodant la dynamique physique haute fréquence. Cette séparation s'appuie sur une analyse en transformée en cosinus discrète (DCT) du corpus HumanML3D, qui révèle un déséquilibre concret : cinq coefficients DCT suffisent à couvrir 93 % de l'énergie des positions articulaires, mais seulement 37 % de l'énergie des vélocités. Les deux flux sont compressés indépendamment par troncature DCT et encodage BPE, puis réinjectés dans un transformeur autorégressif basé sur Qwen3.5 2B. Sur les benchmarks HumanML3D et MBench, MotionVLA réduit l'écart de diversité avec les données réelles de plus de 50 % et améliore la cohérence mouvement-condition de 3,8 %. Ce résultat pointe une limite structurelle des approches à codebook unique, qui dominent actuellement la génération de mouvement humanoïde : en forçant des signaux hétérogènes dans un espace de quantification commun, ces méthodes sous-représentent systématiquement les composantes dynamiques hautes fréquences au profit de la géométrie de pose. Pour les équipes travaillant sur le contrôle de robots humanoïdes ou la synthèse d'animation procédurale, cela signifie que la qualité du mouvement généré peut sembler plausible en posture statique mais manquer de naturel en transition. L'architecture duale de MotionVLA, malgré un backbone léger de 2 milliards de paramètres, obtient des gains mesurables sans augmenter significativement le coût de calcul. MotionVLA s'inscrit dans un mouvement de recherche plus large qui adapte les VLA, initialement développés pour le contrôle robotique visuomoteur, à la génération de comportement humanoïde. Le modèle s'appuie sur Qwen3.5, la famille de modèles open-weight d'Alibaba, et le code source est disponible sur GitHub (AIGeeksGroup/MotionVLA). À ce stade, il s'agit exclusivement d'un résultat de recherche académique évalué sur des benchmarks synthétiques standard, sans déploiement industriel ni partenariat hardware annoncé. Les acteurs comme Figure AI, 1X, Agility Robotics ou Fourier Intelligence, qui investissent dans la génération de mouvement pour leurs humanoïdes, suivent de près ce type de travaux, même si le chemin du benchmark de laboratoire vers un déploiement sim-to-real reste non démontré ici.

IA physiqueOpinion
1 source
HumanoidUMI : relier les démonstrations sans robot à la manipulation corps entier des humanoïdes
2arXiv cs.RO 

HumanoidUMI : relier les démonstrations sans robot à la manipulation corps entier des humanoïdes

HumanoidUMI est un framework de collecte de données de démonstration pour robots humanoïdes, déposé le 27 juin 2026 sur arXiv (arXiv:2606.27239v1). Le système permet de capturer des comportements de manipulation corps-entier sans nécessiter l'accès au robot physique pendant la collecte. Concrètement, un opérateur humain équipé d'un casque VR léger et de pinces inspirées du Universal Manipulation Interface (UMI) enregistre des trajectoires creuses de points-clés corporels (keypoints), des images depuis les poignets, et des actions de préhension. Ces démonstrations entraînent une politique de haut niveau qui prédit les keypoints futurs, retargétés en références motrices corps-entier et exécutés par un contrôleur dédié. La méthode a été validée dans cinq scénarios réels de manipulation. Le goulot d'étranglement majeur dans l'apprentissage de compétences pour humanoïdes reste la collecte de données de qualité. Les méthodes actuelles par télé-opération robot exigent un accès matériel coûteux, des opérateurs spécialisés, et souffrent d'un débit limité. En découplant la collecte de données de l'accès au robot, HumanoidUMI ouvre la voie à une scalabilité inédite : n'importe quel opérateur équipé d'un VR grand public peut générer des démonstrations transférables. C'est particulièrement significatif pour la manipulation corps-entier, qui coordonne perception, locomotion et manipulation simultanément, une capacité que l'UMI original, conçu pour les bras seuls, ne couvrait pas. Les résultats sur cinq scénarios réels suggèrent que le retargeting cinématique depuis des keypoints humains peut effectivement réduire le demo-to-real gap. HumanoidUMI s'inscrit dans la filiation directe de l'UMI (Universal Manipulation Interface), développé par des chercheurs de Stanford et Columbia pour la manipulation bras-seul. L'extension aux comportements corps-entier arrive dans un marché sous forte tension : Figure AI (Figure 03, politique Helix), Tesla (Optimus Gen 3), 1X Technologies (NEO) et Physical Intelligence (Pi-0) cherchent tous à réduire le coût de collecte de données pour leurs pipelines d'imitation learning. Les approches VLA (Vision-Language-Action) comme GR00T N2 de NVIDIA ciblent le même objectif via la généralisation zero-shot, faisant de la collecte de données le facteur discriminant de la course humanoïde. Il s'agit pour l'instant d'un preprint académique non encore évalué par des pairs, sans déploiement industriel annoncé, mais la portabilité du dispositif VR laisse entrevoir une adoption rapide dans des pipelines de recherche appliquée.

💬 Le vrai verrou des humanoïdes, c'était pas le moteur, c'était la collecte de données. HumanoidUMI découple ça de l'accès au robot physique, et si tu peux générer des démos transférables avec juste un casque VR grand public, tu changes directement le rythme d'itération de Figure, Tesla et les autres. C'est un preprint avec cinq scénarios réels, bon, mais c'est exactement le type de friction que j'attendais qu'on lève.

IA physiquePaper
1 source
GIVE : ancrage des gestes humains dans les modèles vision-langage-action (VLA)
3arXiv cs.RO 

GIVE : ancrage des gestes humains dans les modèles vision-langage-action (VLA)

Une équipe de chercheurs a soumis en juin 2026 sur arXiv un article décrivant GIVE (Gesture Intent via Visual-Semantic Enhancement), une méthode d'intégration de la compréhension gestuelle dans des modèles VLA (Vision-Language-Action) pré-entraînés, sans modification architecturale. Le système repose sur deux voies complémentaires : une voie visuelle superposant squelettes de mains et rayons de bout de doigt sur les images perçues par le robot pour ancrer explicitement l'objet visé, et une voie sémantique générant des descriptions textuelles du geste et de l'instruction de tâche. Testé en conditions réelles d'interaction humain-robot, GIVE améliore la précision de reconnaissance de l'objet cible de 40 % et le taux de succès global des tâches de manipulation de 80 % par rapport au modèle VLA de base, avec une généralisation démontrée sur des configurations spatiales inédites et des participants variés. Ce résultat touche un point sensible de la robotique collaborative : les modèles VLA actuels, qu'il s'agisse d'OpenVLA, de pi-0 de Physical Intelligence ou des modèles RT-2 de Google DeepMind, traitent la manipulation comme un problème purement text-driven. Dès qu'une instruction verbale est ambiguë, plusieurs objets similaires se trouvant dans la scène, le taux d'échec grimpe. GIVE propose une réponse à ce problème d'ancrage de l'intention (intent grounding) sans réentraîner le modèle de base, atout concret pour les équipes d'intégration. Les gains sont mesurés sur des expériences physiques réelles, ce qui renforce la crédibilité du résultat, même si l'article ne publie pas le nombre total d'essais ni la distribution précise des scènes testées. La méthode s'inscrit dans une tendance d'enrichissement des interfaces humain-robot au-delà de la commande vocale, dans un champ où des travaux sur le pointage gestuel et des modèles comme Gemini Robotics de Google ou GR00T N2 de NVIDIA explorent des directions voisines. GIVE se distingue par son approche non-invasive, compatible avec tout VLA pré-entraîné. Aucun déploiement industriel n'est annoncé à ce stade, le travail restant académique. Les suites attendues portent sur des gestes plus complexes, bimanuel ou dynamique, et une évaluation sur des plateformes robotiques mobiles pour valider la généralisation dans des contextes industriels à haute variabilité.

IA physiqueOpinion
1 source
Piloter un robot humanoïde par instructions en langage libre : un modèle d'action à grand vocabulaire de mouvement unifié
4arXiv cs.RO 

Piloter un robot humanoïde par instructions en langage libre : un modèle d'action à grand vocabulaire de mouvement unifié

Des chercheurs ont publié sur arXiv (identifiant 2511.22963, troisième version) Humanoid-LLA, un modèle d'action fondé sur un grand modèle de langage capable de convertir des instructions en langage naturel libre en séquences de mouvement whole-body exécutables directement sur des robots humanoïdes. Le système s'attaque à deux verrous techniques bien connus dans le domaine : la rareté des données appariées langage-mouvement humanoïde, et l'instabilité physique des mouvements synthétiques. Pour y remédier, l'architecture apprend un vocabulaire de mouvement unifié humain-humanoïde qui permet d'ancrer la sémantique de haut niveau dans un espace de contrôle physiquement cohérent. L'entraînement suit un protocole en deux étapes : une phase supervisée par Chain-of-Thought sur les séquences de mouvement, suivie d'un affinage par reinforcement learning conditionné par un retour de simulation physique. Les évaluations combinent tests en simulation et expériences réelles en cross-embodiment, soit sur plusieurs modèles de robots distincts. Ce travail comble un angle mort persistant dans la recherche sur les humanoïdes : la commande en langage libre pour le contrôle du corps entier, et pas seulement du bras manipulateur. Les approches existantes restent soit cantonnées à des instructions prédéfinies, soit contraintes à sacrifier la diversité des mouvements pour conserver la stabilité physique. Humanoid-LLA tente de lever ce compromis en intégrant explicitement la physique dans la boucle d'apprentissage via le RL. Pour les intégrateurs et les COO industriels, l'enjeu est concret : un tel modèle pourrait réduire la dépendance aux interfaces de programmation spécialisées et abaisser le coût d'interaction avec des humanoïdes en ligne de production. La capacité de généralisation à des commandes inédites reste la métrique-clé revendiquée, mais l'absence de benchmarks comparatifs standardisés et la sélection probable des démonstrations vidéo invitent à nuancer les conclusions. Humanoid-LLA s'inscrit dans la montée en puissance des modèles VLA (Vision-Language-Action), un segment où Physical Intelligence avec pi0, Google DeepMind avec RT-2 et GR00T N2 co-développé avec NVIDIA, et Figure avec son pipeline Helix ont toutes misé sur le couplage langage-action pour dépasser les politiques sensorimotrices figées. La spécificité de cette contribution est le focus explicite sur le mouvement du corps complet plutôt que sur la manipulation d'objets, un espace encore peu exploré à grande échelle. L'article demeure un preprint non évalué par les pairs, sans déploiement industriel ni partenariat de mise en production annoncé. Les prochaines étapes probables incluent une soumission en conférence de type ICRA ou CoRL, et une validation sur des humanoïdes commerciaux comme l'Unitree H1 ou le Boston Dynamics Atlas, régulièrement utilisés comme bancs de test dans ce segment.

IA physiqueOpinion
1 source