IA physique — page 2

614 articles · page 2 sur 13

Modèles vision-langage-action (VLA) et IA physique : NVIDIA GR00T, Figure Helix, Physical Intelligence π0, Gemini Robotics, OpenVLA, world models Cosmos/Genie.

Humanoïdes Industriel FR/EU ecosysteme Chine/Asie Recherche Business Exosquelettes Regulation Infrastructure Societe/Ethique Autre

51arXiv cs.RO IA physiqueOpinion

Des fondamentaux à l'application : améliorer les modèles VLA en pratique

Les chercheurs à l'origine du modèle VLA (vision-language-action) LingBot dévoilent LingBot-VLA 2.0, une version améliorée conçue pour réduire l'écart entre les performances en laboratoire et les conditions réelles de déploiement, un problème récurrent des modèles fondation pour la robotique. Trois axes de travail sont mis en avant. D'abord, la généralisation entre tâches et morphologies de robots a été retravaillée via un nouveau pipeline de traitement de données, avec environ 60 000 heures de données de pré-entraînement, dont 50 000 heures de trajectoires robotiques couvrant 20 configurations de robots différentes et 10 000 heures de vidéos égocentriques humaines. Ensuite, l'espace d'action a été étendu au-delà des plateformes à double bras classiques, pour inclure les degrés de liberté (DOF) de la tête, du buste, de la base mobile et des mains dextres. Enfin, le système intègre une modélisation prédictive de la dynamique, en formulant la prédiction du futur comme tâche annexe, appuyée par un modèle de représentation vidéo pour les indices sémantiques et un modèle d'estimation de profondeur pour les indices géométriques. Les évaluations ont été menées sur le benchmark GM-100 en configuration généraliste. Cette annonce illustre une tendance de fond dans la robotique humanoïde et manipulatrice: le passage de bras robotiques figés à des systèmes corps entier, capables de coordonner tête, buste, base mobile et mains, à l'image des approches poursuivies par Pi-0, GR00T N2 ou Helix. L'accent mis sur la généralisation cross-embodiment et sur le raisonnement temporel prédictif répond directement à une critique fréquente des modèles VLA actuels: leur difficulté à transférer des compétences apprises entre différents robots et à anticiper les conséquences physiques de leurs actions dans des tâches longues et complexes de manipulation mobile. Il s'agit ici d'une publication de recherche (arXiv), pas d'un produit commercialisé ni d'un déploiement industriel annoncé. LingBot-VLA 2.0 s'inscrit dans la succession directe de la première version LingBot-VLA, dans un paysage où les laboratoires chinois et américains multiplient les modèles fondation généralistes pour la robotique, sans que les auteurs ne précisent à ce stade de calendrier de mise en production ou de partenariats industriels.

IA physique — page 2

Des fondamentaux à l'application : améliorer les modèles VLA en pratique

Développer des politiques de robots humanoïdes de bout en bout avec NVIDIA Isaac GR00T

Lumos Robotics domine un test de référence mondial pour l'IA incarnée en zero-shot

LingBot-Vision d'Ant Group : 12 premières mondiales, un modèle de 1,1 milliard de paramètres bat DINOv3 (7 milliards)

HIVE lève 15 millions de dollars pour développer une IA physique destinée aux machines industrielles

NVIDIA et Hugging Face apportent de nouveaux modèles et frameworks à LeRobot pour la communauté robotique ouverte

InternVLA-A1.5 : unifier compréhension, prévision latente et action pour une généralisation compositionnelle

WSA$_1$ : un modèle monde-spatial-action centré sur la 3D pour un contrôle robotique généralisable

Vert pour avancer, rouge pour s'arrêter : ancrage visuel par segmentation sémantique pour la navigation VLA

XS-VLA : associe distillation spatiale à gros grain et appariement de flux latent pour un contrôle robotique léger

Caméras fixes ou libres : un modèle vision-langage-action sans calibration, robuste aux changements de vue

Ask-to-Clarify : résoudre l'ambiguïté des instructions par un dialogue multi-tours

CAC-VLA : un conditionnement d'action contrôlé par le contexte pour les modèles vision-langage-action

Worldscape-MoE : un modèle du monde à mélange d'experts unifié pour un contrôle d'action hétérogène et évolutif

Humanoid (UK) lance un système d'apprentissage par renforcement pour améliorer la manipulation robotique

Le contexte est roi : comment Avride utilise des VLM cloud comme filet de sécurité pour les robots de livraison

Bridge-WA : prédire où et comment le monde change pour l'action robotique

VLA-Corrector : inférence légère de détection-correction pour un horizon d'action adaptatif

$8,000 : ce robot est prêt à s'occuper de toute la lessive et de faire les lits

Déploiement d'actions accru grâce à l'entraînement compositionnel pour les modèles VLA

Robot park de 90 000 pieds carrés : une entreprise américaine forme des humanoïdes en conditions réelles

Rapport technique RhinoVLA

Z-1 : apprentissage par renforcement efficace pour les modèles vision-langage-action

Vers une manipulation robotique généralisable dans des environnements dynamiques

ELASTIC : passage à l'échelle adaptatif du calcul en temps de test pour l'apprentissage efficace de politiques de contrôle génératives

UniTacVLA : compréhension et prédiction tactiles unifiées dans les modèles vision-langage-action

Vidéo : un nouveau modèle d'IA permet aux robots humanoïdes de réussir 90 % des missions complexes

Cellules robotiques souples de Morph : l'IA physique intégrée directement dans le matériel

Chronos : cadre à historique complet guidé par la physique pour la manipulation non markovienne à long horizon

Modèles vision-langage-action (VLA) : retours d'expérience sur une plateforme UR5 réelle

AnyBody : contrôle libre du corps entier d'un humanoïde par points-clés arbitraires

Behavior Uncloning : distiller la redirection de mode dans les poids de politique sans guidage à l'inférence

TacGen : le toucher comme dimension essentielle de la représentation physique, avec alignement vision-tactile et génération de données

Event-VLA : fusion d'événements conditionnée par l'action pour un modèle VLA robuste

Entraîner des modèles vision-langage-action (VLA) avec une supervision dense par chaîne de pensée incarnée

Vers un raisonnement par trace spatiale dans les modèles vision-langage pour la robotique

Contrôle robotique sans démonstration via des agents LLM

Politique de guidage comportemental : des démonstrations comme invites pour la manipulation

Ancrage de la généralisation simulation-réel en manipulation robotique : étude empirique avec des modèles VLA

SA-VLA : un tokeniseur conscient de l'état pour améliorer les performances des modèles VLA

VLK : apprentissage de la loco-manipulation humanoïde à partir d'interactions synthétiques dans des scènes reconstruites

TAP-VLA : annotation tactile pour les modèles vision-langage-action (VLA)

Fiez-vous à vos instincts : RL à l'inférence guidé par la confiance pour les modèles VLA

GROW² : ancrage du choix d'outil et de sa position pour la manipulation robotique

Modèles vision-langage pour la navigation de robots sociaux déployables : relier le raisonnement sémantique et le contrôle de bas niveau

Apprentissage de dynamiques transférables : des modèles d'action aux modèles du monde

AeroPlace-Flow : placement d'objets guidé par le langage pour manipulateurs aériens via prévision visuelle et flux d'objets

OpenSPM : modèle robotique transférable combinant mémoire de poses spatiales et génération d'actions par flow matching

X-Morph : des priors de mouvement humain pour l'apprentissage robotique évolutif multi-morphologies

Le RL contraint par le support permet d'améliorer les politiques réelles sans expérience du monde réel