Dossier NVIDIA GR00T — page 8

934 articles · page 8 sur 19

NVIDIA GR00T (Generalist Robot 00 Technology) : modèle fondation pour humanoïdes, intégration Isaac et Cosmos, partenariats Apptronik, Agility, 1X.

351arXiv cs.RO RechercheActu

Réduction de la redondance temporelle pour une inférence VLA efficace

Des chercheurs publient sur arXiv (arXiv:2607.12287v1) une méthode d'accélération pour les modèles Vision-Language-Action (VLA), utilisés en manipulation robotique, dont la latence d'inférence freine aujourd'hui le déploiement en temps réel. Ils identifient deux sources de redondance temporelle dans les pipelines VLA existants : le réencodage visuel complet de trames vidéo consécutives quasi identiques, et l'échantillonnage itératif multi-étapes propre aux politiques d'action basées sur la diffusion. Leur réponse combine deux optimisations système. Côté perception, seuls les tokens correspondant aux régions dynamiques de la scène sont mis à jour de façon incrémentale, au lieu de réencoder l'image entière à chaque frame. Côté génération d'action, le calendrier de diffusion est compressé à seulement deux étapes grâce à un entraînement spécifiquement optimisé pour l'efficacité, sans sacrifier la précision des gestes. Testée sur les bancs d'essai simulés Libero et RobotWin ainsi que sur des plateformes robotiques réelles, la méthode obtient un gain de vitesse supérieur à 2x, avec un taux de réussite allant jusqu'à 98% sur des benchmarks de manipulation générale. Le code doit être publié sur GitHub, mais n'est pas encore disponible : il s'agit pour l'instant d'un preprint académique, pas d'un produit livré. Pour les intégrateurs et les équipes robotique, ce travail s'attaque à un goulot d'étranglement bien réel : les politiques de diffusion, très précises, restent lentes à cause du débruitage itératif, ce qui complique leur usage sur du matériel embarqué à budget de calcul limité. Réduire ce coût sans perte de performance rapproche les VLA d'un fonctionnement temps réel sur GPU embarqué plutôt que sur infrastructure cloud dédiée, un enjeu central pour la commercialisation des bras manipulateurs et des humanoïdes. Cette publication s'inscrit dans une vague plus large de travaux visant l'efficacité d'inférence des VLA, alors que des modèles comme Pi-0 (Physical Intelligence), GR00T N2 (NVIDIA) ou Helix (Figure AI) ont démontré de fortes capacités de généralisation mais souffrent des mêmes limites de latence. La méthode reste pour l'instant validée en simulation et sur bancs de test restreints ; sa robustesse à grande échelle, en environnement industriel réel, reste à démontrer une fois le code effectivement publié.

Dossier NVIDIA GR00T — page 8

Réduction de la redondance temporelle pour une inférence VLA efficace

ChunkFlow : vers un apprentissage de politique par segments cohérents en continuité

Robot Trajectron V3 : un cadre de contrôle partagé probabiliste pour la manipulation SE(3)

GenVid2Robot : de la génération vidéo à la manipulation robotique par cohérence rigide-géométrique

EgoWAM : des modèles monde-action au-delà des pixels grâce à des données humaines égocentriques en conditions réelles

Main d'AnyDexRT : retargeting dextérique sans calibration guidé par peu de démonstrations humaines

Multi-agent : contrôle robotique par modèles vision-langage embarqués

Apprentissage d'a priori géométriques 4D pour des modèles d'action du monde efficaces en inférence

Diagnostiquer les échecs de transfert sémantique dans la composition de compétences VLA orchestrée par agents

WSA$_1$ : un modèle monde-spatial-action centré sur la 3D pour un contrôle robotique généralisable

Robot humanoïde à partir de vidéos humaines : apprentissage zéro-shot avec des corps alignés sur l'humain

X Square Robot porte sa valorisation à 2,8 milliards de dollars après quatre levées de fonds consécutives

Nvidia renforce son équipe robotique en Chine face à l'essor de l'IA physique

ConCent : apprentissage centré sur le contact réel-vers-sim-vers-réel depuis une seule démonstration

VLK : apprentissage de la loco-manipulation humanoïde à partir d'interactions synthétiques dans des scènes reconstruites

PhysReflect-VLA : faisabilité physique et régulation auto-réflexive pour des modèles VLA fiables

CoStream : combiner des comportements simples pour une manipulation complexe et généralisable

RARM : modèle de récompenses de progression à seuil de confiance pour l'apprentissage par renforcement en manipulation

PhyGile : génération de mouvements guidée par préfixe physique pour le suivi agile d'humanoïdes généralistes

Apprentissage d'une politique de suivi de trajectoire asynchrone dans l'espace des tâches du haut du corps pour robots humanoïdes

Au-delà du progrès monotone : apprentissage de la valeur supervisé par réessais pour l'imitation robotique

Vidéo : une entreprise chinoise montre un modèle unique pilotant à la fois un humanoïde et un bras robotique

Apporte ma tasse ! Personnalisation des modèles vision-langage-action par prompting visuel attentionnel

WeaveLA : mémoire latente inter-sous-tâches pilotée par événements pour la manipulation robotique répétitive

Piloter l'apprentissage par renforcement génératif vers un contrôleur robotique stable

Politiques VLA auto-améliorantes : lissage d'actions robuste aux artefacts par bruit de diffusion sélectionné

EWAM : un modèle d'action du monde amélioré pour l'adaptation en ligne en boucle fermée dans l'IA incarnée

SAFER-Nav : améliorer la sécurité de la navigation visuelle des robots par fine-tuning orienté segmentation

ActionMap : apprentissage de politiques robotiques par carte de chaleur voxel

Démarrage par modèle VLA pour l'apprentissage par renforcement des agents robotiques

MIT développe un bracelet à ultrasons pour apprendre aux robots humanoïdes la dextérité des mains humaines

Ce qui compte dans l'orchestration des politiques robotiques : étude systématique des agents VLA hiérarchiques

EgoPriMo : génération de mouvement égocentrique pour le contrôle interactif d'humanoïdes

MotionWAM : vers des modèles fondation action-monde pour la loco-manipulation humanoïde en temps réel

Ego-Pi : affinage VLA sur données égocentriques humaines et robotiques

UAOR : réinjection d'observations sensible à l'incertitude pour les modèles vision-langage-action (VLA)

AGIBOT organise le World Challenge 2026 pour évaluer les modèles d'IA sur des tâches réelles

PUDU Robotics : des origines à l'HKUST à la tête du marché mondial des robots commerciaux

3DThinkVLA : doter les modèles VLA de représentations 3D latentes par co-entraînement guidé par raisonnement 3D

Saisie puis planification avec attribution d'échecs : un cadre fermé en deux étapes pour la manipulation robotique précise et généralisable

Human2Humanoid : transfert de mouvement multi-morphologie assisté par la physique pour robots humanoïdes

PaCo-VLA : a priori de compliance protégé par passivité pour la manipulation VLA riche en contacts

Raisonnement continu pour les modèles vision-langage-action (VLA)

L'équipe Qwen d'Alibaba entre dans l'IA incarnée avec son modèle VLA

Les modèles VLA aériens peuvent-ils coopérer ? Évaluation de la coordination air-sol en boucle fermée avec CARLA-Air

Compréhension neuro-symbolique de la manipulation par chaînes d'événements sémantiques enrichies

GenerativeMPC : contrôle prédictif corps entier guidé par VLM-RAG, impédance virtuelle et manipulation mobile bimanuelle

ST-π : VLA spatio-temporel structuré pour la manipulation robotique

InternScenes : un jeu de données de scènes intérieures simulables à grande échelle avec des agencements réalistes

Des contraintes de faisabilité physique explicites améliorent-elles l'apprentissage VLA ? Une étude empirique