Dossier NVIDIA GR00T — page 7

788 articles · page 7 sur 16

NVIDIA GR00T (Generalist Robot 00 Technology) : modèle fondation pour humanoïdes, intégration Isaac et Cosmos, partenariats Apptronik, Agility, 1X.

301arXiv cs.RO RecherchePaper

BIFROST : transfert de représentation de caractéristiques invariantes pour le passage simulation-réel dans l'espace d'observation

Des chercheurs ont publié sur arXiv (référence 2607.01410v1) un nouveau système appelé BIFROST (Bridging Invariant Feature Representation for Observation-space Sim2Real Transfer), destiné à résoudre l'un des obstacles centraux de l'apprentissage robotique par renforcement : le fossé entre simulation et réalité. Le principe consiste à entraîner un encodeur partagé sur des données appariées provenant des deux domaines, via un objectif de bisimulation cross-domaine qui rapproche, dans un espace latent commun, les séquences observation-action menant aux mêmes résultats à long terme, indépendamment des différences de rendu visuel ou de physique. L'équipe a testé l'approche sur trois tâches : navigation visuelle en sim2sim, manipulation à contact riche en sim2real, et asservissement visuel. Selon le papier, les politiques entraînées dans cet espace latent partagé transfèrent en zero-shot vers la réalité, sans réentraînement sur données réelles, là où les méthodes de référence en adaptation de domaine et en co-entraînement échouent face à des écarts à la fois visuels et dynamiques. Pour l'industrie robotique, le sim2real reste le goulot d'étranglement entre démonstration en laboratoire et déploiement en usine : entraîner en simulation coûte peu, mais transférer une politique vers un robot physique sans perte de performance exige d'habitude des mois de randomisation de domaine ou de fine-tuning gourmand en données réelles. Si les résultats se confirment à plus grande échelle, la promesse est de réduire nettement le coût de mise en production de politiques de manipulation et de navigation, un enjeu clé pour les intégrateurs déployant bras robotiques ou AMR sur des sites variés. C'est aussi un signal dans le débat sur les architectures VLA : l'idée d'une structure invariante exploitable directement depuis l'observation brute pourrait simplifier la conception des politiques génériques que recherchent des labos comme Physical Intelligence (Pi-0) ou NVIDIA (GR00T). À noter que, publication arXiv non encore relue par les pairs, la portée reste limitée aux trois tâches testées en environnement contrôlé. Le problème est documenté depuis les débuts du RL appliqué à la robotique : les approches historiques traitent séparément l'écart visuel (randomisation de domaine, transfert de style) et l'écart dynamique (identification de système, randomisation physique), les deux modules étant ensuite empilés quand les problèmes coexistent, une approche jugée limitée par les auteurs car elle traite les symptômes plutôt que la structure commune sous-jacente. BIFROST s'inscrit dans la lignée des travaux sur la bisimulation en apprentissage par renforcement, appliquée ici explicitement au transfert cross-domaine. Aucune entreprise ni calendrier de commercialisation n'est mentionné : le travail reste une contribution académique, dont les suites attendues sont une validation sur des tâches plus complexes et une comparaison directe avec les politiques VLA déployées par les acteurs commerciaux du secteur humanoïde et manipulation.

Dossier NVIDIA GR00T — page 7

BIFROST : transfert de représentation de caractéristiques invariantes pour le passage simulation-réel dans l'espace d'observation

VLAFlow : un cadre d'entraînement unifié pour les modèles vision-langage-action via co-entraînement et alignement latent futur

ACID : cohérence des actions par dynamique inverse pour la planification avec des modèles du monde

Modèle vision-langage-action pour le reciblage robotique multi-corporel via diffusion guidée

Point Completion 3D pour les modèles du monde : une méthode plus précise d'apprentissage de la dynamique

Distribution contractive RL : maîtriser une compétence, du modèle a priori au modèle expert

Apptronik dévoile Apollo 2 et une nouvelle installation phare de collecte de données et d'entraînement

IA incarnée : DVG-WM génère des vidéos découplées pour un modèle du monde efficace en manipulation robotique

Labimus : simulation et référentiel pour la manipulation dextérique humanoïde en laboratoire de chimie

LARA : alignement des représentations d'actions latentes pour les modèles vision-langage-action

ReactiveBFM : planification de mouvement réactive en boucle fermée pour le contrôle global des humanoïdes

WoVR : des modèles du monde comme simulateurs fiables pour l'entraînement post-déploiement des politiques VLA par renforcement

L'ex-directeur du laboratoire robotique et véhicules autonomes de Baidu lève des dizaines de millions pour créer un modèle du monde universel pour la robotique

RouterVLA : des tests de fumée transformés en supervision pour la sélection de modèles VLA hétérogènes

PhysReflect-VLA : faisabilité physique et régulation auto-réflexive pour des modèles VLA fiables

PhyGile : génération de mouvements guidée par préfixe physique pour le suivi agile d'humanoïdes généralistes

TIDAL : boucle diffusion-action à entrelacement temporel pour le contrôle VLA haute fréquence

Vidéo : une entreprise chinoise montre un modèle unique pilotant à la fois un humanoïde et un bras robotique

Apporte ma tasse ! Personnalisation des modèles vision-langage-action par prompting visuel attentionnel

Génération d'actions robotiques continues et cohérentes par correspondance de flux sensible aux fréquences

WeaveLA : mémoire latente inter-sous-tâches pilotée par événements pour la manipulation robotique répétitive

Robots comme tokens : un transformeur de diffusion unifié pour la génération de trajectoires multi-robots coordonnées

Piloter l'apprentissage par renforcement génératif vers un contrôleur robotique stable

Politiques VLA auto-améliorantes : lissage d'actions robuste aux artefacts par bruit de diffusion sélectionné

EWAM : un modèle d'action du monde amélioré pour l'adaptation en ligne en boucle fermée dans l'IA incarnée

SAFER-Nav : améliorer la sécurité de la navigation visuelle des robots par fine-tuning orienté segmentation

ActionMap : apprentissage de politiques robotiques par carte de chaleur voxel

Démarrage par modèle VLA pour l'apprentissage par renforcement des agents robotiques

MIT développe un bracelet à ultrasons pour apprendre aux robots humanoïdes la dextérité des mains humaines

Ce qui compte dans l'orchestration des politiques robotiques : étude systématique des agents VLA hiérarchiques

PRISM : échantillonnage guidé par les priors dans les modèles du monde

Quand l'état absolu échoue : évaluation des encodages proprioceptifs pour une manipulation robuste

Unifier les actions du robot dans le référentiel caméra

Voir ce qui compte : élagage différentiable par grille pour un modèle VLA généralisable

Au-delà de l'isolement : un benchmark unifié pour la navigation polyvalente

Politique de flux stochastique guidé par interpolation

La dérive est une erreur d'échantillonnage : distributions de puissance adaptées au RSB pour la planification robotique à long horizon

Latent Reasoning VLA : pensée latente et prédiction pour les modèles vision-langage-action

AsyncVLA : correspondance de flux asynchrone pour les modèles vision-langage-action (VLA)

Évolution supervisée des capacités des agents incarnés : mise à niveau sûre, vérification de compatibilité et retour arrière en temps réel

Hydra-DP3 : dimensionnement adapté aux fréquences des politiques de diffusion 3D pour le contrôle visuomoteur

Latent Bridge : prédiction de delta de caractéristiques pour une inférence efficace des modèles VLA à double système

PRTS : un système de raisonnement et de planification primitifs via des représentations contrastives

LaST-R1 : renforcement de l'action par raisonnement latent physique adaptatif pour les modèles VLA

Compréhension neuro-symbolique de la manipulation par chaînes d'événements sémantiques enrichies

Simulé ou réel : robustesse des VLM au décalage de domaine en compréhension de scène robotique

GenerativeMPC : contrôle prédictif corps entier guidé par VLM-RAG, impédance virtuelle et manipulation mobile bimanuelle

ST-π : VLA spatio-temporel structuré pour la manipulation robotique

Des contraintes de faisabilité physique explicites améliorent-elles l'apprentissage VLA ? Une étude empirique

InternScenes : un jeu de données de scènes intérieures simulables à grande échelle avec des agencements réalistes