Dossier NVIDIA GR00T — page 6

786 articles · page 6 sur 16

NVIDIA GR00T (Generalist Robot 00 Technology) : modèle fondation pour humanoïdes, intégration Isaac et Cosmos, partenariats Apptronik, Agility, 1X.

251arXiv cs.RO RecherchePaper

BIFROST : transfert de représentation de caractéristiques invariantes pour le passage simulation-réel dans l'espace d'observation

Des chercheurs ont publié sur arXiv (référence 2607.01410v1) un nouveau système appelé BIFROST (Bridging Invariant Feature Representation for Observation-space Sim2Real Transfer), destiné à résoudre l'un des obstacles centraux de l'apprentissage robotique par renforcement : le fossé entre simulation et réalité. Le principe consiste à entraîner un encodeur partagé sur des données appariées provenant des deux domaines, via un objectif de bisimulation cross-domaine qui rapproche, dans un espace latent commun, les séquences observation-action menant aux mêmes résultats à long terme, indépendamment des différences de rendu visuel ou de physique. L'équipe a testé l'approche sur trois tâches : navigation visuelle en sim2sim, manipulation à contact riche en sim2real, et asservissement visuel. Selon le papier, les politiques entraînées dans cet espace latent partagé transfèrent en zero-shot vers la réalité, sans réentraînement sur données réelles, là où les méthodes de référence en adaptation de domaine et en co-entraînement échouent face à des écarts à la fois visuels et dynamiques. Pour l'industrie robotique, le sim2real reste le goulot d'étranglement entre démonstration en laboratoire et déploiement en usine : entraîner en simulation coûte peu, mais transférer une politique vers un robot physique sans perte de performance exige d'habitude des mois de randomisation de domaine ou de fine-tuning gourmand en données réelles. Si les résultats se confirment à plus grande échelle, la promesse est de réduire nettement le coût de mise en production de politiques de manipulation et de navigation, un enjeu clé pour les intégrateurs déployant bras robotiques ou AMR sur des sites variés. C'est aussi un signal dans le débat sur les architectures VLA : l'idée d'une structure invariante exploitable directement depuis l'observation brute pourrait simplifier la conception des politiques génériques que recherchent des labos comme Physical Intelligence (Pi-0) ou NVIDIA (GR00T). À noter que, publication arXiv non encore relue par les pairs, la portée reste limitée aux trois tâches testées en environnement contrôlé. Le problème est documenté depuis les débuts du RL appliqué à la robotique : les approches historiques traitent séparément l'écart visuel (randomisation de domaine, transfert de style) et l'écart dynamique (identification de système, randomisation physique), les deux modules étant ensuite empilés quand les problèmes coexistent, une approche jugée limitée par les auteurs car elle traite les symptômes plutôt que la structure commune sous-jacente. BIFROST s'inscrit dans la lignée des travaux sur la bisimulation en apprentissage par renforcement, appliquée ici explicitement au transfert cross-domaine. Aucune entreprise ni calendrier de commercialisation n'est mentionné : le travail reste une contribution académique, dont les suites attendues sont une validation sur des tâches plus complexes et une comparaison directe avec les politiques VLA déployées par les acteurs commerciaux du secteur humanoïde et manipulation.

Dossier NVIDIA GR00T — page 6

BIFROST : transfert de représentation de caractéristiques invariantes pour le passage simulation-réel dans l'espace d'observation

Point Completion 3D pour les modèles du monde : une méthode plus précise d'apprentissage de la dynamique

Distribution contractive RL : maîtriser une compétence, du modèle a priori au modèle expert

Modèle vision-langage-action pour le reciblage robotique multi-corporel via diffusion guidée

Domain Arithmetic : adaptation VLA en un essai face aux changements environnementaux

Apptronik dévoile Apollo 2 et une nouvelle installation phare de collecte de données et d'entraînement

IA incarnée : DVG-WM génère des vidéos découplées pour un modèle du monde efficace en manipulation robotique

Labimus : simulation et référentiel pour la manipulation dextérique humanoïde en laboratoire de chimie

LARA : alignement des représentations d'actions latentes pour les modèles vision-langage-action

Chine : UBTech présente un humanoïde à roues pour automatiser les ateliers de production

ReactiveBFM : planification de mouvement réactive en boucle fermée pour le contrôle global des humanoïdes

Représentations centrées sur l'objet pour une meilleure généralisation en manipulation robotique

Modélisation du monde en contexte pour le contrôle robotique

Vers des modèles vision-langage à faible latence avec prédictions doublement correctes pour la compréhension visuelle égocentrique

Modèles du monde pour la manipulation robotique

Guava : un cadre efficace et universel pour la manipulation incarnée

Extension de la mémoire à court terme des politiques visuomotrices pour les tâches à long horizon

SAPS : autonomie partagée pour orienter la politique en combinant téléopération et VLA pré-entraîné

OmniVTLA : modèles vision-tactile-langage-action avec perception tactile à alignement sémantique

DataLadder : une chaîne d'outils d'interconversion par simulation pour la pyramide de données de l'IA incarnée

ReactVLA : manipulation robotique rapide et légère par génération d'actions Mean Flow améliorée

Agir sur ce que l'on voit : vers une navigation sociale sûre dans les modèles vision-langage-action (VLA)

RoboGPT-R1 améliore la planification des tâches robotiques grâce à l'apprentissage par renforcement

CT-VAM : un modèle vision-action inspiré du circuit cérébello-thalamique pour le contrôle visuomoteur

Video2Sim2Real : apprentissage autonome et complet de compétences dextériques à partir d'une seule vidéo humaine

Modèle de diffusion sensible aux correspondances pour la manipulation robotique en contact étroit (Robot-DIFT)

Adaptation de politique sans mise à jour du modèle par flux normalisant

PiL-World : un modèle du monde par segments pour l'évaluation VLA en boucle fermée

IA incarnée et chaîne de pensée : vers une manipulation robotique généralisable

IA incarnée fiable : un programme communautaire du test à la vérification formelle

VLESA : un agent de sécurité incarnée vision-langage pour la surveillance des activités humaines

Saisie puis planification avec attribution d'échecs : un cadre fermé en deux étapes pour la manipulation robotique précise et généralisable

ELAN4D : supervision 4D centrée sur l'incarnation pour les modèles VLA via adaptation plug-and-play

Notes à soi-même : VLA augmentées d'un bloc-notes pour les tâches de manipulation à mémoire

VLA-Pro : transfert de mémoire procédurale entre tâches pour les modèles vision-langage-action (VLA)

Régularisation contrastive des représentations pour les modèles vision-langage-action (VLA)

Apprentissage par imitation conditionné par phase avec récupération autonome d'échec pour la manipulation robuste d'objets déformables

Vidéo : un humanoïde chinois à 13 000 dollars pour démocratiser la robotique avancée

Exploiter un potentiel variable : quand le contrôle réactif suffit aux comportements multi-objectifs

Dépasser le piège de la diversité en manipulation robotique via l'adaptation centrée sur les ancres

RobotEQ : de l'intelligence passive à l'intelligence active dans l'IA incarnée

Vers une simulation visuellement réaliste : un benchmark pour évaluer la manipulation robotique en simulation

Découpage Q adaptatif pour l'apprentissage par renforcement hors ligne vers en ligne

VLA-GSE : améliorer l'ajustement fin efficace en paramètres des VLA avec des experts généralisés et spécialisés

Apprendre à sentir le futur : DreamTacVLA pour la manipulation riche en contacts

Des pixels aux tokens : étude systématique de la supervision par actions latentes pour les modèles vision-langage-action (VLA)

ReconVLA : un cadre VLA guidé par l'incertitude et la détection des défaillances pour le contrôle robotique

Alignement de sécurité des modèles VLA par apprentissage contraint : le projet SafeVLA

Guidance stable par le langage pour les modèles vision-langage-action (VLA)

Auto-reconnaissance sensorimotrice dans les robots pilotés par des LLM multimodaux