Dossier NVIDIA GR00T — page 11

1025 articles · page 11 sur 21

NVIDIA GR00T (Generalist Robot 00 Technology) : modèle fondation pour humanoïdes, intégration Isaac et Cosmos, partenariats Apptronik, Agility, 1X.

501arXiv cs.RO RecherchePaper

Prédiction d'horizon d'exécution dynamique pour les politiques robotiques par segments

Une équipe de chercheurs a publié sur arXiv (arXiv:2606.11408) une méthode baptisée DEHP, Dynamic Execution Horizon Prediction, conçue pour résoudre un goulot d'étranglement structurel des politiques robotiques modernes : l'horizon d'exécution fixe. Dans les architectures à "action chunking" aujourd'hui omniprésentes, politiques de diffusion, politiques de flux, modèles vision-langage-action (VLA) comme pi-0 ou OpenVLA, le robot prédit un bloc de N actions et les exécute en boucle ouverte, sans percevoir l'environnement à chaque pas. Cet horizon N est actuellement choisi par tuning empirique, tâche par tâche. DEHP entraîne une branche légère de prédiction d'horizon via du reinforcement learning en ligne, tout en gardant la politique chunk sous-jacente entièrement gelée, ce qui la rend compatible avec n'importe quelle politique existante traitée comme boîte noire. Sur des tâches de manipulation haute précision et longue durée, les auteurs rapportent une amélioration "significative" du taux de succès, sans chiffres absolus précis dans l'abstract, un point à vérifier dans les résultats complets. L'enjeu est concret pour quiconque déploie des bras manipulateurs en production : la boucle ouverte est efficace sur les mouvements de transit (déplacements dans l'espace libre), mais devient un frein sur les phases fines, insertion, saisie d'objet délicat, assemblage à tolérance serrée. DEHP adapte dynamiquement l'horizon : court pendant les phases critiques (comportement proche d'un contrôle pas-à-pas), long pendant les phases de déplacement libre. Cela revient à réconcilier l'efficacité computationnelle du chunking avec la réactivité du contrôle fermé, sans réentraîner le modèle de base. Pour les intégrateurs industriels, cela signifie potentiellement récupérer de la robustesse sur des cellules existantes sans toucher au pipeline d'entraînement. L'action chunking a été popularisée par ACT (Action Chunked Transformer, Stanford 2023), puis repris dans les diffusion policies de Chi et al. et intégré dans des VLA comme pi-0 (Physical Intelligence) ou GR00T N2 (NVIDIA). La tension entre horizon long (efficacité) et horizon court (réactivité) est un problème ouvert bien identifié dans la communauté. Plusieurs travaux concurrents explorent le receding horizon ou le replanning conditionnel, mais DEHP se distingue par sa compatibilité boîte noire et son entraînement RL en ligne. La page projet est accessible sur dehp-chunking.github.io ; aucune timeline de déploiement industriel n'est annoncée à ce stade.

Dossier NVIDIA GR00T — page 11

Prédiction d'horizon d'exécution dynamique pour les politiques robotiques par segments

CHORUS : collaboration décentralisée entre robots hétérogènes avec une seule politique VLA

LUCID : modèles d'intention agnostiques au morphotype, acquisition dextérique à l'échelle depuis des vidéos humaines

TacCoRL : intégration du retour tactile dans les modèles VLA par simulation

Combler le fossé morphologique : adapter les modèles VLA à la manipulation dextérique par ajustement conditionné par l'intention

SAFER-Nav : améliorer la sécurité de la navigation visuelle des robots par fine-tuning orienté segmentation

CAST : les étiquettes contrefactuelles améliorent le suivi d'instructions dans les modèles VLA

SARM2 : modélisation de récompense multi-tâches par étape pour la manipulation robotique auto-améliorante

VeriSpace : une méthode de vérification spatiale des actions pour les modèles vision-langage-action

GHOST : politiques hiérarchiques à sous-objectifs pour généraliser la manipulation robotique

Dexterous Point Policy : apprentissage de politiques de main habile à partir de démonstrations humaines

Modèle fondation de comportement perceptif : adapter les a priori de mouvement humain au terrain robotique

PRISM : échantillonnage guidé par les priors dans les modèles du monde

Retour vers le futur familier : récupération après défaillance des politiques VLA par sélection d'étapes pré-imaginées

Apprentissage de politiques par simulation pour la loco-manipulation des robots humanoïdes

Symskill : co-invention de symboles et de compétences pour une manipulation réactive à long horizon, économe en données

FAWAM : modèles d'action du monde sensibles aux forces pour la manipulation en boucle fermée à contacts multiples

NVIDIA et LG Group bâtissent une usine d'IA pour développer l'IA physique, la mobilité et l'infrastructure IA

MotionDisco : découverte de mouvements pour la loco-manipulation extrême des robots humanoïdes

Flash-WAM : distillation sensible aux modalités pour les modèles monde-action

FlowPRO : affinage renforcé sans récompense des VLA flow-matching par optimisation proximale des préférences

MPCoT : raisonnement latent multi-chemin guidé par la récompense pour VLA avec mise à l'échelle à l'inférence

HANDOFF : contrôle corps entier d'humanoïdes à base d'agents par distillation d'enseignants complémentaires

EgoHumanoid : la manipulation locomotrice en environnement réel grâce aux démonstrations égocentriques sans robot

PerceptTwin : reconstruction sémantique de scène pour la planification et vérification itératives par LLM

OMP : politique Meanflow en une étape avec alignement directionnel

SeeTraceAct : planification latente par visibilité à partir de vidéos de démonstration multi-corps

GeoAlign : au-delà de la sémantique avec l'alignement spatial guidé par l'état dans les modèles VLA

PointAction : les points 3D comme représentation universelle des actions pour le contrôle robotique

Co-entraînement avec vidéo égocentrique et démonstration pour la navigation robotique

Factorisation tâche-monde pour l'apprentissage robotique

GraspGen-X : préhension à 6 degrés de liberté par diffusion pour morphologies robotiques variées

RoboDream : des modèles du monde compositionnels pour la synthèse de données robotiques à grande échelle

AFUN : vers un modèle fondation d'affordances pour la compréhension fonctionnelle

HARP-VLA : apprentissage de représentations alignées humain-robot pour modèle vision-langage-action

TIC-VLA : un modèle vision-langage-action (VLA) à raisonnement intégré pour la navigation robotique en environnements dynamiques

Vérificateur d'actions mondiales : modèles du monde auto-améliorés via asymétrie avant-inverse

DGSG-Mind : graphes de scène gaussiens 3D dynamiques pour la compréhension et l'ancrage de scènes à long terme

Phantom : entraîner des robots sans robots, uniquement avec des vidéos humaines

DynaFLIP : repenser la perception robotique via une représentation guidée par les dynamiques tri-modales

3DVLA : amélioration des modèles VLA par la compréhension spatiale 3D et des instances

Champs d'action neuraux implicites : des points de passage discrets aux fonctions continues pour les modèles vision-langage-action (VLA)

ProgVLA : apprentissage de compétences de manipulation robotique guidé par la progression

Planification de mouvement multi-robots décentralisée par diffusion informée par simulation

SANTS : un planificateur adaptatif à l'état pour les modèles d'action du monde

Uni-LaViRA : traduction d'actions langage-vision-robot pour une navigation incarnée unifiée

CogVLA : un modèle vision-langage-action aligné sur la cognition par routage et sparsification guidés par instructions

CollaBot : manipulation collaborative simultanée guidée par modèle vision-langage

Primitives de mouvement par le langage : ancrer les modèles de langage dans le mouvement robotique

Any2Any : transfert efficace entre plateformes pour le suivi corporel complet de robots humanoïdes