Dossier NVIDIA GR00T — page 5

684 articles · page 5 sur 14

NVIDIA GR00T (Generalist Robot 00 Technology) : modèle fondation pour humanoïdes, intégration Isaac et Cosmos, partenariats Apptronik, Agility, 1X.

201arXiv cs.RO RecherchePaper

HEART : coordination d'agents experts hétérogènes pour la planification de tâches robotiques ancrée dans le réel

Une équipe de chercheurs publie sur arXiv (réf. 2606.25404) HEART, un framework de planification robotique qui distribue le raisonnement entre plusieurs LLM spécialisés plutôt que de confier l'ensemble de la tâche à un seul modèle. Le principe : décomposer une instruction complexe en sous-tâches atomiques (vérification des capacités du robot, analyse de l'atteignabilité des objets, respect des contraintes logiques et temporelles), puis allouer chacune à un agent LLM dédié, le tout sous une contrainte de budget en tokens pour rester viable sur du matériel embarqué ou en communication limitée. La synthèse finale produit un plan d'actions physiquement exécutable, validé avant transmission au robot. Les expériences sur plusieurs benchmarks de scénarios domestiques montrent une amélioration consistante du taux de succès face aux planificateurs mono-LLM et aux approches à base de règles, sans que l'abstract disponible détaille de chiffres absolus. La contribution centrale de HEART est d'intégrer une couche de validation physique avant la génération du plan, un angle mort chronique des approches LLM-only. Les modèles de langage généralisent bien le raisonnement symbolique mais peinent avec les contraintes géométriques réelles : objet hors de portée, séquence d'actions physiquement impossible, outil absent. En déléguant ces vérifications à des agents rôle-spécialisés, le framework réduit le taux de plans invalides ou incomplets. Pour les intégrateurs travaillant sur l'automatisation de tâches non-structurées en environnement domestique ou industriel léger, c'est un signal pertinent : la spécialisation des agents LLM par type de contrainte commence à produire des gains mesurables sur les benchmarks standard. Ce travail s'inscrit dans un courant de recherche actif qui cherche à dépasser les limites du "single LLM as planner", avec des approches comme SayPlan, LLM+P ou Code as Policies comme antécédents directs. Aucun acteur industriel ni déploiement terrain n'est mentionné, et le papier reste un preprint non relu par les pairs. L'absence de métriques chiffrées précises dans l'abstract (taux de succès, nombre de benchmarks, configurations matérielles testées) rend l'évaluation externe difficile. Les prochaines étapes naturelles seraient une validation sur robot physique réel et une comparaison contre des frameworks VLA (Vision-Language-Action) comme pi-0 ou GR00T N2, qui intègrent déjà un raisonnement ancré dans la perception sensorielle.

Dossier NVIDIA GR00T — page 5

HEART : coordination d'agents experts hétérogènes pour la planification de tâches robotiques ancrée dans le réel

DataLadder : une chaîne d'outils d'interconversion par simulation pour la pyramide de données de l'IA incarnée

Extension de la mémoire à court terme des politiques visuomotrices pour les tâches à long horizon

OmniVTLA : modèles vision-tactile-langage-action avec perception tactile à alignement sémantique

Robots comme tokens : un transformeur de diffusion unifié pour la génération de trajectoires multi-robots coordonnées

SAPS : autonomie partagée pour orienter la politique en combinant téléopération et VLA pré-entraîné

Politiques VLA auto-améliorantes : lissage d'actions robuste aux artefacts par bruit de diffusion sélectionné

ReactVLA : manipulation robotique rapide et légère par génération d'actions Mean Flow améliorée

SAFER-Nav : améliorer la sécurité de la navigation visuelle des robots par fine-tuning orienté segmentation

Quand la vidéo se trompe : distillation en boucle fermée d'heuristiques de lecture pour les QA de manipulation exploratoire

Langage comme capteur : estimation calibrée de croyances spatiales en 3D à partir du langage naturel

Communication non verbale par posture corporelle en temps réel avec mesure de fiabilité par cohérence

La simplicité avant tout : génération d'actions en une étape pour les modèles vision-langage-action (VLA)

Apprendre la manipulation robotique à partir de vidéos humaines : un état de l'art sur l'apprentissage VLA à grande échelle avec données centrées sur l'humain

Défaillances silencieuses en IA physique : revue de littérature sur l'autorisation d'actions en temps réel pour les systèmes autonomes

Point de vue : les bons modèles de récompense incarnés ont besoin de données de mauvais comportements

Apprentissage par imitation conditionné par phase avec récupération autonome d'échec pour la manipulation robuste d'objets déformables

VLAConf : confiance calibrée dans la réussite des tâches pour les modèles VLA

Embodied3DBench : évaluation de l'intelligence spatiale incarnée à bas niveau des modèles vision-langage

Qwen-VLA : un modèle vision-langage-action (VLA) unifié pour les tâches, environnements et morphologies de robots

SpecPrune-VLA : accélérer les modèles vision-langage-action via un élagage auto-spéculatif sensible aux actions

PGDG : génération de données physiquement ancrée pour l'apprentissage robuste de politiques bimanuelles à partir d'une seule démonstration

Apprendre à évoluer : champs interactifs multimodaux pour la navigation humanoïde robuste en environnements dynamiques

TacO : évaluation comparative des capteurs tactiles pour la manipulation d'objets

TwinRL : apprentissage par renforcement piloté par jumeau numérique pour la manipulation robotique réelle

Fusion multimodale tactile en IA incarnée : tour d'horizon des paradigmes vision, langage et contact

COAST : débloquer les modèles vision-langage-action (VLA) par les états cachés

Exploration des goulots d'étranglement dans la navigation VLM-LLM : l'impact de la compréhension de scènes 3D sur la navigation sans apprentissage préalable

Quels sont les facteurs limitants de la navigation vision-langage ?

Mise en cache adaptative par blocs pour accélérer les politiques de diffusion

Realtime-VLA FLASH : un cadre d'inférence spéculative pour les modèles VLA à base de diffusion

Évaluation hors-ligne des politiques de manipulation via une formulation de vivacité actualisée

RIO : un système d'entrées/sorties robotiques flexible et en temps réel pour l'apprentissage multi-plateforme

DreamAvoid : rêverie au moment du test sur les phases critiques pour éviter les échecs des politiques VLA

Apprentissage d'une variété d'actions par priors latents multi-vues pour la manipulation robotique

VEGA : alignement par ancrage de l'encodeur visuel pour les modèles VLA à conscience spatiale

SABER : jeu de données incarné, évolutif et axé sur les actions pour l'adaptation VLA au monde réel

VP-VLA : le prompting visuel comme interface pour les modèles vision-langage-action

StereoPolicy : améliorer les politiques de manipulation robotique grâce à la perception stéréoscopique

Dépasser le piège de la diversité en manipulation robotique via l'adaptation centrée sur les ancres

VLA-GSE : améliorer l'ajustement fin efficace en paramètres des VLA avec des experts généralisés et spécialisés

RobotEQ : de l'intelligence passive à l'intelligence active dans l'IA incarnée

Vers une simulation visuellement réaliste : un benchmark pour évaluer la manipulation robotique en simulation

Découpage Q adaptatif pour l'apprentissage par renforcement hors ligne vers en ligne

Des pixels aux tokens : étude systématique de la supervision par actions latentes pour les modèles vision-langage-action (VLA)

Apprendre à sentir le futur : DreamTacVLA pour la manipulation riche en contacts

Auto-reconnaissance sensorimotrice dans les robots pilotés par des LLM multimodaux

ReconVLA : un cadre VLA guidé par l'incertitude et la détection des défaillances pour le contrôle robotique

Alignement de sécurité des modèles VLA par apprentissage contraint : le projet SafeVLA

Guidance stable par le langage pour les modèles vision-langage-action (VLA)