Dossier NVIDIA GR00T — page 2

1026 articles · page 2 sur 21

NVIDIA GR00T (Generalist Robot 00 Technology) : modèle fondation pour humanoïdes, intégration Isaac et Cosmos, partenariats Apptronik, Agility, 1X.

51arXiv cs.RO RecherchePaper

Interface KAI : une approche tenant compte de la cinématique pour la manipulation efficace d'objets articulés

Des chercheurs présentent KAI (Kinematic-Aware Articulation Interface), une nouvelle représentation intermédiaire structurée conçue pour l'apprentissage de politiques de manipulation d'objets articulés par des robots, comme des tiroirs, des portes ou des charnières. Contrairement aux approches qui tentent d'apprendre la structure cinématique uniquement à partir de démonstrations robotiques, KAI intègre directement des a priori géométriques et cinématiques interprétables dans le processus d'apprentissage. Testée sur six tâches de simulation, la méthode atteint un taux de réussite moyen de 82,9%, égalant voire dépassant les performances des méthodes de référence tout en n'utilisant que la moitié des données de démonstration nécessaires. Le système, entraîné dans un environnement unique et non encombré, démontre également une capacité de généralisation vers des arrière-plans inédits et des scènes réelles encombrées de distracteurs visuels. En combinant l'entraînement avec des vidéos d'interactions humaines, grâce à sa conception indépendante de l'action ("action-agnostic"), le taux de réussite moyen dépasse 70% même face à des perturbations visuelles diverses. Pour l'industrie robotique, ce travail s'attaque à un goulot d'étranglement bien identifié: l'apprentissage par démonstration coûte cher en temps d'annotation et de téléopération, en particulier pour les objets articulés dont la cinématique varie fortement d'un instance à l'autre. Diviser par deux le volume de démonstrations nécessaires, si le résultat se confirme au-delà de la simulation, représenterait un gain d'efficacité concret pour les intégrateurs travaillant sur la manipulation domestique ou industrielle (portes d'armoires, électroménager, machines-outils). La possibilité de co-entraîner avec des vidéos humaines, sans capture de données robotiques dédiées, ouvre aussi une piste pour réduire davantage le coût de collecte, un enjeu central alors que les approches VLA (vision-language-action) peinent encore à passer l'échelle sans volumes massifs de données. Il s'agit à ce stade d'un article de recherche déposé sur arXiv, sans nom d'institution ni de laboratoire précisé dans le résumé, et les résultats restent principalement validés en simulation, avec un transfert vers le réel limité à des scènes encombrées plutôt qu'à un déploiement en conditions industrielles. Le travail s'inscrit dans un courant de recherche plus large visant à injecter des priors structurels explicites dans les politiques d'apprentissage, en contraste avec les approches purement end-to-end de type GR00T N2 ou Pi-0, et pourrait alimenter les futures générations de modèles de manipulation généralistes si sa robustesse se confirme sur du matériel physique.

Dossier NVIDIA GR00T — page 2

Interface KAI : une approche tenant compte de la cinématique pour la manipulation efficace d'objets articulés

Aviation autonome : évaluation zéro-shot des agents MLLM au niveau mission

VPWEM : politique visuomotrice non markovienne à mémoire de travail et épisodique

Robot apprend comme un enfant, puis maîtrise seul le bowling, le pliage et le pressage de jus

Générateur bionique dévoile un robot humanoïde à détection tactile intégrale

Le Fil selon un robot social : enrichir le dialogue humain-robot avec des modèles vision-langage

Reasoning à double tranchant : architecture et robustesse inter-étapes des modèles vision-langage-action

Xiaomi-Robotics-1 : passage à l'échelle des modèles vision-langage-action avec plus de 100 000 heures de trajectoires réelles

SLAC : apprentissage par renforcement sûr et efficace pour robots réels via pré-entraînement non supervisé en simulation

Vision qui prime sur le langage : évaluer et corriger les échecs contrefactuels dans les VLA

Xiaomi-Robotics-U0 : synthèse incarnée unifiée avec modèle fondation du monde

Mistral AI lance Robostral Navigate

NVIDIA étend LeRobot (open source) avec des outils IA humanoïde pour accélérer le développement des robots

Où regardent les humains lors des démonstrations à des robots : analyse du comportement visuel dans les tâches de prise-et-dépose

Chronos : cadre à historique complet guidé par la physique pour la manipulation non markovienne à long horizon

X Square Robot boucle quatre levées consécutives et atteint 2,8 milliards de dollars de valorisation grâce à ses modèles fondation d'IA physique

MuTRAP : trojans à déclencheurs multiples ciblant les systèmes de planification de tâches robotiques

Modèles fondation vérifiables pour la sécurité des robots

ROBOSHACKLES : un jeu de données de sécurité pour la prévention des blessures humaines dans les modèles fondation incarnés

Alibaba dévoile des cerveaux IA conçus pour équiper la prochaine génération de robots

ATHENA : fonctions d'influence hétérogènes multi-tâches accélérées pour la curation de données robotiques

L'IA et les modèles du monde : pourquoi la Chine a une longueur d'avance

La régularisation en sortie élimine la loterie des seeds dans le fine-tuning VLA sur GPU unique

Les meilleurs encodeurs ne se transfèrent pas fiablement selon l'échelle du backbone VLA : diagnostic par greffage gelé

Apprendre à assister : des modèles VLA collaboratifs pour la coopération implicite humain-robot

Améliorer les politiques généralistes robotiques grâce au pilotage par inversion de flux

Apprendre quoi dire à son modèle VLA : un guidage presque inoffensif

Efficacité remarquable des mélanges de processus gaussiens en temps discret pour l'apprentissage de politiques robotiques

Contrôle corps entier généraliste et adaptable pour la locomotion de divers humanoïdes

Contrôle de flux : piloter les modèles vision-langage-action avec des entrées simples en temps réel

NVIDIA et LG Group construisent une usine IA pour entraîner des robots et alimenter la mobilité du futur

Attaquer les modèles du monde pour compromettre les pipelines d'apprentissage robotique

PHUMA : un jeu de données pour la locomotion fiable des robots humanoïdes

Comment les utilisateurs évaluent les performances des modèles fondation robotiques au-delà du taux de réussite des tâches

PACE : exécution par segments selon les phases pour les politiques robotiques avec découpage d'actions

VLAMotor : amélioration guidée par tests des modèles VLA via la synthèse de données à base d'agents

FATE-VLA : génération de tests orientée détection de défaillances pour les modèles vision-langage-action

Doubao payant fin juin, incendie chez SK Hynix, Unitree obtient son IPO : Wang Xingxing vaudrait plus de 14 milliards de yuans

PhAIL : un benchmark VLA sur robots réels et une méthodologie distributionnelle

AgentGrounder : ancrage visuel 3D en zéro-shot dans des nuages de points via des modèles multimodaux

RoboJailBench : évaluation des attaques et défenses adversariales dans les agents robotiques incarnés

DexHoldem : jouer au Texas Hold'em avec un système à IA incarnée dextérique

Propagation d'actions dangereuses dans une collaboration multi-robots pilotée par LLM via un seul robot compromis

CLARE : apprentissage continu pour les modèles VLA via routage et expansion autonomes d'adaptateurs

Hallucination d'action dans les modèles vision-langage-action (VLA) génératifs

Surmonter l'aveuglement aux dynamiques : correction de vitesse et de trajectoire sans entraînement pour les modèles VLA

Comprendre les méthodes d'inférence asynchrone pour les modèles vision-langage-action (VLA)

RedVLA : l'attaque physique des modèles vision-langage-action (VLA)

CorridorVLA : contraintes spatiales explicites pour les têtes d'action génératives via des ancres éparses

Boston Dynamics et Google DeepMind apprennent à Spot à raisonner