Dossier NVIDIA GR00T — page 3

684 articles · page 3 sur 14

NVIDIA GR00T (Generalist Robot 00 Technology) : modèle fondation pour humanoïdes, intégration Isaac et Cosmos, partenariats Apptronik, Agility, 1X.

101arXiv cs.RO RecherchePaper

LiMoDE : repenser la manipulation robotique continue par une approche mélange d'experts dynamiques

Une équipe de chercheurs a présenté LiMoDE (Lifelong Mixture of Dynamic Experts), une architecture destinée à permettre à un robot de maîtriser de nouvelles tâches de manipulation sans effacer les compétences précédemment acquises. Publiée en préprint sur arXiv (réf. 2606.26183), la méthode repose sur un schéma d'apprentissage en deux étapes. Dans un premier temps, un pré-entraînement multi-tâches construit une structure MoE (Mixture of Experts) dynamique : un nombre variable d'experts hétérogènes est activé sélectivement en fonction des informations de mouvement, chaque expert spécialisant une forme de manipulation à court terme. Dans un second temps, le mécanisme LiMoEAM (Lifelong MoE Adaptation Mechanism) ajoute de nouveaux experts "lifelong" qui se combinent dynamiquement avec les experts figés issus du pré-entraînement, transférant les connaissances acquises vers les nouvelles tâches. Le système a été évalué sur un benchmark de lifelong learning simulé ainsi que sur des tâches réelles, avec un surcoût décrit comme modéré en paramètres entraînables et en overhead d'inférence. L'intérêt de LiMoDE réside dans sa réponse au problème de l'oubli catastrophique, verrou persistant du déploiement de robots généralistes en environnement industriel réel. Là où les approches par fine-tuning efficace en paramètres (PEFT, LoRA) permettaient l'adaptation à une tâche unique mais dégradaient les performances précédentes, LiMoDE isole les compétences réutilisables dans des experts distincts et en préserve les poids lors de l'adaptation. Pour un intégrateur ou un COO industriel, cela signifie théoriquement qu'un robot pourrait acquérir de nouvelles opérations de saisie ou d'assemblage sans réentraînement complet de la flotte, réduisant les fenêtres d'indisponibilité. Le fait que la méthode n'ajoute qu'un nombre "modéré" de paramètres reste à quantifier précisément dans des configurations à grande échelle. Le problème du lifelong learning robotique est traité depuis plusieurs années dans la communauté du continual learning, notamment via des approches EWC (Elastic Weight Consolidation) ou des replay buffers. Les travaux récents sur les VLA (Vision-Language-Action models) comme Pi-0 de Physical Intelligence, GR00T N2 de NVIDIA ou les politiques diffuses de Figure AI ont montré que des modèles pré-entraînés à large échelle s'adaptent rapidement à de nouveaux scénarios, mais peinent à maintenir les performances sur l'ensemble des tâches antérieures sans retraining. LiMoDE se positionne comme une solution architecturale intermédiaire entre le fine-tuning monolithique et le modèle généraliste à réentraînement systématique. Il s'agit à ce stade d'un article de recherche académique sans annonce de déploiement commercial ni partenariat industriel identifié.

Dossier NVIDIA GR00T — page 3

LiMoDE : repenser la manipulation robotique continue par une approche mélange d'experts dynamiques

Humanoid-DART : loco-manipulation humanoïde par augmentation guidée par diffusion, ré-étiquetage et suivi

RoDyn : apprivoiser un modèle du monde 2.5D interactif pour la manipulation robotique

InSight : acquisition autonome de compétences via des VLA pilotables

Superviser ce qui subsiste : adaptation VLA guidée par la géométrie depuis des vidéos synthétiques de robots

RE4 : imitation des interactions avec les objets, sensible aux transformations, via des modes de manipulation

L'industrie robotique chinoise enregistre de multiples avancées dans les humanoïdes et l'IA physique

EquiVLA : un cadre général pour les modèles VLA équivariants par rotation

Données et standards pour la robotique humanoïde : l'infrastructure manquante de l'IA physique

Sanctuary AI valide les performances de son IA physique chez un équipementier automobile de rang 1

Alibaba se lance dans la robotique avec sa première suite de modèles d'IA pour robots

Pilotage des politiques VLA autorégressives par intervention sur les tokens d'action

Au-delà de l'anglais : les lacunes multilingues des modèles vision-langage-action (VLA)

Récupération guidée par renforcement et fusion souple pour l'imitation multimodale robuste aux modalités manquantes

Les meilleurs encodeurs ne se transfèrent pas fiablement selon l'échelle du backbone VLA : diagnostic par greffage gelé

Un modèle fondation VLA pragmatique

Améliorer les politiques généralistes robotiques grâce au pilotage par inversion de flux

L'architecture du critique est cruciale : critiques doubles ou unifiés pour la loco-manipulation des humanoïdes

APT : le pré-entraînement par expertise d'action améliore la généralisation des politiques VLA aux nouvelles instructions

KPGrasp : correspondance de flux de points clés évolutive pour la génération de saisies dextériques

Les modèles du monde latents comprennent-ils les contraintes de sécurité partiellement observables ?

Prédiction d'intention avec gestion de l'incertitude pour la téléopération d'assemblage humain-robot

Métriques de curation : les scores axés sur les actions manquent les défauts structurels dégradant l'imitation

VLAMotor : amélioration guidée par tests des modèles VLA via la synthèse de données à base d'agents

FATE-VLA : génération de tests orientée détection de défaillances pour les modèles vision-langage-action

SafeVLA-Bench : un benchmark pour mesurer l'écart entre performance et sécurité dans les modèles VLA

Modèles du monde pour la manipulation robotique : une synthèse de la littérature

AgentGrounder : ancrage visuel 3D en zéro-shot dans des nuages de points via des modèles multimodaux

Comprendre l'impact des modèles fondation géométriques sur les modèles vision-langage-action (VLA)

VLA-REPLICA : un benchmark reproductible et économique pour l'évaluation réelle des modèles vision-langage-action (VLA)

RoboJailBench : évaluation des attaques et défenses adversariales dans les agents robotiques incarnés

Au-delà du succès binaire : un cadre de méta-évaluation diagnostique pour la manipulation fine

Auto-encodeurs épars ancrés dans les événements pour les politiques VLA

FANUC renforce l'intégration de ses robots avec NVIDIA Isaac Sim

Ai2 publie un modèle de robotique ouvert conçu pour l'automatisation réelle par IA

Surmonter l'aveuglement aux dynamiques : correction de vitesse et de trajectoire sans entraînement pour les modèles VLA

Hallucination d'action dans les modèles vision-langage-action (VLA) génératifs

AR-VLA : un expert d'action autorégressif pour les modèles vision-langage-action

ATAAT : cadre adversarial adaptatif et conscient des menaces contre les attaques par porte dérobée sur les modèles VLA

Vers une vérification de propriété par backdoor pour les modèles vision-langage-action (VLA)

Tirer parti des échecs : apprentissage adaptatif pour les modèles vision-langage-action (VLA)

Préserver les capacités fondamentales des modèles VLA à flux de correspondance via un SFT conservateur

Large Video Planner permet un contrôle robotique généralisable

Atlas de Boston Dynamics épate avec un appui tendu renversé parfait

AhaRobot : un manipulateur mobile bimanuel open source à faible coût pour l'IA incarnée

OGPO : un affinage complet et efficace des politiques de contrôle génératives

Sécurité de l'IA incarnée : panorama des risques, attaques et défenses

Revue complète des modèles du monde pour l'apprentissage robotique

Unitree redéfinit le marché des robots humanoïdes d'entrée de gamme avec un modèle à 4 290 $

Comment fonctionnent réellement les VLA en environnements ouverts