Dossier NVIDIA GR00T — page 10

955 articles · page 10 sur 20

NVIDIA GR00T (Generalist Robot 00 Technology) : modèle fondation pour humanoïdes, intégration Isaac et Cosmos, partenariats Apptronik, Agility, 1X.

451arXiv cs.RO IA physiqueOpinion

SERF : une carte spatio-temporelle pour la manipulation mobile à long horizon

Des chercheurs ont présenté SERF (Spatiotemporal Environment and Robot Feature Map), une architecture de représentation spatiale et temporelle destinée à améliorer la manipulation mobile sur des horizons longs. Publiée sur arXiv sous l'identifiant 2606.12956, l'approche conditionne une politique de manipulation mobile sur une carte de caractéristiques qui encode simultanément l'environnement et le corps articulé du robot sous forme de points neuronaux dans un espace latent partagé. Cette carte est mise à jour en ligne à partir d'observations égocentriques et de données proprioceptives: les points neuronaux de l'environnement sont actualisés via un suivi rigide au niveau objet, tandis que les points du robot exploitent la cinématique directe. Les tokens extraits de la carte SERF, à plusieurs échelles spatiales et depuis plusieurs cadres de référence, sont injectés comme entrée d'état dans un modèle VLA (vision-language-action), fournissant à la politique un contexte à la fois local et global. L'évaluation est conduite sur BEHAVIOR-1K, un benchmark standard pour la manipulation mobile longue durée en environnements domestiques simulés. L'intérêt de SERF réside dans sa réponse à une limite structurelle des politiques basées uniquement sur l'image: l'incapacité à maintenir une représentation cohérente de l'environnement, de la localisation et de l'avancement de la tâche sur des séquences longues. Les résultats montrent que la politique SERF surpasse les baselines image-only sur BEHAVIOR-1K, atteint les sous-objectifs plus rapidement en empruntant des trajectoires plus directes, se montre plus robuste aux changements de configuration de scène, et parvient à récupérer après un échec de type "object drop" -- capacité critique pour un déploiement industriel. Pour les intégrateurs de systèmes manipulateurs mobiles, la capacité à gérer des perturbations imprévues sans replanning complet représente un gain opérationnel concret, même si les performances sont ici mesurées en simulation. SERF s'inscrit dans un courant de recherche actif qui cherche à doter les modèles VLA d'une mémoire spatiale persistante, en complément de travaux comme GNFactor ou RVT qui exploitent des représentations 3D de la scène. L'approche se distingue en intégrant explicitement la représentation du robot lui-même dans la carte, aux côtés de l'environnement, ce que la plupart des architectures traitent séparément. Dans l'écosystème VLA, où Pi-0 (Physical Intelligence), GR00T N2 (NVIDIA) ou OpenVLA opèrent principalement sur des observations de courte durée, SERF propose une piste pour étendre l'horizon de raisonnement sans augmenter la complexité d'entrée brute. Les prochaines étapes naturelles sont un transfert sim-to-real sur hardware réel et une validation sur des benchmarks en environnement physique, absente à ce stade de l'article.

Dossier NVIDIA GR00T — page 10

SERF : une carte spatio-temporelle pour la manipulation mobile à long horizon

GIVE : ancrage des gestes humains dans les modèles vision-langage-action (VLA)

RoboProcessBench : un benchmark pour évaluer la compréhension des processus dans la manipulation robotique vision-langage

SAFER-Nav : améliorer la sécurité de la navigation visuelle des robots par fine-tuning orienté segmentation

LUCID : modèles d'intention agnostiques au morphotype, acquisition dextérique à l'échelle depuis des vidéos humaines

TacCoRL : intégration du retour tactile dans les modèles VLA par simulation

CHORUS : collaboration décentralisée entre robots hétérogènes avec une seule politique VLA

Combler le fossé morphologique : adapter les modèles VLA à la manipulation dextérique par ajustement conditionné par l'intention

Prédiction d'horizon d'exécution dynamique pour les politiques robotiques par segments

CAST : les étiquettes contrefactuelles améliorent le suivi d'instructions dans les modèles VLA

VeriSpace : une méthode de vérification spatiale des actions pour les modèles vision-langage-action

GHOST : politiques hiérarchiques à sous-objectifs pour généraliser la manipulation robotique

Dexterous Point Policy : apprentissage de politiques de main habile à partir de démonstrations humaines

SARM2 : modélisation de récompense multi-tâches par étape pour la manipulation robotique auto-améliorante

Symskill : co-invention de symboles et de compétences pour une manipulation réactive à long horizon, économe en données

PRISM : échantillonnage guidé par les priors dans les modèles du monde

Apprentissage de politiques par simulation pour la loco-manipulation des robots humanoïdes

FAWAM : modèles d'action du monde sensibles aux forces pour la manipulation en boucle fermée à contacts multiples

Retour vers le futur familier : récupération après défaillance des politiques VLA par sélection d'étapes pré-imaginées

Modèle fondation de comportement perceptif : adapter les a priori de mouvement humain au terrain robotique

NVIDIA et LG Group bâtissent une usine d'IA pour développer l'IA physique, la mobilité et l'infrastructure IA

EgoHumanoid : la manipulation locomotrice en environnement réel grâce aux démonstrations égocentriques sans robot

MotionDisco : découverte de mouvements pour la loco-manipulation extrême des robots humanoïdes

HANDOFF : contrôle corps entier d'humanoïdes à base d'agents par distillation d'enseignants complémentaires

Flash-WAM : distillation sensible aux modalités pour les modèles monde-action

FlowPRO : affinage renforcé sans récompense des VLA flow-matching par optimisation proximale des préférences

MPCoT : raisonnement latent multi-chemin guidé par la récompense pour VLA avec mise à l'échelle à l'inférence

PerceptTwin : reconstruction sémantique de scène pour la planification et vérification itératives par LLM

SeeTraceAct : planification latente par visibilité à partir de vidéos de démonstration multi-corps

GeoAlign : au-delà de la sémantique avec l'alignement spatial guidé par l'état dans les modèles VLA

PointAction : les points 3D comme représentation universelle des actions pour le contrôle robotique

OMP : politique Meanflow en une étape avec alignement directionnel

GraspGen-X : préhension à 6 degrés de liberté par diffusion pour morphologies robotiques variées

AFUN : vers un modèle fondation d'affordances pour la compréhension fonctionnelle

Co-entraînement avec vidéo égocentrique et démonstration pour la navigation robotique

Factorisation tâche-monde pour l'apprentissage robotique

RoboDream : des modèles du monde compositionnels pour la synthèse de données robotiques à grande échelle

TIC-VLA : un modèle vision-langage-action (VLA) à raisonnement intégré pour la navigation robotique en environnements dynamiques

Vérificateur d'actions mondiales : modèles du monde auto-améliorés via asymétrie avant-inverse

HARP-VLA : apprentissage de représentations alignées humain-robot pour modèle vision-langage-action

Phantom : entraîner des robots sans robots, uniquement avec des vidéos humaines

DynaFLIP : repenser la perception robotique via une représentation guidée par les dynamiques tri-modales

3DVLA : amélioration des modèles VLA par la compréhension spatiale 3D et des instances

DGSG-Mind : graphes de scène gaussiens 3D dynamiques pour la compréhension et l'ancrage de scènes à long terme

CogVLA : un modèle vision-langage-action aligné sur la cognition par routage et sparsification guidés par instructions

ProgVLA : apprentissage de compétences de manipulation robotique guidé par la progression

SANTS : un planificateur adaptatif à l'état pour les modèles d'action du monde

Planification de mouvement multi-robots décentralisée par diffusion informée par simulation

Champs d'action neuraux implicites : des points de passage discrets aux fonctions continues pour les modèles vision-langage-action (VLA)

Uni-LaViRA : traduction d'actions langage-vision-robot pour une navigation incarnée unifiée