Dossier NVIDIA GR00T — page 4

684 articles · page 4 sur 14

NVIDIA GR00T (Generalist Robot 00 Technology) : modèle fondation pour humanoïdes, intégration Isaac et Cosmos, partenariats Apptronik, Agility, 1X.

151arXiv cs.RO RecherchePaper

Planification de mouvement adaptative aux événements avec un modèle vision-langage distillé en situations critiques

Une équipe de chercheurs a déposé le 25 juin 2026 sur arXiv (réf. 2606.25629) un cadre algorithmique baptisé EAMP (Event-Adaptive Motion Planning) pour la navigation robotique en environnements logistiques à criticité sécurité. Le système repose sur trois modules imbriqués : un déclencheur sémantique configurable par prompt, le PC-SET, qui surveille en continu de courtes séquences vidéo pour détecter des anomalies comportementales ; un modèle vision-langage allégé, le SemNav-VLM, activé uniquement lors d'une anomalie avérée, qui produit des décisions stratégiques discrètes ; et un module de contrôle prédictif sémantique (SMPC) qui traduit ces décisions en reconfiguration des objectifs d'optimisation et des références géométriques du planificateur bas niveau. Le SemNav-VLM est obtenu par distillation d'un grand modèle vision-langage (VLM), guidée par des vérifications de cohérence physique, ce qui préserve le raisonnement de bon sens du modèle parent tout en réduisant drastiquement la latence d'inférence. Les expériences sont menées dans des scénarios logistiques simulés. L'enjeu adressé est structurel pour la robotique mobile industrielle : dans les entrepôts et environnements mixtes, la majorité des collisions ne provient pas d'obstacles statiques inédits, mais du comportement imprévisible d'agents dynamiques, opérateurs humains, chariots élévateurs, autres robots autonomes. Les VLMs, capables d'un raisonnement contextuel robuste sur ces situations, sont jusqu'ici incompatibles avec la boucle de contrôle temps-réel en raison de leur latence computationnelle, qui déstabilise l'exécution physique. EAMP résout cette contradiction par déclenchement conditionnel : le modèle allégé n'est invoqué qu'en présence d'une anomalie, préservant l'efficacité temps-réel sans sacrifier la capacité de raisonnement sémantique. Les résultats indiquent une amélioration significative des marges de sécurité dynamiques par rapport aux baselines existantes. Il s'agit néanmoins d'une démonstration en simulation ; aucune validation sur robot physique réel n'est rapportée dans cette version du preprint. Ce travail s'inscrit dans une tendance de fond de 2025-2026 : intégrer les capacités de raisonnement des grands modèles dans des architectures de planification classiques (MPC, RRT) sans sacrifier la réactivité temps-réel. Les approches concurrentes incluent les modèles VLA (Vision-Language-Action) de bout en bout comme pi-0 de Physical Intelligence ou GR00T N2 de NVIDIA, qui fusionnent différemment raisonnement et action à l'échelle. La distillation supervisée par contraintes physiques est une direction active pour compresser ces modèles sans dégradation critique. Côté déploiement, des acteurs comme Exotec (France, système Skypod) opèrent déjà dans des entrepôts mixtes humains-robots où la problématique des agents dynamiques est centrale ; un cadre comme EAMP pourrait constituer une brique de planification adaptative pour ces systèmes, à condition d'une validation physique que les auteurs n'ont pas encore fournie.

UEExotec (France, système Skypod) est explicitement cité comme cas d'usage potentiel pour ce cadre de planification adaptative, mais l'absence de validation sur robot physique réel reporte tout impact industriel concret.

Dossier NVIDIA GR00T — page 4

Planification de mouvement adaptative aux événements avec un modèle vision-langage distillé en situations critiques

RoBoSR : représentations structurées de scènes pour le raisonnement des robots incarnés

Vidéo : une entreprise chinoise montre un modèle unique pilotant à la fois un humanoïde et un bras robotique

Génération d'actions robotiques continues et cohérentes par correspondance de flux sensible aux fréquences

DADP : politique de diffusion adaptative au domaine

Tri-Info : prédiction d'échec généralisable et interprétable pour les modèles VLA par la théorie de l'information

Guava : un cadre efficace et universel pour la manipulation incarnée

Alibaba dévoile Qwen-Robot : trois modèles fondation pour l'IA incarnée

QPILOTS : pilotage efficace par fonction Q à l'inférence pour les politiques de flux

La démonstration parfaite est un mauvais professeur : alignement robuste par segments de mouvement critiques

IVRA : améliorer les relations entre tokens visuels pour la politique d'action des robots grâce à un guidage sans entraînement

X-Tokenizer : tokenizer d'actions multimodal pour le pré-entraînement VLA

Pilotage de politique d'inférence par vision et toucher

Elastic Queries : apprentissage par renforcement pour l'exécution auto-consciente des politiques dans les modèles VLA

Exécution en temps réel avec des politiques autorégressives

EgoEngine : des vidéos humaines égocentrées vers des démonstrations dextériques haute fidélité pour robots

EmbodiSteer : guidage articulaire de politiques visuomotrices universelles pour un déploiement zéro-shot multi-robots

DAM-VLA : modèle vision-langage-action multimodal asynchrone et découplé

La robotique ne connaîtra pas de moment Llama bien défini

Une méthode pratique pour améliorer la corrélation simulation-réel dans l'évaluation des modèles VLA

Efficient-WAM : un modèle monde-action de 1 milliard de paramètres à faible coût d'anticipation

TacForeSight : un modèle du monde tactile guidé par la force pour la manipulation en contact dense

C³ache : accélérer les modèles monde-action par cache de blocs inter-inférences

ActProbe : sonde dans l'espace d'action pour la détection précoce des défaillances des politiques robotiques génératives

Langage comme capteur : estimation calibrée de croyances spatiales en 3D à partir du langage naturel

Modèle de diffusion sensible aux correspondances pour la manipulation robotique en contact étroit (Robot-DIFT)

Autoencodeurs épars : des caractéristiques interprétables et pilotables révélées dans les modèles VLA

GEAR-VLA : un modèle VLA intégrant la géométrie pour une manipulation robotique généralisable

IA incarnée sûre pour les tâches à long horizon : une analyse multi-couches de la manipulation robotique

OSCAR : modèle d'action du monde conditionné par squelette pour robots à morphologies multiples

Surmonter le goulot d'étranglement perceptuel dans la décision vision-langage par génération de plans focalisés

NVIDIA Isaac Sim : une simulation GPU accélérée et évolutive pour la robotique

VLA-Arena : un cadre open source pour évaluer les modèles vision-langage-action (VLA)

De la vidéo au contrôle : étude des interfaces d'apprentissage de la manipulation à partir de données visuelles temporelles

Dexterity-BEV : aligner le monde 3D et les actions pour un apprentissage généralisable des politiques robotiques

Le mensonge euclidien dans les politiques VLA, corrigé par score matching dans l'espace tangent

Au-delà de la réussite des tâches : diagnostics comportementaux et représentationnels pour WAM et VLA

RoboSemanticBench : évaluer l'ancrage sémantique dans la prédiction d'actions des modèles VLA

Les dynamiques prédites peuvent-elles exister dans le monde physique ?

LEGS : affinage de VLA sans téléopération pour la loco-manipulation humanoïde dans un monde Gaussian Splatting incarné

Nvidia, Unitree et Sharpa s'associent pour concevoir un robot humanoïde capable d'effectuer un travail réel

ElegantVLA : apprendre quand raisonner pour des modèles vision-langage-action (VLA) efficaces

RoboMemArena : un nouveau benchmark évalue systématiquement les capacités mémoire des robots

Apprentissage par renforcement visuel sur politique efficace via gradient de politique stochastique découplé

Vers des agents incarnés à long horizon avec des modèles vision-langage-action (VLA) alignés sur les outils

TMRL : un préentraînement modulé par pas de temps de diffusion pour explorer et affiner efficacement les politiques

Le robot humanoïde AEON s'attaque aux opérations en usine dans une offensive d'autonomie réelle

VILAS : une architecture bas coût intégrant un modèle VLA avec préhension souple pour la manipulation robotique

VLA-ATTC : calcul adaptatif au moment du test pour les modèles VLA avec un critique d'action relative

Modèle World-Value-Action : planification implicite pour les systèmes vision-langage-action (VLA)