
RoboLab : benchmark de simulation haute fidélité pour l'analyse des politiques généralistes multi-tâches
Des chercheurs du Spatial Reasoning Lab de NVIDIA ont publié sur arXiv (papier 2604.09860, version 3, mai 2026) RoboLab, un framework de benchmarking en simulation conçu pour évaluer les politiques robotiques généralistes. Le coeur du système est le benchmark RoboLab-120, qui regroupe 120 tâches réparties selon trois axes de compétences, visuel, procédural, relationnel, et trois niveaux de difficulté. Ce qui distingue RoboLab des benchmarks existants est la capacité à générer des scènes et des tâches de manière programmatique, aussi bien par authoring humain que via un LLM, dans un environnement de simulation haute fidélité conçu pour être agnostique au robot et à la politique évaluée. Le framework tente de répondre à deux questions précises : dans quelle mesure le comportement en simulation prédit-il les performances réelles, et quels facteurs influencent le plus le comportement d'une politique ?
L'enjeu est directement lié à un problème structurel du domaine : la saturation rapide des benchmarks actuels. La plupart des évaluations existantes présentent un chevauchement significatif entre les données d'entraînement et les données d'évaluation, ce qui gonfle artificiellement les taux de succès et masque les vraies faiblesses en généralisation. RoboLab introduit des perturbations contrôlées pour mesurer la sensibilité des politiques et expose, selon les auteurs, un écart de performance notable chez les modèles état de l'art actuels. Pour un intégrateur ou un COO industriel, c'est une mise en garde : les chiffres de benchmark publiés par les fondeurs de modèles VLA (Vision-Language-Action) ne reflètent pas nécessairement la robustesse en conditions réelles.
Ce travail s'inscrit dans la course aux politiques généralistes qui mobilise toute l'industrie : Physical Intelligence avec pi0, Boston Dynamics et sa roadmap manipulation, Figure AI avec Figure 03, et NVIDIA lui-même avec GR00T N2 comme modèle de référence. Le SRL (Spatial Reasoning Lab) de NVIDIA se positionne ici en fournisseur d'infrastructure d'évaluation plutôt qu'en compétiteur direct sur les politiques, un rôle analogue à celui que joue MLCommons pour l'inférence LLM. Le projet dispose d'un site dédié (research.nvidia.com/labs/srl/projects/robolab/), mais reste pour l'instant un preprint non peer-reviewed : aucun déploiement commercial ni partenariat industriel n'est annoncé à ce stade.
Dans nos dossiers




