
MobileManiBench : simplifier la vérification des modèles pour la manipulation mobile
Une équipe de chercheurs a publié MobileManiBench, un benchmark à grande échelle destiné à évaluer les modèles de type VLA (Vision-Language-Action) sur des tâches de manipulation robotique mobile, avant tout déploiement réel. Le système repose sur NVIDIA Isaac Sim et un pipeline de génération automatique par apprentissage par renforcement, qui produit des trajectoires annotées incluant instructions en langage naturel, images RGB-profondeur-segmentation multi-vues, et états synchronisés objet/robot. Le dataset résultant comprend 300 000 trajectoires, couvrant 630 objets répartis en 20 catégories, 5 compétences motrices (ouvrir, fermer, tirer, pousser, saisir), plus de 100 tâches distinctes exécutées dans 100 scènes réalistes. Deux plateformes mobiles sont représentées, un robot à pince parallèle et un robot à main dextère, chacun équipé de deux caméras synchronisées (tête et poignet droit). Le code, les datasets et les modèles sont publiés en open-source.
L'enjeu central que MobileManiBench cherche à résoudre est le goulot d'étranglement des données de téléopération : les VLA actuels, dont pi-0 de Physical Intelligence ou GR00T N2 de NVIDIA, sont entraînés quasi-exclusivement sur des scènes de table statiques collectées par des opérateurs humains, ce qui limite leur généralisation à des environnements mobiles et encombrés. Un framework de vérification en simulation avant déploiement réel permettrait aux équipes R&D de filtrer les architectures non viables sans mobiliser des flottes de robots physiques ni des heures de téléopération coûteuses. La génération automatique à l'échelle de 300K trajectoires diversifiées ouvre également la voie à des études contrôlées sur l'efficacité des données et la généralisation, deux variables critiques pour les intégrateurs industriels qui évaluent le coût réel d'adoption d'un VLA.
Cette publication s'inscrit dans un mouvement plus large de la communauté robotique vers les approches sim-to-real, portées notamment par NVIDIA (Isaac Lab, Isaac Sim) et des labos comme Stanford, CMU et le LAAS-CNRS côté français. La manipulation mobile reste plus difficile que la manipulation sur table fixe en raison de la complexité des coordinations base-bras et de la variabilité des angles de caméra, problèmes que MobileManiBench cherche précisément à circonscrire. Les résultats comparatifs publiés sur plusieurs VLA représentatifs fournissent une base de référence utile, même si les benchmarks en simulation pure sous-estiment souvent l'écart sim-to-real : les métriques annoncées devront être validées en conditions physiques pour devenir opérationnellement significatives.
Le LAAS-CNRS est cité parmi les laboratoires moteurs du sim-to-real ; les équipes R&D françaises évaluant des VLA pour la manipulation mobile peuvent exploiter directement ce benchmark open-source pour réduire leurs coûts de validation avant déploiement physique.




