
QDepth-VLA : prédiction de profondeur quantifiée comme supervision auxiliaire pour les modèles vision-langage-action (VLA)
Des chercheurs ont publié sur arXiv (identifiant 2510.14836, troisième révision) QDepth-VLA, un cadre d'apprentissage qui augmente les modèles Vision-Language-Action (VLA) avec une tâche auxiliaire de prédiction de profondeur. Le principe : un module spécialisé, baptisé "depth expert", apprend à prédire des tokens latents quantifiés de cartes de profondeur, générés par un encodeur VQ-VAE (Vector Quantized Variational Autoencoder). Ces tokens sont intégrés au pipeline VLA comme supervision auxiliaire durant l'entraînement, sans modifier l'architecture de base du modèle. L'approche est validée sur des benchmarks de simulation et sur des tâches réelles de manipulation robotique, avec des résultats décrits par les auteurs comme "compétitifs", formulation prudente qui suggère des gains réels mais pas nécessairement un état de l'art incontestable.
L'enjeu fondamental que traite QDepth-VLA est le déficit de perception 3D des VLA actuels. Des modèles comme OpenVLA, Pi-0 ou les variantes de RT-2 traitent les images comme des entrées 2D et peinent à raisonner sur la géométrie de la scène (distance d'un objet, orientation, profondeur d'emprise), ce qui limite leur précision sur des tâches de manipulation fine : assemblage, insertion de connecteurs, saisie d'objets transparents ou réfléchissants. En forçant le modèle à reconstruire une structure de profondeur quantifiée, QDepth-VLA injecte des indices géométriques explicites dans les représentations apprises, sans nécessiter de capteur de profondeur supplémentaire à l'inférence. C'est un argument concret pour les intégrateurs déployant des robots sur des cellules équipées uniquement de caméras RGB standard.
QDepth-VLA s'inscrit dans une tendance plus large d'augmentation des VLA par des tâches auxiliaires : prédiction de flux optique chez Physical Intelligence avec Pi-0, estimation de pose 3D dans les travaux Google DeepMind, ou représentations implicites de scène. Les concurrents directs incluent SpatialVLA et plusieurs variantes de RoboVLMs intégrant des indices 3D explicites. Un point de vigilance : les auteurs ne précisent ni le robot utilisé pour les expériences réelles, ni les conditions expérimentales détaillées, ce qui rend difficile la comparaison directe avec d'autres approches. La prochaine étape pour positionner objectivement QDepth-VLA dans le paysage sera une évaluation sur des benchmarks standardisés comme LIBERO ou Open X-Embodiment, qui font aujourd'hui référence dans la communauté VLA.




