QDepth-VLA : prédiction de profondeur quantifiée…

Evo-Depth : un modèle vision-langage-action (VLA) léger intégrant la perception de profondeur

42

1arXiv cs.RO

Evo-Depth : un modèle vision-langage-action (VLA) léger intégrant la perception de profondeur

Des chercheurs ont publié sur arXiv (arXiv:2605.14950, mai 2025) Evo-Depth, un modèle VLA (Vision-Language-Action) de 0,9 milliard de paramètres conçu pour la manipulation robotique. L'architecture repose sur trois composants : un module d'encodage de profondeur implicite (Implicit Depth Encoding Module) qui extrait des représentations de profondeur à partir d'images RGB multi-vues sans capteur dédié, un module d'amélioration spatiale (Spatial Enhancement Module) qui fusionne ces features avec les représentations vision-langage via une modulation adaptative, et une stratégie d'entraînement progressif (Progressive Alignment Training) qui aligne ces représentations enrichies avec la génération d'actions. Sur quatre benchmarks de simulation et en conditions réelles, Evo-Depth affiche le meilleur taux de succès moyen parmi les méthodes comparées, avec la plus faible empreinte mémoire GPU et la fréquence d'inférence la plus élevée. L'enjeu est direct pour les intégrateurs et les équipes robotique : les VLA actuels peinent à raisonner spatialement parce qu'ils traitent des images 2D plates, ce qui crée un écart entre la compréhension sémantique (ce qu'est l'objet) et la compréhension géométrique (où il se trouve exactement). Les approches qui ajoutent des capteurs 3D, LiDAR, caméras RGB-D, résolvent le problème au prix d'une complexité matérielle et d'une sensibilité accrue au bruit de reconstruction. Evo-Depth démontre qu'il est possible d'inférer une représentation de profondeur compacte depuis du RGB seul, à moindre coût de calcul : c'est un argument opérationnel pour des déploiements en environnements non équipés de capteurs de profondeur, typiquement les entrepôts non instrumentés ou les robots de service. Les VLA à base de transformers pré-entraînés, notamment pi0 (Physical Intelligence), OpenVLA, ou encore RoboFlamingo, constituent le paysage concurrentiel direct. Ces modèles atteignent généralement plusieurs milliards de paramètres et requièrent une infrastructure GPU conséquente pour l'inférence embarquée. Evo-Depth se positionne dans le segment "efficient VLA", aux côtés de travaux comme RoboMamba ou SpatialVLA, en pariant sur la compression plutôt que sur la puissance brute. Il s'agit pour l'instant d'un preprint arXiv non évalué par les pairs, sans code ou poids publics annoncés à ce stade : les résultats sont prometteurs, mais la reproductibilité reste à confirmer avant toute intégration industrielle.

IA physiqueActu

1 source

Latent Reasoning VLA : pensée latente et prédiction pour les modèles vision-langage-action

44

2arXiv cs.RO

Latent Reasoning VLA : pensée latente et prédiction pour les modèles vision-langage-action

Une équipe de chercheurs a publié sur arXiv (arXiv:2602.01166) LaRA-VLA, un nouveau cadre de modèles Vision-Language-Action (VLA) qui internalise le raisonnement multi-modal directement dans un espace latent continu, plutôt que de générer explicitement des chaînes de pensée textuelles (chain-of-thought, CoT) à l'inférence. Concrètement, là où les VLA actuels produisent des tokens de raisonnement discrets avant chaque décision motrice, LaRA-VLA effectue raisonnement et prédiction d'action dans un même espace latent, sans étape de génération textuelle intermédiaire. Les auteurs rapportent une réduction de la latence d'inférence pouvant atteindre 90 % par rapport aux approches CoT explicites, tout en surpassant les méthodes VLA de référence sur des benchmarks en simulation et sur des tâches de manipulation réelle à longue portée. Deux jeux de données CoT structurés ont été construits pour l'entraînement. L'entraînement suit un curriculum progressif : supervision d'abord textuelle et visuelle, puis transition vers un raisonnement purement latent, avant adaptation de ces dynamiques latentes au conditionnement de la génération d'actions. Ce résultat est significatif pour les intégrateurs et décideurs industriels parce qu'il s'attaque directement au principal goulot d'étranglement des VLA raisonnants : le coût computationnel du CoT à l'inférence rendait ces modèles inutilisables en temps réel sur du matériel embarqué. Un gain de 90 % de latence sans dégradation de performance change le rapport entre qualité de raisonnement et contrainte temps-réel, rendant crédible le déploiement de politiques robotiques expressives sur des bras industriels ou des humanoïdes sans serveur dédié au raisonnement. Cela contredit partiellement l'hypothèse que le raisonnement symbolique explicite est nécessaire pour gérer des tâches longues et multi-étapes. Les VLA, popularisés par des travaux comme RT-2 (Google DeepMind, 2023) puis Pi-0 (Physical Intelligence, 2024) et GR00T N2 (NVIDIA, 2025), cherchent à combiner compréhension sémantique et contrôle moteur dans un seul modèle. La tension entre performance de raisonnement et latence d'inférence est un sujet actif : d'autres approches comme les modèles de diffusion d'actions (Pi-0) contournent le problème différemment. LaRA-VLA propose une troisième voie, en fusionnant les deux flux dans l'espace latent. Le code et la page projet sont disponibles publiquement ; les prochaines étapes attendues sont des évaluations sur robots humanoïdes et des tests de robustesse hors distribution, domaines où le gap simulation-réalité reste le critère déterminant pour une adoption industrielle.

UECette réduction de latence d'inférence de 90 % ouvre la voie au déploiement de politiques VLA expressives sur du matériel embarqué, ce qui pourrait bénéficier aux équipes R&D et intégrateurs européens travaillant sur des bras industriels ou des humanoïdes sans infrastructure de calcul dédiée.

💬 90 % de latence en moins sur les VLA, c'est le genre de résultat qu'on attendait pour débloquer l'embarqué. Passer le raisonnement dans l'espace latent plutôt que de cracher des tokens CoT, c'est élégant, et les benchmarks semblent tenir. Reste le gap simulation-réalité, qui est toujours l'épreuve de vérité, et là aucun papier arXiv ne peut te garantir grand chose avant les tests sur du vrai matériel.

IA physiqueOpinion

1 source

VP-VLA : le prompting visuel comme interface pour les modèles vision-langage-action

45

3arXiv cs.RO

VP-VLA : le prompting visuel comme interface pour les modèles vision-langage-action

Publiée en mars 2026 sur arXiv (référence 2603.22003v3), VP-VLA est une architecture à deux systèmes qui dissocie raisonnement de haut niveau et exécution motrice dans les modèles Vision-Language-Action. Le problème adressé est structurel : les VLA actuels effectuent un unique passage en avant (forward pass) censé gérer simultanément l'interprétation d'instructions, l'ancrage spatial et le contrôle moteur de bas niveau, ce qui dégrade la précision spatiale et la robustesse hors distribution. VP-VLA sépare ces responsabilités via une interface de prompts visuels : un "Planificateur Système 2" décompose les instructions en sous-tâches et localise objets et positions cibles, puis rend ces ancres spatiales directement dans l'espace RGB natif sous forme de réticules et boîtes englobantes. Un "Contrôleur Système 1", entraîné avec un objectif auxiliaire d'ancrage visuel, génère ensuite les trajectoires de bas niveau à partir de ces prompts. En simulation et en environnement réel, VP-VLA surpasse les baselines end-to-end QwenOFT (basé sur les modèles Qwen d'Alibaba) et GR00T-N1.6 (NVIDIA), les deux références industrielles les plus avancées du moment. L'intérêt architectural tient à l'évitement du mismatch de modalité que créent les représentations intermédiaires denses -- masques d'affordance, cartes de contrôle spécialisées -- qui obligent les modèles à jongler entre espaces de représentation hétérogènes. En substituant des annotations légères directement dans l'espace RGB natif, VP-VLA maintient une cohérence de modalité tout au long du pipeline. Pour les intégrateurs industriels et les équipes de déploiement robotique, cela se traduit concrètement par une meilleure robustesse aux configurations non vues à l'entraînement et une précision spatiale accrue sur les tâches de manipulation. La séparation explicite planification/exécution faciliterait aussi la mise à jour ou le remplacement indépendant de chaque composant, un avantage non négligeable en contexte de déploiement itératif. VP-VLA s'inscrit dans un mouvement plus large de déconstruction des VLA monolithiques, après RT-2, OpenVLA, et les architectures GR00T de NVIDIA. La publication en version v3 indique des révisions successives, signe probable d'une soumission à une conférence de premier rang (IROS 2026, CoRL 2026 ou RSS 2026). Le choix de GR00T-N1.6 et QwenOFT comme baselines positionne explicitement VP-VLA face aux approches portées par des acteurs industriels majeurs. Aucun déploiement physique industriel ni partenariat de production n'est annoncé à ce stade : les expériences réelles restent en environnement de laboratoire. La page projet ouverte (visualprompt-vla.github.io) laisse présager une publication du code, ce qui favoriserait une adoption rapide et une validation indépendante par la communauté robotique.

UELes laboratoires européens actifs en VLA (INRIA, CEA-List) pourraient bénéficier d'une architecture open-source plus robuste hors distribution si le code est publié, mais aucun acteur ou déploiement européen n'est impliqué à ce stade.

IA physiqueOpinion

1 source

UniTacVLA : compréhension et prédiction tactiles unifiées dans les modèles vision-langage-action

36

4arXiv cs.RO

UniTacVLA : compréhension et prédiction tactiles unifiées dans les modèles vision-langage-action

UniTacVLA, un modèle vision-langage-action (VLA) tactile, vise à résoudre un point faible connu des VLA classiques : la manipulation dextre en contact riche, comme l'insertion, l'essuyage, l'assemblage ou l'ajustement de précision. Contrairement aux approches vision-tactile-langage-action (VTLA) existantes qui traitent le signal tactile comme une simple entrée auxiliaire passive, l'équipe de recherche propose un espace latent tactile unifié qui modélise conjointement l'état tactile courant et les changements de contact futurs, via un raisonnement en chaîne de pensée tactile et une prédiction tactile progressive (coarse-to-fine). Ce prior tactile alimente ensuite un contrôleur mixte tactile-action combinant retour tactile en temps réel et retour prédit, pour corriger à haute fréquence des chunks d'action calculés à basse fréquence. Les expériences ont été menées en conditions réelles sur quatre catégories de tâches à fort contact (ajustement, insertion, essuyage, assemblage), testées à la fois en environnement propre et sous perturbations externes. L'enjeu dépasse la simple amélioration de benchmark. La manipulation en contact riche reste l'un des goulots d'étranglement majeurs empêchant les bras robotiques et humanoïdes de passer de la démonstration en laboratoire au déploiement industriel réel, notamment pour des tâches d'assemblage fin où la seule vision ne suffit pas à garantir la précision ou la robustesse face aux perturbations. En traitant le tactile comme un signal dynamique et prédictif plutôt que comme un simple capteur passif, UniTacVLA s'attaque directement à l'écart persistant entre les VLA génériques, entraînés majoritairement sur des données visuelles, et les exigences physiques réelles de l'assemblage industriel ou de la manipulation fine en conditions non contrôlées. Les auteurs revendiquent des gains sur le taux de succès, la précision de manipulation et la robustesse au contact par rapport aux méthodes existantes, ce qui, si confirmé à plus grande échelle, renforcerait l'argument selon lequel l'intégration tactile profonde est nécessaire pour les tâches dextres, et pas seulement un ajout marginal. Ce travail s'inscrit dans une vague plus large de recherche visant à doter les modèles VLA de capacités multimodales au-delà de la vision et du langage, à mesure que des acteurs comme Physical Intelligence (Pi-0) ou NVIDIA (GR00T) poussent leurs propres modèles génération vers la production industrielle. Les architectures VTLA précédentes, limitées par un traitement passif du tactile, constituent la ligne de base que ce papier cherche à dépasser. La publication, un prépublication arXiv, ne mentionne pas de partenariat industriel ni de calendrier de déploiement commercial ; les prochaines étapes attendues porteraient sur l'extension à davantage de types de capteurs tactiles et de tâches, ainsi que sur une validation à plus grande échelle en dehors du cadre contrôlé des expériences décrites.

IA physiqueActu

1 source

QDepth-VLA : prédiction de profondeur quantifiée comme supervision auxiliaire pour les modèles vision-langage-action (VLA)

À lire aussi

Evo-Depth : un modèle vision-langage-action (VLA) léger intégrant la perception de profondeur

Latent Reasoning VLA : pensée latente et prédiction pour les modèles vision-langage-action

VP-VLA : le prompting visuel comme interface pour les modèles vision-langage-action

UniTacVLA : compréhension et prédiction tactiles unifiées dans les modèles vision-langage-action