
Les VLA échouent différemment selon leur architecture : ce que révèle la surveillance en boîte noire
Une étude publiée sur arXiv en mai 2026 (réf. 2605.28726) remet en question une hypothèse largement répandue dans le déploiement des politiques robotiques VLA : le contrôle de vitesse constituerait un indicateur fiable de défaillance motrice. Les chercheurs ont soumis trois architectures VLA majeures, VQ-BeT (tokens discrets), Diffusion Policy et ACT (architectures continues), à un protocole unifié de 450 épisodes sur deux plateformes : PushT et ALOHA, ce dernier couvrant la manipulation bimane à 14 degrés de liberté. Premier résultat : le taux d'inversion de direction est le seul prédicteur universel de défaillance, avec des AUROC de 0,93, 0,79 et 0,91 selon l'architecture (p < 0,001). Le monitoring des à-coups (jerk) se révèle prédictif uniquement pour les architectures à tokens discrets, avec un gradient décroissant de 0,88 à 0,41 en passant aux architectures continues. Le contrôle de vitesse, lui, affiche des AUROC entre 0,41 et 0,52 sur les architectures continues, soit un niveau proche du hasard.
Ces résultats ont une portée directe pour les équipes de déploiement : le contrôle de vitesse est actuellement le mécanisme de sécurité le plus répandu dans les bases de code VLA en production, et il s'avère inefficace pour détecter une défaillance imminente sur les architectures continues (AUROC 0,52 sur ACT, 0,41 sur Diffusion Policy). L'étude établit que les familles discrètes et continues produisent des signatures de défaillance qualitativement différentes, et qu'aucun moniteur unique ne peut couvrir les deux. Pour un intégrateur ou un COO déployant un humanoïde ou un bras collaboratif en cellule de production, un indicateur de sécurité mal calibré représente un risque opérationnel concret, pas une nuance académique.
La distinction discret/continu dans les VLA est connue depuis les travaux fondateurs sur ACT (Zhao et al., 2023) et Diffusion Policy (Chi et al., 2023), mais ses implications sur le monitoring n'avaient pas été quantifiées à cette échelle. L'étude repose sur SafeContract, un toolkit open source de surveillance en boîte noire sans réentraînement, avec calibration conforme, accessible sur GitHub (krishnam94/vla-edge). Les acteurs déployant aujourd'hui des architectures continues, notamment Figure AI avec Figure 03, Physical Intelligence avec son modèle π0, ou Boston Dynamics, sont directement concernés par ces résultats. La prochaine étape logique est l'intégration de moniteurs architecture-spécifiques dans les pipelines de validation sim-to-real, en amont de toute mise en production sur site.
Les intégrateurs et équipes R&D européens déployant des architectures VLA continues (ACT, Diffusion Policy) doivent auditer leurs mécanismes de surveillance de sécurité, le contrôle de vitesse, mécanisme dominant en production, s'avérant quasi-aléatoire pour détecter les défaillances sur ces architectures.
Le contrôle de vitesse comme indicateur de sécurité sur les VLA continus, c'est à peu près aussi fiable que tirer à pile ou face. Ce n'est pas une petite subtilité académique : c'est le mécanisme le plus déployé en production aujourd'hui, et il détecte les défaillances imminentes avec un AUROC de 0,41 sur Diffusion Policy. Reste à voir combien d'intégrateurs vont vraiment auditer leurs pipelines après ça, mais l'étude arrive au bon moment, avec un toolkit open source en bonus.
Dans nos dossiers




