
Restauration de l'ancrage linguistique dans les modèles VLA par recalibrage de l'attention sans entraînement
Voici l'article traduit et résumé :
Une équipe de recherche a mis en évidence une faille critique dans les modèles Vision-Language-Action (VLA), ces systèmes qui permettent à des robots d'exécuter des tâches de manipulation à partir d'instructions en langage naturel. Le problème, baptisé "cécité linguistique", survient lorsque le robot continue d'exécuter une action visuellement plausible même quand l'instruction textuelle contredit explicitement la scène observée : le modèle privilégie alors ce qu'il voit au détriment de ce qu'on lui dit. Pour quantifier ce phénomène, les chercheurs ont créé ICBench, un benchmark diagnostique dérivé du jeu de données LIBERO, qui injecte des contradictions contrôlées entre instruction et environnement visuel. Testés sur trois architectures VLA de référence, Pi-0, Pi-0.5 et OpenVLA OFT, les modèles réussissent fréquemment leur tâche malgré des instructions logiquement impossibles, preuve d'un biais visuel marqué dans la génération d'action. Face à ce constat, l'équipe propose IGAR (Instruction-Guided Attention Recalibration), un mécanisme appliqué au moment de l'inférence, sans réentraînement ni modification architecturale, qui rééquilibre l'attention du modèle pour restaurer le poids de l'instruction linguistique.
Cette découverte fragilise un postulat central du secteur robotique actuel : que les modèles VLA génèrent des actions réellement pilotées par le langage, condition indispensable pour des robots généralistes capables de suivre des consignes fiables en environnement industriel ou domestique. Un robot qui ignore silencieusement une instruction contradictoire, sans signaler d'erreur, représente un risque direct pour les intégrateurs et les décideurs B2B qui envisagent de déployer ces modèles sur des lignes de production ou en logistique, où une mauvaise interprétation peut coûter cher en sécurité ou en qualité. IGAR intéresse particulièrement car il s'agit d'un correctif applicable sans réentraînement aux modèles existants.
Sur 30 tâches issues de LIBERO, IGAR réduit sensiblement les exécutions erronées face à des instructions contradictoires hors distribution, tout en préservant les performances de base sur les tâches normales. Les chercheurs ont aussi validé l'approche sur un bras robotique Franka réel, où IGAR a effectivement empêché des manipulations déclenchées par des instructions incohérentes, un test important puisqu'il dépasse la simple simulation. Ce travail s'inscrit dans une tendance plus large d'audit critique des modèles VLA, où la question du "sim-to-real" et de la robustesse aux cas limites reste largement sous-explorée face à l'engouement commercial entourant Pi-0, GR00T N2 ou Helix.
Dans nos dossiers




