Aller au contenu principal
VLSA : modèle vision-langage-action avec couche de contrainte de sécurité modulaire
RecherchearXiv cs.RO45min

VLSA : modèle vision-langage-action avec couche de contrainte de sécurité modulaire

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Des chercheurs universitaires publient une architecture baptisée AEGIS, décrite dans un article arXiv (identifiant 2512.11891, version 2) consacré aux modèles vision-langage-action (VLA), ces systèmes qui permettent à un robot de traduire une instruction en langage naturel et une image en mouvement physique. AEGIS ajoute une couche de contrainte de sécurité "plug-and-play", construite à partir de fonctions de barrière de contrôle (control barrier functions), que l'on peut greffer sur un modèle VLA existant sans le réentraîner ni dégrader ses performances d'origine. Pour évaluer l'approche, les auteurs ont conçu un benchmark dédié, SafeLIBERO, qui multiplie les scénarios de manipulation avec des obstacles et des niveaux de complexité spatiale variables. Résultat annoncé: plus de 50% d'amélioration du taux d'évitement d'obstacles et près de 10% de hausse du taux de réussite des tâches, comparé aux meilleures méthodes existantes. Code et données sont publiés en accès libre.

L'enjeu dépasse la prouesse technique isolée. Les modèles VLA généralistes, popularisés par des architectures comme Pi-0, GR00T N2 ou Helix, excellent à généraliser des instructions à de nouvelles tâches de manipulation, mais leur talon d'Achille reste la sécurité physique: rien ne garantit qu'un bras robotique évite une collision en environnement non structuré, un frein majeur au déploiement en usine ou en logistique. En proposant une couche de sécurité modulaire avec garanties théoriques plutôt qu'un simple filtrage heuristique, AEGIS répond directement à ce point de blocage identifié par les intégrateurs, sans nécessiter de repenser chaque modèle VLA au cas par cas.

Ce travail s'inscrit dans la vague de recherche qui a suivi l'essor des VLA depuis RT-2 et OpenVLA, où l'accent s'est progressivement déplacé de la généralisation pure vers la fiabilité et la certifiabilité. Il faut toutefois noter que ces résultats proviennent d'un benchmark de simulation dérivé de LIBERO, pas d'un déploiement industriel réel: le passage à l'échelle sur du matériel physique et dans des environnements réellement non structurés reste l'étape suivante à observer, comme pour la plupart des publications de ce type avant adoption commerciale.

À lire aussi

« Guidage de sécurité neuro-symbolique pour modèles vision-langage-action via appariement de flux contraint »
1arXiv cs.RO 

« Guidage de sécurité neuro-symbolique pour modèles vision-langage-action via appariement de flux contraint »

Des chercheurs proposent une nouvelle méthode de sécurité pour les modèles Vision-Language-Action (VLA), les systèmes d'IA qui pilotent de plus en plus de robots humanoïdes et bras manipulateurs. Publiée sur arXiv (référence 2607.01378), l'étude cible spécifiquement les VLA basés sur le flow matching, une technique qui prédit non pas une seule action mais une trajectoire complète via un processus itératif de débruitage neuronal, à l'image de Pi-0, GR00T N2 ou Helix. Le problème identifié: les garde-fous de sécurité actuels ne bloquent que l'action immédiate du robot, sans anticiper les collisions à venir. La méthode proposée, baptisée guidage neuro-symbolique, reformule la sécurité comme un problème d'optimisation sous contrainte à norme minimale, appliqué directement pendant le débruitage des trajectoires intermédiaires bruitées. Testée sur le benchmark SafeLIBERO, elle atteint 82,8% d'évitement de collision et 81,6% de réussite des tâches, soit des gains de 6,3 et 19,8 points par rapport aux méthodes à une seule étape, les progrès les plus marqués apparaissant sur les tâches longues où les erreurs de trajectoire s'accumulent. Pour l'industrie robotique, cette avancée s'attaque à un angle mort réel du déploiement des VLA en usine ou en entrepôt: la plupart des systèmes actuels réagissent après coup plutôt que d'anticiper. Une correction en amont, intégrée au cœur du processus génératif plutôt qu'ajoutée en filtre externe, pourrait réduire les arrêts d'urgence et les interventions humaines sur les lignes où ces modèles pilotent des bras ou des robots mobiles autonomes (AMR). Le gain le plus significatif sur les tâches longues est particulièrement pertinent pour les intégrateurs, puisque c'est précisément sur ces séquences que les architectures VLA actuelles échouent le plus souvent en conditions réelles. Ce travail s'inscrit dans une littérature grandissante sur la sécurité des VLA, alors que ces modèles passent rapidement du stade de démonstration à des déploiements pilotes chez plusieurs acteurs de la robotique humanoïde. Les auteurs comparent leur approche aux méthodes de sécurité "single-step" existantes et proposent des démonstrations vidéo sur leur page de projet dédiée. Reste à voir si cette approche neuro-symbolique, validée pour l'instant en simulation sur SafeLIBERO, tiendra la route sur du matériel physique et à des cadences de production industrielles.

RecherchePaper
1 source
RotVLA : action latente de rotation pour les modèles vision-langage-action (VLA)
2arXiv cs.RO 

RotVLA : action latente de rotation pour les modèles vision-langage-action (VLA)

Un groupe de chercheurs a publié en mai 2026 RotVLA (arXiv:2605.13403), un framework Vision-Language-Action (VLA) qui substitue la quantification discrète des modèles d'action latente (LAM) existants par une représentation continue dans l'espace de rotation SO(n). Entraîné sur plus de 1 700 heures de données robotiques multi-embodiment et de vidéos humaines, le modèle compte 1,7 milliard de paramètres. Son architecture associe un backbone de modèle vision-langage et une tête d'action par flow-matching, étendue en aval en un "action expert" unifié qui dénoise simultanément actions latentes et actions robot. Sur LIBERO, RotVLA atteint 98,2 % de taux de succès ; sur RoboTwin2.0, il obtient 89,6 % en configuration propre et 88,5 % en configuration randomisée, surpassant les modèles VLA antérieurs dans les deux cas. Des expériences sur des tâches de manipulation réelle confirment ces résultats hors simulation. L'enjeu est architectural : les LAMs actuels, basés sur des pipelines VQ-VAE ou similaires, induisent une reconstruction de frames souvent triviale et n'imposent aucune contrainte géométrique cohérente avec la physique du mouvement. En modélisant les actions latentes comme des éléments de SO(n), RotVLA garantit continuité et compositionnalité absentes des espaces discrets, avec un triplet frame learning qui force une dynamique temporelle non dégénérée. Pour les équipes d'intégration robotique, cela ouvre la voie à un modèle de fondation plus robuste au sim-to-real, l'un des goulots d'étranglement centraux des VLAs en conditions industrielles. L'approche suggère que la structure géométrique de l'espace d'action peut compter autant que l'échelle des données d'entraînement. Le domaine des politiques robotiques généralistes a été structuré par Pi-0 (Physical Intelligence, 2024) et GR00T N2 (NVIDIA, 2025), qui misaient sur des corpus cross-embodiment massifs pour entraîner des politiques généralisables. RotVLA s'inscrit dans cette lignée mais parie sur une représentation latente géométriquement structurée plutôt que sur le volume brut de paramètres, avec 1,7B contre plusieurs dizaines de milliards pour les modèles concurrents les plus ambitieux. Les scores LIBERO et RoboTwin2.0 sont des benchmarks académiques standardisés ; leur transposition sur des cellules industrielles réelles (bras collaboratifs, tri et picking) reste à démontrer. Aucun partenaire de déploiement ni calendrier commercial ne figure dans la publication : RotVLA est, à ce stade, une contribution de recherche.

RechercheOpinion
1 source
Évolution continue des compétences dans un modèle vision-langage-action (VLA)
3arXiv cs.RO 

Évolution continue des compétences dans un modèle vision-langage-action (VLA)

Des chercheurs ont publié Stellar VLA (arXiv:2511.18085v3), un cadre d'apprentissage continu par imitation (continual imitation learning, CIL) pour les modèles Vision-Langage-Action (VLA). La méthode propose deux variantes progressives : T-Stellar, fondée sur une modélisation plate centrée sur les tâches, et TS-Stellar, organisée en structure hiérarchique tâche-compétence. Les expériences menées sur le benchmark LIBERO, référence standard pour les tâches de manipulation robotique, montrent que les deux variantes surpassent les baselines VLA et CIL actuelles, avec seulement 1 % de rejeu de données. Une validation en conditions réelles sur une plateforme bi-bras, avec des configurations de scènes et d'embodiments distincts, confirme que le transfert de connaissances entre tâches reste effectif au-delà du simulateur. Le principal apport de Stellar VLA est d'adresser un frein structurel au déploiement des grands modèles VLA : les méthodes CIL existantes nécessitent des paramètres additionnels ou des modules externes, ce qui les rend difficilement scalables lorsque le modèle de base est déjà massif. En optimisant conjointement des représentations de tâches et un espace de connaissances partagé, Stellar VLA introduit un mécanisme de routage expert guidé par la sémantique, sélectionnant les K embeddings les plus proches pour orienter le modèle vers la compétence pertinente, sans alourdir l'architecture. Pour les équipes qui déploient des robots polyvalents en production, cela ouvre la voie à l'apprentissage incrémental de nouvelles tâches avec un coût de fine-tuning réduit. TS-Stellar se distingue notamment sur les manipulations hiérarchiques complexes, et les visualisations publiées illustrent une rétention robuste des compétences acquises ainsi qu'une capacité de découverte automatique de nouvelles tâches. Les VLA constituent un axe de recherche en accélération depuis 2023, portés par Pi-0 (Physical Intelligence), GR00T N2 (NVIDIA), OpenVLA (UC Berkeley) ou encore RT-2 (Google DeepMind), qui cherchent à généraliser la manipulation robotique via un préentraînement multimodal massif. La question du catastrophic forgetting, c'est-à-dire la perte des compétences antérieures lors de l'apprentissage d'une nouvelle tâche, reste un verrou non résolu à l'échelle industrielle. Stellar VLA se positionne comme une surcouche légère applicable à des VLA existants, sans retraining complet. Le projet est documenté sur stellarvla.github.io ; aucun partenariat industriel ni calendrier de déploiement n'est mentionné dans la publication, qui reste à ce stade un travail de recherche académique.

RechercheOpinion
1 source
Attaques par redirection de trajectoire sur les modèles vision-langage-action (VLA)
4arXiv cs.RO 

Attaques par redirection de trajectoire sur les modèles vision-langage-action (VLA)

Des chercheurs ont publié le 12 juin 2026 un article (arXiv:2606.12978) introduisant une nouvelle classe d'attaques adversariales sur les politiques robotiques de type VLA (Vision-Language-Action), ces architectures qui combinent un modèle de langage, une vision par caméra et un contrôleur moteur pour exécuter des tâches de manipulation à partir d'instructions textuelles. L'attaque baptisée "command-preserving trajectory redirection" (redirection de trajectoire préservant la commande) consiste à modifier subtilement le prompt d'entrée de façon à ce qu'il reste visuellement et sémantiquement proche de l'instruction légitime, mais provoque un résultat physique entièrement différent. Le modèle de menace est strict : l'attaquant ne modifie ni les poids du modèle, ni l'environnement, il choisit un seul prompt avant l'épisode, et ce prompt reste dans la norme syntaxique de la commande originale, sans mots-cibles ni langage correctif. Les auteurs proposent une méthode de recherche "on-policy" qui exploite des rollouts réels du robot pour identifier les perturbations textuelles dont le comportement en boucle fermée dévie vers une tâche cible. Les expériences sont conduites en simulation et sur robot physique, confirmant le transfert de l'attaque au monde réel. Ce résultat est significatif pour les intégrateurs et les décideurs industriels qui évaluent l'adoption des VLA en production, notamment dans les contextes de manipulation collaborative ou d'assemblage. La vulnérabilité exploite une propriété structurelle des VLA en boucle fermée : le même prompt est réappliqué à chaque étape de re-planification, et chaque action conditionnée modifie les observations futures sur lesquelles la politique agit. Un prompt malveillant peut donc cumuler ses effets sur toute une trajectoire, là où les attaques précédentes se limitaient à des perturbations action-par-action ou à la persistance d'actions basses. Cela contredit implicitement l'hypothèse que la robustesse visuelle d'un VLA suffit à garantir son intégrité comportementale, et soulève des questions concrètes sur la validation de sécurité avant déploiement. Les modèles VLA sont au coeur de plusieurs développements récents : pi0 de Physical Intelligence, OpenVLA, RT-2 de Google DeepMind, ou encore les politiques embarquées sur les humanoïdes Figure et 1X. La recherche en sécurité adversariale sur ces architectures était jusqu'ici dominée par des attaques sur les observations visuelles ou sur les actions individuelles ; ce travail ouvre formellement le champ des attaques au niveau de l'instruction textuelle à horizon long. Les auteurs n'annoncent pas de correctif ni de contre-mesure validée, ce qui laisse ouverte la question de la robustification des pipelines VLA. Les prochaines étapes attendues dans la communauté concerneront vraisemblablement la détection de prompts adversariaux à la volée et l'évaluation de ce vecteur d'attaque sur des modèles déployés commercialement. Le site projet est accessible à l'adresse indiquée dans le papier.

RechercheOpinion
1 source