Modèle VLA GazeVLA : apprendre l'intention humaine pour…

RedVLA : l'attaque physique des modèles vision-langage-action (VLA)

63

1arXiv cs.RO

RedVLA : l'attaque physique des modèles vision-langage-action (VLA)

Une équipe de chercheurs a publié RedVLA (arXiv:2604.22591), présenté comme le premier framework de red teaming physique dédié aux modèles VLA (Vision-Language-Action), ces architectures multimodales qui pilotent des robots physiques en interprétant simultanément des instructions visuelles et textuelles. Le framework opère en deux étapes : une phase de "Risk Scenario Synthesis" qui identifie automatiquement les régions d'interaction critiques dans des trajectoires normales pour y insérer des facteurs de risque entremêlés au flux d'exécution du modèle, suivie d'un "Risk Amplification" qui raffine itérativement la position et l'état du facteur de risque via une optimisation sans gradient guidée par des caractéristiques de trajectoire. Testé sur six modèles VLA représentatifs, RedVLA atteint un taux de succès d'attaque (Attack Success Rate) de 95,5 % en seulement 10 itérations d'optimisation. Les chercheurs proposent en parallèle SimpleVLA-Guard, un module de sécurité léger entraîné sur les données générées par RedVLA, dont le code et les assets sont disponibles publiquement. Un ASR de 95,5 % signifie que dans quasiment tous les scénarios testés, le framework a réussi à provoquer des comportements dangereux dans des modèles VLA avant déploiement. C'est un résultat préoccupant pour les intégrateurs industriels : contrairement aux attaques sur systèmes purement logiciels, les comportements physiques incorrects (collisions, chutes d'objets, dommages environnementaux) sont souvent irréversibles. RedVLA démontre qu'il est possible de cartographier ces risques de façon systématique avant mise en production, ce qui comble un vide méthodologique réel. Pour les équipes chargées de qualifier des robots manipulateurs ou des humanoïdes, ce type d'outil d'évaluation adversariale pourrait devenir une exigence de certification, à l'image des standards de sécurité fonctionnelle (IEC 61508) dans l'automatisation industrielle. Les modèles VLA ont connu une accélération marquée depuis 2023 avec RT-2 (Google DeepMind), OpenVLA (Stanford), Pi-0 (Physical Intelligence) et GR00T N2 (NVIDIA), chacun visant à généraliser les capacités de manipulation via de grandes architectures multimodales pré-entraînées. La sécurité physique de ces systèmes est restée largement sous-étudiée, la recherche en robustesse IA se concentrant surtout sur les attaques adversariales textuelles ou visuelles en contexte numérique. RedVLA adapte les méthodologies de red teaming issues des LLMs au domaine physique, un glissement de paradigme qui devrait intéresser aussi bien les acteurs américains (Figure AI, Agility Robotics, Boston Dynamics) que les startups européennes déployant des robots en environnement humain, comme Enchanted Tools (Mirokaï, France) ou Wandercraft. Les prochaines étapes naturelles seraient des validations sur hardware réel et l'intégration de SimpleVLA-Guard dans des pipelines de déploiement industriels.

UELes startups françaises déployant des robots en environnement humain (Enchanted Tools, Wandercraft) sont directement concernées par ces vulnérabilités VLA, et SimpleVLA-Guard pourrait s'imposer comme exigence dans les pipelines de qualification sous réglementation européenne (AI Act, certification IEC 61508).

RechercheOpinion

1 source

Coordination par relais pour la collecte et livraison multi-robots économe en énergie

62

2arXiv cs.RO

Coordination par relais pour la collecte et livraison multi-robots économe en énergie

Une équipe de chercheurs a publié sur arXiv (identifiant 2509.14127, version 2, septembre 2025) un cadre de planification baptisé VCST-RCP (Voronoi-Constrained Steiner Tree Relay Coordination Planning), conçu pour coordonner des flottes homogènes de robots mobiles dans des missions de livraison multi-colis depuis un dépôt unique vers des destinations dispersées. L'algorithme opère en deux phases: la construction d'un réseau de relais sparse combinant des interfaces d'échange dérivées de diagrammes de Voronoï à une optimisation par arbre de Steiner, puis la génération des plannings de collecte, relais et livraison sous contraintes de capacité de charge et de temps de service. Sur des expériences menées à plusieurs échelles, VCST-RCP réduit la distance totale parcourue par la flotte de 31% en moyenne, avec des pics proches de 50%, par rapport à l'algorithme d'affectation Hungarian assignment, et surpasse significativement OR-Tools CVRP, le solveur de référence de Google. La significativité statistique est établie à p inférieur à 10^-3, et le gain d'efficacité de livraison, mesuré en colis par kilomètre parcouru, dépasse 50%. Ces résultats intéressent directement les opérateurs de flottes AMR (robots mobiles autonomes) en intralogistique et en livraison de dernier kilomètre, où la distance parcourue est directement corrélée au coût énergétique et à l'usure matérielle. L'étude d'ablation incluse dans les travaux est particulièrement instructive: elle démontre que l'optimisation du placement des points de relais génère des gains substantiellement supérieurs à ceux obtenus par simple repartitionnement spatial, établissant le design des relais comme levier dominant de la performance système. Cela remet en question l'hypothèse implicite répandue chez les intégrateurs, selon laquelle le transport direct source-destination constitue la référence optimale par défaut. La scalabilité démontrée à différentes tailles de flotte est un argument supplémentaire pour une adoption industrielle. Le problème MRPD (Multi-Robot Pickup and Delivery) est un classique de l'optimisation combinatoire en robotique, mais les architectures relay-based à grande échelle restent peu explorées. Hungarian assignment et OR-Tools CVRP, les deux références battues dans cette étude, sont précisément les solveurs utilisés par les éditeurs de WMS et les intégrateurs de flottes dans des environnements comme ceux d'Exotec (Roubaix), 6 River Systems ou Locus Robotics. Ce travail reste cependant un preprint arXiv, sans validation sur plateforme réelle annoncée: les gains en simulation sont solides, mais la transition sim-to-real, notamment face à la congestion dynamique et aux pannes robot en cours de mission, reste à prouver. Les extensions naturelles incluent des flottes hétérogènes et des dépôts multiples.

UEL'algorithme VCST-RCP, s'il est validé en environnement réel, pourrait réduire de ~30% les coûts énergétiques des flottes AMR d'acteurs européens comme Exotec (Roubaix) qui utilisent actuellement Hungarian assignment ou OR-Tools CVRP comme solveurs de référence.

RecherchePaper

1 source

Fausse faisabilité dans le MPC à impédance variable pour la locomotion sur pattes

61

3arXiv cs.RO

Fausse faisabilité dans le MPC à impédance variable pour la locomotion sur pattes

Une équipe de chercheurs a publié sur arXiv (arXiv:2604.22251) une analyse formelle d'une erreur de formulation dans les contrôleurs prédictifs à impédance variable (variable impedance MPC) pour la locomotion des robots à pattes. Le problème identifié : traiter la raideur articulaire comme une variable de décision instantanée génère un ensemble faisable (Fparam) strictement plus large que l'ensemble physiquement réalisable (Freal) sous dynamiques d'actionneur du premier ordre. Les auteurs formalisent cette distinction via le paramètre sans dimension α = ωs·T (bande passante de l'actionneur multipliée par l'échelle temporelle de la tâche). Sur un monopède sauteur 1D, ils prouvent l'existence d'un seuil analytique αcrit en dessous duquel aucune commande de raideur admissible ne réalise la prédiction du modèle. Un second seuil αinfeas < αcrit établit un régime où même restreindre la plage de raideur admissible ne corrige pas la faisabilité. La validation numérique sur dix combinaisons de paramètres montre une déviation monotone croissante à mesure qu'α diminue (R² = 0,99 en log-log). Le transfert sur un pendule inversé à ressort (SLIP) planaire confirme que les déviations de centre de masse et de chronométrage d'appui sont les conséquences primaires. Ce résultat a des implications directes pour les intégrateurs déployant des MPC sur robots à pattes. Les formulations existantes peuvent paraître faisables numériquement tout en étant irréalisables physiquement, ce qui explique en partie le sim-to-real gap persistant dans les locomotions dynamiques. L'étude contredit l'hypothèse qu'un réglage conservateur des plages de raideur suffit à garantir la réalisabilité : en dessous d'α_infeas, cette approche est structurellement inopérante, quelle que soit la marge de sécurité appliquée. La commande à impédance variable s'est imposée en robotique à pattes pour adapter dynamiquement la compliance articulaire, notamment dans les plateformes d'ANYbotics (ANYmal), Boston Dynamics et Agility Robotics. La correction proposée par les auteurs est directe : augmenter l'état de prédiction du MPC avec la raideur courante ferme le décalage par construction. Aucune validation expérimentale sur hardware n'est encore annoncée, et la généralisation à des architectures multi-DOF reste à démontrer, ce qui limite pour l'instant la portée pratique immédiate du résultat.

UEANYbotics (Suisse/UE), dont la plateforme ANYmal est citée comme directement concernée, expose les équipes R&D européennes travaillant sur la locomotion dynamique à un risque de sim-to-real gap structurel lié à ce défaut de formulation MPC.

RecherchePaper

1 source

Relations en forme fermée et approximations d'ordre supérieur des dérivées premières et secondes de l'opérateur tangent sur SE(3)

60

4arXiv cs.RO

Relations en forme fermée et approximations d'ordre supérieur des dérivées premières et secondes de l'opérateur tangent sur SE(3)

Des chercheurs ont publié sur arXiv (référence 2604.22287) des expressions en forme close pour le différentiel trijeunialisé à droite de l'application exponentielle sur le groupe de Lie SE(3), communément appelé opérateur tangent ou dexp, ainsi que ses dérivées premières et secondes. La matrice 6×6 représentant ce différentiel, dexpX : se(3) → se(3), était déjà partiellement documentée via une représentation en blocs 3×3, mais ce travail abandonne ce partitionnement pour proposer des relations directement compactes. Les auteurs dérivent également le jacobien et le hessien des applications d'évaluation dexpX(Z) et dexp_X^T(Z), accompagnés d'approximations polynomiales d'ordre élevé conçues pour rester numériquement stables au voisinage des singularités. La méthode est illustrée sur le calcul du champ de déformation et des taux de déformation d'une poutre élastique de type Cosserat-Simo-Reissner. Pour les ingénieurs en robotique et en simulation multiphysique, ces formules sont directement exploitables dans les solveurs de dynamique inverse, les optimiseurs de trajectoires basés sur le gradient, et les intégrateurs temps-réel pour bras manipulateurs ou robots souples. L'accès au hessien de l'opérateur tangent en forme close ouvre la voie à des méthodes d'optimisation du second ordre (Newton, Gauss-Newton) sur SE(3), jusqu'ici freinées par l'absence de ces expressions ou par leur coût numérique élevé via différentiation automatique. La robustesse numérique des approximations d'ordre élevé est particulièrement précieuse dans les schémas implicites où les configurations proches d'une rotation nulle dégradent les méthodes tronquées classiques. SE(3), groupe de Lie des transformations rigides orientées dans l'espace tridimensionnel (rotations et translations couplées), est la structure algébrique centrale de la cinématique des corps rigides, de la dynamique des robots articulés, et de la mécanique des tiges flexibles. Les modèles de Cosserat-Simo-Reissner, qui généralisent la théorie des poutres d'Euler-Bernoulli aux grandes déformations, sont notamment utilisés pour simuler des robots continus, des cathéters, des câbles ou des aiguilles chirurgicales. Ce type de travail fondationnel rejoint un effort de standardisation des outils différentiels sur les groupes de Lie, porté en parallèle par des équipes comme le laboratoire Gepetto (LAAS-CNRS, Toulouse) avec la bibliothèque Pinocchio, ou par les travaux de Müller et Terze sur la formulation intrinsèque des équations du mouvement. La disponibilité de ces expressions dans un format compact et numériquement stable devrait faciliter leur intégration dans des frameworks open-source de simulation robotique.

UECes expressions pourraient être intégrées dans Pinocchio (laboratoire Gepetto, LAAS-CNRS Toulouse), renforçant les capacités de dynamique différentiable du second ordre dans les frameworks robotiques open-source européens.

RecherchePaper

1 source

Modèle VLA GazeVLA : apprendre l'intention humaine pour la manipulation robotique

À lire aussi

RedVLA : l'attaque physique des modèles vision-langage-action (VLA)

Coordination par relais pour la collecte et livraison multi-robots économe en énergie

Fausse faisabilité dans le MPC à impédance variable pour la locomotion sur pattes

Relations en forme fermée et approximations d'ordre supérieur des dérivées premières et secondes de l'opérateur tangent sur SE(3)