Suivi de l'essor de l'IHR sociale-physique (spHRI) : re…

Des pixels aux tokens : étude systématique de la supervision par actions latentes pour les modèles vision-langage-action (VLA)

45

1arXiv cs.RO

Des pixels aux tokens : étude systématique de la supervision par actions latentes pour les modèles vision-langage-action (VLA)

Des chercheurs de l'Université Renmin de Chine (RUC) ont publié le 7 mai 2026 une étude systématique sur la supervision par actions latentes dans les modèles VLA (Vision-Language-Action), une architecture clé pour les robots capables de comprendre des instructions en langage naturel et d'agir dans le monde physique. L'article, référencé arXiv:2605.04678, pose une question concrète : comment entraîner efficacement un VLA sur des datasets hétérogènes, issus de robots différents avec des espaces d'action incompatibles ? La réponse explorée est l'action latente, une représentation intermédiaire abstraite qui sert de pivot commun entre perception visuelle, langage et commande motrice. Les auteurs comparent quatre stratégies d'intégration sous une baseline VLA unifiée, en distinguant deux familles : les actions latentes basées sur l'image (qui encodent les transitions visuelles entre frames) et celles basées sur l'action (qui compressent directement les commandes moteurs dans un espace latent). Les résultats révèlent une correspondance formulation-tâche claire, ce qui est utile pour tout intégrateur qui choisit une architecture : les actions latentes image-based sont plus efficaces sur les tâches longues nécessitant un raisonnement multi-étapes et une généralisation au niveau de la scène, tandis que les actions latentes action-based surperforment sur la coordination motrice fine et complexe. La découverte la plus opérationnelle est que superviser directement le modèle de langage vision (VLM) avec des tokens discrets d'actions latentes donne les meilleures performances globales, devançant les approches de supervision continue ou indirecte. L'étude apporte également des premières preuves que la supervision par actions latentes améliore l'entraînement en données mixtes (multi-robot, multi-tâche), un verrou majeur pour passer du lab au déploiement à grande échelle. Ce travail s'inscrit dans une course effrénée à la généralisation des VLA, après les succès récents de Pi-0 (Physical Intelligence), OpenVLA (UC Berkeley) et GR00T N2 (NVIDIA), qui ont tous démontré des capacités cross-embodiment limitées mais prometteuses. La contribution de RUC est moins un nouveau modèle qu'un benchmark de design choices, un type de contribution rare et précieux dans un domaine encore dominé par les démonstrations spectaculaires. La prochaine étape naturelle serait de valider ces résultats sur du matériel réel au-delà des benchmarks simulés, notamment sur des plateformes comme ALOHA 2 ou des manipulateurs industriels, pour confirmer que le gap sim-to-real ne neutralise pas les gains observés en simulation. Le code est disponible sur GitHub (RUCKBReasoning/FromPixelsto_Tokens).

RechercheOpinion

1 source

RedVLA : l'attaque physique des modèles vision-langage-action (VLA)

50

2arXiv cs.RO

RedVLA : l'attaque physique des modèles vision-langage-action (VLA)

Une équipe de chercheurs a publié RedVLA (arXiv:2604.22591), présenté comme le premier framework de red teaming physique dédié aux modèles VLA (Vision-Language-Action), ces architectures multimodales qui pilotent des robots physiques en interprétant simultanément des instructions visuelles et textuelles. Le framework opère en deux étapes : une phase de "Risk Scenario Synthesis" qui identifie automatiquement les régions d'interaction critiques dans des trajectoires normales pour y insérer des facteurs de risque entremêlés au flux d'exécution du modèle, suivie d'un "Risk Amplification" qui raffine itérativement la position et l'état du facteur de risque via une optimisation sans gradient guidée par des caractéristiques de trajectoire. Testé sur six modèles VLA représentatifs, RedVLA atteint un taux de succès d'attaque (Attack Success Rate) de 95,5 % en seulement 10 itérations d'optimisation. Les chercheurs proposent en parallèle SimpleVLA-Guard, un module de sécurité léger entraîné sur les données générées par RedVLA, dont le code et les assets sont disponibles publiquement. Un ASR de 95,5 % signifie que dans quasiment tous les scénarios testés, le framework a réussi à provoquer des comportements dangereux dans des modèles VLA avant déploiement. C'est un résultat préoccupant pour les intégrateurs industriels : contrairement aux attaques sur systèmes purement logiciels, les comportements physiques incorrects (collisions, chutes d'objets, dommages environnementaux) sont souvent irréversibles. RedVLA démontre qu'il est possible de cartographier ces risques de façon systématique avant mise en production, ce qui comble un vide méthodologique réel. Pour les équipes chargées de qualifier des robots manipulateurs ou des humanoïdes, ce type d'outil d'évaluation adversariale pourrait devenir une exigence de certification, à l'image des standards de sécurité fonctionnelle (IEC 61508) dans l'automatisation industrielle. Les modèles VLA ont connu une accélération marquée depuis 2023 avec RT-2 (Google DeepMind), OpenVLA (Stanford), Pi-0 (Physical Intelligence) et GR00T N2 (NVIDIA), chacun visant à généraliser les capacités de manipulation via de grandes architectures multimodales pré-entraînées. La sécurité physique de ces systèmes est restée largement sous-étudiée, la recherche en robustesse IA se concentrant surtout sur les attaques adversariales textuelles ou visuelles en contexte numérique. RedVLA adapte les méthodologies de red teaming issues des LLMs au domaine physique, un glissement de paradigme qui devrait intéresser aussi bien les acteurs américains (Figure AI, Agility Robotics, Boston Dynamics) que les startups européennes déployant des robots en environnement humain, comme Enchanted Tools (Mirokaï, France) ou Wandercraft. Les prochaines étapes naturelles seraient des validations sur hardware réel et l'intégration de SimpleVLA-Guard dans des pipelines de déploiement industriels.

UELes startups françaises déployant des robots en environnement humain (Enchanted Tools, Wandercraft) sont directement concernées par ces vulnérabilités VLA, et SimpleVLA-Guard pourrait s'imposer comme exigence dans les pipelines de qualification sous réglementation européenne (AI Act, certification IEC 61508).

RechercheOpinion

1 source

Évaluation de l'adaptation zéro-shot et one-shot des petits modèles de langage pour l'interaction leader-suiveur

38

3arXiv cs.RO

Évaluation de l'adaptation zéro-shot et one-shot des petits modèles de langage pour l'interaction leader-suiveur

Une équipe de chercheurs a publié une évaluation comparative de petits modèles de langage (SLMs) pour la classification de rôles en interaction humain-robot, avec un focus sur le paradigme leader-suiveur. L'étude, diffusée sur arXiv (2602.23312v3), porte sur Qwen2.5-0.5B, un modèle de seulement 500 millions de paramètres. Les chercheurs ont construit un benchmark original à partir d'une base de données existante, enrichie d'échantillons synthétiques pour capturer les dynamiques propres aux échanges leader-suiveur. Deux stratégies d'adaptation ont été testées, prompt engineering et fine-tuning, évaluées en modes zero-shot et one-shot, comparées à un modèle non entraîné. Le résultat le plus notable : le fine-tuning zero-shot atteint 86,66 % de précision en classification, avec une latence de 22,2 ms par échantillon. En revanche, les modes one-shot dégradent les performances, la longueur de contexte accrue dépassant la capacité architecturale du modèle. Ces résultats ont une portée directe pour les intégrateurs de robots mobiles et assistifs fonctionnant à la périphérie du réseau, là où le déploiement de LLMs complets (70B+) est hors de portée en raison des contraintes de mémoire, de puissance et de latence. La démonstration qu'un SLM fine-tuné peut assigner des rôles conversationnels en temps réel avec moins de 25 ms de délai est un argument concret contre le réflexe "plus grand est meilleur". Elle valide aussi l'approche par fine-tuning ciblé plutôt que par ingénierie de prompt pour des tâches de classification embarquées, ce qui simplifie le pipeline de déploiement sans dépendre d'un serveur distant. Le paradigme leader-suiveur est fondamental dans les applications HRI : robots de guidage, assistance à la mobilité, plateformes collaboratives. Les LLMs comme LLaMA ou Mistral ont démontré des capacités de dialogue naturel, mais leur taille les confine au cloud. L'essor des SLMs optimisés, Qwen2.5, Phi-3, Gemma-2B, ouvre une nouvelle piste pour l'embarqué. L'étude identifie cependant une limite critique : la gestion du contexte long reste un goulot d'étranglement pour les modèles sous le milliard de paramètres, ce qui restreint les interactions multi-tours. Les prochaines étapes naturelles sont l'évaluation sur matériel embarqué réel (Jetson, Raspberry Pi 5) et l'extension à des architectures légèrement plus larges pour tester si le compromis contexte-précision se déplace.

RecherchePaper

1 source

Primitives de mouvement par le langage : ancrer les modèles de langage dans le mouvement robotique

42

4arXiv cs.RO

Primitives de mouvement par le langage : ancrer les modèles de langage dans le mouvement robotique

Des chercheurs du Collaborative Robotics Lab de Virginia Tech ont publié Language Movement Primitives (LMP), un framework qui relie les modèles de vision-langage (VLM) aux Dynamic Movement Primitives (DMP), une famille de contrôleurs de trajectoire établie en robotique depuis les années 2000. Le principe: les DMP définissent des trajectoires continues et stables via un faible nombre de paramètres interprétables, et les VLM configurent ces paramètres directement à partir d'instructions en langage naturel. Testé sur 31 tâches de manipulation de bureau en conditions réelles, LMP atteint un taux de succès de 65%, contre 35% pour le meilleur système de référence évalué. Le pipeline fonctionne en mode zéro-shot, sans fine-tuning spécifique aux tâches cibles. L'article est disponible sur arXiv (2602.02839, troisième révision) et accompagné de vidéos de démonstration. Le vrai problème que LMP cible est le "grounding" moteur: transformer un raisonnement abstrait en commandes physiquement cohérentes. Les VLM comme GPT-4V excellent à décomposer une tâche en étapes logiques, mais produire des trajectoires exécutables reste hors de leur portée native. À l'inverse, les modèles de fondation robotique tels que Pi-0 de Physical Intelligence, GR00T N2 de NVIDIA ou RT-2 de Google génèrent des actions directement, mais nécessitent généralement un fine-tuning coûteux en données in-domain pour s'adapter à de nouvelles tâches. LMP propose une troisième voie: les DMP servent d'interface structurée entre le raisonnement LLM et le contrôle bas niveau, préservant la stabilité dynamique sans apprentissage supplémentaire. Le gain de 30 points de pourcentage en zéro-shot sur des tâches réelles est notable, même si le choix des baselines et les conditions de test précises mériteront une vérification indépendante par la communauté. Les DMP ont été formalisés par Schaal et al. dans les années 2000 et restent un outil de référence pour la manipulation grâce à leur stabilité et leur capacité de généralisation. L'approche de LMP s'inscrit dans la lignée de SayCan (Google) et Code-as-Policies (Liang et al.), mais descend plus bas dans la pile de contrôle sans passer par un réseau de politique intermédiaire. Les concurrents directs sont les VLA bout-en-bout comme OpenVLA ou le récent Helix d'Figure AI, qui offrent plus de flexibilité mais restent tributaires de larges jeux de données de démonstration. Les prochaines étapes probables incluent l'extension à des environnements non-tabulaires et à des robots à plus haute dimensionnalité, notamment la manipulation dextre sur bras 7-DOF.

RechercheOpinion

1 source

Suivi de l'essor de l'IHR sociale-physique (spHRI) : revue systématique augmentée par de petits modèles de langage

À lire aussi

Des pixels aux tokens : étude systématique de la supervision par actions latentes pour les modèles vision-langage-action (VLA)

RedVLA : l'attaque physique des modèles vision-langage-action (VLA)

Évaluation de l'adaptation zéro-shot et one-shot des petits modèles de langage pour l'interaction leader-suiveur

Primitives de mouvement par le langage : ancrer les modèles de langage dans le mouvement robotique