Évaluation de l'adaptation zéro-shot et one-shot…

RotVLA : action latente de rotation pour les modèles vision-langage-action (VLA)

42

1arXiv cs.RO

RotVLA : action latente de rotation pour les modèles vision-langage-action (VLA)

Un groupe de chercheurs a publié en mai 2026 RotVLA (arXiv:2605.13403), un framework Vision-Language-Action (VLA) qui substitue la quantification discrète des modèles d'action latente (LAM) existants par une représentation continue dans l'espace de rotation SO(n). Entraîné sur plus de 1 700 heures de données robotiques multi-embodiment et de vidéos humaines, le modèle compte 1,7 milliard de paramètres. Son architecture associe un backbone de modèle vision-langage et une tête d'action par flow-matching, étendue en aval en un "action expert" unifié qui dénoise simultanément actions latentes et actions robot. Sur LIBERO, RotVLA atteint 98,2 % de taux de succès ; sur RoboTwin2.0, il obtient 89,6 % en configuration propre et 88,5 % en configuration randomisée, surpassant les modèles VLA antérieurs dans les deux cas. Des expériences sur des tâches de manipulation réelle confirment ces résultats hors simulation. L'enjeu est architectural : les LAMs actuels, basés sur des pipelines VQ-VAE ou similaires, induisent une reconstruction de frames souvent triviale et n'imposent aucune contrainte géométrique cohérente avec la physique du mouvement. En modélisant les actions latentes comme des éléments de SO(n), RotVLA garantit continuité et compositionnalité absentes des espaces discrets, avec un triplet frame learning qui force une dynamique temporelle non dégénérée. Pour les équipes d'intégration robotique, cela ouvre la voie à un modèle de fondation plus robuste au sim-to-real, l'un des goulots d'étranglement centraux des VLAs en conditions industrielles. L'approche suggère que la structure géométrique de l'espace d'action peut compter autant que l'échelle des données d'entraînement. Le domaine des politiques robotiques généralistes a été structuré par Pi-0 (Physical Intelligence, 2024) et GR00T N2 (NVIDIA, 2025), qui misaient sur des corpus cross-embodiment massifs pour entraîner des politiques généralisables. RotVLA s'inscrit dans cette lignée mais parie sur une représentation latente géométriquement structurée plutôt que sur le volume brut de paramètres, avec 1,7B contre plusieurs dizaines de milliards pour les modèles concurrents les plus ambitieux. Les scores LIBERO et RoboTwin2.0 sont des benchmarks académiques standardisés ; leur transposition sur des cellules industrielles réelles (bras collaboratifs, tri et picking) reste à démontrer. Aucun partenaire de déploiement ni calendrier commercial ne figure dans la publication : RotVLA est, à ce stade, une contribution de recherche.

RechercheOpinion

1 source

42

2arXiv cs.RO

Vision robotique : cartes de points centrées sur le robot pour les modèles vision-langage-action

Des chercheurs proposent dans un article arXiv (2607.11498v1, soumis en juillet 2026) une méthode baptisée "pointmaps robot-centriques" pour résoudre un problème structurel des modèles vision-langage-action (VLA). Ces modèles prédisent des actions robotiques à partir d'observations visuelles et d'instructions en langage naturel, mais les actions sont définies dans le repère 3D propre au robot, alors que la caméra observe la scène dans son propre repère. Ce décalage reste sans conséquence quand le point de vue de la caméra est fixe, la politique pouvant alors mémoriser une correspondance unique observation-action, mais il devient problématique à mesure que les jeux de données agrègent des démonstrations issues de configurations caméra variées. La solution proposée encode les coordonnées 3D des points de la scène, exprimées dans le repère du robot, directement dans une grille dense H x W, format identique à celui attendu par les VLA 2D pré-entraînés, ce qui permet une intégration avec un minimum de modifications architecturales. Testée sur le benchmark RoboCasa, cette approche améliore les performances de deux modèles existants, pi0.5 et SmolVLA, et surpasse des méthodes de référence basées sur le point de vue caméra ou sur une conscience 3D classique. Cette avancée touche un point sensible pour l'industrialisation des VLA à grande échelle: la généralisation à des configurations caméra non standardisées est un frein connu au déploiement sur des cellules robotiques hétérogènes, où chaque intégrateur positionne ses capteurs différemment. Les expériences sur robot réel confirment que l'avantage par rapport à une politique RGB classique s'accentue justement quand la caméra est déplacée vers un emplacement absent de l'entraînement, ce qui va dans le sens d'une meilleure robustesse au changement de point de vue, condition nécessaire pour des flottes de robots déployées avec des configurations non uniformisées, plutôt qu'un simple gain de performance en conditions contrôlées. Le travail s'inscrit dans la lignée des modèles VLA récents tels que pi-0, GR00T N2 ou Helix, qui cherchent à généraliser l'apprentissage de politiques robotiques à partir de larges corpus de démonstrations multi-plateformes. En comparant explicitement leur méthode à des approches de conditionnement par point de vue caméra et à des baselines 3D-aware, les auteurs positionnent les pointmaps comme une alternative légère à des architectures 3D plus lourdes, ouvrant la voie à des validations plus larges sur des flottes robotiques aux configurations caméra diverses.

RechercheActu

1 source

RoboVista : évaluation des modèles vision-langage pour diverses applications robotiques

38

3arXiv cs.RO

RoboVista : évaluation des modèles vision-langage pour diverses applications robotiques

Les chercheurs à l'origine de ce travail publient RQA (Robot Question Answering), un cadre d'évaluation modulaire, et RoboVista, un benchmark associé conçu pour tester les modèles vision-langage (VLM) sur des tâches robotiques réelles. RoboVista rassemble 474 instances de questions-réponses visuelles annotées manuellement par des experts, couvrant 39 types de tâches distincts répartis sur l'agriculture, l'industrie, la robotique domestique, la chirurgie assistée, la conduite autonome et divers jeux de données robotiques ouverts. Les données proviennent de systèmes robotiques réels, d'articles de recherche et d'annotations expertes, plutôt que des habituels jeux de données téléopérés de bout en bout. Les expérimentations menées par l'équipe montrent que les VLM de pointe actuels présentent des écarts de performance substantiels sur ces tâches, et des essais complémentaires sur robots physiques révèlent une corrélation forte entre les scores obtenus sur RoboVista et la réussite effective des tâches en conditions réelles. Pour les intégrateurs et décideurs qui évaluent l'usage de VLM comme brique de raisonnement pour des robots polyvalents, ce travail apporte un signal utile: les benchmarks classiques, souvent bâtis sur de la téléopération bout en bout, masquent des lacunes de raisonnement modulaire (perception, planification, décision) que RoboVista rend visibles composant par composant. Le fait que la corrélation avec la performance en conditions réelles soit confirmée par des essais physiques renforce la crédibilité de l'outil comme prédicteur, et non simple exercice académique déconnecté du terrain. Cela vient tempérer l'enthousiasme actuel autour des architectures VLA (vision-language-action) génériques: disposer d'un modèle capable de décrire une scène ne garantit pas qu'il raisonne correctement sur les contraintes physiques et séquentielles propres à chaque secteur, de l'agriculture à la chirurgie. Ce travail s'inscrit dans une lignée de critiques adressées aux benchmarks robotiques existants, jugés trop dépendants de démonstrations téléopérées qui capturent mal la structure de décision sous-jacente aux comportements robotiques. En proposant une décomposition modulaire via le format question-réponse, RQA se positionne comme une alternative complémentaire aux suites d'évaluation end-to-end dominantes dans le secteur, à mesure que les VLM et les architectures VLA gagnent du terrain comme fondation du raisonnement robotique généraliste. La publication ne précise pas de calendrier de mise à disposition publique du benchmark ni d'intégration dans des pipelines industriels existants, mais elle ouvre la voie à des évaluations plus fines des futurs modèles vision-langage déployés sur des flottes robotiques réelles, au-delà des seules démonstrations vidéo.

RecherchePaper

1 source

Évaluation de la sécurité des grands modèles de langage pour le contrôle d'assistants robotiques de santé

47

4arXiv cs.RO

Évaluation de la sécurité des grands modèles de langage pour le contrôle d'assistants robotiques de santé

Une équipe de chercheurs a publié fin avril 2026 (arXiv:2604.26577) une évaluation systématique de la sécurité de 72 grands modèles de langage (LLMs) dans le contexte du contrôle de robots-soignants. Le protocole repose sur un corpus de 270 instructions nuisibles, réparties en neuf catégories de comportements interdits dérivés des Principes d'éthique médicale de l'American Medical Association, et testées dans un environnement de simulation basé sur le cadre "Robotic Health Attendant". Le taux de violation moyen toutes catégories confondues atteint 54,4 %, et plus de la moitié des modèles dépassent individuellement les 50 %. Les instructions superficiellement plausibles, manipulation d'équipements médicaux ou retard délibéré face à une urgence, s'avèrent bien plus difficiles à refuser pour les modèles que des requêtes ouvertement destructrices. L'écart entre modèles propriétaires et open-weight est particulièrement marqué : taux médian de violation à 23,7 % pour les premiers, contre 72,8 % pour les seconds. Ces résultats ont des implications directes pour quiconque envisage d'intégrer un LLM dans une boucle de contrôle robotique en milieu clinique. Ils invalident deux hypothèses courantes : d'abord, que le fine-tuning dans le domaine médical améliore la sécurité (aucun bénéfice significatif mesuré), ensuite, que des défenses basées sur le prompt suffisent à sécuriser les modèles les moins fiables (réduction modeste, niveaux absolus toujours incompatibles avec un déploiement clinique). La taille du modèle et la date de sortie restent les meilleurs prédicteurs de sécurité pour les modèles open-weight, ce qui suggère que l'amélioration est incidentelle aux évolutions générales d'entraînement, pas le fruit d'une conception sécurité-first. Le cadre Robotic Health Attendant, utilisé comme base de simulation, s'inscrit dans une tendance plus large où les LLMs sont envisagés comme couche de raisonnement dans des systèmes robotiques d'assistance à la personne, aux côtés d'approches comme les Vision-Language-Action models (VLA). Les acteurs du secteur, qu'il s'agisse de startups comme Enchanted Tools côté français ou de plateformes hospitalières intégrant des bras manipulateurs, n'ont pas encore de benchmark standardisé pour valider la sécurité comportementale de leurs modèles embarqués. Cette étude constitue une première tentative de formalisation, mais ses auteurs reconnaissent que les résultats, obtenus en simulation, devront être confrontés à des protocoles en environnement réel avant de pouvoir orienter des décisions de certification ou de déploiement.

UECette étude fournit un premier benchmark formalisé pour la sécurité comportementale des LLMs en robotique de santé, dont des acteurs français comme Enchanted Tools sont explicitement dépourvus, et pourrait orienter les futures exigences de certification dans le cadre de la réglementation européenne sur les dispositifs médicaux autonomes.

RechercheOpinion

1 source

Évaluation de l'adaptation zéro-shot et one-shot des petits modèles de langage pour l'interaction leader-suiveur

À lire aussi

RotVLA : action latente de rotation pour les modèles vision-langage-action (VLA)

Vision robotique : cartes de points centrées sur le robot pour les modèles vision-langage-action

RoboVista : évaluation des modèles vision-langage pour diverses applications robotiques

Évaluation de la sécurité des grands modèles de langage pour le contrôle d'assistants robotiques de santé