Aller au contenu principal
RecherchearXiv cs.RO29min

Uni-LaViRA : traduction d'actions langage-vision-robot pour une navigation incarnée unifiée

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Des chercheurs présentent Uni-LaViRA (Language-Vision-Robot Actions Translation), une architecture de navigation incarnée publiée le 28 mai 2026 sur arXiv (2605.27582), capable de piloter quatre types de robots distincts, robots à roues, quadrupèdes, humanoïdes et un drone à voilure fixe construit sur mesure, sans aucun entraînement spécifique sur des trajectoires robot. Le système s'appuie sur des grands modèles multimodaux de langage préentraînés (MLLMs) pour décomposer la navigation en deux types de commandes : une commande directionnelle sémantique en langage naturel, et une cible visuelle au niveau pixel. En mode zéro-shot, Uni-LaViRA atteint 60,7 % de taux de succès sur VLN-CE R2R, 51,3 % sur VLN-CE RxR, 77,7 % sur HM3D-v2, 60,0 % sur HM3D-OVON, 54,7 % sur MP3D-EQA et 40,0 % sur OpenUAV. Deux mécanismes structurent la boucle d'agent : le TODO List Memory (TDM), qui maintient une liste de sous-objectifs mise à jour à chaque pas et réinjectée dans la fenêtre d'attention du modèle, et le Second Chance Backtrack (SCB), qui ramène le robot à son état précédant une erreur et force le replanning à partir de la sous-trajectoire échouée.

Ce résultat interpelle directement le paradigme dominant des VLA à grande échelle, qui réclame des millions de trajectoires et des milliers d'heures GPU pour atteindre des niveaux de performance comparables. Si les chiffres se confirment en environnements non contrôlés, Uni-LaViRA suggère qu'une partie du problème de généralisation en navigation peut être résolue structurellement, via un raisonnement sur la géométrie de l'action, plutôt que par accumulation de données. Pour les intégrateurs robotiques, cela réduit potentiellement le coût d'adaptation à de nouveaux sites ou morphologies de robots, deux points de friction majeurs dans les déploiements industriels. La capacité à unifier wheeled AMR, quadrupèdes et humanoïdes sous une même architecture sans fine-tuning est particulièrement notable.

L'article s'inscrit dans un contexte de compétition intense autour des architectures VLA : Pi-0 de Physical Intelligence, GR00T N2 de NVIDIA, et les approches OpenVLA ou RoboFlamingo ont chacun nécessité des pipelines de collecte de données coûteux. Uni-LaViRA ne cherche pas à remplacer ces modèles sur des tâches de manipulation précise, mais positionne le raisonnement structuré comme alternative crédible pour la navigation. Les benchmarks utilisés (HM3D, MP3D, R2R) sont des standards académiques en simulation ; la validation sur robots réels reste limitée aux quatre plateformes de l'étude, et les performances en conditions industrielles non contrôlées restent à démontrer. Aucune timeline de déploiement ni partenariat industriel n'est mentionné.

À lire aussi

RotVLA : action latente de rotation pour les modèles vision-langage-action (VLA)
1arXiv cs.RO 

RotVLA : action latente de rotation pour les modèles vision-langage-action (VLA)

Un groupe de chercheurs a publié en mai 2026 RotVLA (arXiv:2605.13403), un framework Vision-Language-Action (VLA) qui substitue la quantification discrète des modèles d'action latente (LAM) existants par une représentation continue dans l'espace de rotation SO(n). Entraîné sur plus de 1 700 heures de données robotiques multi-embodiment et de vidéos humaines, le modèle compte 1,7 milliard de paramètres. Son architecture associe un backbone de modèle vision-langage et une tête d'action par flow-matching, étendue en aval en un "action expert" unifié qui dénoise simultanément actions latentes et actions robot. Sur LIBERO, RotVLA atteint 98,2 % de taux de succès ; sur RoboTwin2.0, il obtient 89,6 % en configuration propre et 88,5 % en configuration randomisée, surpassant les modèles VLA antérieurs dans les deux cas. Des expériences sur des tâches de manipulation réelle confirment ces résultats hors simulation. L'enjeu est architectural : les LAMs actuels, basés sur des pipelines VQ-VAE ou similaires, induisent une reconstruction de frames souvent triviale et n'imposent aucune contrainte géométrique cohérente avec la physique du mouvement. En modélisant les actions latentes comme des éléments de SO(n), RotVLA garantit continuité et compositionnalité absentes des espaces discrets, avec un triplet frame learning qui force une dynamique temporelle non dégénérée. Pour les équipes d'intégration robotique, cela ouvre la voie à un modèle de fondation plus robuste au sim-to-real, l'un des goulots d'étranglement centraux des VLAs en conditions industrielles. L'approche suggère que la structure géométrique de l'espace d'action peut compter autant que l'échelle des données d'entraînement. Le domaine des politiques robotiques généralistes a été structuré par Pi-0 (Physical Intelligence, 2024) et GR00T N2 (NVIDIA, 2025), qui misaient sur des corpus cross-embodiment massifs pour entraîner des politiques généralisables. RotVLA s'inscrit dans cette lignée mais parie sur une représentation latente géométriquement structurée plutôt que sur le volume brut de paramètres, avec 1,7B contre plusieurs dizaines de milliards pour les modèles concurrents les plus ambitieux. Les scores LIBERO et RoboTwin2.0 sont des benchmarks académiques standardisés ; leur transposition sur des cellules industrielles réelles (bras collaboratifs, tri et picking) reste à démontrer. Aucun partenaire de déploiement ni calendrier commercial ne figure dans la publication : RotVLA est, à ce stade, une contribution de recherche.

RechercheOpinion
1 source
PAPO-VLA : une optimisation de politique adaptée à la planification pour les modèles vision-langage-action
2arXiv cs.RO 

PAPO-VLA : une optimisation de politique adaptée à la planification pour les modèles vision-langage-action

Des chercheurs ont publié en mai 2026 sur arXiv (2605.19580) PAPO-VLA, une méthode d'optimisation pour les modèles Vision-Language-Action (VLA) appliqués à la manipulation robotique guidée par le langage naturel. L'observation centrale est qu'une politique VLA opère en boucle fermée : chaque action modifie l'état de la scène et conditionne toutes les décisions suivantes, ce qui rend une erreur de planification particulièrement coûteuse. Les auteurs distinguent donc deux rôles dans une politique VLA : le planificateur, qui prend des décisions orientées tâche susceptibles de rediriger l'exécution, et l'exécuteur, qui les traduit en actions continues denses. PAPO-VLA identifie les "actions de planification" en croisant variation d'action et issue de trajectoire, estime leur importance causale via deux critères formels (suffisance et nécessité causales), puis intègre ces poids dans l'estimation d'avantage du GRPO (Group Relative Policy Optimization), de sorte que les moments critiques reçoivent une emphase d'optimisation plus forte sans abandonner le signal de trajectoire globale. Des améliorations sont rapportées sur plusieurs benchmarks de manipulation robotique, sans chiffres précis disponibles dans le résumé public. L'apport clé est de combler un angle mort des approches existantes : l'imitation de trajectoires et l'optimisation par retour de trajectoire entière traitent toutes les actions avec la même importance, alors que certains instants de décision ont un impact causal disproportionné sur le succès de la tâche. Quantifier cet impact via des métriques causales formelles plutôt qu'heuristiques est une avancée méthodologique notable. Pour les équipes déployant des VLA en environnement réel, sur des plateformes comme pi-0 (Physical Intelligence), OpenVLA (Berkeley) ou GR00T N2 (NVIDIA), la méthode promet d'améliorer la fiabilité sans données de démonstration supplémentaires. Depuis RT-2 (Google DeepMind, 2023), le secteur des VLA cherche à combler l'écart entre performance en démonstration contrôlée et robustesse en déploiement réel. Le GRPO, popularisé par DeepSeek-R1 pour le raisonnement en LLM, est ici adapté à la robotique via une pondération causale des actions, dans un axe de recherche croissant autour du renforcement causal appliqué aux robots. PAPO-VLA est un preprint non encore revu par les pairs ; la validation expérimentale complète, avec benchmarks précis et comparaisons contrôlées, reste à confirmer via publication.

RechercheOpinion
1 source
Vers une vérification de propriété par backdoor pour les modèles vision-langage-action (VLA)
3arXiv cs.RO 

Vers une vérification de propriété par backdoor pour les modèles vision-langage-action (VLA)

Des chercheurs ont publié sur arXiv le 12 mai 2026 (référence 2605.09005) GuardVLA, premier cadre de vérification de propriété intellectuelle basé sur les backdoors pour les modèles Vision-Language-Action (VLA). Ces modèles permettent un contrôle robotique généraliste en convertissant des entrées multimodales (vision, langage, données proprioceptives) directement en séquences d'actions motrices. GuardVLA intègre un filigrane cryptographique lors de l'entraînement : un message secret est injecté dans les données visuelles du modèle sans altérer ses performances nominales sur les tâches cibles. La vérification post-déploiement s'effectue via un mécanisme baptisé "swap-and-detect" : un projecteur de déclenchement combiné à une tête de classification externe active et détecte le backdoor intégré à partir des probabilités de prédiction du modèle. Les expériences valident l'approche sur plusieurs architectures, jeux de données et scénarios d'adaptation. L'enjeu est direct pour les intégrateurs et éditeurs de modèles robotiques. Des VLA open-source comme Pi-0 (Physical Intelligence), OpenVLA ou GR00T N2 (NVIDIA) font déjà l'objet de fine-tuning intensif par des tiers. GuardVLA démontre que le filigrane résiste à ces adaptations post-release, ce qui contredit l'hypothèse courante selon laquelle le fine-tuning suffit à effacer toute traçabilité. Pour un éditeur cherchant à protéger un modèle robotique commercial ou à prouver sa propriété en cas de litige, c'est une voie technique crédible sans recours à des mécanismes de DRM contraignants. La capacité à certifier l'origine d'un modèle devient stratégique à l'heure où les VLA s'imposent comme actifs industriels à part entière. Le watermarking de modèles IA existe déjà pour les LLM et les modèles de diffusion d'images, mais les VLA posent une contrainte supplémentaire : leur sortie est une séquence d'actions motrices et non un texte ou une image, ce qui rend la détection de backdoor structurellement différente. Ce travail reste un preprint non évalué par les pairs, sans déploiement industriel annoncé à ce stade. Les approches concurrentes, hachage de poids ou licensing cryptographique, ne ciblent pas spécifiquement la modalité action des VLA. La soumission en conférence, probablement CoRL 2026 ou ICRA 2027, constituera la prochaine validation formelle. L'adoption à grande échelle dépendra aussi de l'intégration aux outils de distribution existants, notamment Hugging Face, où la majorité des VLA généralisés sont aujourd'hui hébergés et redistribués.

UELes éditeurs et chercheurs européens distribuant des modèles VLA via Hugging Face (entreprise française, principal hub de redistribution cité) pourraient adopter GuardVLA pour défendre leur propriété intellectuelle face aux fine-tunings non autorisés.

RechercheOpinion
1 source
RePlan-Bot : replanification à plusieurs niveaux pour le suivi d'instructions par IA incarnée
4arXiv cs.RO 

RePlan-Bot : replanification à plusieurs niveaux pour le suivi d'instructions par IA incarnée

Une équipe de recherche a publié fin mai 2026 un preprint arXiv (2605.25851) présentant RePlan-Bot, un agent conçu pour l'exécution d'instructions en langage naturel dans des environnements 3D interactifs, un champ désigné sous le terme Embodied Instruction Following (EIF). Le système repose sur trois couches complémentaires : un auditeur de haut niveau basé sur un LLM, qui ajuste dynamiquement les sous-objectifs en fonction des retours de l'environnement ; un mécanisme de recherche guidé par le sens commun, s'appuyant sur une carte d'instances multi-couches pour localiser précisément les objets ; et un correcteur léger basé sur un Vision Transformer (ViT), chargé de détecter et corriger les actions bas niveau à risque avant qu'elles ne causent des erreurs irréversibles. Évalué sur le benchmark ALFRED (Action Learning From Realistic Environments and Directives), RePlan-Bot revendique des performances à l'état de l'art dans les environnements vus et non vus, bien que l'abstract ne fournisse aucun chiffre précis de taux de succès ni comparaisons numériques explicites. L'intérêt de cette architecture pour les équipes d'IA embarquée réside dans sa gestion du replanning continu face aux changements d'état irréversibles, un point de défaillance classique des systèmes de planification hiérarchique. En robotique de service ou en manipulation d'objets, une action mal exécutée (déplacer un objet au mauvais endroit, ouvrir un conteneur prématurément) peut invalider l'ensemble du plan en cours. RePlan-Bot adresse ce problème via un audit permanent pendant l'exécution, ce qui le distingue des approches plan-then-execute qui supposent un environnement statique. La combinaison LLM haute-décision et ViT basse-exécution reflète une tendance structurante dans les architectures VLA (Vision-Language-Action) actuelles : déléguer la supervision sémantique à un modèle de langage, et la correction réactive à un modèle vision plus léger et plus rapide. Le benchmark ALFRED, publié par l'Allen Institute for AI en 2020, reste la référence dominante pour l'EIF en simulation (environnement iTHOR), mais son écart avec les conditions réelles (manipulation physique, bruit sensoriel, variabilité des objets) est bien documenté dans la littérature. RePlan-Bot s'inscrit dans un champ de recherche concurrentiel qui inclut des travaux comme FILM et HLSM, ainsi que des approches VLA plus récentes comme OpenVLA ou Pi-0 de Physical Intelligence. Aucun déploiement matériel ni partenariat industriel n'est mentionné dans le preprint : il s'agit d'une contribution académique en environnement simulé, et la question du transfert sim-to-real, centrale pour tout intégrateur, reste entière.

RechercheOpinion
1 source