Uni-LaViRA : traduction d'actions langage-vision-robot pour une navigation incarnée unifiée
Des chercheurs présentent Uni-LaViRA (Language-Vision-Robot Actions Translation), une architecture de navigation incarnée publiée le 28 mai 2026 sur arXiv (2605.27582), capable de piloter quatre types de robots distincts, robots à roues, quadrupèdes, humanoïdes et un drone à voilure fixe construit sur mesure, sans aucun entraînement spécifique sur des trajectoires robot. Le système s'appuie sur des grands modèles multimodaux de langage préentraînés (MLLMs) pour décomposer la navigation en deux types de commandes : une commande directionnelle sémantique en langage naturel, et une cible visuelle au niveau pixel. En mode zéro-shot, Uni-LaViRA atteint 60,7 % de taux de succès sur VLN-CE R2R, 51,3 % sur VLN-CE RxR, 77,7 % sur HM3D-v2, 60,0 % sur HM3D-OVON, 54,7 % sur MP3D-EQA et 40,0 % sur OpenUAV. Deux mécanismes structurent la boucle d'agent : le TODO List Memory (TDM), qui maintient une liste de sous-objectifs mise à jour à chaque pas et réinjectée dans la fenêtre d'attention du modèle, et le Second Chance Backtrack (SCB), qui ramène le robot à son état précédant une erreur et force le replanning à partir de la sous-trajectoire échouée.
Ce résultat interpelle directement le paradigme dominant des VLA à grande échelle, qui réclame des millions de trajectoires et des milliers d'heures GPU pour atteindre des niveaux de performance comparables. Si les chiffres se confirment en environnements non contrôlés, Uni-LaViRA suggère qu'une partie du problème de généralisation en navigation peut être résolue structurellement, via un raisonnement sur la géométrie de l'action, plutôt que par accumulation de données. Pour les intégrateurs robotiques, cela réduit potentiellement le coût d'adaptation à de nouveaux sites ou morphologies de robots, deux points de friction majeurs dans les déploiements industriels. La capacité à unifier wheeled AMR, quadrupèdes et humanoïdes sous une même architecture sans fine-tuning est particulièrement notable.
L'article s'inscrit dans un contexte de compétition intense autour des architectures VLA : Pi-0 de Physical Intelligence, GR00T N2 de NVIDIA, et les approches OpenVLA ou RoboFlamingo ont chacun nécessité des pipelines de collecte de données coûteux. Uni-LaViRA ne cherche pas à remplacer ces modèles sur des tâches de manipulation précise, mais positionne le raisonnement structuré comme alternative crédible pour la navigation. Les benchmarks utilisés (HM3D, MP3D, R2R) sont des standards académiques en simulation ; la validation sur robots réels reste limitée aux quatre plateformes de l'étude, et les performances en conditions industrielles non contrôlées restent à démontrer. Aucune timeline de déploiement ni partenariat industriel n'est mentionné.
Dans nos dossiers




