RecherchearXiv cs.RO6sem

Uni-LaViRA : traduction d'actions langage-vision-robot pour une navigation incarnée unifiée

1 source couvre ce sujet·Source originale ↗·

Résumé IASource uniqueImpact UE

Des chercheurs présentent Uni-LaViRA (Language-Vision-Robot Actions Translation), une architecture de navigation incarnée publiée le 28 mai 2026 sur arXiv (2605.27582), capable de piloter quatre types de robots distincts, robots à roues, quadrupèdes, humanoïdes et un drone à voilure fixe construit sur mesure, sans aucun entraînement spécifique sur des trajectoires robot. Le système s'appuie sur des grands modèles multimodaux de langage préentraînés (MLLMs) pour décomposer la navigation en deux types de commandes : une commande directionnelle sémantique en langage naturel, et une cible visuelle au niveau pixel. En mode zéro-shot, Uni-LaViRA atteint 60,7 % de taux de succès sur VLN-CE R2R, 51,3 % sur VLN-CE RxR, 77,7 % sur HM3D-v2, 60,0 % sur HM3D-OVON, 54,7 % sur MP3D-EQA et 40,0 % sur OpenUAV. Deux mécanismes structurent la boucle d'agent : le TODO List Memory (TDM), qui maintient une liste de sous-objectifs mise à jour à chaque pas et réinjectée dans la fenêtre d'attention du modèle, et le Second Chance Backtrack (SCB), qui ramène le robot à son état précédant une erreur et force le replanning à partir de la sous-trajectoire échouée.

Ce résultat interpelle directement le paradigme dominant des VLA à grande échelle, qui réclame des millions de trajectoires et des milliers d'heures GPU pour atteindre des niveaux de performance comparables. Si les chiffres se confirment en environnements non contrôlés, Uni-LaViRA suggère qu'une partie du problème de généralisation en navigation peut être résolue structurellement, via un raisonnement sur la géométrie de l'action, plutôt que par accumulation de données. Pour les intégrateurs robotiques, cela réduit potentiellement le coût d'adaptation à de nouveaux sites ou morphologies de robots, deux points de friction majeurs dans les déploiements industriels. La capacité à unifier wheeled AMR, quadrupèdes et humanoïdes sous une même architecture sans fine-tuning est particulièrement notable.

L'article s'inscrit dans un contexte de compétition intense autour des architectures VLA : Pi-0 de Physical Intelligence, GR00T N2 de NVIDIA, et les approches OpenVLA ou RoboFlamingo ont chacun nécessité des pipelines de collecte de données coûteux. Uni-LaViRA ne cherche pas à remplacer ces modèles sur des tâches de manipulation précise, mais positionne le raisonnement structuré comme alternative crédible pour la navigation. Les benchmarks utilisés (HM3D, MP3D, R2R) sont des standards académiques en simulation ; la validation sur robots réels reste limitée aux quatre plateformes de l'étude, et les performances en conditions industrielles non contrôlées restent à démontrer. Aucune timeline de déploiement ni partenariat industriel n'est mentionné.

Dans nos dossiers

NVIDIA GR00T Physical Intelligence — π0 OpenVLA / RT-X arXiv cs.RO

À lire aussi

1arXiv cs.RO

FutureNav : modélisation unifiée monde-action pour la navigation vision-langage

FutureNav est un cadre de modélisation unifiée monde-action pour la navigation vision-langage (VLN) en environnements continus, présenté sous forme de preprint sur arXiv (arXiv:2606.30367). Le système encode conjointement des features textuelles, visuelles et spatiales dans un grand modèle de langage, entraîné sur quatre objectifs simultanés : prédiction d'action de navigation, dynamiques inverse et forward pour modéliser les transitions d'états, et génération future pour anticiper les états spatiaux à venir. Avec un backbone de 4 milliards de paramètres, FutureNav revendique des performances state-of-the-art sur plusieurs benchmarks VLN, surpassant les méthodes antérieures selon ses auteurs. Le code et les modèles seront publiés en open source. La contribution centrale est architecturale : la plupart des modèles de navigation fondationnels récents traitent la tâche comme une génération directe d'actions, sans modéliser explicitement l'état du monde ni son évolution future. FutureNav cherche à combler cet écart en forçant le modèle à représenter des transitions d'états, ce qui est censé renforcer la robustesse sur des séquences d'actions longues en environnement non discrétisé. Pour les chercheurs en navigation incarnée ou les intégrateurs de robots mobiles autonomes, cela pointe vers une approche où le raisonnement spatial prospectif améliore la politique d'action sans surcoût d'inférence notable, un point clé pour l'embarqué. La VLN en environnements continus est un domaine actif depuis les benchmarks R2R, VLN-CE et REVERIE. Des travaux comme NavGPT, MapGPT ou EmbodiedScan ont scalé des VLM sur la navigation, mais en mode "action pure". FutureNav s'inscrit dans la tendance des world models appliqués à la navigation incarnée, parallèlement aux approches VLA comme OpenVLA ou aux travaux de DeepMind sur la robotique prédictive. Il s'agit pour l'instant d'un preprint non évalué par les pairs, et les gains annoncés sur les benchmarks méritent une vérification indépendante avant conclusions définitives. La prochaine étape annoncée est la publication publique du code.

RechercheActu

1 source

2arXiv cs.RO

Manipulation robotique multi-incarnations via un espace d'action unifié pour la main

Des chercheurs proposent l'Unified Hand Action Space (UHAS), une représentation d'action unifiée pour piloter des mains robotiques dexteres de morphologies différentes à partir d'un seul espace de commande. Le principe consiste à représenter les mouvements de la main comme des déformations géométriques d'une sphère canonique, puis à utiliser un algorithme baptisé Cascade Inverse Kinematics (CIK) pour convertir cette représentation abstraite en configurations articulaires propres à chaque main. Les auteurs entraînent des politiques de manipulation par apprentissage par renforcement directement dans cet espace, sur une tâche de réorientation de cube en main. Le système est évalué en simulation et en conditions réelles sur quatre mains robotiques aux architectures distinctes: l'Allegro Hand (Wonik Robotics), la LEAP Hand (design open source), la Shadow Hand (Shadow Robot) et le modèle de main humaine MANO. Les résultats montrent un transfert zero-shot vers des mains non vues à l'entraînement et un réajustement rapide lors du passage d'une morphologie à l'autre. Le papier est publié en preprint sur arXiv, sans relecture par les pairs, et les chiffres de succès du "déploiement réel" ne sont pas détaillés dans le résumé, ce qui appelle à la prudence sur l'ampleur réelle des résultats. L'enjeu dépassé ici est celui du cross-embodiment, un des principaux verrous de l'apprentissage robotique: une politique de manipulation entraînée pour une main à quatre doigts ne se transfère généralement pas à une main à cinq doigts ou à un nombre d'articulations différent, obligeant à tout réentraîner à chaque nouveau design de préhenseur. Si l'approche tient ses promesses au-delà du cas d'usage testé, cela réduirait le coût de portage des politiques de manipulation dexterese entre fabricants de mains robotiques, un sujet clé pour les intégrateurs qui évaluent aujourd'hui des modèles VLA génériques cens

RecherchePaper

1 source

3arXiv cs.RO

HARP-VLA : apprentissage de représentations alignées humain-robot pour modèle vision-langage-action

Des chercheurs ont publié le 31 mai 2026 HARP-VLA (Human-Robot Aligned Representation Learning for Vision-Language-Action), un framework de pré-entraînement conçu pour exploiter les vastes corpus de vidéos humaines dans l'apprentissage de politiques de manipulation robotique. Le coeur de l'approche repose sur deux composants entraînés conjointement : un encodeur visuel adapté aux robots et un modèle d'action latente. L'entraînement combine un petit nombre de démonstrations appariées humain-robot utilisées comme ponts inter-embodiment, et une quantité bien plus importante de vidéos non appariées des deux types comme supervision de dynamique. Sur le benchmark CALVIN ABC-D, HARP-VLA atteint un score moyen de 4,481 tâches consécutives réussies, et enregistre un gain de 7,1 points de pourcentage de taux de succès en conditions réelles par rapport à la meilleure baseline testée. Le problème que résout HARP est structurel pour tout le champ des VLA (Vision-Language-Action models) : les vidéos humaines sont abondantes et bon marché, mais les représentations visuelles qu'on en extrait sont mal alignées avec celles d'un robot, ce qui rend le co-entraînement inefficace voire contre-productif. Les modèles d'action latente existants, comme ceux utilisés dans les travaux sur UniPi ou Genie, réduisaient déjà le gap d'exécution en apprenant des abstractions d'action, mais restaient dépendants de features visuelles non alignées induisant des actions latentes domain-dépendantes. HARP introduit une perte d'alignement par discrimination relative de paires (source-relative pair-discriminative alignment loss) qui adapte les représentations robot vers la sémantique humaine sans effacer la discrimination inter-paires. Pour les intégrateurs et les équipes de recherche en manipulation, c'est un signal concret que le sim-to-real gap peut être partiellement adressé au niveau de la représentation, pas seulement du domaine de simulation. Ce travail s'inscrit dans une lignée de recherches sur l'apprentissage inter-embodiment qui a pris de l'ampleur depuis RT-2 (Google DeepMind, 2023) et OpenVLA (2024), lesquels montraient qu'un pré-entraînement sur données humaines ou web pouvait transférer vers des politiques robotiques. Les approches concurrentes directes incluent Octo, pi-0 de Physical Intelligence, et GR00T N2 de NVIDIA, tous confrontés à la même tension entre généralisation cross-embodiment et performance sur tâches précises. HARP se distingue en n'exigeant que peu de démonstrations appariées, ce qui réduit le coût de collecte de données. L'article reste pour l'instant une publication arXiv sans déploiement industriel annoncé, et les résultats en conditions réelles, bien que positifs, portent sur un nombre limité de configurations de manipulation.

RechercheOpinion

1 source

4arXiv cs.RO

RotVLA : action latente de rotation pour les modèles vision-langage-action (VLA)

Un groupe de chercheurs a publié en mai 2026 RotVLA (arXiv:2605.13403), un framework Vision-Language-Action (VLA) qui substitue la quantification discrète des modèles d'action latente (LAM) existants par une représentation continue dans l'espace de rotation SO(n). Entraîné sur plus de 1 700 heures de données robotiques multi-embodiment et de vidéos humaines, le modèle compte 1,7 milliard de paramètres. Son architecture associe un backbone de modèle vision-langage et une tête d'action par flow-matching, étendue en aval en un "action expert" unifié qui dénoise simultanément actions latentes et actions robot. Sur LIBERO, RotVLA atteint 98,2 % de taux de succès ; sur RoboTwin2.0, il obtient 89,6 % en configuration propre et 88,5 % en configuration randomisée, surpassant les modèles VLA antérieurs dans les deux cas. Des expériences sur des tâches de manipulation réelle confirment ces résultats hors simulation. L'enjeu est architectural : les LAMs actuels, basés sur des pipelines VQ-VAE ou similaires, induisent une reconstruction de frames souvent triviale et n'imposent aucune contrainte géométrique cohérente avec la physique du mouvement. En modélisant les actions latentes comme des éléments de SO(n), RotVLA garantit continuité et compositionnalité absentes des espaces discrets, avec un triplet frame learning qui force une dynamique temporelle non dégénérée. Pour les équipes d'intégration robotique, cela ouvre la voie à un modèle de fondation plus robuste au sim-to-real, l'un des goulots d'étranglement centraux des VLAs en conditions industrielles. L'approche suggère que la structure géométrique de l'espace d'action peut compter autant que l'échelle des données d'entraînement. Le domaine des politiques robotiques généralistes a été structuré par Pi-0 (Physical Intelligence, 2024) et GR00T N2 (NVIDIA, 2025), qui misaient sur des corpus cross-embodiment massifs pour entraîner des politiques généralisables. RotVLA s'inscrit dans cette lignée mais parie sur une représentation latente géométriquement structurée plutôt que sur le volume brut de paramètres, avec 1,7B contre plusieurs dizaines de milliards pour les modèles concurrents les plus ambitieux. Les scores LIBERO et RoboTwin2.0 sont des benchmarks académiques standardisés ; leur transposition sur des cellules industrielles réelles (bras collaboratifs, tri et picking) reste à démontrer. Aucun partenaire de déploiement ni calendrier commercial ne figure dans la publication : RotVLA est, à ce stade, une contribution de recherche.

RechercheOpinion

1 source