MaskWAM : unification du masquage guidé et de la…

NavWAM : modèle du monde et d'action pour la navigation visuelle guidée par objectif

33

1arXiv cs.RO

NavWAM : modèle du monde et d'action pour la navigation visuelle guidée par objectif

Des chercheurs présentent NavWAM (Navigation World Action Model), une architecture diffusion-transformer publiée en préprint sur arXiv (identifiant 2606.13494, juin 2026), conçue pour la navigation visuelle conditionnée par un objectif. Le problème posé est classique en robotique mobile : un robot doit naviguer vers une cible image sous observabilité partielle, en anticipant uniquement depuis sa caméra embarquée comment ses déplacements vont modifier son champ de vision. NavWAM fusionne dans une séquence latente partagée trois composantes distinctes : les observations visuelles futures prédites, les valeurs de progression vers l'objectif, et les blocs d'actions (action chunks). L'entraînement combine un préentraînement en simulation suivi d'une adaptation sur robot réel, avec une évaluation en boucle fermée sur des tâches de navigation image-à-image. Ce travail répond à une limitation bien identifiée des modèles de monde pour la navigation : ces modèles prédisent correctement l'évolution visuelle future, mais restent des modules passifs qui exigent un planificateur externe pour convertir leurs prédictions en commandes effectives. NavWAM élimine ce découplage en apprenant conjointement la prédiction visuelle, les valeurs d'objectif et la politique d'action. Concrètement, la clairvoyance visuelle du modèle de monde devient directement exploitable pour le contrôle moteur, sans recourir à une recherche d'actions de type CEM (Cross-Entropy Method). Sur les benchmarks offline et en déploiement réel en boucle fermée, NavWAM surpasse les baselines world-model à planification externe reportées par les auteurs. Comme pour tout préprint non encore revu par les pairs, ces résultats restent à valider sur une diversité d'environnements plus large. L'approche s'inscrit dans une tendance qui cherche à unifier modèles génératifs et politiques de contrôle, direction explorée notamment par les modèles VLA (Vision-Language-Action) tels que Pi-0 de Physical Intelligence ou GR00T N2 de NVIDIA, qui opèrent eux aussi sur des espaces latents partagés multi-modalités. La différence ici est la focalisation stricte sur la navigation monoculaire, sans instruction sémantique en langage naturel. Le passage sim-to-real est traité par fine-tuning sur données réelles, méthode désormais standard mais dont la robustesse dépend fortement de la diversité des scènes d'entraînement, non précisée dans l'abstract. Aucun code ni dataset n'est encore annoncé ; une page projet avec démonstrations vidéo est disponible à l'adresse fournie par les auteurs.

IA physiqueOpinion

1 source

UniTacVLA : compréhension et prédiction tactiles unifiées dans les modèles vision-langage-action

36

2arXiv cs.RO

UniTacVLA : compréhension et prédiction tactiles unifiées dans les modèles vision-langage-action

UniTacVLA, un modèle vision-langage-action (VLA) tactile, vise à résoudre un point faible connu des VLA classiques : la manipulation dextre en contact riche, comme l'insertion, l'essuyage, l'assemblage ou l'ajustement de précision. Contrairement aux approches vision-tactile-langage-action (VTLA) existantes qui traitent le signal tactile comme une simple entrée auxiliaire passive, l'équipe de recherche propose un espace latent tactile unifié qui modélise conjointement l'état tactile courant et les changements de contact futurs, via un raisonnement en chaîne de pensée tactile et une prédiction tactile progressive (coarse-to-fine). Ce prior tactile alimente ensuite un contrôleur mixte tactile-action combinant retour tactile en temps réel et retour prédit, pour corriger à haute fréquence des chunks d'action calculés à basse fréquence. Les expériences ont été menées en conditions réelles sur quatre catégories de tâches à fort contact (ajustement, insertion, essuyage, assemblage), testées à la fois en environnement propre et sous perturbations externes. L'enjeu dépasse la simple amélioration de benchmark. La manipulation en contact riche reste l'un des goulots d'étranglement majeurs empêchant les bras robotiques et humanoïdes de passer de la démonstration en laboratoire au déploiement industriel réel, notamment pour des tâches d'assemblage fin où la seule vision ne suffit pas à garantir la précision ou la robustesse face aux perturbations. En traitant le tactile comme un signal dynamique et prédictif plutôt que comme un simple capteur passif, UniTacVLA s'attaque directement à l'écart persistant entre les VLA génériques, entraînés majoritairement sur des données visuelles, et les exigences physiques réelles de l'assemblage industriel ou de la manipulation fine en conditions non contrôlées. Les auteurs revendiquent des gains sur le taux de succès, la précision de manipulation et la robustesse au contact par rapport aux méthodes existantes, ce qui, si confirmé à plus grande échelle, renforcerait l'argument selon lequel l'intégration tactile profonde est nécessaire pour les tâches dextres, et pas seulement un ajout marginal. Ce travail s'inscrit dans une vague plus large de recherche visant à doter les modèles VLA de capacités multimodales au-delà de la vision et du langage, à mesure que des acteurs comme Physical Intelligence (Pi-0) ou NVIDIA (GR00T) poussent leurs propres modèles génération vers la production industrielle. Les architectures VTLA précédentes, limitées par un traitement passif du tactile, constituent la ligne de base que ce papier cherche à dépasser. La publication, un prépublication arXiv, ne mentionne pas de partenariat industriel ni de calendrier de déploiement commercial ; les prochaines étapes attendues porteraient sur l'extension à davantage de types de capteurs tactiles et de tâches, ainsi que sur une validation à plus grande échelle en dehors du cadre contrôlé des expériences décrites.

IA physiqueActu

1 source

Latent Reasoning VLA : pensée latente et prédiction pour les modèles vision-langage-action

44

3arXiv cs.RO

Latent Reasoning VLA : pensée latente et prédiction pour les modèles vision-langage-action

Une équipe de chercheurs a publié sur arXiv (arXiv:2602.01166) LaRA-VLA, un nouveau cadre de modèles Vision-Language-Action (VLA) qui internalise le raisonnement multi-modal directement dans un espace latent continu, plutôt que de générer explicitement des chaînes de pensée textuelles (chain-of-thought, CoT) à l'inférence. Concrètement, là où les VLA actuels produisent des tokens de raisonnement discrets avant chaque décision motrice, LaRA-VLA effectue raisonnement et prédiction d'action dans un même espace latent, sans étape de génération textuelle intermédiaire. Les auteurs rapportent une réduction de la latence d'inférence pouvant atteindre 90 % par rapport aux approches CoT explicites, tout en surpassant les méthodes VLA de référence sur des benchmarks en simulation et sur des tâches de manipulation réelle à longue portée. Deux jeux de données CoT structurés ont été construits pour l'entraînement. L'entraînement suit un curriculum progressif : supervision d'abord textuelle et visuelle, puis transition vers un raisonnement purement latent, avant adaptation de ces dynamiques latentes au conditionnement de la génération d'actions. Ce résultat est significatif pour les intégrateurs et décideurs industriels parce qu'il s'attaque directement au principal goulot d'étranglement des VLA raisonnants : le coût computationnel du CoT à l'inférence rendait ces modèles inutilisables en temps réel sur du matériel embarqué. Un gain de 90 % de latence sans dégradation de performance change le rapport entre qualité de raisonnement et contrainte temps-réel, rendant crédible le déploiement de politiques robotiques expressives sur des bras industriels ou des humanoïdes sans serveur dédié au raisonnement. Cela contredit partiellement l'hypothèse que le raisonnement symbolique explicite est nécessaire pour gérer des tâches longues et multi-étapes. Les VLA, popularisés par des travaux comme RT-2 (Google DeepMind, 2023) puis Pi-0 (Physical Intelligence, 2024) et GR00T N2 (NVIDIA, 2025), cherchent à combiner compréhension sémantique et contrôle moteur dans un seul modèle. La tension entre performance de raisonnement et latence d'inférence est un sujet actif : d'autres approches comme les modèles de diffusion d'actions (Pi-0) contournent le problème différemment. LaRA-VLA propose une troisième voie, en fusionnant les deux flux dans l'espace latent. Le code et la page projet sont disponibles publiquement ; les prochaines étapes attendues sont des évaluations sur robots humanoïdes et des tests de robustesse hors distribution, domaines où le gap simulation-réalité reste le critère déterminant pour une adoption industrielle.

UECette réduction de latence d'inférence de 90 % ouvre la voie au déploiement de politiques VLA expressives sur du matériel embarqué, ce qui pourrait bénéficier aux équipes R&D et intégrateurs européens travaillant sur des bras industriels ou des humanoïdes sans infrastructure de calcul dédiée.

💬 90 % de latence en moins sur les VLA, c'est le genre de résultat qu'on attendait pour débloquer l'embarqué. Passer le raisonnement dans l'espace latent plutôt que de cracher des tokens CoT, c'est élégant, et les benchmarks semblent tenir. Reste le gap simulation-réalité, qui est toujours l'épreuve de vérité, et là aucun papier arXiv ne peut te garantir grand chose avant les tests sur du vrai matériel.

IA physiqueOpinion

1 source

Tau-zéro WM : un modèle du monde vidéo-action unifié pour la manipulation robotique

41

4arXiv cs.RO

Tau-zéro WM : un modèle du monde vidéo-action unifié pour la manipulation robotique

Des chercheurs ont déposé le 1er juin 2026 sur arXiv (réf. 2606.01027) τ₀-WM (tau-zéro World Model), une architecture unifiée vidéo-action pour la manipulation robotique. Le modèle repose sur un backbone de diffusion vidéo partagé qui intègre simultanément apprentissage de politique, prédiction vidéo et évaluation d'actions au sein d'un même cadre prédictif. Il expose deux interfaces complémentaires : un modèle d'action vidéo qui prédit conjointement des représentations visuelles latentes futures et des séquences d'actions continues à partir d'observations multi-caméras, d'instructions en langage naturel et de l'état courant du robot ; et un simulateur vidéo conditionné sur l'action, capable de dérouler des séquences candidates en projections multi-vues tout en attribuant des scores denses de progression de tâche. L'entraînement porte sur environ 27 300 heures de données combinant téléopération réelle, interactions de style UMI (Universal Manipulation Interface, protocole de collecte de données en bimanuel développé par Stanford), vidéos égocentrées humaines, et trajectoires de succès comme d'échecs. L'intérêt principal réside dans la convergence entre politique et modèle de monde au sein d'une architecture commune. Les VLA (Vision-Language-Action models) actuels génèrent des actions sans anticiper leurs conséquences, laissant la gestion des erreurs à des modules séparés. τ₀-WM introduit un mécanisme de rectification à l'inférence : le simulateur évalue chaque séquence candidate via un score dense de progression, et les candidats jugés insuffisants sont corrigés par re-débruitage. Ce test-time scaling structuré pourrait réduire les interventions humaines sur des tâches longue durée, un enjeu clé pour les intégrateurs industriels qui peinent encore à déployer des robots autonomes sur des séquences de plus de quelques étapes. Sur les benchmarks de manipulation fine et longue séquence, les auteurs déclarent surpasser les baselines comparables, sans préciser les conditions expérimentales ni les contraintes matérielles testées. Ce travail s'inscrit dans une course engagée depuis fin 2024 entre Physical Intelligence (pi-0), NVIDIA (GR00T N2) et Figure (Helix) pour des architectures VLA à grande échelle, mais rares sont celles qui intègrent simulation interne et évaluation d'action dans un seul modèle plutôt que dans un pipeline découplé. L'usage de données UMI signale une stratégie d'agrégation multi-source qui dépasse les corpus propriétaires et pourrait favoriser la généralisation à de nouveaux environnements. Le papier reste pour l'instant un preprint non soumis à revue par les pairs : les performances annoncées restent à valider sur robot physique en conditions réelles, et aucune date de déploiement ou partenariat industriel n'est mentionné.

IA physiqueOpinion

1 source

MaskWAM : unification du masquage guidé et de la prédiction pour les modèles monde-action

À lire aussi

NavWAM : modèle du monde et d'action pour la navigation visuelle guidée par objectif

UniTacVLA : compréhension et prédiction tactiles unifiées dans les modèles vision-langage-action

Latent Reasoning VLA : pensée latente et prédiction pour les modèles vision-langage-action

Tau-zéro WM : un modèle du monde vidéo-action unifié pour la manipulation robotique