Modèle vision-langage-action pour le reciblage robotiqu…

MARVL : guidage multi-étapes pour la manipulation robotique via des modèles vision-langage

36

1arXiv cs.RO

MARVL : guidage multi-étapes pour la manipulation robotique via des modèles vision-langage

Des chercheurs ont publié MARVL (Multi-Stage Guidance for Robotic Manipulation via Vision-Language Models, arXiv:2602.15872), une méthode visant à automatiser la conception de fonctions de récompense dense pour l'apprentissage par renforcement (RL) appliqué à la manipulation robotique. L'approche repose sur l'affinage (fine-tuning) d'un modèle de vision-langage (VLM) pour améliorer sa cohérence spatiale et sémantique, puis décompose chaque tâche en sous-tâches séquentielles. Un mécanisme dit de projection de direction de trajectoire (task direction projection) renforce la sensibilité du signal de récompense aux progrès réels de l'agent. Évalué sur le benchmark Meta-World, référence standard pour les tâches de manipulation à récompenses éparses, MARVL surpasse les méthodes VLM-reward existantes en efficacité d'échantillonnage et en robustesse. La contribution centrale de MARVL est de corriger trois défauts chroniques des approches naïves de récompense par VLM : le désalignement entre signal de récompense et avancement réel de la tâche, la faiblesse du grounding spatial, et la compréhension insuffisante de la sémantique d'une tâche robotique. Pour les équipes de recherche en RL robotique, l'enjeu est concret : la conception manuelle de fonctions de récompense dense est coûteuse, non scalable, et constitue un goulot d'étranglement majeur dans le déploiement de nouveaux comportements. Si la méthode confirme ses performances sur des benchmarks plus larges, elle représenterait un pas vers l'automatisation du cycle de reward design, réduisant la dépendance aux ingénieurs spécialisés et accélérant l'itération expérimentale. Les VLMs utilisés comme superviseurs pour le RL robotique constituent un axe de recherche actif depuis 2023, porté notamment par des travaux comme EUREKA (OpenAI/NVIDIA) ou VLP. MARVL se distingue par son affinage ciblé du VLM et sa décomposition multi-étapes, là où EUREKA s'appuie sur un LLM pour générer du code de récompense sans fine-tuning préalable. La validation se limite pour l'instant à Meta-World, un environnement entièrement simulé ; aucun résultat sur robot physique n'est rapporté dans cette version, ce qui laisse ouverte la question du sim-to-real gap. Les suites naturelles incluront une évaluation sur des plateformes matérielles et des benchmarks plus récents comme RLBench ou ManiSkill.

RechercheOpinion

1 source

RotVLA : action latente de rotation pour les modèles vision-langage-action (VLA)

42

2arXiv cs.RO

RotVLA : action latente de rotation pour les modèles vision-langage-action (VLA)

Un groupe de chercheurs a publié en mai 2026 RotVLA (arXiv:2605.13403), un framework Vision-Language-Action (VLA) qui substitue la quantification discrète des modèles d'action latente (LAM) existants par une représentation continue dans l'espace de rotation SO(n). Entraîné sur plus de 1 700 heures de données robotiques multi-embodiment et de vidéos humaines, le modèle compte 1,7 milliard de paramètres. Son architecture associe un backbone de modèle vision-langage et une tête d'action par flow-matching, étendue en aval en un "action expert" unifié qui dénoise simultanément actions latentes et actions robot. Sur LIBERO, RotVLA atteint 98,2 % de taux de succès ; sur RoboTwin2.0, il obtient 89,6 % en configuration propre et 88,5 % en configuration randomisée, surpassant les modèles VLA antérieurs dans les deux cas. Des expériences sur des tâches de manipulation réelle confirment ces résultats hors simulation. L'enjeu est architectural : les LAMs actuels, basés sur des pipelines VQ-VAE ou similaires, induisent une reconstruction de frames souvent triviale et n'imposent aucune contrainte géométrique cohérente avec la physique du mouvement. En modélisant les actions latentes comme des éléments de SO(n), RotVLA garantit continuité et compositionnalité absentes des espaces discrets, avec un triplet frame learning qui force une dynamique temporelle non dégénérée. Pour les équipes d'intégration robotique, cela ouvre la voie à un modèle de fondation plus robuste au sim-to-real, l'un des goulots d'étranglement centraux des VLAs en conditions industrielles. L'approche suggère que la structure géométrique de l'espace d'action peut compter autant que l'échelle des données d'entraînement. Le domaine des politiques robotiques généralistes a été structuré par Pi-0 (Physical Intelligence, 2024) et GR00T N2 (NVIDIA, 2025), qui misaient sur des corpus cross-embodiment massifs pour entraîner des politiques généralisables. RotVLA s'inscrit dans cette lignée mais parie sur une représentation latente géométriquement structurée plutôt que sur le volume brut de paramètres, avec 1,7B contre plusieurs dizaines de milliards pour les modèles concurrents les plus ambitieux. Les scores LIBERO et RoboTwin2.0 sont des benchmarks académiques standardisés ; leur transposition sur des cellules industrielles réelles (bras collaboratifs, tri et picking) reste à démontrer. Aucun partenaire de déploiement ni calendrier commercial ne figure dans la publication : RotVLA est, à ce stade, une contribution de recherche.

RechercheOpinion

1 source

49

3arXiv cs.RO

Modèle vision-langage-action cinématique centré sur les actionneurs pour robots miniers souterrains (MineRobot)

Des chercheurs présentent MineRobot, un framework de modélisation cinématique centré sur les actionneurs pour les robots miniers souterrains, dans un article publié en version révisée sur arXiv sous la référence 2603.22055. Contrairement aux bras industriels classiques à chaîne ouverte, les engins miniers représentatifs reposent souvent sur des chaînes cinématiques fermées entraînées par vérins linéaires, avec des liaisons planes en quadrilatère articulé (four bar linkage), ce qui complique la modélisation réutilisable et la résolution en temps réel de la cinématique directe (FK) et inverse (IK). Le framework introduit le MRDF (Mining Robot Description Format), une représentation dédiée qui paramètre nativement les actionneurs et les fermetures de boucle. Il contracte ensuite les sous structures en quadrilatère articulé en articulations généralisées, puis extrait pour chaque actionneur un chemin topologiquement équivalent indépendant (ITEP), classé en quatre types canoniques. Ces types alimentent des solveurs dédiés assemblés en pipeline séquentiel pour la FK, tandis que l'IK est formulée comme un problème d'optimisation sous contraintes de longueur d'actionneur, résolu par un schéma itératif de type Gauss Seidel. Les expériences menées sur des robots miniers souterrains représentatifs montrent des performances FK en temps réel et une convergence robuste de l'IK sur les plages de fonctionnement testées. L'enjeu dépasse le simple confort de calcul. Dans les mines souterraines, tester physiquement un engin (chargeuse, foreuse, bras de forage) est coûteux et dangereux, d'où le recours croissant à la planification de trajectoires, à l'entraînement des opérateurs et aux jumeaux numériques pour valider les mouvements avant tout déploiement réel. Or la plupart des outils de cinématique existants ciblent des manipulateurs à chaîne ouverte et gèrent mal les mécanismes fermés et sous-actionnés typiques du matériel minier, ce qui oblige souvent les équipes à écrire un solveur spécifique par machine. En automatisant cette dérivation via une décomposition topologique générique, MineRobot vise à réduire ce travail manuel répétitif et à accélérer l'intégration de nouveaux engins dans les chaînes de simulation, un argument qui parlera autant aux intégrateurs et fournisseurs d'équipements miniers qu'aux équipes de R&D en robotique industrielle. Le papier s'inscrit dans un courant de recherche plus large sur la cinématique des mécanismes fermés, un domaine longtemps traité au cas par cas faute de formalisme réutilisable pour les chaînes à boucles multiples. La classification en quatre types d'ITEP et le solveur Gauss Seidel pour l'IK rappellent des approches modulaires déjà explorées pour les robots parallèles et les mécanismes hybrides, mais appliquées ici spécifiquement au vocabulaire métier minier. À ce stade, il s'agit d'un résultat académique validé en simulation sur des robots représentatifs, et non d'un produit déployé chez un opérateur minier. La suite logique serait une intégration dans des suites de planification ou des jumeaux numériques commerciaux, suivie d'une validation sur du matériel réel en conditions souterraines.

RecherchePaper

1 source

V-VLAPS : planification guidée par valeur pour les modèles vision-langage-action (VLA)

38

4arXiv cs.RO

V-VLAPS : planification guidée par valeur pour les modèles vision-langage-action (VLA)

Des chercheurs proposent V-VLAPS (Value-Guided Vision-Language-Action Planning and Search), une méthode qui augmente les modèles VLA (Vision-Language-Action) d'un signal de valeur appris pour améliorer la planification en manipulation robotique. Les VLA encodent perception visuelle, langage et commande motrice pour générer des actions, mais leur comportement purement réactif se dégrade hors distribution d'entraînement ou sur des tâches à horizon long. V-VLAPS ajoute une tête de valeur légère (value head), entraînée sur des trajectoires hors-ligne (offline rollouts), qui prédit les retours Monte Carlo et guide un MCTS (Monte Carlo Tree Search) vers les branches de plus haute valeur. Sur les cinq suites du benchmark LIBERO, V-VLAPS égale la baseline sans valeur au budget de recherche standard ; avec un budget élargi, il la dépasse dans toutes les suites, avec +6 points de pourcentage sur LIBERO-Object et +4 points sur LIBERO-10. L'apport central est de démontrer que les représentations internes des VLA encodent non seulement des informations sur l'échec d'une trajectoire (déjà documenté dans la littérature), mais peuvent aussi estimer la valeur pendant la planification. Cela ouvre une voie pragmatique pour les intégrateurs : renforcer des politiques VLA existantes sans réentraînement complet, par simple ajout d'une tête de valeur et d'un budget de recherche accru. L'analyse révèle toutefois une limite claire : la majorité des échecs durs sont des timeouts au niveau racine, là où les valeurs prédites restent peu différenciées, ce qui plafonne le gain observé et indique que le signal de valeur est encore insuffisamment discriminant en début de trajectoire. Ce travail (préprint arXiv, janvier 2026) s'inscrit dans une série de méthodes cherchant à coupler la puissance générative des VLA modernes (RT-2, OpenVLA, Pi-0 de Physical Intelligence, GR00T N2 de NVIDIA) avec des mécanismes de planification structurée, face aux approches concurrentes par world models et diffusion planifiante. Les résultats sont obtenus uniquement en simulation sur LIBERO et ne sont pas encore validés sur robot réel, limite classique de ce type de contribution arxiv. La prochaine étape naturelle est une évaluation sim-to-real pour vérifier si le signal de valeur appris se transfère hors simulation, notamment sur des tâches à contacts complexes ou en environnement non structuré.

RechercheOpinion

1 source

Modèle vision-langage-action pour le reciblage robotique multi-corporel via diffusion guidée

À lire aussi

MARVL : guidage multi-étapes pour la manipulation robotique via des modèles vision-langage

RotVLA : action latente de rotation pour les modèles vision-langage-action (VLA)

Modèle vision-langage-action cinématique centré sur les actionneurs pour robots miniers souterrains (MineRobot)

V-VLAPS : planification guidée par valeur pour les modèles vision-langage-action (VLA)