Voir, Planifier, Revenir en arrière : des modèles…

ProcVLM : un modèle VLA apprenant des récompenses de progression ancrées dans les procédures pour la manipulation robotique

34

1arXiv cs.RO

ProcVLM : un modèle VLA apprenant des récompenses de progression ancrées dans les procédures pour la manipulation robotique

Une équipe de recherche a publié en mai 2026 sur arXiv (référence 2605.08774) ProcVLM, un modèle vision-langage conçu pour générer des signaux de récompense denses dans les tâches de manipulation robotique à longue durée. Contrairement aux approches existantes qui s'appuient sur des étiquettes de succès en fin de trajectoire ou sur une interpolation temporelle, ProcVLM ancre son estimation de progression dans la structure procédurale de la tâche et dans les changements visuels au sein de chaque sous-étape. Le modèle adopte un paradigme "raisonner avant d'estimer" : il infère d'abord les actions atomiques restantes avant de chiffrer l'avancement global. Pour l'entraîner à grande échelle, les auteurs ont constitué ProcCorpus-60M, un corpus de 60 millions de trames annotées issues de 30 jeux de données embodied, dont est dérivé ProcVQA, un benchmark couvrant l'estimation de progression, la segmentation d'actions et la planification prospective. L'enjeu est direct pour les intégrateurs et les équipes travaillant sur la manipulation longue durée, comme l'assemblage multi-étapes, le conditionnement ou la maintenance industrielle. Les modèles de récompense classiques, en confondant temps écoulé et progression réelle, sont incapables de détecter stagnation, étapes manquées ou états d'échec intermédiaires. ProcVLM produit des estimations discriminantes intra-trajectoire, ce qui en fait un composant plus utile pour la policy optimization guidée par récompense. Les expériences publiées montrent des gains mesurés sur ProcVQA et sur des benchmarks de modèles de récompense face aux baselines représentatives. Ces résultats restent néanmoins dans le cadre de la simulation et de l'évaluation hors-ligne : aucun déploiement sur robot physique n'est annoncé. Ce travail s'inscrit dans une tendance de fond visant à améliorer la qualité des signaux de supervision pour les modèles vision-langage-action (VLA), un chantier central depuis la publication de Pi-0 (Physical Intelligence), GR00T N2 (NVIDIA) ou OpenVLA. Le problème du reward shaping dans les tâches manipulatoires longues est un verrou bien identifié : le sim-to-real gap se double d'un gap supervision-comportement quand les étiquettes de succès sont trop parcimonieuses. ProcVLM propose une réponse méthodologique à ce second verrou via un corpus de supervision synthétique à 60 millions de trames, mais demeure à ce stade un preprint académique sans validation sur hardware réel annoncée. La page projet (procvlm.github.io) est en ligne, sans date de release du code ou des données précisée.

RechercheOpinion

1 source

Modèles du monde pour la manipulation robotique : une synthèse de la littérature

47

2arXiv cs.RO

Modèles du monde pour la manipulation robotique : une synthèse de la littérature

Une revue de littérature publiée sur arXiv (2606.00113) cartographie l'état de l'art des modèles du monde (world models) appliqués à la manipulation robotique. Les auteurs recensent cinq familles de représentations prédictives : modèles de dynamique latente, générateurs vidéo conditionnés par l'action, prédicteurs de scène 3D et 4D, simulateurs à contraintes physiques, et modules prédictifs embarqués dans les systèmes vision-langage-action (VLA). La revue couvre 34 jeux de données de manipulation et propose une taxonomie fonctionnelle distinguant les modèles intégrant prédiction et action de ceux servant de planificateurs explicites. Trois axes structurent l'analyse : quelle représentation future est prédite, comment la prédiction se connecte à l'action, et à quel moment du pipeline d'apprentissage robotique elle intervient. Cette synthèse répond à un besoin concret : le terme "world model" recouvre des réalités très hétérogènes, ce qui brouille les comparaisons et ralentit les transferts technologiques entre laboratoires. En posant une définition opérationnelle stricte (un world model est un système prédictif conditionné par l'action, distinct des modules de perception, des politiques ou des fonctions de valeur), les auteurs établissent un cadre commun dont manquait le secteur. La revue confirme que ces systèmes évoluent d'outils de simulation spécialisés vers une infrastructure générique pour l'apprentissage robotique : génération d'expériences synthétiques, filtrage de candidats, vérification de résultats. Ce glissement architectural touche directement les pipelines de pré-entraînement, de post-entraînement et d'adaptation à l'inférence, trois phases critiques pour quiconque industrialise un robot manipulateur. Le domaine a accéléré avec l'essor des VLA comme Pi-0 (Physical Intelligence) et GR00T N2 (NVIDIA), et l'adoption des architectures Transformer en robotique, mais sans convergence méthodologique. La fragmentation reflète une course entre grands labs (Google DeepMind, MIT, Stanford, Berkeley) et startups qui ne partagent ni benchmarks ni protocoles d'évaluation communs. Les défis ouverts identifiés par les auteurs, notamment la modélisation des contacts, le contrôle des hallucinations, l'alignement action-prédiction et le benchmarking en boucle fermée, tracent un agenda de recherche pour les prochaines années. Pour les équipes travaillant sur la manipulation industrielle ou les bras collaboratifs, cette revue constitue une feuille de route pour choisir quelle classe de world model intégrer selon le cas d'usage : data augmentation, planification prédictive ou vérification de trajectoires.

UELes équipes européennes (INRIA, CEA-List, labos collaboratifs) travaillant sur la manipulation robotique peuvent s'appuyer sur cette taxonomie pour structurer leurs choix d'architecture world model, mais aucun acteur ni financement européen n'est impliqué directement.

RecherchePaper

1 source

Modèles du monde pour la manipulation robotique

44

3arXiv cs.RO

Modèles du monde pour la manipulation robotique

Des chercheurs ont publié en juin 2026 sur arXiv (2606.24742) un modèle généraliste de valeur pour la manipulation robotique, le WVM (World Value Model). La proposition centrale consiste à substituer les backbones VLM (Vision-Language Model) habituellement utilisés par un modèle de monde, nativement mieux adapté à la modélisation temporelle nécessaire pour évaluer la progression d'une tâche. Sur les benchmarks standards, WVM atteint les meilleures performances connues en Value-Order Correlation (VOC), la métrique de référence pour les modèles de valeur robotiques. L'équipe introduit également Suboptimal-Value-Bench, un benchmark multi-embodiment composé de 800 trajectoires sous-optimales annotées frame par frame par des humains, comblant un angle mort des évaluations existantes qui ne contenaient que des données expertes. L'enjeu est directement opérationnel pour quiconque entraîne des systèmes de manipulation à grande échelle : les données collectées en conditions réelles sont rarement uniformément expertes. Un modèle de valeur précis permet de pondérer ou filtrer ces trajectoires hétérogènes, améliorant la qualité de l'entraînement sans nettoyage manuel coûteux. WVM démontre des gains de performance sur plusieurs approches d'extraction de politique, en simulation comme en déploiement réel, ce qui renforce la thèse que l'estimation de valeur est un composant orthogonal et complémentaire au choix d'architecture de politique. La robustesse maintenue sur données sous-optimales est l'aspect le plus significatif : c'est précisément dans ce régime que les VLMs classiques décrochent, leurs préentraînements sur observations visuelles statiques ne suffisant pas à capturer les dynamiques temporelles longues. La montée en puissance des VLA comme Pi-0 de Physical Intelligence ou GR00T N2 de NVIDIA a rendu critique la question de la qualité des données d'entraînement à grande échelle. L'approche WVM s'inscrit dans une tendance émergente qui consiste à spécialiser les composants : un backbone temporel dédié pour l'évaluation de la valeur, distinct du modèle d'action. Aucun partenariat industriel ni calendrier de déploiement n'est mentionné dans cet article purement académique. Les prochaines étapes naturelles incluent l'intégration du WVM dans des pipelines d'imitation à grande échelle ou en combinaison avec du reinforcement learning offline (IQL, CQL), et une extension à des environnements multi-tâches plus complexes.

RechercheOpinion

1 source

Modèles vision-langage-action (VLA) pour la robotique aérienne sans pilote et la manipulation bimanuelle : une revue

37

4arXiv cs.RO

Modèles vision-langage-action (VLA) pour la robotique aérienne sans pilote et la manipulation bimanuelle : une revue

Une équipe de chercheurs publie sur arXiv (référence 2607.06706, mise en ligne le 7 juillet 2026) une revue de littérature consacrée aux modèles Vision-Language-Action (VLA), ces architectures qui unifient perception visuelle, compréhension du langage naturel et génération d'actions dans un seul modèle de fondation. L'objectif : permettre à un robot d'exécuter une instruction du type "plie la serviette" ou "vole vers le bâtiment rouge" directement à partir d'images caméra, sans étape de programmation intermédiaire. Le travail passe en revue 183 contributions publiées entre 2017 et 2026, organisées selon sept axes : les architectures VLA, les recettes d'entraînement, les représentations d'actions, la coordination bimanuelle (2022-2026), la navigation et le contrôle de drones (2017-2026), l'ancrage du langage dans la perception, et des enjeux transverses comme la mémoire et les modèles du monde. Les auteurs identifient au passage quatorze directions de recherche encore ouvertes dans ces deux domaines. L'intérêt de cette synthèse tient au rapprochement qu'elle opère entre deux champs jusqu'ici traités séparément. La manipulation bimanuelle, où deux bras à 7 degrés de liberté chacun doivent coordonner leurs mouvements pour plier, assembler ou réorienter un objet, sert de banc d'essai le plus exigeant pour les VLA appliqués à la manipulation. Or les auteurs montrent que les stratégies de coordination, les recettes d'entraînement et les représentations d'actions conçues pour ces bras robotiques se transfèrent directement aux drones, confrontés à un défi structurellement similaire : coordonner poussée, attitude et, de plus en plus, commandes de préhenseur à partir d'observations visuelles, sous des contraintes strictes de latence et de charge utile (payload). Pour les intégrateurs et décideurs du secteur robotique, cela suggère qu'un socle technique commun pourrait émerger entre robotique aérienne et manipulation au sol, plutôt que deux écosystèmes cloisonnés. Cette revue s'inscrit dans la montée en puissance des VLA comme cadre dominant de l'apprentissage robotique, portée par leur capacité à hériter des connaissances générales acquises lors d'un pré-entraînement à l'échelle d'Internet, un atout que les approches de contrôle classiques n'offrent pas. En couvrant neuf ans de littérature sur la manipulation bimanuelle et la navigation de drones dans un même cadre d'analyse, le travail offre une cartographie utile pour situer les futures publications et les futurs produits commerciaux dans ce paysage encore mouvant, sans toutefois lui-même annoncer de déploiement ou de système opérationnel nouveau.

RecherchePaper

1 source

Voir, Planifier, Revenir en arrière : des modèles VLA sensibles à la progression pour une manipulation robotique robuste

À lire aussi

ProcVLM : un modèle VLA apprenant des récompenses de progression ancrées dans les procédures pour la manipulation robotique

Modèles du monde pour la manipulation robotique : une synthèse de la littérature

Modèles du monde pour la manipulation robotique

Modèles vision-langage-action (VLA) pour la robotique aérienne sans pilote et la manipulation bimanuelle : une revue