PHASER : rejeu d'expérience sémantique et par…

SAFE-Pruner : élagage de tokens guidé par l'attention sémantique pour les modèles VLA en manipulation robotique

42

1arXiv cs.RO

SAFE-Pruner : élagage de tokens guidé par l'attention sémantique pour les modèles VLA en manipulation robotique

Des chercheurs ont publié fin mai 2026 SAFE-Pruner (arXiv:2605.29662), un framework d'élagage de tokens conçu pour accélérer l'inférence des modèles vision-language-action (VLA) en robotique. Les VLA combinent perception visuelle, compréhension du langage et génération de commandes motrices, mais leur charge computationnelle freine leur déploiement en temps réel. Les méthodes d'élagage existantes s'appuient sur les couches superficielles du réseau et risquent de supprimer des tokens visuels encore requis par les couches profondes. SAFE-Pruner intègre une stratégie prospective qui prédit la saillance future des tokens en exploitant la "semantic attention consistency" : la tendance des VLA à concentrer leur attention sur la même entité sémantique à travers les étapes successives d'exécution. Un second mécanisme, la division adaptative de sous-tâches, détecte les ruptures brusques d'attention pour affiner les prévisions. Sur simulation et en conditions réelles, la méthode atteint un gain de vitesse jusqu'à 1,89x avec une dégradation du taux de succès inférieure à 1,7%, surpassant l'état de l'art de jusqu'à 1,9%. Pour les intégrateurs industriels déployant des VLA sur du matériel embarqué à puissance limitée, un gain de 1,89x sans refonte d'infrastructure représente un levier concret. La contribution théorique sur la cohérence sémantique de l'attention ouvre aussi une piste pour mieux comprendre ce que les VLA perçoivent réellement lors de l'exécution de tâches, un angle utile pour le débogage et la sûreté fonctionnelle. Il faut toutefois rester prudent : les benchmarks présentés ne précisent pas les environnements de test, le matériel utilisé ni le spectre complet des tâches évaluées, un bémol habituel dans les papiers de recherche en manipulation. SAFE-Pruner s'inscrit dans un mouvement plus large d'optimisation des modèles fondation pour la robotique, porté notamment par RT-2 (Google DeepMind, 2023), OpenVLA (Berkeley, 2024) et Pi-0 de Physical Intelligence (2024). Face à des architectures combinant des backbones de plusieurs milliards de paramètres avec un policy head, la communauté explore en parallèle la quantification, la distillation et l'élagage adaptatif. Le framework se présente comme un module plug-and-play compatible avec les VLA existants, ce qui faciliterait l'adoption sans refonte des pipelines si la compatibilité est confirmée sur un panel représentatif de modèles. L'article est disponible en preprint sur arXiv ; aucune intégration dans un framework open-source ni déploiement sur robot commercial n'est annoncé à ce stade.

IA physiqueOpinion

1 source

CodeGraphVLP : code comme planificateur et graphe sémantique d'état pour les modèles VLA non-markoviens

42

2arXiv cs.RO

CodeGraphVLP : code comme planificateur et graphe sémantique d'état pour les modèles VLA non-markoviens

Une équipe de recherche a publié en avril 2026 sur arXiv (référence 2604.22238) un nouveau framework hiérarchique baptisé CodeGraphVLP, conçu pour résoudre une limitation structurelle des modèles Vision-Language-Action (VLA) appliqués à la manipulation robotique longue durée. Le système repose sur trois composants couplés : un graphe sémantique persistant qui maintient les entités et relations pertinentes à la tâche même sous observabilité partielle, un planificateur généré sous forme de code exécutable (d'où le préfixe "Code"), et un mécanisme de prompting visuo-linguistique guidé par la progression. Ce dernier construit des observations épurées, sans encombrement visuel parasite, pour focaliser l'exécuteur VLA sur les indices critiques. Les résultats sur des tâches non-markoviennes en environnement réel montrent une meilleure complétion que les baselines VLA standard et leurs variantes avec historique, avec une latence de planification significativement réduite par rapport aux approches qui intègrent un VLM directement dans la boucle de contrôle. L'enjeu technique est précis : les VLA actuels sont entraînés et déployés comme politiques à horizon court, sous hypothèse markovienne, autrement dit, la dernière observation suffit à raisonner sur l'action suivante. Cette hypothèse tient pour des gestes simples, mais s'effondre dès qu'une tâche exige de mémoriser des états antérieurs, d'interpréter des scènes occultées ou de distinguer des objets pertinents parmi du désordre visuel. CodeGraphVLP rompt avec cette contrainte en externalisant la mémoire dans un graphe symbolique et en confiant la planification à du code synthétisé plutôt qu'à des appels répétés à un grand modèle de langage, ce qui réduit la latence tout en maintenant une traçabilité explicite de la progression de la tâche. C'est un signal intéressant pour les intégrateurs industriels : la combinaison représentation symbolique + politique neuronale commence à produire des résultats mesurables sur du matériel réel, pas uniquement en simulation. Les VLA généralisés sont au coeur d'une compétition active en 2025-2026 : Physical Intelligence avec pi0, Google DeepMind avec RT-2 et ses successeurs, et des équipes académiques comme celles derrière OpenVLA. Le positionnement de CodeGraphVLP est distinct, il ne propose pas un nouveau modèle de fondation mais une architecture d'orchestration au-dessus de VLA existants, ce qui le rend potentiellement composable avec des modèles tiers. Les ablations publiées confirment la contribution individuelle de chaque module. La prochaine étape naturelle serait des tests sur des plateformes humanoïdes ou des bras industriels dans des environnements non contrôlés, domaine où l'hypothèse markovienne est la plus souvent violée.

IA physiqueOpinion

1 source

Modèles vision-langage-action (VLA) : retours d'expérience sur une plateforme UR5 réelle

47

3arXiv cs.RO

Modèles vision-langage-action (VLA) : retours d'expérience sur une plateforme UR5 réelle

Des chercheurs ont publié sur arXiv (preprint 2606.30456) une évaluation du transfert de modèles VLA (Vision-Language-Action) vers un bras manipulateur UR5e d'Universal Robots en conditions réelles. Deux modèles ont été mis à l'épreuve : OpenVLA et sa variante OpenVLA-OFT, fine-tunés sur des données collectées directement sur le robot physique et converties au format RLDS (Robot Learning Dataset Specification), un standard de facto dans la communauté robotique. L'équipe a construit une chaîne complète comprenant l'acquisition de données sur robot réel, un workflow de conversion de dataset compatible RLDS, une infrastructure de fine-tuning et d'inférence, ainsi qu'un protocole de validation systématique des représentations d'actions et des interfaces de contrôle. Le résultat central contredit une hypothèse répandue dans la recherche VLA : des métriques offline prometteuses ne se traduisent pas nécessairement en comportement stable en boucle fermée sur le système physique. Cet écart entre indicateurs de validation et exécution réelle n'est pas principalement imputable à la capacité intrinsèque des modèles. Il est fortement conditionné par la sémantique des actions (comment sont encodées les commandes moteur), les conventions de référentiels de coordonnées, l'alignement temporel entre la vision et les sorties de contrôle, la cohérence du prétraitement d'image, et la couverture du dataset d'entraînement. La conclusion opérationnelle est directe : pour des intégrateurs industriels, augmenter la taille du modèle VLA n'est pas le levier prioritaire ; c'est la maîtrise du pipeline données-modèle-contrôle dans son ensemble qui détermine la fiabilité du déploiement, un déplacement de paradigme du problème de modèle vers un problème de système. Ce travail s'inscrit dans un contexte d'accélération marquée autour des VLA, portée par des modèles comme pi-0 (Physical Intelligence), OpenVLA (UC Berkeley), GR00T N2 (NVIDIA) ou encore ACT et Diffusion Policy, qui promettent une généralisation des politiques de manipulation via des architectures multimodales entraînées à large échelle. La plupart des démonstrations publiées restent toutefois en environnement contrôlé, et les conditions précises du passage au déploiement réel sont rarement documentées avec rigueur. En s'appuyant sur une plateforme reproductible et des formats ouverts (UR5e, RLDS), cette étude fournit un cadre méthodologique directement transférable, utile pour les équipes cherchant à qualifier leurs pipelines VLA avant mise en production, y compris côté européen où des acteurs comme Enchanted Tools travaillent sur des approches similaires de généralisation de politiques de manipulation.

UELe cadre méthodologique open-source (UR5e + RLDS) est directement réutilisable par les équipes européennes qualifiant leurs pipelines VLA avant production, notamment pour des acteurs comme Enchanted Tools travaillant sur la généralisation des politiques de manipulation.

💬 Ce que montrent ces chercheurs, c'est qu'en robotique VLA, le problème n'est pas le modèle. Des métriques offline prometteuses ne prédisent pas le comportement en boucle fermée sur le vrai robot, et ce qui change tout c'est le pipeline complet (encodage des actions, conventions de coordonnées, alignement temporel). Reste à voir combien d'équipes industrielles vont enfin arrêter de chercher un modèle plus gros et commencer par auditer leur dataset.

IA physiqueOpinion

1 source

RePO-VLA : l'optimisation de politique guidée par la récupération pour les modèles vision-langage-action (VLA)

41

4arXiv cs.RO

RePO-VLA : l'optimisation de politique guidée par la récupération pour les modèles vision-langage-action (VLA)

Des chercheurs publient sur arXiv (arXiv:2605.09410) RePO-VLA, un framework d'optimisation de politique pour modèles VLA (Vision-Language-Action) conçu pour améliorer la robustesse en manipulation bimanuelle sur des tâches longues et à fort contact. Le problème central identifié: les pipelines d'entraînement classiques exploitent uniquement les trajectoires réussies, abandonnant les épisodes ratés et rendant les modèles fragiles à la moindre perturbation d'exécution. RePO-VLA introduit trois mécanismes distincts: la Recovery-Aware Initialization (RAI), qui isole les segments de récupération et réinitialise l'historique d'état pour que les actions correctives s'ancrent dans l'état adverse courant plutôt que dans l'enchaînement d'erreurs précédent; la Progress-Aware Semantic Value Function (PAS-VF), qui attribue une valeur aux préfixes utiles des trajectoires échouées via un mécanisme de "reliability decay"; et le Value-Conditioned Refinement (VCR), qui entraîne la politique à sélectionner les actions à haute progression. Les auteurs introduisent également FRBench, un benchmark standardisé d'injection d'erreurs orienté récupération. Sur des tâches bimanuelle simulées et réelles, le taux de succès en conditions adverses passe de 20% à 75% en moyenne, et jusqu'à 80% lors d'essais réels à grande échelle. Ce résultat marque une rupture avec les pipelines dominants. Physical Intelligence (Pi-0, Pi-0.5), Figure AI et la quasi-totalité des approches VLA académiques s'entraînent exclusivement sur des trajectoires réussies, sacrifiant l'information contenue dans les épisodes ratés. RePO-VLA démontre que ces données sont exploitables à condition d'être labélisées en fonction de leur degré de progression vers l'objectif. Autre avantage pour le déploiement industriel: à l'inférence, aucun détecteur de défaillance en ligne n'est requis. Un simple paramètre fixe (v=1.0) suffit à biaiser les actions vers le manifold de succès appris, ce qui simplifie considérablement l'intégration en production sur des tâches de manipulation répétitive longue durée. Les VLA sont en 2025-2026 l'un des axes de recherche les plus actifs en robotique manipulatrice, portés par Physical Intelligence, Figure AI, et des laboratoires comme Berkeley, Stanford et CMU. La manipulation bimanuelle en contact représente l'échelon de difficulté le plus élevé: elle concentre les problèmes de sim-to-real gap, de gestion du contact imprédictible et de dérive d'exécution sur de longues séquences. RePO-VLA reste pour l'instant un article arXiv sans annonce de déploiement ni partenariat industriel associé. FRBench pourrait toutefois s'imposer comme référence communautaire pour évaluer la robustesse en récupération d'erreur, critère aujourd'hui absent des benchmarks standards comme LIBERO ou RoboSuite.

IA physiqueOpinion

1 source

PHASER : rejeu d'expérience sémantique et par phase pour les modèles VLA

À lire aussi

SAFE-Pruner : élagage de tokens guidé par l'attention sémantique pour les modèles VLA en manipulation robotique

CodeGraphVLP : code comme planificateur et graphe sémantique d'état pour les modèles VLA non-markoviens

Modèles vision-langage-action (VLA) : retours d'expérience sur une plateforme UR5 réelle

RePO-VLA : l'optimisation de politique guidée par la récupération pour les modèles vision-langage-action (VLA)