ATRS : découpage adaptatif de trajectoires via…

PAPO-VLA : une optimisation de politique adaptée à la planification pour les modèles vision-langage-action

41

1arXiv cs.RO

PAPO-VLA : une optimisation de politique adaptée à la planification pour les modèles vision-langage-action

Des chercheurs ont publié en mai 2026 sur arXiv (2605.19580) PAPO-VLA, une méthode d'optimisation pour les modèles Vision-Language-Action (VLA) appliqués à la manipulation robotique guidée par le langage naturel. L'observation centrale est qu'une politique VLA opère en boucle fermée : chaque action modifie l'état de la scène et conditionne toutes les décisions suivantes, ce qui rend une erreur de planification particulièrement coûteuse. Les auteurs distinguent donc deux rôles dans une politique VLA : le planificateur, qui prend des décisions orientées tâche susceptibles de rediriger l'exécution, et l'exécuteur, qui les traduit en actions continues denses. PAPO-VLA identifie les "actions de planification" en croisant variation d'action et issue de trajectoire, estime leur importance causale via deux critères formels (suffisance et nécessité causales), puis intègre ces poids dans l'estimation d'avantage du GRPO (Group Relative Policy Optimization), de sorte que les moments critiques reçoivent une emphase d'optimisation plus forte sans abandonner le signal de trajectoire globale. Des améliorations sont rapportées sur plusieurs benchmarks de manipulation robotique, sans chiffres précis disponibles dans le résumé public. L'apport clé est de combler un angle mort des approches existantes : l'imitation de trajectoires et l'optimisation par retour de trajectoire entière traitent toutes les actions avec la même importance, alors que certains instants de décision ont un impact causal disproportionné sur le succès de la tâche. Quantifier cet impact via des métriques causales formelles plutôt qu'heuristiques est une avancée méthodologique notable. Pour les équipes déployant des VLA en environnement réel, sur des plateformes comme pi-0 (Physical Intelligence), OpenVLA (Berkeley) ou GR00T N2 (NVIDIA), la méthode promet d'améliorer la fiabilité sans données de démonstration supplémentaires. Depuis RT-2 (Google DeepMind, 2023), le secteur des VLA cherche à combler l'écart entre performance en démonstration contrôlée et robustesse en déploiement réel. Le GRPO, popularisé par DeepSeek-R1 pour le raisonnement en LLM, est ici adapté à la robotique via une pondération causale des actions, dans un axe de recherche croissant autour du renforcement causal appliqué aux robots. PAPO-VLA est un preprint non encore revu par les pairs ; la validation expérimentale complète, avec benchmarks précis et comparaisons contrôlées, reste à confirmer via publication.

RechercheOpinion

1 source

PISTO : inférence proximale pour l'optimisation stochastique de trajectoires

39

2arXiv cs.RO

PISTO : inférence proximale pour l'optimisation stochastique de trajectoires

Des chercheurs ont publié sur arXiv (arXiv:2605.07215) un algorithme de planification de trajectoires robotiques appelé PISTO (Proximal Inference for Stochastic Trajectory Optimization). Leur contribution centrale est de démontrer que STOMP, méthode stochastique classique, minimise implicitement une divergence KL par rapport à une distribution de trajectoires de Boltzmann, révélant une structure d'inférence variationnelle (VI) sous-jacente. PISTO exploite cette observation en ajoutant une régularisation KL entre propositions gaussiennes successives, ce qui stabilise les mises à jour et produit une interprétation de type trust-region. L'algorithme reste entièrement sans dérivées et s'appuie sur un échantillonnage Monte Carlo à pondération d'importance. Sur les benchmarks de planification de bras robotiques, PISTO atteint 89 % de taux de succès contre 63 % pour CHOMP et 68 % pour STOMP, tout en générant des trajectoires plus courtes et plus lisses, à deux fois la vitesse des méthodes stochastiques concurrentes. Des validations complémentaires sur des tâches de locomotion et manipulation contact-rich en simulation MuJoCo montrent des performances supérieures aux baselines CEM et MPPI en termes de récompense cumulée. Pour les intégrateurs et ingénieurs en planification de mouvement, l'absence totale de dérivées est une caractéristique décisive : elle permet de traiter des fonctions de coût non-différentiables ou discontinues, fréquentes dans les environnements industriels réels (détection de collisions, zones interdites, contraintes non paramétriques). Le gain de vitesse d'un facteur deux par rapport aux méthodes stochastiques existantes réduit directement les temps de cycle dans les applications de planification en ligne, point critique pour la robotique collaborative et les systèmes pick-and-place haute cadence. La validation sur MuJoCo avec contacts ouvre des perspectives vers la locomotion humanoïde et la manipulation dextre, bien que ces résultats restent pour l'instant entièrement simulés, sans validation sur matériel physique. PISTO s'inscrit dans la lignée de STOMP (développé chez Willow Garage et présenté à l'ICRA 2011) et de ses concurrents gradient-based tels que CHOMP, ainsi que des méthodes stochastiques modernes MPPI (popularisé par NVIDIA en 2017) et CEM. Soumis comme preprint arXiv sans révision par les pairs à ce stade, l'article n'annonce ni déploiement industriel ni partenariat commercial. Son impact pratique dépendra de la mise à disposition du code source et de validations expérimentales sur robot réel, étapes absentes de la publication actuelle.

RecherchePaper

1 source

Une démonstration vaut mille trajectoires : augmentation vue-action pour les politiques visuomotrices

42

3arXiv cs.RO

Une démonstration vaut mille trajectoires : augmentation vue-action pour les politiques visuomotrices

Une équipe de chercheurs a publié en juin 2026 (arXiv:2606.19586) un cadre d'augmentation de données baptisé Action-View Augmentation, conçu pour améliorer la robustesse des politiques visuomotrices dans les tâches de manipulation robotique. Le système repose sur un préhenseur parallèle portable équipé d'une unique caméra fisheye montée en configuration eye-in-hand, capable de capturer des démonstrations réelles en milieu non contrôlé. À partir d'une seule démonstration humaine, le framework génère automatiquement des séquences d'images fisheye visuellement réalistes ainsi que des trajectoires d'actions physiquement cohérentes. Pour reconstruire et éditer la scène 3D en y introduisant des objets inédits, les auteurs ont développé une nouvelle formulation de Gaussian Splatting adaptée aux champs de vision larges des optiques fisheye. Une optimisation de trajectoire produit ensuite des chemins fluides, sans collision et compatibles avec le rendu de nouvelles vues caméra. Les expériences menées en simulation et en environnement réel montrent une amélioration du taux de succès sur plusieurs tâches de manipulation, aussi bien dans des scènes identiques qu'en présence d'obstacles requérant un évitement de collision. L'enjeu central est la fragilité des politiques visuomotrices actuelles face aux observations hors-distribution : une légère variation de configuration initiale ou un obstacle imprévu suffit à provoquer un échec d'exécution catastrophique. Collecter suffisamment de données pour couvrir ces variations est coûteux et chronophage, ce qui constitue l'un des principaux freins à l'industrialisation de la manipulation robotique. Le titre du papier résume l'ambition : multiplier artificiellement la valeur d'une seule démonstration réelle pour entraîner des politiques plus robustes. L'adaptation du Gaussian Splatting aux optiques fisheye, jusqu'ici peu traitée dans la littérature robotique, élargit le champ d'application à des setups matériels légers et peu coûteux. Ce type d'approche répond directement au problème du sim-to-real gap en générant des données synthétiques ancrées dans une scène réelle reconstruite, plutôt qu'en simulateurs déconnectés du terrain. Ce travail s'inscrit dans la dynamique des politiques de manipulation end-to-end, où des systèmes comme pi-0 de Physical Intelligence ou les architectures à diffusion (Diffusion Policy, ACT) ont prouvé que l'imitation de démonstrations humaines peut générer des comportements complexes, mais restent gourmands en données. Le Gaussian Splatting, popularisé à partir de 2023, s'est progressivement imposé en robotique grâce à sa capacité à synthétiser des vues nouvelles de haute qualité à partir de captures réelles. L'approche eye-in-hand à caméra fisheye se distingue des setups multi-capteurs fixes, réduisant le matériel embarqué à un seul composant. Aucun déploiement industriel n'est annoncé à ce stade : il s'agit exclusivement d'un résultat académique, sans partenariat industriel déclaré ni timeline commerciale. Les prochaines étapes naturelles concerneraient l'évaluation à plus grande échelle et l'intégration dans des pipelines de fine-tuning pour des politiques de type VLA (Vision-Language-Action).

RecherchePaper

1 source

Robotique forestière : optimisation stochastique de trajectoire sous contraintes pour une grue forestière optimale en temps

43

4arXiv cs.RO

Robotique forestière : optimisation stochastique de trajectoire sous contraintes pour une grue forestière optimale en temps

Des chercheurs présentent TSC-VP-STO, une extension de l'algorithme VP-STO (Via-Point-based Stochastic Trajectory Optimization) destinée à la planification de trajectoires pour les grues forestières autonomes. Le problème initial de VP-STO est qu'il impose une configuration articulaire terminale fixe, définie avant même l'optimisation, ce qui limite l'exploitation de la redondance cinématique propre à ces bras manipulateurs à plusieurs degrés de liberté (DOF). TSC-VP-STO remplace cette contrainte rigide par une contrainte dans l'espace de la tâche, permettant d'optimiser conjointement la trajectoire et les degrés de liberté redondants de la posture finale. Les auteurs formalisent l'approche via une décomposition de l'espace de configuration et une contrainte d'atteignabilité spécifique à la cinématique des grues forestières. Les essais, menés sur plusieurs cibles de planification et configurations de points de passage, montrent une réduction de 12 à 15% de la durée des trajectoires en moyenne par rapport à VP-STO, avec une meilleure répartition de l'utilisation du débit hydraulique. La méthode a été validée en conditions réelles sur une grue forestière, incluant un cycle complet de chargement de grumes. L'enjeu dépasse le seul cas des grues forestières: il touche à l'automatisation de tout manipulateur hydraulique cinématiquement redondant soumis à des contraintes de débit de pompe non linéaires et globalement couplées, un problème classique en robotique industrielle lourde (foresterie, BTP, manutention). Optimiser la posture terminale plutôt que de la figer permet de mieux équilibrer la demande hydraulique entre articulations, un gain concret pour les intégrateurs cherchant à réduire les temps de cycle sans changer le matériel. La validation sur machine réelle, et pas seulement en simulation, renforce la crédibilité des gains annoncés, un point que les décideurs industriels scrutent généralement avec prudence face aux démonstrations purement simulées. Ce travail s'inscrit dans la continuité de VP-STO, déjà présenté comme quasi temps-optimal pour la planification hybride de grues forestières, et prolonge une littérature plus large sur l'optimisation stochastique de trajectoires sous contraintes robotiques. Publié comme prépublication arXiv, il reste à ce stade un résultat de recherche appliquée plutôt qu'un produit commercialisé, mais son déploiement réel sur une grue en exploitation forestière constitue une étape notable vers une adoption industrielle.

UECette optimisation profite potentiellement aux integrateurs robotiques europeens du secteur forestier et de la manutention lourde (Scandinavie, BTP), sans acteur francais ou europeen explicitement cite dans l'article.

RecherchePaper

1 source

ATRS : découpage adaptatif de trajectoires via une politique neuronale partagée pour l'optimisation parallèle

À lire aussi

PAPO-VLA : une optimisation de politique adaptée à la planification pour les modèles vision-langage-action

PISTO : inférence proximale pour l'optimisation stochastique de trajectoires

Une démonstration vaut mille trajectoires : augmentation vue-action pour les politiques visuomotrices

Robotique forestière : optimisation stochastique de trajectoire sous contraintes pour une grue forestière optimale en temps