Aller au contenu principal
TRACE : mémoire causale guidée par trajectoire pour l'imitation visuomotrice à indices différés
RecherchearXiv cs.RO2h

TRACE : mémoire causale guidée par trajectoire pour l'imitation visuomotrice à indices différés

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

TRACE (TRAjectory-routed Causal Evidence) est un framework mémoire pour les politiques visuomotrices d'imitation, présenté dans un preprint arXiv publié en juin 2026 (arXiv:2606.14551) par une équipe de l'Université Zhejiang. Le problème central : lorsqu'un robot opère en autonomie sur une séquence longue, certains indices visuels critiques (couleur d'un objet, panneau de direction, marquage au sol) disparaissent du champ de vision avant que la décision correspondante doive être prise. Ces situations dites de "preuve différée" (delayed-evidence) créent une ambiguïté directe : deux observations visuellement identiques peuvent exiger des actions opposées selon ce que le robot a perçu plus tôt. TRACE y répond en maintenant une mémoire latente de taille fixe, indexée non par le temps brut ni par des étiquettes de tâche fournies manuellement, mais par des "signatures de trajectoire" (path signatures), des descripteurs compacts et ordonnés de la trajectoire d'état cinématique du robot. Ces signatures servent de clés pour écrire et récupérer les preuves visuelles stockées au moment où l'indice était encore visible. Le système s'intègre via des adaptateurs légers sans modifier le backbone, la tête d'action ni l'objectif d'imitation.

L'enjeu pratique est réel pour les systèmes de manipulation longue durée. La quasi-totalité des politiques visuomotrices actuelles, qu'elles soient basées sur des Diffusion Policies, des transformers ou des modèles VLA (Vision-Language-Action), supposent implicitement que l'observation courante constitue un état suffisant pour le contrôle. TRACE démontre expérimentalement, sur des tâches réelles de manipulation avec des points de branchement visuellement ambigus, que cette hypothèse échoue dès qu'une décision dépend d'un indice passé. Les résultats surpassent les baselines concurrentes, dont les politiques à historique court et les mémoires récurrentes classiques (LSTM, GRU), sur deux métriques : sélection correcte de branche et taux de succès global. La mémoire à taille bornée évite par ailleurs l'accumulation qui pénalise les architectures à attention sur contexte long lors d'épisodes étendus.

Ce travail s'inscrit dans un débat actif sur la mémoire épisodique pour robots manipulateurs. Les approches existantes incluent les RNN embarquées dans la politique, les mécanismes d'attention sur l'historique visuel exploités dans RT-2 et pi-0 (Physical Intelligence), et les Memory-Augmented Neural Networks. TRACE se distingue par son découplage entre l'indice visuel (stocké comme vecteur latent) et la clé de récupération (signature cinématique pure), ce qui le rend robuste aux variations d'apparence tout en restant sensible au chemin parcouru. Il s'agit d'une contribution de recherche fondamentale sans déploiement industriel annoncé ; les suites naturelles incluent l'intégration à des politiques de référence comme ACT ou Diffusion Policy, et la validation sur des horizons plus longs en environnement non structuré.

À lire aussi

Apprentissage de politiques visuomotrices robustes par correspondance de flux à trajectoires cohérentes
1arXiv cs.RO 

Apprentissage de politiques visuomotrices robustes par correspondance de flux à trajectoires cohérentes

Une équipe de recherche publie sur arXiv (arXiv:2605.08511, mai 2026) une méthode pour corriger un défaut structurel des politiques de type flow matching appliquées à la manipulation robotique. Ces architectures apprennent des champs de vitesse continus pour convertir du bruit en séquences d'actions, permettant une inférence déterministe rapide. Le problème identifié est un écart fondamental entre entraînement et inférence : l'objectif d'entraînement optimise une vitesse ponctuelle, tandis que l'inférence requiert l'intégration numérique de ce champ sur une trajectoire complète. Les erreurs s'accumulent et dégradent les performances. La méthode proposée, baptisée TC-Flow, associe quatre correctifs complémentaires : une régression de vitesse par rectified flow auxiliaire pour une supervision uniforme sur l'intervalle temporel, un entraînement par cohérence de trajectoire multi-étapes qui supervise directement le déplacement intégré, une régularisation du champ de vitesse pour forcer la continuité temporelle, et un intégrateur de Runge-Kutta d'ordre 4 (RK4) à l'inférence pour réduire l'erreur de discrétisation. Un encodeur de nuage de points 3D à double vue, basé sur deux PointNet indépendants, complète l'architecture. Validée sur un bras Franka et un robot quadrupède Boston Dynamics Spot, la méthode atteint 70 % et 60 % de succès sur deux tâches longue-horizon multi-phases où les deux baselines de référence stagnent à 0 %, et 100 % sur une tâche de placement d'outil de précision. Trois tâches de simulation MetaWorld confirment les gains. Ce résultat est significatif pour les équipes qui développent des VLAs (vision-language-action) basées sur le flow matching : il démontre que le sim-to-real gap et l'échec sur les tâches longue-horizon ne viennent pas nécessairement de la représentation sensorielle ou de la politique en elle-même, mais du désalignement train-inférence. Le passage de 0 % à 60-70 % sur les mêmes tâches en corrigeant uniquement cet écart est un signal fort. L'ablation confirme que les quatre composants sont nécessaires en synergie : RK4 seul sans champ lisse échoue, et la régularisation sans supervision trajectoire dérive quand même. Dans le contexte du marché, le flow matching pour la robotique a été popularisé par Physical Intelligence avec pi-0, qui domine aujourd'hui les benchmarks de manipulation généraliste, et par des travaux comme ACT ou Diffusion Policy. TC-Flow se positionne comme une correction algorithmique orthogonale, applicable à toute architecture flow matching existante. Il s'agit d'un preprint arXiv sans code public annoncé à ce stade, ni déploiement industriel. Les prochaines étapes naturelles seraient une validation sur des tâches bi-manuelles ou sur des plateformes humanoïdes, terrain où les erreurs cumulées de trajectoire sont particulièrement pénalisantes.

RechercheOpinion
1 source
PISTO : inférence proximale pour l'optimisation stochastique de trajectoires
2arXiv cs.RO 

PISTO : inférence proximale pour l'optimisation stochastique de trajectoires

Des chercheurs ont publié sur arXiv (arXiv:2605.07215) un algorithme de planification de trajectoires robotiques appelé PISTO (Proximal Inference for Stochastic Trajectory Optimization). Leur contribution centrale est de démontrer que STOMP, méthode stochastique classique, minimise implicitement une divergence KL par rapport à une distribution de trajectoires de Boltzmann, révélant une structure d'inférence variationnelle (VI) sous-jacente. PISTO exploite cette observation en ajoutant une régularisation KL entre propositions gaussiennes successives, ce qui stabilise les mises à jour et produit une interprétation de type trust-region. L'algorithme reste entièrement sans dérivées et s'appuie sur un échantillonnage Monte Carlo à pondération d'importance. Sur les benchmarks de planification de bras robotiques, PISTO atteint 89 % de taux de succès contre 63 % pour CHOMP et 68 % pour STOMP, tout en générant des trajectoires plus courtes et plus lisses, à deux fois la vitesse des méthodes stochastiques concurrentes. Des validations complémentaires sur des tâches de locomotion et manipulation contact-rich en simulation MuJoCo montrent des performances supérieures aux baselines CEM et MPPI en termes de récompense cumulée. Pour les intégrateurs et ingénieurs en planification de mouvement, l'absence totale de dérivées est une caractéristique décisive : elle permet de traiter des fonctions de coût non-différentiables ou discontinues, fréquentes dans les environnements industriels réels (détection de collisions, zones interdites, contraintes non paramétriques). Le gain de vitesse d'un facteur deux par rapport aux méthodes stochastiques existantes réduit directement les temps de cycle dans les applications de planification en ligne, point critique pour la robotique collaborative et les systèmes pick-and-place haute cadence. La validation sur MuJoCo avec contacts ouvre des perspectives vers la locomotion humanoïde et la manipulation dextre, bien que ces résultats restent pour l'instant entièrement simulés, sans validation sur matériel physique. PISTO s'inscrit dans la lignée de STOMP (développé chez Willow Garage et présenté à l'ICRA 2011) et de ses concurrents gradient-based tels que CHOMP, ainsi que des méthodes stochastiques modernes MPPI (popularisé par NVIDIA en 2017) et CEM. Soumis comme preprint arXiv sans révision par les pairs à ce stade, l'article n'annonce ni déploiement industriel ni partenariat commercial. Son impact pratique dépendra de la mise à disposition du code source et de validations expérimentales sur robot réel, étapes absentes de la publication actuelle.

RecherchePaper
1 source
Optimisation globale de trajectoire par échantillonnage pour la manipulation à contact riche via KernelSOS
3arXiv cs.RO 

Optimisation globale de trajectoire par échantillonnage pour la manipulation à contact riche via KernelSOS

Un groupe de chercheurs a publié le 27 avril 2026 sur arXiv (arXiv:2604.27175) une méthode d'optimisation de trajectoires baptisée Global-MPPI, dédiée aux tâches de manipulation dites "contact-rich", des scénarios où le robot entre en contact répété avec son environnement, comme pousser, assembler ou manipuler des objets en main. Le cadre combine deux niveaux : une exploration globale via optimisation kernel sum-of-squares (KernelSOS), suivie d'un raffinement local par la méthode MPPI (Model-Predictive Path Integral). Pour gérer la non-régularité des paysages d'optimisation liée aux dynamiques de contact hybrides, les auteurs introduisent un lissage progressif par log-sum-exp, qui fait évoluer le problème d'un objectif régularisé vers l'objectif non-lisse original. Les tests portent sur deux benchmarks haute dimension à horizon long : la tâche PushT et la manipulation dextère in-hand. Les résultats affichent une convergence plus rapide et des coûts finaux inférieurs aux méthodes de référence, mais uniquement en simulation. Le verrou résolu est structurel : sans mécanisme d'exploration globale, les méthodes par échantillonnage comme MPPI convergent facilement vers de mauvais minima locaux. Pour la manipulation contact-rich, composant critique des bras industriels, des mains robotiques et des humanoïdes, ce phénomène génère des trajectoires sous-optimales dans des environnements géométriquement complexes. L'approche KernelSOS apporte une garantie formelle de couverture de l'espace des solutions là où les variantes purement stochastiques de MPPI restent dépendantes de l'initialisation. La combinaison avec le lissage adaptatif traite directement les discontinuités de contact, qui rendent les méthodes de gradient classiques inapplicables. Le transfert sim-to-real n'est pas évalué dans ce travail, ce qui constitue la principale limite à ce stade. MPPI a été développé à Georgia Tech par Grady Williams et Evangelos Theodorou (2016-2018) et s'est imposé en MPC stochastique temps réel via des implémentations GPU massivement parallèles. L'optimisation sum-of-squares (SOS) est issue des travaux de Parrilo (MIT) et Lasserre (LAAS-CNRS, Toulouse). Global-MPPI constitue le premier cadre à combiner explicitement ces deux familles dans un pipeline de planification de manipulation. Sur le plan concurrentiel, l'approche se positionne face à la Cross-Entropy Method (CEM), aux planificateurs par diffusion comme Pi-0 de Physical Intelligence ou Diffusion Policy, ainsi qu'aux optimiseurs de trajectoires différentiables (Drake, trajopt). Ce preprint n'a pas encore été soumis à une conférence identifiée et aucun code public ni déploiement hardware n'est annoncé à ce stade.

UELes fondements SOS de cette méthode sont issus des travaux de Lasserre au LAAS-CNRS (Toulouse), mais le preprint n'implique aucune institution française ou européenne identifiée et reste sans impact opérationnel direct sur la France/UE à ce stade.

RecherchePaper
1 source
Attaques par redirection de trajectoire sur les modèles vision-langage-action (VLA)
4arXiv cs.RO 

Attaques par redirection de trajectoire sur les modèles vision-langage-action (VLA)

Des chercheurs ont publié le 12 juin 2026 un article (arXiv:2606.12978) introduisant une nouvelle classe d'attaques adversariales sur les politiques robotiques de type VLA (Vision-Language-Action), ces architectures qui combinent un modèle de langage, une vision par caméra et un contrôleur moteur pour exécuter des tâches de manipulation à partir d'instructions textuelles. L'attaque baptisée "command-preserving trajectory redirection" (redirection de trajectoire préservant la commande) consiste à modifier subtilement le prompt d'entrée de façon à ce qu'il reste visuellement et sémantiquement proche de l'instruction légitime, mais provoque un résultat physique entièrement différent. Le modèle de menace est strict : l'attaquant ne modifie ni les poids du modèle, ni l'environnement, il choisit un seul prompt avant l'épisode, et ce prompt reste dans la norme syntaxique de la commande originale, sans mots-cibles ni langage correctif. Les auteurs proposent une méthode de recherche "on-policy" qui exploite des rollouts réels du robot pour identifier les perturbations textuelles dont le comportement en boucle fermée dévie vers une tâche cible. Les expériences sont conduites en simulation et sur robot physique, confirmant le transfert de l'attaque au monde réel. Ce résultat est significatif pour les intégrateurs et les décideurs industriels qui évaluent l'adoption des VLA en production, notamment dans les contextes de manipulation collaborative ou d'assemblage. La vulnérabilité exploite une propriété structurelle des VLA en boucle fermée : le même prompt est réappliqué à chaque étape de re-planification, et chaque action conditionnée modifie les observations futures sur lesquelles la politique agit. Un prompt malveillant peut donc cumuler ses effets sur toute une trajectoire, là où les attaques précédentes se limitaient à des perturbations action-par-action ou à la persistance d'actions basses. Cela contredit implicitement l'hypothèse que la robustesse visuelle d'un VLA suffit à garantir son intégrité comportementale, et soulève des questions concrètes sur la validation de sécurité avant déploiement. Les modèles VLA sont au coeur de plusieurs développements récents : pi0 de Physical Intelligence, OpenVLA, RT-2 de Google DeepMind, ou encore les politiques embarquées sur les humanoïdes Figure et 1X. La recherche en sécurité adversariale sur ces architectures était jusqu'ici dominée par des attaques sur les observations visuelles ou sur les actions individuelles ; ce travail ouvre formellement le champ des attaques au niveau de l'instruction textuelle à horizon long. Les auteurs n'annoncent pas de correctif ni de contre-mesure validée, ce qui laisse ouverte la question de la robustification des pipelines VLA. Les prochaines étapes attendues dans la communauté concerneront vraisemblablement la détection de prompts adversariaux à la volée et l'évaluation de ce vecteur d'attaque sur des modèles déployés commercialement. Le site projet est accessible à l'adresse indiquée dans le papier.

RechercheOpinion
1 source