
Attention par transport optimal spatio-temporel pour l'apprentissage par imitation visuo-tactile de manipulations avec contact
Des chercheurs ont soumis sur arXiv SO-TA (Spacetime Optimal-Transport Attention, réf. 2605.20433), une architecture d'apprentissage par imitation pour la manipulation robotique à contact serré, validée sur trois tâches : insertion peg-in-hole à faible jeu, emmanchement de connecteurs BCM et effacement de marquages sur surfaces courbes. SO-TA fusionne trois modalités en simultané (vision, force/couple F/T et proprioception) via un mécanisme d'attention fondé sur le transport optimal (OT) à entropie régularisée, remplaçant l'attention softmax classique. Les contraintes marginales OT distribuent les masses d'attention entre patches visuels et sous-requêtes dérivées des données force-pose, agissant comme biais inductif structuré pour les phases de contact. La politique de contrôle est un modèle de diffusion séquentiel mappant des fenêtres d'observation en séquences d'actions de pose. Évaluée sur robot réel avec environ 200 trajectoires par condition, SO-TA atteint 100 % de succès sur le peg-in-hole serré (contre 93 % pour l'attention croisée classique) et maintient 82,5 % de succès sous perturbations réalistes (éclairage variable, distracteurs, occlusion partielle), là où une baseline par concaténation chute à 43,5 %.
L'écart 82,5 % contre 43,5 % sous perturbations est le résultat structurant pour les intégrateurs industriels : il signifie qu'une politique de manipulation reste opérationnelle dans un atelier aux conditions fluctuantes, sans recalibration constante. L'usage du transport optimal impose une répartition spatiale contrôlée de l'attention, évitant la dispersion caractéristique des softmax sur des scènes encombrées. Pour la recherche, 200 rollouts suffisent à valider l'approche, soulignant l'efficacité des biais inductifs structurés face à la rareté des données de démonstration. La fusion tri-modale confirme qu'aucune modalité seule ne suffit pour piloter les phases de contact à fortes contraintes cinématiques, argument clé dans le débat sim-to-real des politiques VLA (Vision-Language-Action).
La manipulation par contact représente un verrou historique du contrôle robotique, où les incertitudes géométriques et les dynamiques de frottement ont longtemps limité les méthodes analytiques. L'imitation learning bi-modale (vision + force) s'est développée depuis le début des années 2020, sans mécanisme d'attention dédié au contact discontinu. SO-TA s'inscrit dans un espace concurrentiel dense : ACT et Diffusion Policy (UMass/MIT) dominent les benchmarks de manipulation fine depuis 2023, et Physical Intelligence (Pi-0) explore la fusion multimodale à plus grande échelle. En Europe, des équipes comme celles de l'INRIA et du DLR travaillent sur des problématiques voisines. La prochaine étape logique serait de valider SO-TA sur un éventail plus large de tâches industrielles, avec des volumes de données plus importants pour confirmer la tenue à l'échelle.
Les équipes de l'INRIA et du DLR, actives sur la manipulation à contact, peuvent s'appuyer sur SO-TA comme référence méthodologique pour leurs propres architectures d'imitation learning multimodale.
Dans nos dossiers




