
MSACT : alignement spatial multi-étapes pour une manipulation fine, stable et à faible latence
Des chercheurs ont publié en mai 2026 sur arXiv (référence 2605.00475) MSACT, une architecture de contrôle pour la manipulation fine bimanuale à faible latence. Construit sur ACT (Action Chunking with Transformers), le système ajoute un module d'attention spatiale multistage qui extrait des points d'attention 2D stables depuis un encodeur visuel ResNet pré-entraîné, utilisés comme modalité spatiale locale pour la prédiction d'actions. Un objectif d'alignement temporel auto-supervisé compare les séquences d'attention prédites aux caractéristiques visuelles des images futures, réduisant la dérive de localisation sans annotations de points clés. Les expériences ont été conduites sur la plateforme bimanuale ALOHA, en conditions simulées et réelles, en évaluant le taux de succès, la dérive d'attention, la latence d'inférence et la robustesse aux perturbations visuelles.
MSACT s'attaque à un trilemme récurrent en robotique d'apprentissage : latence d'inférence basse, stabilité de localisation et efficacité en données sont rarement optimisées simultanément. Les politiques à diffusion (Diffusion Policy) gagnent en expressivité mais pâtissent d'une latence élevée due à l'échantillonnage itératif, incompatible avec le contrôle fin en temps réel. Les approches vision-langage-action (VLA) ou voxel offrent une meilleure généralisation géométrique mais exigent une puissance de calcul et une complexité système nettement supérieures. En greffant une supervision spatiale légère sur ACT, MSACT vise à rester déployable sur systèmes embarqués à ressources limitées. Les résultats annoncés montrent des améliorations en stabilité de localisation et en performance de tâche "dans les conditions testées", formulation prudente signalant que la généralisation reste à démontrer sur une gamme plus large de scénarios.
ALOHA, banc de test bimanual développé initialement à Stanford et popularisé par les travaux ACT de Zhao et al. (2023), est devenu une référence académique pour la manipulation fine apprise par imitation. La dérive de localisation sous données limitées reste un obstacle concret au déploiement industriel de bras robotiques appris par démonstration, notamment en assemblage ou conditionnement de précision. Côté compétitif, Physical Intelligence (pi0), Figure AI et 1X Technologies misent sur des architectures VLA plus lourdes visant une généralisabilité plus large ; MSACT propose une voie complémentaire, plus légère, pour les contextes où la latence est critique. Ce preprint n'a pas encore été soumis à revue par les pairs, et aucun déploiement ni partenariat industriel n'est annoncé à ce stade.
Dans nos dossiers




