Estimation de la pose 6-DOF d'un objet à partir d'un seul contact tactile
Une équipe de recherche publie sur arXiv (réf. 2606.28899) YOTO, pour "You Only Touch Once", un système d'estimation de pose 6-DoF fondé exclusivement sur le toucher. Contrairement aux approches visuelles classiques, YOTO reconstruit la position et l'orientation complète d'un objet à partir d'une seule paire de contacts tactiles simultanés, sans nécessiter d'historique de manipulation. Chaque contact est modélisé comme un nuage de points 3D local, puis localisé sur la surface de l'objet par un réseau coarse-to-fine. Les deux contacts localisés, combinés aux poses calibrées des capteurs, alimentent un solveur SVD en forme fermée, conscient des normales de surface, qui restitue la pose 6-DoF en une seule passe. Le réseau est préentraîné sur des patches tactiles virtuels générés depuis le modèle 3D de l'objet, puis affiné avec un petit nombre de contacts réels, réduisant significativement les besoins en données terrain. Les expériences portent sur quatre objets aux géométries variées avec des capteurs GelSight, et incluent une évaluation comparative entre reconstructions issues de scans mobiles grand public et modèles CAO de référence.
Ce travail s'attaque à un angle mort bien documenté de la manipulation robotique : les méthodes visuelles de pose estimation échouent systématiquement en cas d'occlusion, d'éclairage défavorable, ou face à des surfaces réfléchissantes et transparentes, conditions courantes en environnement industriel réel. L'approche à contact unique sans historique constitue un avantage pratique majeur, car elle élimine les séquences d'exploration multi-contacts et s'intègre dans des boucles de manipulation courtes. YOTO surpasse les baselines visuelles et géométriques testées dans les scénarios où la perception visuelle est dégradée. La compatibilité avec des scans mobiles plutôt que des modèles CAO précis abaisse la barrière d'intégration pour des objets non catalogués, un point non négligeable pour les intégrateurs industriels.
L'estimation de pose par capteurs tactiles de type GelSight est un axe de recherche actif depuis les travaux pionniers du MIT et de l'entreprise éponyme GelSight Inc. Les méthodes antérieures nécessitaient généralement plusieurs contacts successifs ou un historique de manipulation pour converger ; YOTO rompt avec cette contrainte. Sur le plan compétitif, les pipelines visuels basés sur des modèles de fondation (MegaPose, FoundPose, benchmarks BOP) restent dominants en conditions nominales, mais leur robustesse aux surfaces dégradées est limitée, c'est précisément là que le toucher devient complémentaire. Le code, les modèles entraînés et le jeu de données GelSight seront publiés à l'acceptation de l'article. À ce stade, il s'agit d'un preprint arXiv sans déploiement annoncé ni partenaire industriel identifié.
Dans nos dossiers




