
Apprentissage de correspondances fines par perception croisée pour l'estimation de pose 6D à vocabulaire ouvert
Des chercheurs ont publié sur arXiv (arXiv:2601.13565, janvier 2026) un framework baptisé FiCoP (Fine-grained Correspondence Pose Estimation) pour l'estimation de pose 6D en vocabulaire ouvert, soit la capacité d'un robot à localiser et orienter dans l'espace des objets arbitraires et inconnus guidé uniquement par du langage naturel. L'approche repose sur deux modules complémentaires : un module CPGP (Cross-Perspective Global Perception) qui fusionne des vues duales de l'objet pour établir un consensus structurel via raisonnement contextuel et injection sémantique texte-guidée, et un Patch Correlation Predictor (PCP) qui génère une carte d'association bloc-à-bloc servant de filtre spatial pour forcer une correspondance fine et robuste au bruit de fond. Sur les benchmarks REAL275 et Toyota-Light, FiCoP améliore le taux de rappel moyen de 8,0 % et 6,1 % respectivement par rapport à l'état de l'art. Le code sera rendu public sur GitHub (zjjqinyu/FiCoP).
Le problème central que FiCoP résout est la confusion entre l'objet cible et les distracteurs de fond lors du matching global non contraint, défaut structurel des approches existantes qui tentent d'associer des features d'ancrage à l'intégralité de l'image requête. En passant à une correspondance par patches spatialement contrainte, après isolation préalable de la région d'intérêt via un disentanglement objet-centrique, FiCoP réduit l'ambiguité sans sacrifier la généralisation à des objets inconnus. Pour les intégrateurs et les équipes de manipulation industrielle, cela ouvre la voie à des systèmes de pick-and-place pilotés par description textuelle, sans pipeline d'entraînement objet-spécifique, gain significatif pour les applications à haute variété de SKUs.
FiCoP s'inscrit dans la famille des méthodes de correspondance 2D-3D sans modèle CAD, en compétition directe avec GigaPose, FoundPose ou les pipelines VLA intégrant la perception 3D en aval. Les benchmarks utilisés, REAL275 et Toyota-Light, restent des environnements de table contrôlés, ce qui laisse entière la question du sim-to-real gap pour un déploiement industriel réel. À noter : les résultats ne sont pas comparés aux datasets adversariaux du BOP Challenge 2024, ce qui tempère la portée des gains annoncés. La mise à disposition du code devrait permettre une validation communautaire rapide sur des configurations plus adversariales.
Dans nos dossiers




