Aller au contenu principal
Des correspondances locales aux masques globaux : détection et segmentation d'instances guidées par gabarit en monde ouvert
RecherchearXiv cs.RO6sem

Des correspondances locales aux masques globaux : détection et segmentation d'instances guidées par gabarit en monde ouvert

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Des chercheurs ont publié sur arXiv (référence 2503.03577v2) L2G-Det, un cadre de détection d'instances par correspondance locale-vers-globale, conçu pour localiser et segmenter des objets spécifiques dans des scènes encombrées et inédites, à partir d'un petit ensemble d'images de référence (templates). L'approche repose sur une mise en correspondance dense au niveau des patches entre les images-templates et l'image requête, sans recourir à la génération explicite de propositions de régions. Les points candidats issus de ces correspondances locales sont filtrés par un module de sélection qui supprime les faux positifs, puis injectés comme tokens d'instance dans une version augmentée du modèle SAM (Segment Anything Model de Meta), afin de reconstruire des masques d'instances complets. Les expériences menées dans des conditions open-world difficiles montrent des performances supérieures aux méthodes à base de propositions. Aucun chiffre précis de gains n'est communiqué dans le résumé, ce qui limite l'évaluation indépendante à ce stade.

L'enjeu est significatif pour la perception robotique industrielle : la capacité à identifier et segmenter un objet précis depuis quelques images de référence, sans réentraînement, est un verrou majeur pour les robots de manipulation en environnements non structurés. Les approches à base de propositions (comme Mask R-CNN ou ses dérivés) échouent fréquemment sous occlusion partielle ou en présence de fond complexe, deux conditions omniprésentes en atelier ou en logistique. En contournant ce paradigme, L2G-Det ouvre une voie vers des systèmes de vision zéro-shot plus robustes, directement exploitables dans des scénarios de bin-picking, d'inspection qualité ou de dépalettisation sans calibration intensive.

La détection d'instances guidée par template s'inscrit dans un effort plus large de la communauté vision-robotique pour réduire le fossé entre environnements contrôlés et déploiements réels. SAM, publié par Meta en 2023, est devenu une brique de référence pour la segmentation généraliste, et son intégration dans des pipelines spécialisés se multiplie. Les méthodes concurrentes incluent DINOv2-based matchers, OnePose++ pour la pose estimation, et les approches VLA (Vision-Language-Action) qui traitent le problème à un niveau d'abstraction plus élevé. La prochaine étape naturelle pour L2G-Det sera une évaluation quantitative rigoureuse sur des benchmarks standardisés comme BOP Challenge ou YCB-Video, et un test en déploiement réel sur robot.

Dans nos dossiers

À lire aussi

Génération d'actions robotiques continues et cohérentes par correspondance de flux sensible aux fréquences
1arXiv cs.RO 

Génération d'actions robotiques continues et cohérentes par correspondance de flux sensible aux fréquences

Une équipe de recherche propose FAFM (Frequency-Aware Flow Matching), une méthode de génération d'actions robotiques présentée en préprint arXiv (2606.20135, juin 2026), qui reformule le problème du flow matching pour la manipulation robotique dans le domaine fréquentiel. Le principe : plutôt que de prédire directement des séquences d'actions discrètes (des "chunks"), FAFM applique une transformée en cosinus discrète (DCT) sur ces séquences pour les convertir en coefficients fréquentiels, effectue le flow matching sur ces coefficients, puis reconstruit des actions continues via expansion en base cosinus. Pour garantir la cohérence temporelle, la méthode ajoute une contrainte de type Sobolev sur la dérivée temporelle du premier ordre, ce qui pénalise les changements brusques et atténue les erreurs hautes fréquences. L'approche s'applique sans paramètres réseau supplémentaires, aussi bien aux politiques de flow matching autonomes qu'aux modèles vision-langage-action (VLA). Les résultats sont validés sur les benchmarks LapGym, LIBERO et évitement d'obstacles, ainsi qu'en déploiement réel sur un bras Franka. L'intérêt industriel est direct : la fragmentation des fréquences de contrôle est un problème concret lors de l'agrégation de données de démonstration provenant de robots différents (certains à 10 Hz, d'autres à 50 Hz), et les méthodes actuelles de diffusion policy ou de flow matching standard y sont explicitement vulnérables. Les actions temporellement incohérentes qui en résultent dégradent la stabilité du contrôle en boucle fermée, un facteur bloquant pour le déploiement en production. Le fait que FAFM améliore simultanément le taux de succès, la fluidité du mouvement, la robustesse aux biais mécaniques et la vitesse de convergence sans modifier l'architecture existante est une proposition de valeur claire pour les intégrateurs : pas de refonte du pipeline, pas de surcoût computationnel. La compatibilité avec les VLA est également notable, car ces modèles dominent les annonces récentes (pi-0 de Physical Intelligence, GR00T N2 de NVIDIA) et souffrent précisément de ce type d'artefacts temporels à l'inférence. Le flow matching s'est imposé ces dix-huit derniers mois comme alternative crédible à la diffusion policy (Chi et al., 2023, Columbia), avec des temps d'inférence plus courts et une meilleure expressivité multimodale. Les travaux récents de Physical Intelligence (pi-0, pi-0.5) et de Figure AI ont largement adopté ce paradigme pour leurs politiques générales. FAFM s'inscrit dans une tendance de raffinement de ces fondations plutôt que de rupture : on optimise la stabilité et la généralisation inter-fréquences, deux verrous identifiés lors des premiers déploiements industriels à grande échelle. La validation sur Franka reste modeste en termes de diversité de tâches, et le code est disponible sous revue anonyme, ce qui signifie que la méthode n'est pas encore auditée par la communauté. Les prochaines étapes naturelles seraient une validation sur des plateformes humanoïdes multi-articulées et sur des datasets hétérogènes à grande échelle, là où la question des fréquences mixtes est la plus aiguë.

RecherchePaper
1 source
Apprentissage de correspondances fines par perception croisée pour l'estimation de pose 6D à vocabulaire ouvert
2arXiv cs.RO 

Apprentissage de correspondances fines par perception croisée pour l'estimation de pose 6D à vocabulaire ouvert

Des chercheurs ont publié sur arXiv (arXiv:2601.13565, janvier 2026) un framework baptisé FiCoP (Fine-grained Correspondence Pose Estimation) pour l'estimation de pose 6D en vocabulaire ouvert, soit la capacité d'un robot à localiser et orienter dans l'espace des objets arbitraires et inconnus guidé uniquement par du langage naturel. L'approche repose sur deux modules complémentaires : un module CPGP (Cross-Perspective Global Perception) qui fusionne des vues duales de l'objet pour établir un consensus structurel via raisonnement contextuel et injection sémantique texte-guidée, et un Patch Correlation Predictor (PCP) qui génère une carte d'association bloc-à-bloc servant de filtre spatial pour forcer une correspondance fine et robuste au bruit de fond. Sur les benchmarks REAL275 et Toyota-Light, FiCoP améliore le taux de rappel moyen de 8,0 % et 6,1 % respectivement par rapport à l'état de l'art. Le code sera rendu public sur GitHub (zjjqinyu/FiCoP). Le problème central que FiCoP résout est la confusion entre l'objet cible et les distracteurs de fond lors du matching global non contraint, défaut structurel des approches existantes qui tentent d'associer des features d'ancrage à l'intégralité de l'image requête. En passant à une correspondance par patches spatialement contrainte, après isolation préalable de la région d'intérêt via un disentanglement objet-centrique, FiCoP réduit l'ambiguité sans sacrifier la généralisation à des objets inconnus. Pour les intégrateurs et les équipes de manipulation industrielle, cela ouvre la voie à des systèmes de pick-and-place pilotés par description textuelle, sans pipeline d'entraînement objet-spécifique, gain significatif pour les applications à haute variété de SKUs. FiCoP s'inscrit dans la famille des méthodes de correspondance 2D-3D sans modèle CAD, en compétition directe avec GigaPose, FoundPose ou les pipelines VLA intégrant la perception 3D en aval. Les benchmarks utilisés, REAL275 et Toyota-Light, restent des environnements de table contrôlés, ce qui laisse entière la question du sim-to-real gap pour un déploiement industriel réel. À noter : les résultats ne sont pas comparés aux datasets adversariaux du BOP Challenge 2024, ce qui tempère la portée des gains annoncés. La mise à disposition du code devrait permettre une validation communautaire rapide sur des configurations plus adversariales.

RecherchePaper
1 source
AffordGen : génération de démonstrations variées pour la manipulation d'objets généralisable par correspondance d'affordances
3arXiv cs.RO 

AffordGen : génération de démonstrations variées pour la manipulation d'objets généralisable par correspondance d'affordances

Des chercheurs présentent AffordGen, un framework conçu pour résoudre l'un des goulets d'étranglement centraux de l'apprentissage par imitation en robotique : la rareté et le manque de diversité géométrique des données d'entraînement. Le système combine des modèles génératifs 3D à grande échelle avec des vision foundation models (VFMs) pour produire automatiquement de nouvelles trajectoires de manipulation. Le mécanisme repose sur la correspondance sémantique de keypoints fonctionnels (les affordances) entre des maillages 3D issus de bibliothèques volumineuses : AffordGen localise les points pertinents (prise, contact, pivot) sur un objet de référence, puis les transpose à de nouvelles géométries pour générer des démonstrations synthétiques variées. Ce dataset affordance-aware entraîne ensuite une politique visuomotrice en boucle fermée qui combine généralisation sémantique et robustesse réactive de l'apprentissage de bout en bout. Des expériences en simulation et dans le monde réel rapportent des taux de réussite élevés et, surtout, une capacité de généralisation zero-shot à des objets réellement inédits lors de l'entraînement. L'enjeu industriel est direct. Collecter manuellement des démonstrations robotiques reste coûteux, lent et difficile à diversifier sur des variantes géométriques d'objets. AffordGen génère cette diversité de façon programmatique, sans requérir de téléopération supplémentaire. La généralisation zero-shot représente un indicateur fort de viabilité en déploiement réel, car les environnements industriels exposent en permanence des objets non anticipés. Le fait que la politique reste en boucle fermée la distingue des approches open-loop souvent fragiles hors laboratoire. Ces résultats renforcent l'hypothèse que le "data gap" de la manipulation peut être partiellement comblé par génération synthétique, à condition que les affordances soient correctement modélisées, ce que les auteurs n'ont toutefois démontré que sur un périmètre de tâches restreint. AffordGen s'inscrit dans un courant de recherche visant à augmenter les données de manipulation sans démonstrations humaines massives, aux côtés de MimicGen (NVIDIA), RoboAgent ou RoboGen. La diffusion policy et ACT (Action Chunking Transformer) ont démontré la puissance de l'imitation learning conditionnée à un volume de données suffisant ; AffordGen attaque précisément ce prérequis amont. Le papier est disponible sur arXiv (arXiv:2604.10579v2, version mise à jour). Les prochaines étapes naturelles concernent la scalabilité sur des tâches de manipulation multi-étapes et l'intégration dans des stacks industrielles telles que celles de 1X Technologies, Boston Dynamics ou Apptronik, qui restent tributaires de la diversité des données pour déployer des politiques robustes hors des environnements contrôlés.

RecherchePaper
1 source
CompassAD : localisation d'affordance 3D guidée par l'intention parmi des objets fonctionnellement concurrents
4arXiv cs.RO 

CompassAD : localisation d'affordance 3D guidée par l'intention parmi des objets fonctionnellement concurrents

Des chercheurs proposent CompassAD, un benchmark et une architecture (CompassNet) pour adresser un angle mort des systèmes robotiques actuels : choisir le bon objet parmi plusieurs qui partagent la même affordance. Le cas prototype est simple : face à l'instruction "coupe le gâteau", un robot doit identifier le couteau plutôt que des ciseaux posés à côté, bien que les deux permettent de couper. Le benchmark comprend 30 paires d'objets confusables, 16 types d'affordances, 6 422 compositions de scènes et plus de 88 000 paires requête-réponse. CompassNet repose sur deux modules : l'Instance-bounded Cross Injection (ICI), qui confine l'alignement langage-géométrie aux limites de chaque instance d'objet pour éviter toute fuite sémantique entre objets voisins, et le Bi-level Contrastive Refinement (BCR), qui renforce la discrimination entre surfaces cibles et confusables à deux niveaux de granularité. Le système produit un masque d'affordance point-par-point sur le bon objet dans un nuage de points multi-objets, conditionné par une instruction en langage naturel implicite. Une validation sur bras manipulateur réel est présentée comme preuve de transfert physique. L'intérêt est que la quasi-totalité des méthodes d'affordance 3D existantes évaluent des objets isolés avec le nom de catégorie fourni explicitement dans la requête. CompassAD impose une contrainte plus proche du déploiement réel : une intention formulée en langage naturel, sans étiquette d'objet prédéfinie. Pour un intégrateur ou un décideur industriel, cela vise des systèmes capables de raisonner sur le contexte de tâche sans pipeline de labellisation rigide. La nuance s'impose cependant : 30 paires d'objets et un environnement de laboratoire constituent une base étroite. La robustesse en scènes industrielles denses, avec occlusions et objets multiples non contrôlés, reste à démontrer. L'affordance grounding en robotique s'est structuré autour de travaux comme Where2Act (2021) ou LASO, qui opèrent sur objets isolés avec requêtes explicites. Les architectures vision-langage-action (VLA) des grands labos comme DeepMind, Meta ou Stanford intègrent progressivement la résolution d'ambiguïtés contextuelles, mais sans benchmark dédié aux scènes multi-objets confusables. CompassAD comble en partie ce vide méthodologique. La publication, déposée sur arXiv (2604.02060v2) en version révisée, n'implique pas d'acteur industriel ou FR/EU visible. Les prochaines étapes logiques seraient une extension à des scènes plus denses et une évaluation sur plateformes mobiles manipulatrices, au-delà du bras fixe utilisé dans les expériences publiées.

RecherchePaper
1 source