Aller au contenu principal
Mémoire plutôt que cartes : localisation d'objets 3D sans reconstruction
RecherchearXiv cs.RO6sem

Mémoire plutôt que cartes : localisation d'objets 3D sans reconstruction

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Une équipe de chercheurs a publié sur arXiv (référence 2603.20530v2) une méthode de localisation d'objets pour robots mobiles qui abandonne complètement la construction de représentations 3D globales de l'environnement. Baptisée "Memory Over Maps", cette approche remplace les pipelines classiques (nuages de points, grilles de voxels, graphes de scènes) par une mémoire visuelle légère composée uniquement de trames RGB-D géolocalisées (keyframes avec profondeur et position de caméra). À l'exécution d'une requête, le système récupère les vues candidates pertinentes, les reclasse via un modèle vision-langage (VLM), puis reconstruit à la volée une estimation 3D locale de la cible par rétroprojection de profondeur et fusion multi-vues. Les auteurs rapportent, sur leurs benchmarks, une vitesse d'indexation de scène supérieure de plus de deux ordres de grandeur par rapport aux pipelines de reconstruction classiques, avec une empreinte mémoire significativement réduite.

Ce résultat remet en question une hypothèse structurante de la robotique d'intérieur : l'idée qu'une carte 3D dense et complète serait un prérequis indispensable à la navigation orientée objets. Si la méthode tient ses promesses à l'échelle, les intégrateurs de robots de service et les développeurs de systèmes de navigation autonome pourraient simplifier drastiquement leurs pipelines de mise en service, en supprimant la phase coûteuse de cartographie initiale. Le fait que le système n'exige aucun entraînement spécifique à la tâche (zero-shot sur les benchmarks testés) renforce son potentiel de généralisation, même si les conditions réelles d'un entrepôt ou d'un hôpital restent plus exigeantes que les environnements de benchmark contrôlés. Il faut noter que les métriques de performance présentées proviennent des propres expériences des auteurs, et que des évaluations indépendantes sur des scènes dynamiques ou encombrées manquent encore.

La localisation d'objets pour la navigation robotique est un problème central depuis les travaux fondateurs sur la SLAM (Simultaneous Localization and Mapping). Les approches modernes s'appuient de plus en plus sur des VLM pour raisonner directement sur des observations 2D, dans la lignée des travaux comme ConceptGraphs, OpenScene ou les architectures VLA (Vision-Language-Action) qui cherchent à court-circuiter la représentation explicite du monde. La méthode "Memory Over Maps" s'inscrit dans cette tendance de fond, en compétition directe avec des approches comme EmbodiedScan ou SQA3D. Les prochaines étapes attendues incluent des tests sur des scènes dynamiques, une évaluation sur des plateformes physiques (les résultats actuels sont validés en simulation et sur benchmarks standards), et une intégration avec des architectures de manipulation pour étendre la méthode au-delà de la navigation pure.

Dans nos dossiers

À lire aussi

AGILE : reconstruction des interactions main-objet à partir de vidéo par génération à base d'agents
1arXiv cs.RO 

AGILE : reconstruction des interactions main-objet à partir de vidéo par génération à base d'agents

Une équipe de chercheurs a présenté AGILE (arXiv:2602.04672v3), un framework de reconstruction d'interactions dynamiques main-objet à partir de vidéos monoculaires, ciblant deux applications majeures : la collecte de données pour la manipulation dextère en robotique et la création de jumeaux numériques pour la simulation et la réalité virtuelle. La méthode s'attaque à deux verrous techniques qui paralysent les approches existantes : d'une part, le rendu neuronal classique produit sous forte occultation des géométries fragmentées, inutilisables directement en simulation physique ; d'autre part, l'initialisation par Structure-from-Motion (SfM) est notoriellement fragile sur des vidéos captées en conditions réelles. AGILE bascule du paradigme de reconstruction vers ce que les auteurs appellent une "génération agentique" : un Vision-Language Model (VLM) pilote un modèle génératif pour synthétiser un mesh objet complet, fermé (watertight) et texturé haute fidélité, sans dépendre du contenu vidéo occulté. Une stratégie dite "anchor-and-track" initialise la pose de l'objet sur une unique frame d'interaction via un modèle fondation, puis propage cette pose temporellement en exploitant la similarité visuelle entre l'asset généré et les frames vidéo. Une optimisation finale dite contact-aware intègre des contraintes sémantiques, géométriques et de stabilité d'interaction pour garantir la plausibilité physique. Sur les benchmarks HO3D, DexYCB et ARCTIC, AGILE surpasse les baselines en précision géométrique globale. L'intérêt industriel de cette approche réside dans la production d'assets directement exploitables en simulation, une propriété validée par les auteurs via du retargeting real-to-sim pour des applications robotiques. C'est précisément le point de friction qui freinait l'adoption des pipelines de reconstruction vidéo dans les boucles d'entraînement de politiques de manipulation : les meshes obtenus par NeRF ou reconstruction multi-vues classique nécessitaient un travail de remaillage manuel avant d'être injectables dans un moteur physique comme MuJoCo ou Isaac Sim. En contournant le SfM, AGILE devient également utilisable sur des données de terrain non contrôlées, ce qui ouvre la voie à la collecte passive de démos humaines à grande échelle, un prérequis pour les approches VLA (Vision-Language-Action) qui peinent encore à obtenir suffisamment de trajectoires dextères annotées. Le problème de la reconstruction main-objet est étudié depuis plusieurs années, avec des datasets de référence comme HO-3D (2020) et DexYCB (2021), et des méthodes basées sur les modèles paramétriques MANO pour la main. L'originalité d'AGILE est de déporter la reconstruction de l'objet vers une génération guidée, plutôt que de l'estimer directement depuis le signal vidéo dégradé. Les concurrents directs sont les méthodes NeRF-based adaptées aux scènes dynamiques (D-NeRF, HO-NeRF) et les pipelines SfM+MVS classiques, tous sensibles aux occultations. Du côté des acteurs industriels, cette direction intéresse directement les équipes travaillant sur la télé-opération et l'imitation learning pour bras robotiques dextères, notamment chez Dexterous Robotics, Physical Intelligence (Pi) ou les labos académiques proches de Figure et Apptronik. Le projet dispose d'une page dédiée (agile-hoi.github.io) ; aucun code ni dataset supplémentaire n'est annoncé à ce stade.

RecherchePaper
1 source
CompassAD : localisation d'affordance 3D guidée par l'intention parmi des objets fonctionnellement concurrents
2arXiv cs.RO 

CompassAD : localisation d'affordance 3D guidée par l'intention parmi des objets fonctionnellement concurrents

Des chercheurs proposent CompassAD, un benchmark et une architecture (CompassNet) pour adresser un angle mort des systèmes robotiques actuels : choisir le bon objet parmi plusieurs qui partagent la même affordance. Le cas prototype est simple : face à l'instruction "coupe le gâteau", un robot doit identifier le couteau plutôt que des ciseaux posés à côté, bien que les deux permettent de couper. Le benchmark comprend 30 paires d'objets confusables, 16 types d'affordances, 6 422 compositions de scènes et plus de 88 000 paires requête-réponse. CompassNet repose sur deux modules : l'Instance-bounded Cross Injection (ICI), qui confine l'alignement langage-géométrie aux limites de chaque instance d'objet pour éviter toute fuite sémantique entre objets voisins, et le Bi-level Contrastive Refinement (BCR), qui renforce la discrimination entre surfaces cibles et confusables à deux niveaux de granularité. Le système produit un masque d'affordance point-par-point sur le bon objet dans un nuage de points multi-objets, conditionné par une instruction en langage naturel implicite. Une validation sur bras manipulateur réel est présentée comme preuve de transfert physique. L'intérêt est que la quasi-totalité des méthodes d'affordance 3D existantes évaluent des objets isolés avec le nom de catégorie fourni explicitement dans la requête. CompassAD impose une contrainte plus proche du déploiement réel : une intention formulée en langage naturel, sans étiquette d'objet prédéfinie. Pour un intégrateur ou un décideur industriel, cela vise des systèmes capables de raisonner sur le contexte de tâche sans pipeline de labellisation rigide. La nuance s'impose cependant : 30 paires d'objets et un environnement de laboratoire constituent une base étroite. La robustesse en scènes industrielles denses, avec occlusions et objets multiples non contrôlés, reste à démontrer. L'affordance grounding en robotique s'est structuré autour de travaux comme Where2Act (2021) ou LASO, qui opèrent sur objets isolés avec requêtes explicites. Les architectures vision-langage-action (VLA) des grands labos comme DeepMind, Meta ou Stanford intègrent progressivement la résolution d'ambiguïtés contextuelles, mais sans benchmark dédié aux scènes multi-objets confusables. CompassAD comble en partie ce vide méthodologique. La publication, déposée sur arXiv (2604.02060v2) en version révisée, n'implique pas d'acteur industriel ou FR/EU visible. Les prochaines étapes logiques seraient une extension à des scènes plus denses et une évaluation sur plateformes mobiles manipulatrices, au-delà du bras fixe utilisé dans les expériences publiées.

RecherchePaper
1 source
La fonction des objets plutôt que leur nature : espaces latents fonctionnels pour le raisonnement sur les affordances
3arXiv cs.RO 

La fonction des objets plutôt que leur nature : espaces latents fonctionnels pour le raisonnement sur les affordances

Une équipe de chercheurs présente A4D, un système de planification robotique qui raisonne sur ce que les objets permettent de faire plutôt que sur leur apparence visuelle. Publié sur arXiv (ref. 2606.05533), le système encode les observations visuelles dans un espace latent dit "fonctionnel", structuré autour d'affordances comme "déplaçable" ou "saisissable", au lieu de regrouper les objets par similitude visuelle. Les performances annoncées : 94 % de précision sur les affordances connues, soit plus de 15 points au-dessus des approches de l'état de l'art, une montée de 70 % à plus de 90 % de précision sur des affordances inédites avec moins de 10 % des données d'entraînement initiales, et une inférence 100 fois plus rapide. Un mécanisme de découverte automatique d'affordances permet au système de s'adapter aux scénarios non vus en étendant dynamiquement cet espace latent. Le problème que cible A4D est central en manipulation robotique : la généralisation à des objets nouveaux. Les systèmes actuels échouent dès qu'un robot rencontre un objet visuellement différent de ceux vus à l'entraînement, même si sa fonction est identique. Raisonner par fonction plutôt que par apparence permettrait aux robots industriels et de service de s'adapter sans cycle de réentraînement complet, ce qui représente un verrou majeur pour le déploiement en environnements non structurés. L'efficacité en données est ici particulièrement notable : atteindre 90 % de précision sur de nouvelles catégories avec moins de 10 % du dataset original réduit drastiquement le coût d'intégration pour un nouvel environnement de travail. Ces résultats restent toutefois issus d'évaluations de laboratoire, et la robustesse en conditions industrielles réelles n'est pas encore documentée. Le concept d'affordance en robotique est hérité de la psychologie écologique de James Gibson (années 1970), mais son opérationnalisation dans des systèmes de planification automatisée reste un défi ouvert depuis deux décennies. Les approches concurrentes incluent les Vision-Language-Action models (VLA) type pi0 de Physical Intelligence ou OpenVLA, qui misent sur des modèles fondation massifs pour la généralisation, et les méthodes de représentation basées sur des descripteurs sémantiques. A4D se positionne comme une alternative plus légère et interprétable. Le code, les vidéos et les données sont disponibles sur le site du projet ; aucun partenariat industriel ni déploiement pilote n'est annoncé à ce stade.

RecherchePaper
1 source
Robo3R : amélioration de la manipulation robotique par reconstruction 3D précise en avance de phase
4arXiv cs.RO 

Robo3R : amélioration de la manipulation robotique par reconstruction 3D précise en avance de phase

Robo3R est un modèle de reconstruction 3D présenté dans un preprint arXiv (2502.10101) qui vise à remplacer les capteurs de profondeur classiques dans les pipelines de manipulation robotique. Le système prend en entrée des images RGB et les états du robot, et prédit en temps réel la géométrie de la scène à l'échelle métrique, sans recours à un capteur ToF, LiDAR ou stéréo. Robo3R combine une tête de points masquée (masked point head) pour des nuages de points précis, et une formulation Perspective-n-Point (PnP) basée sur des keypoints pour aligner les poses de caméra dans un référentiel canonique robot. Le modèle a été entraîné sur Robo3R-4M, un dataset synthétique de 4 millions de frames annotées haute fidélité. Les auteurs rapportent des gains constants sur plusieurs tâches aval : imitation learning, transfert sim-to-real, synthèse de saisies (grasp synthesis) et planification de trajectoire sans collision. L'intérêt pratique est direct pour les intégrateurs : les capteurs de profondeur actuels (caméras stéréo, ToF, LiDAR structuré) présentent des limites bien documentées sur les surfaces réfléchissantes, transparentes ou sombres, et leur calibration reste coûteuse. Un module RGB-only à l'échelle métrique et en temps réel réduirait la dépendance au hardware de sensing. Les gains sur le transfert sim-to-real sont particulièrement significatifs : c'est précisément là que les politiques de manipulation, qu'il s'agisse d'ACT, de Diffusion Policy ou des VLA récents, perdent en robustesse lors du déploiement. Que Robo3R améliore cette étape charnière suggère qu'un meilleur module perceptif en entrée peut compenser une partie du reality gap sans toucher à l'architecture de la politique. Ce travail s'inscrit dans une dynamique de recherche active autour de la reconstruction 3D dense depuis le RGB, dominée ces deux dernières années par DUSt3R et MASt3R, développés par Naver Labs Europe à Grenoble, ainsi que par UniDepth et Depth Pro. Robo3R se différencie en ciblant explicitement les contraintes de la manipulation : précision métrique, cohérence du référentiel robot et latence compatible avec le contrôle en boucle fermée. Le dataset synthétique Robo3R-4M, bien que large, soulève la question classique du domaine gap entre simulation et réel, même si les résultats rapportés sur des tâches physiques restent positifs. Il s'agit pour l'instant d'un preprint non encore évalué par les pairs; une soumission à ICRA, CVPR ou RSS, couplée à une validation sur des plateformes robotiques variées au-delà des benchmarks internes, constituerait la prochaine étape naturelle.

UELes modèles DUSt3R et MASt3R développés par Naver Labs Europe à Grenoble constituent la référence comparative directe de Robo3R, signalant que la recherche européenne reste en pointe sur la reconstruction 3D dense appliquée à la manipulation robotique.

RecherchePaper
1 source