Aller au contenu principal
AnchorD : ancrage métrique de la profondeur monoculaire par graphes de facteurs
RecherchearXiv cs.RO7sem

AnchorD : ancrage métrique de la profondeur monoculaire par graphes de facteurs

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Des chercheurs de l'université de Fribourg-en-Brisgau ont publié AnchorD, un framework d'estimation de profondeur présenté comme entraînement-libre (training-free), capable d'ancrer les prédictions métriques de modèles monoculaires dans des mesures de capteurs réels via une optimisation par graphes de facteurs (factor graphs). La méthode réalise un alignement affine par patches, ce qui permet de recaler localement les estimations monoculaires sur une profondeur métrique réelle tout en préservant les discontinuités géométriques fines. Pour valider l'approche dans des conditions difficiles, l'équipe introduit également un nouveau jeu de données de référence avec vérité terrain dense sur des scènes complètes contenant des objets non-lambertiens (transparents, spéculaires, métalliques), obtenue en combinant une peinture mate réfléchissante en spray sur les surfaces problématiques et une fusion multi-caméras, contournant ainsi la dépendance aux annotations CAD par objet des benchmarks existants. Le code et les données sont publiés en accès libre.

L'enjeu pratique est réel pour les intégrateurs de manipulation robotique et de préhension : les capteurs de profondeur structurés (Time-of-Flight, stéréo, LiDAR) décrochent systématiquement sur les surfaces transparentes comme le verre ou spéculaires comme l'inox, des matériaux omniprésents en milieu industriel. Les grands modèles de profondeur monoculaire, Depth Anything V2, UniDepth, ZoeDepth, produisent des priors structurels excellents mais souffrent d'ambiguïté d'échelle métrique, ce qui les rend inutilisables directement pour la planification de trajectoire ou le calcul de prise. AnchorD propose de fusionner les deux sources d'information sans réentraînement, ce qui le rend déployable sur du matériel existant avec n'importe quel modèle fondation de profondeur en entrée. Les auteurs rapportent des améliorations constantes sur des capteurs et domaines variés, sans communiquer de métriques numériques précises dans le résumé, les chiffres restent à consulter dans le papier complet.

Ce travail s'inscrit dans un axe actif de recherche qui tente de "métrifier" les modèles de vision de fondation pour les rendre directement exploitables en robotique, sans passer par des pipelines de calibration coûteux. L'université de Fribourg (groupe Robotics and Embedded Systems, liens avec le DFKI) est un acteur reconnu en perception robotique, notamment sur les terrains non structurés. Dans l'espace concurrent, des approches comme Metric3D v2 (Tianjin/Baidu) ou ScaleDepth cherchent le même objectif par voie paramétrique ou de fine-tuning; AnchorD se distingue par son absence totale de phase d'entraînement. L'article est un preprint arXiv (2605.02667, mai 2026), non encore évalué par les pairs: les résultats présentés devront être confirmés lors d'une revue formelle.

Impact France/UE

Contribution d'un laboratoire européen (Fribourg/DFKI) publiée en open-source et sans réentraînement, directement exploitable par les intégrateurs EU pour la manipulation d'objets industriels à surfaces transparentes ou spéculaires.

À lire aussi

Exploitation de la parcimonie chordale pour une estimation globalement optimale avec des graphes de facteurs
1arXiv cs.RO 

Exploitation de la parcimonie chordale pour une estimation globalement optimale avec des graphes de facteurs

Une équipe de chercheurs associée au Borg Lab (Georgia Tech) a publié fin mai 2026 un préprint arXiv (2605.30617) présentant une méthode pour rendre l'estimation d'état globalement optimale dans les graphes de facteurs, sans effort de formulation manuelle. Le travail s'intègre directement à GTSAM, la bibliothèque de référence pour le SLAM et la navigation, et repose sur deux contributions : une procédure automatisée de construction de relaxations SDP (semi-definite programming) convexes pour tout graphe de facteurs utilisant les types de variables et de facteurs courants, et l'exploitation de la structure creuse chorale native de l'arbre de Bayes (Bayes tree) de GTSAM pour décomposer le problème SDP. Les deux cas d'usage évalués sont un problème de SLAM 3D par pose-graph en anneau et un problème de localisation 2D en chaîne, sur lesquels le nouvel estimateur démontre une meilleure scalabilité que les solveurs locaux standards. Le code est disponible sur le dépôt borglab/gtsam. L'enjeu est directement lié à la sécurité des systèmes robotiques : les solveurs locaux embarqués dans GTSAM ou g2o peuvent converger vers de mauvais minima locaux, ce qui dans un contexte de navigation autonome ou de perception industrielle représente un risque réel. Les approches par relaxations convexes garantissent l'optimalité globale ou permettent de certifier la solution, mais elles étaient jusqu'ici réservées à des cas formulés manuellement par des spécialistes, et pénalisées par le coût de résolution d'un SDP de grande taille. En automatisant la construction de la relaxation et en exploitant la sparsité du problème, les auteurs réduisent substantiellement ce surcoût computationnel, rendant l'approche crédible pour des applications embarquées ou temps-réel. Les graphes de facteurs sont l'outil dominant en estimation robotique depuis les travaux séminaux de Dellaert et Kaess (iSAM, iSAM2) au début des années 2010, et GTSAM en est l'implémentation la plus utilisée en recherche. Les relaxations SDP pour le SLAM ont été explorées depuis une dizaine d'années, notamment par Rosen et al. avec SE-Sync (2019), qui ciblait spécifiquement la synchronisation de poses. Ce nouveau travail généralise l'approche à des graphes de facteurs arbitraires, ce qui constitue un pas vers une intégration praticable dans des pipelines SLAM existants. Il s'agit d'un préprint non encore soumis à révision par les pairs, et les gains de performance annoncés restent à confirmer sur des benchmarks plus complexes ou des architectures embarquées contraintes.

RecherchePaper
1 source
Mono-Hydra++ : construction en temps réel de graphes de scènes monoculaires par apprentissage multi-tâches pour la cartographie 3D intérieure
2arXiv cs.RO 

Mono-Hydra++ : construction en temps réel de graphes de scènes monoculaires par apprentissage multi-tâches pour la cartographie 3D intérieure

Des chercheurs ont publié en mai 2026 (arXiv:2605.17661) Mono-Hydra++, un pipeline temps réel capable de construire des graphes de scène 3D hiérarchiques d'intérieurs en n'utilisant qu'une caméra RGB monoculaire et une IMU, sans capteur de profondeur actif. Le coeur du système repose sur M2H-MX, un modèle multi-tâches fondé sur DINOv3 qui estime simultanément la profondeur et la sémantique des images. Ces estimations alimentent un front-end d'odométrie visuelle-inertielle (VIO) enrichi de contraintes de profondeur prédites creuses, d'un masquage sémantique des zones dynamiques et d'un alignement temporel tenant compte de la pose, avant fusion volumétrique dans le backend Mono-Hydra. Sur le sous-ensemble d'évaluation Go-SLAM/ScanNet, le système affiche 1,6 % d'erreur de trajectoire en moins que le meilleur baseline RGB-D testé ; sur le benchmark calibré 7-Scenes, il réduit l'ATE moyen de 29,8 % par rapport au meilleur concurrent calibré. Le modèle de perception M2H-MX-L, exporté en ONNX/TensorRT FP16, tourne à 25,53 FPS sur un Jetson Orin NX 16 Go, et le pipeline a été validé dans un déploiement réel dans un bâtiment ITC avec une caméra RealSense RGB + IMU. L'impact industriel est direct pour les plateformes à contraintes sévères : drones d'inspection, robots humanoïdes légers et AMR embarquant peu de puissance. Jusqu'ici, la construction de graphes de scène 3D, qui organisent l'espace en objets, pièces et relations spatiales, nécessitait des capteurs actifs (RGB-D ou LiDAR) impraticables dès que le payload ou la consommation électrique sont limités. Mono-Hydra++ démontre qu'il est possible d'atteindre, voire de dépasser, la précision de ces baselines lourds avec une seule caméra et une IMU bas coût. Pour un intégrateur ou un COO industriel, cela signifie une réduction substantielle du coût matériel embarqué et l'ouverture de cas d'usage où le RGB-D n'est pas envisageable. Il convient toutefois de noter que les résultats sont issus de benchmarks académiques standardisés : la robustesse sur des scènes industrielles non contrôlées, avec éclairages difficiles ou textures répétitives, reste à confirmer dans des conditions opérationnelles réelles. Mono-Hydra++ s'inscrit dans la lignée du système Hydra du MIT, qui a posé les bases de la représentation hiérarchique en graphe de scène pour la robotique. L'utilisation de DINOv3 comme backbone de vision fondationnelle est cohérente avec la tendance forte à extraire simultanément géométrie et sémantique depuis des modèles pré-entraînés à grande échelle. Sur ce terrain, les concurrents directs incluent les systèmes basés sur RGB-D comme Go-SLAM, iMAP ou NICE-SLAM, ainsi que des approches VIO-sémantiques récentes, mais peu proposent la combinaison complète cartographie métrique, sémantique et graphe de scène en temps réel sur matériel embarqué contraint. En tant que preprint arXiv non encore évalué par les pairs, les prochaines étapes attendues sont la publication en conférence (IROS, ICRA), des tests sur plateformes aériennes effectives et une éventuelle intégration dans des stacks robotiques open-source comme ROS 2.

UELes constructeurs européens d'AMR légers et de drones d'inspection pourraient à terme réduire leurs coûts matériels embarqués en remplaçant les capteurs RGB-D par une caméra monoculaire, sous réserve de validation dans des conditions industrielles non contrôlées.

RecherchePaper
1 source
Apprentissage de la manipulation dextérique à partir de vidéos monoculaires de mains humaines
3arXiv cs.RO 

Apprentissage de la manipulation dextérique à partir de vidéos monoculaires de mains humaines

Une équipe de chercheurs a publié sur arXiv (identifiant arXiv:2606.16436v1) un framework baptisé V2P-Manip, conçu pour extraire des politiques de manipulation dextre directement à partir de vidéos monoculaires de démonstrations humaines. L'architecture propose un pipeline intégré en trois étapes : acquisition d'assets 3D, estimation de trajectoires, puis apprentissage de politique de manipulation. Pour réconcilier perception visuelle et contraintes physiques, les auteurs introduisent un processus de raffinement en deux étapes imposant à la fois un alignement spatial et une cohérence physique. Le système a été évalué sur les benchmarks TACO et OakInk, deux jeux de données de référence en manipulation dextre, et affiche un taux de réussite moyen supérieur à 75 % sur des tâches de manipulation synthétiques, avec une généralisation démontrée sur plusieurs morphologies de mains robotiques différentes. L'enjeu central que V2P-Manip cherche à résoudre est celui du coût de collecte des données d'entraînement : la télé-opération reste lente, coûteuse et difficile à standardiser à grande échelle. Utiliser des vidéos monoculaires standard, sans capteurs de profondeur ni mocap, représente un levier de scalabilité potentiellement majeur pour les fabricants d'effecteurs dextres et les laboratoires à budget limité. Le pipeline démontre aussi une transférabilité des "manipulation priors" entre embodiments différents, ce qui est un résultat non trivial. Il faut néanmoins noter que le taux de 75 % est mesuré sur des tâches synthétiques et que les vidéos utilisées en entrée sont des démonstrations humaines sélectionnées -- le real-world gap reste à quantifier sur du matériel réel déployé en conditions industrielles non contrôlées. La manipulation dextre constitue l'une des frontières les plus dures de la robotique, un domaine où des acteurs comme Dexterous Robotics, Shadow Robot (UK) ou Psyonic tentent d'atteindre la maturité produit. Côté recherche, les approches concurrentes s'appuient généralement sur la télé-opération (Pi-0 de Physical Intelligence, ACT, DROID dataset) ou sur des capteurs de profondeur calibrés. L'originalité de V2P-Manip est de contourner ces contraintes matérielles en exploitant uniquement la vision monoculaire. La validation reste pour l'instant confinée à des benchmarks académiques, et aucun déploiement ou partenariat industriel n'est annoncé dans cette version préliminaire.

RecherchePaper
1 source
AnchorRefine : manipulation synergique par ancrage de trajectoire et raffinement résiduel pour les modèles VLA
4arXiv cs.RO 

AnchorRefine : manipulation synergique par ancrage de trajectoire et raffinement résiduel pour les modèles VLA

Une équipe de chercheurs a publié sur arXiv (arXiv:2604.17787) AnchorRefine, un framework hiérarchique conçu pour améliorer les modèles vision-langage-action (VLA) dans les tâches de manipulation robotique de précision. Le principe central repose sur une décomposition en deux niveaux : un planificateur d'ancres de trajectoire (anchor planner) qui génère un squelette de mouvement grossier, et un module de raffinement résiduel qui corrige les déviations en phase d'exécution pour améliorer la précision géométrique et de contact. Le système intègre également un mécanisme de raffinement de pince sensible aux transitions discrètes (decision-aware gripper refinement), conçu pour mieux capturer le caractère binaire et critique aux frontières du contrôle de préhension. Évalué sur les benchmarks LIBERO et CALVIN, ainsi que sur des tâches en robot réel, AnchorRefine affiche des gains allant jusqu'à 7,8 points de pourcentage en taux de succès en simulation et 18 points en conditions réelles, sur des backbones VLA à base de régression comme de diffusion. Le problème que cette architecture cherche à résoudre est structurel dans la conception actuelle des politiques VLA : lorsqu'une politique génère toutes les actions dans un espace unifié, les grands mouvements de transport dominent l'optimisation et noient les signaux correctifs de faible amplitude, pourtant critiques pour les tâches de précision comme l'assemblage, l'insertion ou la manipulation d'objets fragiles. En séparant explicitement la planification macroscopique de l'ajustement microscopique, AnchorRefine reproduit une structure proche de la motricité humaine, où la trajectoire globale et la correction locale sont des processus distincts. Le gain de 18 % en conditions réelles est significatif car il suggère une réduction effective du sim-to-real gap sur les tâches de contact, un verrou majeur pour la commercialisation des manipulateurs polyvalents. Ce travail s'inscrit dans une tendance de fond en robotique académique : l'hybridation entre planification à haut niveau (souvent guidée par le langage ou la vision) et contrôle fin en boucle fermée. Des approches comme pi0 (Physical Intelligence) ou GR00T N2 (NVIDIA) intègrent déjà des mécanismes proches, tandis que des labos comme celui de Chelsea Finn (Stanford) ou Sergey Levine (Berkeley) explorent la hiérarchie action depuis plusieurs années. AnchorRefine se distingue en proposant une solution modulaire compatible avec des backbones existants sans réentraîner l'ensemble du modèle, ce qui facilite potentiellement son intégration dans des pipelines VLA déjà déployés. Les auteurs ne mentionnent pas de partenariat industriel ni de timeline de déploiement, et les évaluations restent cantonnées à des benchmarks académiques, ce qui tempère les conclusions sur la robustesse en environnement non contrôlé.

RechercheOpinion
1 source