AsyncMDE : estimation de profondeur monoculaire en temps réel via mémoire spatiale asynchrone
Des chercheurs ont publié sur arXiv (arXiv:2603.10438v2) AsyncMDE, un système de perception de profondeur monoculaire asynchrone conçu pour permettre un déploiement temps-réel sur plateformes embarquées. L'architecture dissocie deux chemins d'exécution : un modèle fondation "slow path" de 97,5 millions de paramètres, figé, qui génère périodiquement des représentations spatiales de haute qualité en arrière-plan ; et un "fast path" léger de seulement 3,83 millions de paramètres entraînables, qui tourne en parallèle en réutilisant ces features via une fusion complémentaire avec l'observation courante et une mise à jour autorégressive de la mémoire. Sur GPU RTX 4090, le fast path atteint 237 FPS. Sur Jetson AGX Orin optimisé TensorRT, la cible embarquée réaliste pour la robotique mobile, il tourne à 161 FPS tout en récupérant 77 % de l'écart de précision par rapport au modèle fondation complet.
L'enjeu industriel est direct : l'estimation de profondeur monoculaire à base de modèles fondation constitue une alternative crédible aux capteurs actifs (LiDAR, ToF), mais leur coût computationnel les rendait jusqu'ici incompatibles avec les contraintes temps-réel des robots mobiles et des AMR. AsyncMDE répond à ce verrou en amortissant le coût du modèle lourd sur plusieurs frames consécutives, en exploitant la redondance spatiale naturelle des déplacements continus d'un robot. La dégradation de précision est bornée et prédictible sur trois benchmarks couvrant des scènes statiques, dynamiques et des mouvements extrêmes synthétiques, ce qui est plus rassurant que des métriques moyennes masquant les cas limites.
La profondeur monoculaire est un champ de recherche en forte accélération depuis que les architectures Vision Transformer et les modèles fondation (DPT, Depth Anything, UniDepth) ont montré des généralisations zero-shot solides, mais le goulot computationnel restait le principal obstacle à l'embarquement. AsyncMDE s'inscrit dans une tendance plus large d'inférence asynchrone et de caching de features, similaire aux approches utilisées en détection vidéo temps-réel. Les concurrents directs incluent les méthodes de distillation de modèles fondation (par exemple MobileDepth, FastDepth) et les pipelines LiDAR-caméra fusion légère. La prochaine étape naturelle sera de valider ces chiffres sur des robots réels en navigation autonome, où la latence bout-en-bout, et non le seul débit du réseau, détermine l'utilisabilité.
Dans nos dossiers




