
Robo3R : amélioration de la manipulation robotique par reconstruction 3D précise en avance de phase
Robo3R est un modèle de reconstruction 3D présenté dans un preprint arXiv (2502.10101) qui vise à remplacer les capteurs de profondeur classiques dans les pipelines de manipulation robotique. Le système prend en entrée des images RGB et les états du robot, et prédit en temps réel la géométrie de la scène à l'échelle métrique, sans recours à un capteur ToF, LiDAR ou stéréo. Robo3R combine une tête de points masquée (masked point head) pour des nuages de points précis, et une formulation Perspective-n-Point (PnP) basée sur des keypoints pour aligner les poses de caméra dans un référentiel canonique robot. Le modèle a été entraîné sur Robo3R-4M, un dataset synthétique de 4 millions de frames annotées haute fidélité. Les auteurs rapportent des gains constants sur plusieurs tâches aval : imitation learning, transfert sim-to-real, synthèse de saisies (grasp synthesis) et planification de trajectoire sans collision.
L'intérêt pratique est direct pour les intégrateurs : les capteurs de profondeur actuels (caméras stéréo, ToF, LiDAR structuré) présentent des limites bien documentées sur les surfaces réfléchissantes, transparentes ou sombres, et leur calibration reste coûteuse. Un module RGB-only à l'échelle métrique et en temps réel réduirait la dépendance au hardware de sensing. Les gains sur le transfert sim-to-real sont particulièrement significatifs : c'est précisément là que les politiques de manipulation, qu'il s'agisse d'ACT, de Diffusion Policy ou des VLA récents, perdent en robustesse lors du déploiement. Que Robo3R améliore cette étape charnière suggère qu'un meilleur module perceptif en entrée peut compenser une partie du reality gap sans toucher à l'architecture de la politique.
Ce travail s'inscrit dans une dynamique de recherche active autour de la reconstruction 3D dense depuis le RGB, dominée ces deux dernières années par DUSt3R et MASt3R, développés par Naver Labs Europe à Grenoble, ainsi que par UniDepth et Depth Pro. Robo3R se différencie en ciblant explicitement les contraintes de la manipulation : précision métrique, cohérence du référentiel robot et latence compatible avec le contrôle en boucle fermée. Le dataset synthétique Robo3R-4M, bien que large, soulève la question classique du domaine gap entre simulation et réel, même si les résultats rapportés sur des tâches physiques restent positifs. Il s'agit pour l'instant d'un preprint non encore évalué par les pairs; une soumission à ICRA, CVPR ou RSS, couplée à une validation sur des plateformes robotiques variées au-delà des benchmarks internes, constituerait la prochaine étape naturelle.
Les modèles DUSt3R et MASt3R développés par Naver Labs Europe à Grenoble constituent la référence comparative directe de Robo3R, signalant que la recherche européenne reste en pointe sur la reconstruction 3D dense appliquée à la manipulation robotique.
Dans nos dossiers




