Aller au contenu principal
Robo3R : amélioration de la manipulation robotique par reconstruction 3D précise en avance de phase
RecherchearXiv cs.RO7sem

Robo3R : amélioration de la manipulation robotique par reconstruction 3D précise en avance de phase

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Robo3R est un modèle de reconstruction 3D présenté dans un preprint arXiv (2502.10101) qui vise à remplacer les capteurs de profondeur classiques dans les pipelines de manipulation robotique. Le système prend en entrée des images RGB et les états du robot, et prédit en temps réel la géométrie de la scène à l'échelle métrique, sans recours à un capteur ToF, LiDAR ou stéréo. Robo3R combine une tête de points masquée (masked point head) pour des nuages de points précis, et une formulation Perspective-n-Point (PnP) basée sur des keypoints pour aligner les poses de caméra dans un référentiel canonique robot. Le modèle a été entraîné sur Robo3R-4M, un dataset synthétique de 4 millions de frames annotées haute fidélité. Les auteurs rapportent des gains constants sur plusieurs tâches aval : imitation learning, transfert sim-to-real, synthèse de saisies (grasp synthesis) et planification de trajectoire sans collision.

L'intérêt pratique est direct pour les intégrateurs : les capteurs de profondeur actuels (caméras stéréo, ToF, LiDAR structuré) présentent des limites bien documentées sur les surfaces réfléchissantes, transparentes ou sombres, et leur calibration reste coûteuse. Un module RGB-only à l'échelle métrique et en temps réel réduirait la dépendance au hardware de sensing. Les gains sur le transfert sim-to-real sont particulièrement significatifs : c'est précisément là que les politiques de manipulation, qu'il s'agisse d'ACT, de Diffusion Policy ou des VLA récents, perdent en robustesse lors du déploiement. Que Robo3R améliore cette étape charnière suggère qu'un meilleur module perceptif en entrée peut compenser une partie du reality gap sans toucher à l'architecture de la politique.

Ce travail s'inscrit dans une dynamique de recherche active autour de la reconstruction 3D dense depuis le RGB, dominée ces deux dernières années par DUSt3R et MASt3R, développés par Naver Labs Europe à Grenoble, ainsi que par UniDepth et Depth Pro. Robo3R se différencie en ciblant explicitement les contraintes de la manipulation : précision métrique, cohérence du référentiel robot et latence compatible avec le contrôle en boucle fermée. Le dataset synthétique Robo3R-4M, bien que large, soulève la question classique du domaine gap entre simulation et réel, même si les résultats rapportés sur des tâches physiques restent positifs. Il s'agit pour l'instant d'un preprint non encore évalué par les pairs; une soumission à ICRA, CVPR ou RSS, couplée à une validation sur des plateformes robotiques variées au-delà des benchmarks internes, constituerait la prochaine étape naturelle.

Impact France/UE

Les modèles DUSt3R et MASt3R développés par Naver Labs Europe à Grenoble constituent la référence comparative directe de Robo3R, signalant que la recherche européenne reste en pointe sur la reconstruction 3D dense appliquée à la manipulation robotique.

À lire aussi

Amélioration de la reconstruction de surfaces en verre par estimation de profondeur pour la navigation robotique
1arXiv cs.RO 

Amélioration de la reconstruction de surfaces en verre par estimation de profondeur pour la navigation robotique

Des chercheurs ont publié le 25 avril 2026 sur arXiv (arXiv:2604.18336) un framework de reconstruction de surfaces vitrées destiné à améliorer la navigation autonome en intérieur. Le problème visé est concret : les capteurs de profondeur (LiDAR, RGB-D) échouent systématiquement face aux surfaces transparentes ou réfléchissantes comme le verre, qui génèrent des mesures erronées ou absentes. L'approche proposée exploite Depth Anything 3, un modèle fondationnel de vision monoculaire, comme prior géométrique, puis aligne ce prior sur les données brutes du capteur via un algorithme RANSAC local. Ce mécanisme permet d'éviter que les mesures corrompues par le verre ne contaminent la reconstruction finale, tout en récupérant une échelle métrique absolue que le modèle de fondation seul ne fournit pas. L'équipe publie également GlassRecon, un dataset RGB-D inédit avec vérité terrain dérivée géométriquement pour les régions vitrées, et annonce la mise à disposition du code et des données sur GitHub. Ce travail adresse un angle mort réel de la navigation robotique en milieu tertiaire. Les bureaux, centres commerciaux, aéroports et hôpitaux sont truffés de cloisons vitrées, de vitrines et de portes transparentes qui font échouer les AMR (Autonomous Mobile Robots) commerciaux en production. Le fait que le framework soit training-free est un avantage pratique direct pour les intégrateurs : il ne nécessite pas de retrainer un modèle sur des données propriétaires, et peut s'insérer dans un pipeline de navigation existant sans modification majeure. Les expériences montrent des gains consistants par rapport aux baselines de l'état de l'art, particulièrement dans les cas de corruption sévère du capteur, ce qui suggère une robustesse utile en conditions réelles plutôt qu'en environnement de laboratoire contrôlé. La détection et la reconstruction de surfaces transparentes est un problème ouvert depuis plusieurs années dans la communauté robotique. Des travaux antérieurs comme GlassNet ou Trans10K avaient abordé la segmentation du verre en RGB pur, mais la fusion avec des données de profondeur restait peu explorée de manière training-free. Du côté concurrentiel, des approches de completion de profondeur par deep learning (IP-Basic, PENet) ou de slam robuste aux occultations existent, mais elles requièrent typiquement un entraînement spécialisé. La contribution de ce papier est de positionner les modèles de fondation non pas comme remplaçants du capteur, mais comme régularisateurs géométriques. Les prochaines étapes annoncées sont la publication du dataset GlassRecon et du code, ce qui permettra à la communauté d'évaluer la reproductibilité des résultats. Aucun déploiement terrain ni partenaire industriel n'est mentionné à ce stade : il s'agit d'une contribution de recherche, pas d'un produit.

RecherchePaper
1 source
Revisiter la perception des parties articulées en manipulation robotique
2arXiv cs.RO 

Revisiter la perception des parties articulées en manipulation robotique

Des chercheurs ont déposé en juin 2026 (arXiv:2606.08103) une nouvelle approche pour la perception des parties articulées d'objets du quotidien, portes, boîtes et poignées, baptisée GPS (Geometric Primary Structure). Ce cadre représente la géométrie des parties mobiles sous une forme abstraite et générique, collectée via un dispositif de réalité virtuelle portable : l'annotation d'une séquence d'objets prend moins d'une minute, contre plusieurs dizaines de minutes pour les pipelines de labellisation manuelle classiques. Appliqué sur 234 objets répartis en six classes de parties, le système a constitué un corpus de 41 000 frames. Le modèle GPS entraîné accepte en entrée une unique image RGB-D et, sans aucun fine-tuning spécifique au domaine, atteint un taux de réussite de 73 % sur 270 états initiaux couvrant 9 objets en manipulation robotique réelle, à partir d'une politique heuristique basée sur la prédiction GPS. Ce résultat illustre un point clé pour les intégrateurs et les équipes R&D industrielles : la qualité de la représentation perceptive conditionne directement la robustesse de la politique de manipulation. Les deux approches dominantes présentent des compromis défavorables. Les méthodes basées sur la pose nécessitent une annotation intensive et ne passent pas à l'échelle, tandis que les méthodes affordance-based, qui extraient le mouvement futur par point tracking, souffrent de données bruitées ou incomplètes. GPS tente d'occuper le terrain intermédiaire. Un taux de 73 % sans fine-tuning in-domain est une indication sérieuse de généralisation réelle, même si la validation sur 9 objets seulement invite à la prudence avant de conclure que le fossé entre démonstration et déploiement industriel est comblé. Le problème de la manipulation d'objets articulés constitue un verrou reconnu depuis les travaux fondateurs sur WHERE2ACT et les datasets de type OPD (OpenDoors-Dataset). GPS s'inscrit dans un mouvement plus large visant à remplacer les bases de connaissances statiques par des systèmes de perception apprenants et annotables à faible coût. Les auteurs rendent publics le code, les données et l'outil VR (enlighten0707.github.io/gps), ce qui favorise la reproductibilité et l'adoption en recherche. Les extensions naturelles incluent l'intégration avec des politiques de type VLA (Vision-Language-Action), la généralisation à des parties déformables, et la validation sur des objets industriels hors distribution.

RecherchePaper
1 source
StereoPolicy : améliorer les politiques de manipulation robotique grâce à la perception stéréoscopique
3arXiv cs.RO 

StereoPolicy : améliorer les politiques de manipulation robotique grâce à la perception stéréoscopique

Une équipe de chercheurs a présenté StereoPolicy, un cadre d'apprentissage de politiques visuomotrices déposé sur arXiv (2605.09989) qui exploite des paires d'images stéréoscopiques synchronisées pour améliorer la précision des robots manipulateurs. Contrairement aux approches dominantes basées sur la vision monoculaire, StereoPolicy traite chaque image indépendamment via des encodeurs visuels 2D pré-entraînés, puis fusionne les représentations au sein d'un module baptisé Stereo Transformer. Cette architecture extrait implicitement des indices de disparité et de correspondance spatiale, sans nécessiter de reconstruction 3D explicite ni de calibration de caméra. Évalué sur trois benchmarks de simulation, RoboMimic, RoboCasa et OmniGibson, le système surpasse systématiquement les baselines RGB, RGB-D, nuage de points et multi-vues. Les auteurs ont également validé l'approche sur des robots réels, dans des configurations de manipulation tabulaire et de manipulation bimane mobile. L'intérêt principal de StereoPolicy réside dans sa modularité: le framework s'intègre directement avec des politiques à base de diffusion et des politiques VLA (vision-language-action) pré-entraînées, ce qui en fait un composant additionnel plutôt qu'une refonte architecturale. Pour les intégrateurs et les équipes robotique, cela signifie que des systèmes existants basés sur des modèles comme Pi-0 ou GR00T pourraient bénéficier de la perception stéréo sans repartir de zéro. La vision monoculaire, omniprésente dans les déploiements actuels, souffre d'une absence d'indices de profondeur fiables dans les scènes encombrées ou géométriquement complexes, un problème que la stéréo adresse naturellement à faible surcoût matériel. Ce résultat renforce l'hypothèse que les représentations 2D pré-entraînées, aussi puissantes soient-elles, restent limitées sans ancrage géométrique explicite. StereoPolicy s'inscrit dans la dynamique actuelle de l'imitation learning robotique, portée par des travaux comme ACT, Diffusion Policy et les VLA multimodaux. La plupart des systèmes en production s'appuient encore sur des caméras monoculaires ou des capteurs RGB-D de type RealSense ou ZED, qui ajoutent complexité et coût. Les caméras stéréo passives, technologie mature présente depuis des décennies en vision par ordinateur, avaient été quelque peu éclipsées par la montée en puissance des encodeurs 2D profonds. Ce papier, une préprint arXiv, pas encore un produit déployé, rouvre la question de leur rôle dans les pipelines modernes d'apprentissage par imitation. Les prochaines étapes naturelles seront d'évaluer StereoPolicy dans des environnements industriels réels et de tester sa robustesse aux variations d'éclairage et de texture, deux limites classiques de la vision stéréo passive.

RechercheOpinion
1 source
GraspFoM : vers une préhension robotique guidée par la reconstruction et les modèles fondation 3D
4arXiv cs.RO 

GraspFoM : vers une préhension robotique guidée par la reconstruction et les modèles fondation 3D

Une équipe de chercheurs a publié le 10 juin 2026 sur arXiv (référence 2606.08440) GraspFoM, un framework unifié de saisie robotique qui exploite des fondations 3D pré-entraînées, plus précisément SAM3D, pour construire une représentation latente 3D partagée entre deux tâches simultanées : la reconstruction géométrique de l'objet et la prédiction de poses de préhension. L'architecture centrale repose sur un diffuseur de raisonnement de pose tronqué à initialisation par ancres, qui génère des poses continues et multimodales sans dépendre de candidats discrets préétablis, une distinction technique importante par rapport aux pipelines classiques. GraspFoM produit en sortie à la fois des poses de saisie et des reconstructions 3D haute fidélité au format maillage polygonal et 3D Gaussian Splatting (3DGS). Les auteurs rapportent des résultats de pointe sur les benchmarks de reconstruction et de saisie, avec un surcoût en paramètres entraînables qualifié de "limité" mais sans chiffre précis publié. Ce travail adresse un verrou réel dans la manipulation robotique : la saisie sous observation partielle, c'est-à-dire quand la caméra ne voit qu'une fraction de l'objet. Les approches existantes utilisent la géométrie 3D comme étape intermédiaire jetable, sans la capitaliser comme prior réutilisable. GraspFoM rompt avec cette logique en faisant co-évoluer reconstruction et grasping dans un espace latent commun : la reconstruction ancre la géométrie, la supervision de saisie affine ce latent vers les zones de prise pertinentes. Le scorer reconstruction-aware et le residual latent updater formalisent cette rétroaction mutuelle. Pour les intégrateurs en manipulation industrielle ou logistique, cela suggère une meilleure robustesse sur des objets partiellement occultés, sans multiplication des modules ou des paramètres, ce qui est un argument d'efficacité réelle si les expériences réelles confirment les benchmarks. Les fondations 3D comme SAM3D s'inscrivent dans une vague de transferts de connaissances entre vision 2D et représentations 3D, parallèle à l'essor des VLA (Vision-Language-Action models) pour la manipulation généraliste. GraspFoM se positionne différemment des approches purement end-to-end comme pi0 de Physical Intelligence ou GR00T N2 de NVIDIA : il mise sur la reconstruction explicite plutôt que sur l'imitation à grande échelle. Les concurrents académiques proches incluent GraspNeRF, Contact-GraspNet et des travaux récents combinant diffusion et géométrie 3D. À ce stade, GraspFoM reste un preprint non validé en conditions réelles, les expériences rapportées étant réalisées sur simulateur ou bancs de test contrôlés. Aucun partenaire industriel ni déploiement pilote n'est mentionné, et aucune timeline de commercialisation n'est communiquée.

RecherchePaper
1 source