
IA physique appliquée à la reconstruction 3D sous occlusion manuelle grâce à la proprioception et au toucher multi-contact
Des chercheurs publient une méthode de reconstruction 3D d'objets saisis à la main, conçue pour reconstruire la forme complète d'un objet même lorsque la main du robot le masque en grande partie (arXiv:2604.09100v2, version révisée). Contrairement aux approches précédentes qui s'appuient uniquement sur la vision pour deviner les parties cachées, le système combine trois sources d'information : la caméra RGB pour les zones visibles, la proprioception du bras robotique pour connaître la géométrie exacte de la main posée sur l'objet, et le toucher multi-contact pour contraindre où se situe physiquement la surface de l'objet dans les zones occultées. L'objet est représenté comme un champ de distance signée (SDF) aligné caméra, encodé dans un espace latent compact via un Structure-VAE, sur lequel est entraîné un modèle de diffusion par flow-matching. L'entraînement se fait en deux temps : préapprentissage sur des images sans occlusion, puis affinage sur des scènes de manipulation avec occlusion, en intégrant des contraintes physiques qui réduisent l'interpénétration main-objet et alignent la reconstruction sur les points de contact tactile mesurés. En simulation, l'ajout de la proprioception et du toucher améliore nettement la complétion de forme sous occlusion par rapport aux méthodes vision seule, avec une échelle métrique correcte. Les auteurs valident aussi un transfert sur un robot humanoïde réel, avec un effecteur différent de celui utilisé à l'entraînement.
Pour l'industrie robotique, ce travail s'attaque à un angle mort classique de la perception manipulative : dès qu'une main saisit un objet, la caméra en perd une bonne partie de la vue, ce qui pénalise le placement de préhension, la planification de trajectoire ou la ré-estimation de pose en cours de tâche. Ajouter proprioception et toucher comme signaux de contrainte physique, plutôt que de tout faire reposer sur la vision, est une piste concrète pour fiabiliser les piles de perception des robots à mains dextres ou multi-doigts, notamment en contexte industriel où les objets manipulés sont souvent partiellement occultés par la préhension elle-même. Il faut toutefois noter que les gains rapportés restent majoritairement démontrés en simulation, la validation sur robot réel se limitant à un test de transfert et non à un déploiement en conditions de production.
Le papier s'inscrit dans la lignée des méthodes de reconstruction amodale 3D, historiquement limitées à des signaux purement visuels et donc fragiles sous occlusion sévère. En ancrant la reconstruction dans la physique du contact plutôt que dans la seule vraisemblance visuelle, l'approche se positionne comme un module de perception réutilisable en amont d'un pipeline de reconstruction en deux étages, où une étape ultérieure affine la géométrie et prédit l'apparence. Les prochaines étapes attendues concernent l'élargissement à davantage d'effecteurs et de morphologies de main, ainsi que des essais plus poussés en conditions réelles au-delà du test de transfert présenté.
Dans nos dossiers




