Trans2Occ : estimation de l'occupation en voxels et préhension d'objets transparents par transfert simulation-réel
Des chercheurs ont publié début juin 2026 sur arXiv (arXiv:2606.01777) un framework baptisé Trans2Occ, conçu pour permettre à un bras robotique de percevoir et saisir des objets transparents à partir d'une unique image RGB, sans capteur de profondeur ni caméra supplémentaire. Le coeur du système convertit cette image en une représentation volumétrique par voxels, c'est-à-dire une estimation 3D de l'espace occupé par l'objet, directement exploitable pour calculer une stratégie de préhension. Pour entraîner le modèle à grande échelle, les auteurs ont construit un pipeline de simulation générant automatiquement des paires image/annotation de voxels sous des conditions variées de matériaux et d'éclairage. Le système est ensuite transféré tel quel vers un environnement réel, sans fine-tuning, et une règle de saisie déterministe construite sur la carte d'occupation permet d'atteindre des performances de préhension jugées fiables dans les expériences présentées.
L'enjeu industriel est réel : les objets transparents (flacons en verre, contenants de laboratoire, pièces en polycarbonate) causent des échecs de perception systématiques avec les capteurs depth standards, qu'ils soient structurés-lumière ou ToF, en raison des phénomènes de réfraction et de réflexion. Les approches existantes contournent le problème via reconstruction multi-vues ou complétion de profondeur, deux méthodes difficiles à industrialiser par leurs exigences en calibration et en temps de cycle. Un pipeline mono-image RGB transférable sans adaptation domain-spécifique représenterait une simplification significative pour les intégrateurs de cellules de picking. Cela dit, les métriques présentées restent issues de conditions laboratoire contrôlées, et le passage à des scènes encombrées ou à des objets partiellement occultés n'est pas démontré dans cet article de recherche préliminaire.
La manipulation d'objets transparents est un sous-problème persistant en robotique depuis les travaux ClearGrasp de Google (2019), qui introduisait la complétion de profondeur par réseau de neurones. D'autres approches comme KeyPose ou les méthodes fondées sur la polarimétrie ont proposé des alternatives mais restent difficiles à déployer hors laboratoire. Trans2Occ s'inscrit dans la tendance des représentations occupancy-based popularisées par les travaux en véhicules autonomes (Tesla Occupancy Networks, TPVFormer) et désormais transposées à la manipulation. L'absence de fine-tuning sim-to-real, si elle se confirme sur des benchmarks publics standardisés comme TOD ou TRANS, constituerait un argument sérieux pour une intégration industrielle. La prochaine étape logique serait une évaluation sur robot industriel en conditions semi-contrôlées, avec mesures de taux de succès de préhension sur des séries d'objets réels variés.
Dans nos dossiers




