
AISPO : estimation de profondeur fiable pour la manipulation d'objets non lambertiens via a priori de forme invariant affine
Une équipe de chercheurs a publié sur arXiv (identifiant 2606.25503) un système de complétion de profondeur baptisé AISPO, destiné à améliorer la fiabilité de la perception 3D lors de la manipulation robotique d'objets à surfaces non-lambertiennes, c'est-à-dire transparents (verres, flacons, plastiques) ou fortement spéculaires (pièces métalliques polies). Ces matériaux posent un problème structurel aux capteurs RGB-D : les mesures de profondeur y sont systématiquement corrompues ou absentes, car ces surfaces ne diffusent pas la lumière infrarouge de façon prévisible. AISPO combine une fusion multi-échelle de caractéristiques RGB-D avec un prior de forme affine-invariant, qui impose une cohérence géométrique locale et corrige les défaillances de profondeur avant qu'elles ne se propagent au planificateur de mouvement et ne génèrent des poses de préhension invalides.
L'intérêt industriel est direct : les objets non-lambertiens sont omniprésents en logistique pharmaceutique, en agroalimentaire et en assemblage électronique. La plupart des méthodes de complétion de profondeur existantes sont optimisées pour la précision moyenne sur des benchmarks standardisés, sans garantir la plausibilité physique des cartes de profondeur produites, ce qui suffit pour la reconstruction 3D mais pas pour générer des trajectoires de grasping exécutables. AISPO se distingue en priorisant l'intégrité structurelle des prédictions plutôt que la métrique globale. Les expériences de préhension réelle montrent une amélioration des taux de succès sur objets transparents, bien que l'article ne quantifie pas précisément cet écart, un manque de rigueur notable pour un travail qui se positionne sur la fiabilité.
AISPO s'inscrit dans un champ de recherche actif autour de la perception d'objets difficiles à mesurer, aux côtés de travaux comme ClearGrasp (Google Research, 2019) et des jeux de données TransCG et DREDS. La contribution clé est le prior de forme affine-invariant, qui permet une généralisation à des objets et scènes non vus à l'entraînement, un enjeu central du sim-to-real gap. Aucune entreprise industrielle ni laboratoire européen n'est associé à ce travail, qui reste un préprint arXiv sans évaluation par les pairs. Les prochaines étapes naturelles seraient une intégration dans des pipelines de manipulation existants comme OpenVLA ou Pi-0 de Physical Intelligence, et une comparaison quantitative plus rigoureuse sur des benchmarks comme GraspNet-1B.




