
Perception 3D monoculaire pour robots piétons par apprentissage hybride 2D-3D
Une équipe de chercheurs a publié en juin 2026 sur arXiv (référence 2606.19122) WalkOCC, un framework de perception 3D de l'espace occupé conçu spécifiquement pour les robots circulant sur les trottoirs, notamment les robots de livraison du dernier kilomètre et les fauteuils roulants autonomes. Contrairement aux systèmes existants qui requièrent plusieurs caméras et des nuages de points LiDAR densément annotés en 3D, WalkOCC repose sur une seule caméra monoculaire. L'architecture hybride combine du ray-marching géométrique calibré sur des séquences LiDAR-RGB avec un apprentissage à grande échelle sur des images monoculaires non appariées, sans nécessiter d'annotations 3D coûteuses sur ces données supplémentaires. Les auteurs publient également Sidewalk3D, un dataset collecté sur plusieurs sites et périodes, incluant des séquences LiDAR-caméra synchronisées et des annotations sémantiques d'occupancy 3D pour l'évaluation comparative.
L'enjeu est directement opérationnel pour les intégrateurs de robots mobiles en milieu urbain. Les trottoirs présentent des structures fines et hétérogènes, bordures (curbs), caniveaux (gutters), mobilier urbain, piétons proches, que les pipelines de prédiction d'occupancy conçus pour l'automobile autonome capturent mal. WalkOCC améliore la segmentation fine de ces éléments et maintient de bonnes performances lors de changements environnementaux (conditions lumineuses, météo) et de changements de plateforme robotique (cross-embodiment), un point critique pour les opérateurs qui déploient plusieurs modèles de robots sur une même infrastructure logicielle. La réduction de dépendance au LiDAR multi-faisceau, dont le coût reste prohibitif pour les robots de faible valeur unitaire, constitue un argument industriel concret pour le déploiement à échelle.
Ce travail s'inscrit dans une dynamique de transfert des méthodes de perception automobile vers la robotique de service en environnement non structuré. Les approches dominantes en véhicule autonome ont largement établi la prédiction d'occupancy comme primitive centrale, mais elles présupposent des infrastructures de collecte et des densités de capteurs inaccessibles pour les flottes de robots de trottoir. WalkOCC concurrence directement les baselines auto-supervisées sur image seule en apportant un gain de précision sans alourdir le pipeline de collecte de données. Il n'existe aujourd'hui aucun standard commun pour l'évaluation de la perception piétonne robotique; si le code et le dataset Sidewalk3D sont effectivement publiés comme annoncé, ce travail pourrait s'imposer comme référence de benchmarking dans ce segment encore peu structuré.
Dans nos dossiers




