
FreeOcc : prédiction d'occupation en vocabulaire ouvert sans entraînement pour l'IA incarnée
Une équipe de chercheurs a publié début 2026 FreeOcc (arXiv:2604.28115), un framework de prédiction d'occupance 3D à vocabulaire ouvert fonctionnant sans aucune phase d'entraînement. Le système traite des séquences d'images monoculaires ou RGB-D et produit une carte voxelisée dense sans annotations 3D, sans poses caméra de référence et sans supervision au niveau du voxel. Son pipeline en quatre étapes enchaîne un backbone SLAM pour l'estimation des poses, une représentation 3D par Gaussian splatting géométriquement cohérent, l'association de sémantiques à vocabulaire ouvert via des modèles vision-langage (VLM) off-the-shelf, puis une projection probabiliste gaussiennes-vers-voxels. Sur le benchmark EmbodiedOcc-ScanNet, FreeOcc dépasse de plus du double les scores IoU et mIoU des meilleures méthodes auto-supervisées existantes, et transfère en zéro-shot vers des environnements inconnus sur le nouveau benchmark ReplicaOcc publié par les mêmes auteurs, surpassant à la fois les baselines supervisées et auto-supervisées.
La prédiction d'occupance sémantique 3D est un prérequis fondamental pour la navigation, la manipulation et la planification dans les systèmes robotiques incarnés. La principale friction jusqu'ici était le coût prohibitif des annotations 3D : des jeux de données comme ScanNet exigent des dizaines de milliers de labels voxel par scène, rendant la généralisation hors domaine structurellement difficile. En s'appuyant intégralement sur des VLMs pré-entraînés (de type CLIP) pour la sémantique et sur le SLAM pour la géométrie, FreeOcc supprime ce goulot d'étranglement et ouvre la voie à des systèmes de perception adaptables sans pipeline de labeling continu. Le transfert zéro-shot est particulièrement stratégique pour les intégrateurs : un robot déployé dans un nouvel environnement n'a besoin ni de cycle d'annotation ni de fine-tuning. Les métriques restent néanmoins mesurées en conditions benchmark contrôlées, sans validation terrain annoncée à ce stade.
FreeOcc s'inscrit dans la convergence entre Gaussian splatting, popularisé par 3DGS en 2023, et les grands modèles vision-langage pour produire des cartes sémantiques 3D sans supervision dédiée. Les méthodes supervisées concurrentes, parmi lesquelles OccNet, SurroundOcc et MonoScene, nécessitent des milliers d'heures d'annotation et généralisent mal hors de leur domaine d'entraînement. Il s'agit ici d'un preprint de recherche sans partenariat industriel déclaré ni timeline produit ; la prochaine étape naturelle serait une validation sur des plateformes mobiles réelles (AMR, bras manipulateurs) dans des conditions d'éclairage et de dynamisme non contrôlées.
Dans nos dossiers




