OctoSense : apprentissage auto-supervisé pour la perception multimodale des robots
Une équipe de recherche a publié sur arXiv (arXiv:2606.17317) OctoSense, une plateforme matérielle open-source de perception multimodale accompagnée d'un dataset de 59 heures de données embarquées synchronisées. Le rig intègre une paire de caméras RGB stéréo, une caméra à événements, un LiDAR, une caméra thermique, une centrale inertielle (IMU), un GPS RTK et des données de proprioception issues d'un bus CAN automobile et d'un robot quadrupède. Les données ont été collectées dans des environnements variés, à différentes heures du jour et de la nuit, y compris en conditions de dégradation sensorielle sévère. Sur ce dataset, les auteurs démontrent une architecture de foundation model baptisée "late-fusion masked autoencoder" : des tokeniseurs spécifiques par modalité gèrent les différences de résolution spatiotemporelle, de fréquence et de latence entre capteurs, puis les tokens sont mis en cache à l'inférence pour traiter les nouvelles mesures au fil de leur arrivée. Le temps de calcul de représentation atteint 6,68 ms sur GPU NVIDIA RTX 5090 et 112 ms sur module embarqué Jetson Orin NX.
Ce résultat est notable pour les intégrateurs robotiques car il démontre qu'un modèle auto-supervisé entraîné sur des données réelles hétérogènes surpasse les foundation models vision-only (entraînés sur images seules) sur quatre tâches critiques : estimation du flot optique, reconstruction de profondeur, segmentation sémantique et estimation de l'ego-motion (translation, rotation, angle de braquage). L'absence de labels supervisés dans le pipeline d'entraînement réduit significativement le coût de constitution des datasets pour les équipes qui déploient sur des plateformes mobiles. La robustesse nocturne et en conditions dégradées adresse directement un point de friction récurrent dans les déploiements AMR en entrepôts logistiques et en robotique outdoor.
OctoSense s'inscrit dans la tendance des foundation models perceptifs pour la robotique, un espace très actif depuis les travaux de type CLIP/DINOv2 et plus récemment les VLA (Vision-Language-Action models) poussés par Physical Intelligence (Pi-0) et NVIDIA (GR00T). Contrairement à ces approches centrées sur la manipulation ou la navigation en langage naturel, OctoSense cible la représentation sensorielle bas-niveau sur plateforme embarquée contrainte. Le projet est entièrement open-source (code, dataset et vidéos supplémentaires disponibles), ce qui le distingue des stacks propriétaires des acteurs commerciaux. Aucun déploiement industriel ni partenariat n'est annoncé à ce stade ; il s'agit d'un preprint de recherche sans validation externe. La prochaine étape naturelle serait une évaluation sur des benchmarks robotiques standardisés (OpenX-Embodiment, CARLA) pour confirmer la généralisation hors-distribution.
Dans nos dossiers




