RecherchearXiv cs.RO3h

GaussLite : cartographie robotique en temps réel par 3D Gaussian Splatting conditionnée par tâche

1 source couvre ce sujet·Source originale ↗·

Résumé IASource uniqueImpact UE

Des chercheurs présentent GaussLite, un système de cartographie 3D par Gaussian Splatting (3DGS) conditionné par la tâche, décrit dans un article publié sur arXiv (arXiv:2606.30809v1). Contrairement aux systèmes 3DGS classiques qui répartissent uniformément leur capacité de représentation sur toute une scène, GaussLite concentre le calcul embarqué sur les zones pertinentes pour une tâche donnée, exprimée en langage naturel comme "se préparer à saisir l'objet sur le bureau". Le système combine un parseur LLM en une passe pour extraire les objets cibles et de référence, un détecteur en vocabulaire ouvert pour les localiser image par image, et une segmentation produisant des masques de pertinence par pixel en temps réel. La densité de semis des gaussiennes, le flux de gradient et la mise à l'échelle sont ensuite alloués selon cette pertinence. À budget de gaussiennes équivalent et en cartographie temps réel à 4 Hz sur du matériel aux ressources limitées, GaussLite surpasse les méthodes de référence de 2,72 dB en moyenne sur le PSNR de la région d'intérêt (ROI) sur le jeu de données Replica, et de 2,23 dB lors de démonstrations sur matériel réel en intérieur et extérieur.

Cette approche répond à un goulot d'étranglement concret pour la robotique embarquée : les plateformes mobiles ou manipulateurs disposent d'une puissance de calcul limitée, et gaspiller des cycles à reconstruire finement des murs ou du mobilier hors sujet pénalise directement la précision là où elle compte, sur l'objet à saisir ou l'obstacle à éviter. En priorisant explicitement la scène par la tâche plutôt que par la géométrie brute, GaussLite s'attaque à un problème récurrent des pipelines de perception pour la manipulation et la navigation autonome : l'écart entre fidélité de reconstruction globale et utilité réelle pour la décision robotique. L'équipe démontre aussi qu'il est possible de fusionner en temps réel les cartes de deux agents spécialisés sur des tâches différentes, via un vote par voxel sur le nombre d'optimisations actives, avec un gain de 3,42 dB par rapport à une simple concaténation, tout en ne partageant que 7,08% de la carte en moyenne, un résultat qui intéresse directement les scénarios multi-robots ou essaims.

GaussLite s'inscrit dans la lignée des travaux récents combinant 3D Gaussian Splatting et robotique, un domaine en forte expansion depuis l'adoption de cette technique de rendu comme alternative aux NeRF pour la cartographie en temps réel. La contribution se distingue des systèmes 3DGS génériques en intégrant directement un module de compréhension du langage et de détection ouverte pour piloter l'allocation de ressources, plutôt que de traiter la sémantique comme une étape séparée en aval. Les auteurs ne précisent pas de plan de déploiement industriel ni de partenariat commercial ; il s'agit à ce stade d'un travail de recherche évalué sur Replica et sur un banc de test matériel propre à l'équipe, sans comparaison publiée face à des architectures commerciales de cartographie temps réel.

Dans nos dossiers

arXiv cs.RO

À lire aussi

1arXiv cs.RO

Mono-Hydra++ : construction en temps réel de graphes de scènes monoculaires par apprentissage multi-tâches pour la cartographie 3D intérieure

Des chercheurs ont publié en mai 2026 (arXiv:2605.17661) Mono-Hydra++, un pipeline temps réel capable de construire des graphes de scène 3D hiérarchiques d'intérieurs en n'utilisant qu'une caméra RGB monoculaire et une IMU, sans capteur de profondeur actif. Le coeur du système repose sur M2H-MX, un modèle multi-tâches fondé sur DINOv3 qui estime simultanément la profondeur et la sémantique des images. Ces estimations alimentent un front-end d'odométrie visuelle-inertielle (VIO) enrichi de contraintes de profondeur prédites creuses, d'un masquage sémantique des zones dynamiques et d'un alignement temporel tenant compte de la pose, avant fusion volumétrique dans le backend Mono-Hydra. Sur le sous-ensemble d'évaluation Go-SLAM/ScanNet, le système affiche 1,6 % d'erreur de trajectoire en moins que le meilleur baseline RGB-D testé ; sur le benchmark calibré 7-Scenes, il réduit l'ATE moyen de 29,8 % par rapport au meilleur concurrent calibré. Le modèle de perception M2H-MX-L, exporté en ONNX/TensorRT FP16, tourne à 25,53 FPS sur un Jetson Orin NX 16 Go, et le pipeline a été validé dans un déploiement réel dans un bâtiment ITC avec une caméra RealSense RGB + IMU. L'impact industriel est direct pour les plateformes à contraintes sévères : drones d'inspection, robots humanoïdes légers et AMR embarquant peu de puissance. Jusqu'ici, la construction de graphes de scène 3D, qui organisent l'espace en objets, pièces et relations spatiales, nécessitait des capteurs actifs (RGB-D ou LiDAR) impraticables dès que le payload ou la consommation électrique sont limités. Mono-Hydra++ démontre qu'il est possible d'atteindre, voire de dépasser, la précision de ces baselines lourds avec une seule caméra et une IMU bas coût. Pour un intégrateur ou un COO industriel, cela signifie une réduction substantielle du coût matériel embarqué et l'ouverture de cas d'usage où le RGB-D n'est pas envisageable. Il convient toutefois de noter que les résultats sont issus de benchmarks académiques standardisés : la robustesse sur des scènes industrielles non contrôlées, avec éclairages difficiles ou textures répétitives, reste à confirmer dans des conditions opérationnelles réelles. Mono-Hydra++ s'inscrit dans la lignée du système Hydra du MIT, qui a posé les bases de la représentation hiérarchique en graphe de scène pour la robotique. L'utilisation de DINOv3 comme backbone de vision fondationnelle est cohérente avec la tendance forte à extraire simultanément géométrie et sémantique depuis des modèles pré-entraînés à grande échelle. Sur ce terrain, les concurrents directs incluent les systèmes basés sur RGB-D comme Go-SLAM, iMAP ou NICE-SLAM, ainsi que des approches VIO-sémantiques récentes, mais peu proposent la combinaison complète cartographie métrique, sémantique et graphe de scène en temps réel sur matériel embarqué contraint. En tant que preprint arXiv non encore évalué par les pairs, les prochaines étapes attendues sont la publication en conférence (IROS, ICRA), des tests sur plateformes aériennes effectives et une éventuelle intégration dans des stacks robotiques open-source comme ROS 2.

UELes constructeurs européens d'AMR légers et de drones d'inspection pourraient à terme réduire leurs coûts matériels embarqués en remplaçant les capteurs RGB-D par une caméra monoculaire, sous réserve de validation dans des conditions industrielles non contrôlées.

RecherchePaper

1 source

2arXiv cs.RO

SplatlessDF : cartographie continue de champ de distance avec des gaussiennes sans splatting

Des chercheurs ont publié en juin 2026 sur arXiv (arXiv:2606.13990) SplatlessDF, un cadre de cartographie par champ de distance continu (DF) qui réutilise les primitives gaussiennes non pas pour le rendu visuel, mais pour la représentation spatiale. Contrairement aux méthodes classiques de Gaussian Splatting (GS) optimisées pour la reconstruction photométrique, SplatlessDF paramètre directement des éléments gaussiens anisotropes dans le domaine spatial afin de produire un champ de distance différentiable. Le système supporte deux modes d'utilisation : une formulation autonome centrée uniquement sur le champ de distance, et une formulation conjointe couplée à la méthode 2D Gaussian Splatting (2DGS), qui combine dans un seul pipeline la modélisation DF et le rendu photométrique. Les expériences rapportées montrent que la formulation autonome fournit des requêtes de distance et de gradient précises et efficaces, tandis que la formulation conjointe améliore simultanément la géométrie de rendu et la qualité du champ de distance. L'intérêt pratique est significatif pour la robotique mobile : un champ de distance continu et différentiable permet de requêter directement les distances aux obstacles et leurs gradients, deux grandeurs fondamentales pour la planification de trajectoire, l'évitement de collision, et le contrôle en boucle fermée. En réorientant les Gaussians vers la représentation spatiale plutôt que photométrique, SplatlessDF suggère que le paradigme GS, jusqu'ici cantonné à la reconstruction 3D et la synthèse d'images, peut alimenter des modules de navigation sans nécessiter de représentations hybrides (grilles d'occupation, TSDF, réseaux implicites). Le cadre unifié GS pour DF et rendu pourrait simplifier les pipelines de cartographie embarquée pour robots industriels et mobiles autonomes. Le Gaussian Splatting a été popularisé par les travaux de Kerbl et al. (2023), et la variante 2DGS cible spécifiquement la reconstruction de surface. SplatlessDF s'inscrit dans un courant croissant qui cherche à étendre ces représentations au-delà de la vision, aux côtés d'autres approches comme les champs de distance neuraux basés sur NeRF (iSDF, NeuralBlox) ou les grilles ESDF classiques (Voxblox, FIESTA). Ce preprint ne mentionne pas de déploiement réel ni de partenariat industriel : il s'agit d'une contribution de recherche avec validation expérimentale en environnement contrôlé, sans timeline commerciale annoncée.

RecherchePaper

1 source

3arXiv cs.RO

Capteur cutané conforme pour la cartographie en temps réel de la forme

Des chercheurs ont présenté sur arXiv (preprint 2605.01170, mai 2025) un capteur souple et conforme capable de reconstruire en temps réel la déformation tridimensionnelle d'une surface flexible, sans recourir à la vision. Le dispositif intègre un réseau 2D de jauges de contrainte imprimées à base d'indium-gallium eutectique oxydé (o-EGaIn), emboîtées en miroir dans un film élastomère. Un réseau de 5x5 capteurs espacés de 12 mm mesure les contraintes hors axe neutre, et un modèle d'observation informé par la mécanique des matériaux, couplé à une routine d'optimisation rapide, estime simultanément la courbure locale, l'élongation, le décalage et l'orientation. Le système atteint une erreur moyenne de reconstruction de surface de 0,62 mm avec une latence de 100 ms, testée sur des scénarios combinant étirement, flexion et indentation. Les démonstrations incluent le suivi de gestes de la paume, l'indentation par un doigt, et la déformation d'un ballon sous contact. Ce résultat est notable parce qu'il adresse une limitation structurelle des approches visuelles existantes : la nécessité d'une ligne de visée et d'une instrumentation complexe, incompatibles avec les environnements occultés ou à espace contraint, notamment la chirurgie mini-invasive, les prothèses ou les doigts de préhension robotique. La précision sub-millimétrique à 10 Hz ouvre un espace d'utilisation pour le suivi épidermique du mouvement, l'interaction haptique à retour de forme, et la surveillance peropératoire en temps réel, sans nécessiter de marqueurs externes ni de caméras. Il s'agit cependant d'un preprint académique : aucun produit n'est annoncé ni commercialisé. Les capteurs à base d'EGaIn liquide-métal sont étudiés depuis une décennie pour leur déformabilité et leur conductivité, mais la reconstruction 3D continue à partir de mesures de contraintes distribuées reste un problème ouvert. Les approches concurrentes incluent les capteurs à fibre optique (FBG), plus précis mais rigides et coûteux, et les peaux tactiles matricielles à base de matériaux piézorésistifs ou capacitifs. Ce travail se distingue par la combinaison d'une fabrication par impression, d'un modèle mécanique intégré et d'une latence compatible avec le contrôle en boucle fermée. Les prochaines étapes naturelles sont l'intégration sur un effecteur robotique souple ou un instrument chirurgical, et la tenue à l'autoclave pour la stérilisation.

RecherchePaper

1 source

4arXiv cs.RO

Prise de contrôle adversariale en temps réel des politiques de diffusion robotique

Une équipe de chercheurs a publié le 10 juin 2026 sur arXiv (réf. 2606.10371) une attaque baptisée TAKO (Test-time Adversarial Takeover), qui permet de prendre le contrôle en temps réel d'un robot opérant sous une politique de diffusion visuomotrice, sans modifier le modèle cible. La méthode repose sur un vocabulaire restreint de patches adversariaux universels et réutilisables, appris hors ligne via inférence de diffusion différentiable. À l'exécution, un opérateur humain injecte ces patches dans le flux caméra du robot et les commute dynamiquement pour composer des trajectoires de son choix. Sur quatre tâches évaluées (manipulation 2D, livraison aérienne simulée, navigation sol simulée et navigation sol en environnement physique réel), deux encodeurs visuels (ResNet-18 et EfficientNet-B0 + Transformer) et trois familles d'inférence générative (DDPM, DDIM et flow matching), les opérateurs attaquants ont atteint 100 % de succès de détournement dans l'ensemble des scénarios testés. Ce résultat interpelle directement les intégrateurs robotiques et les équipes de sécurité industrielle qui déploient des systèmes pilotés par des politiques de diffusion ou des VLA (Vision-Language-Action models). Jusqu'ici, la quasi-totalité des attaques adversariales sur robots visaient la dégradation des performances, induire un échec de tâche ou un comportement erratique. TAKO introduit une menace qualitativement différente : le robot ne s'arrête pas, il obéit à un attaquant distant. La perturbation agit sur le chemin de conditionnement visuel de la politique, et le biais introduit se propage à travers le processus de génération itératif propre aux modèles de diffusion, ce qui le rend difficile à détecter par supervision classique. Les auteurs démontrent aussi que la baseline naturelle "target-policy matching" échoue, car la politique victime ne peut pas se superviser fiablement sur des shifts hors distribution, invalidant une hypothèse de défense couramment avancée. Les politiques de diffusion pour la robotique se sont imposées comme paradigme dominant depuis 2023, portées par Diffusion Policy (Chi et al.) et intégrées dans des systèmes tels que pi0 de Physical Intelligence, les pipelines de Figure AI ou les robots de 1X Technologies. Ces architectures conditionnent l'action sur une observation visuelle, ce qui les rend structurellement vulnérables aux perturbations du flux caméra. Les pistes de défense habituelles, détection d'anomalies ou purification adversariale, restent largement expérimentales à cette échelle. L'évaluation demeure dans un cadre académique contrôlé, sans partenaire industriel ni calendrier de déploiement annoncé. Pour les équipes préparant des déploiements en logistique, livraison autonome ou manipulation industrielle, TAKO pose une question de sécurité concrète à laquelle le secteur n'a pas encore de réponse standardisée.

UELes intégrateurs robotiques européens déployant des systèmes à politiques de diffusion en logistique ou industrie doivent intégrer ce vecteur d'attaque dans leur modèle de menace, en l'absence de défense standardisée disponible.

RechercheActu

1 source