RecherchearXiv cs.RO 9 juin 2026

Langage comme capteur : estimation calibrée de croyances spatiales en 3D à partir du langage naturel

1 source couvre ce sujet·Source originale ↗·

Résumé IASource uniqueImpact UE

Des chercheurs présentent dans un preprint arXiv (2606.08666, juin 2026) un système permettant aux robots de traiter les descriptions spatiales en langage naturel comme un signal capteur à part entière. Le coeur de la contribution est le Language Sensor Model (LSM), qui convertit chaque énoncé ("j'ai laissé mon sac à dos sur la table") et son graphe de scène en une distribution de probabilités 3D multimodale. Cette distribution encode simultanément l'ambiguïté référentielle ("quelle table parmi plusieurs") via des poids de mélange, et l'incertitude spatiale ("où exactement sur la table") via des covariances par composante. Le LSM s'intègre dans VL-Map (Vision-Language Metric-Semantic Mapping), un framework probabiliste qui fusionne ces prédictions linguistiques avec la perception embarquée dans une carte de croyance unifiée. Évalué sur le benchmark VLA-3D et sur un robot mobile réel, le LSM est le seul prédicteur dont les estimations de covariance restent dans le régime calibré, et produit environ 70 % de masse de probabilité supplémentaire sur la cible correcte par rapport au meilleur modèle de fondation testé.

L'enjeu pour les intégrateurs est direct : les robots déployés en environnement humain (logistique, soins, assistance) reçoivent constamment des instructions verbales qui référencent des objets hors de leur champ perceptif. La cartographie métrique-sémantique classique ignore ce canal d'information ; les grands modèles multimodaux généralistes ne produisent pas d'estimations calibrées fusionnables dans un filtre bayésien. La calibration est un point critique souvent sous-estimé : un modèle non calibré surestime ou sous-estime sa confiance, rendant la fusion de capteurs instable et potentiellement dangereuse. Ce travail démontre que le langage peut jouer le rôle d'un vrai capteur réducteur d'incertitude, ce qui modifie le calcul architectural pour tout système de navigation ou manipulation en milieu non structuré.

La contribution s'inscrit dans la lignée de la cartographie visuosémantique 3D (ConceptFusion, LERF, OpenScene), qui ancre des embeddings visuolinguistiques dans des représentations de scènes mais demeure passive vis-à-vis du langage conversationnel. Les approches VLA actuelles comme Pi-0 de Physical Intelligence ou GR00T N2 de NVIDIA traitent le langage comme déclencheur d'actions, sans produire de distribution spatiale exploitable par un planificateur externe. Ce système s'y positionne orthogonalement : non pas un planificateur ni un annotateur, mais un capteur probabiliste intégrable à un pipeline SLAM existant. Les expériences décrites restent à un stade exploratoire, sans partenaire industriel ni calendrier de déploiement annoncés dans la publication.

Dans nos dossiers

NVIDIA GR00T Physical Intelligence — π0 arXiv cs.RO

À lire aussi

1arXiv cs.RO

« Cartes sémantiques enrichies par instance pour la navigation en langage visuel »

Une équipe de recherche (RCI Lab) publie un nouveau framework baptisé Instance-Enriched Semantic Maps pour la navigation par instructions en langage naturel (Visual Language Navigation, VLN), avec trois apports techniques. D'abord, une cartographie 2.5D au niveau instance construite à partir d'images couleur et de profondeur via segmentation panoptique en vocabulaire ouvert, qui préserve les distinctions verticales et capture les petits objets, tout en associant à chaque élément des attributs sémantiques et des descriptions en langage naturel enrichies du contexte de la pièce. Ensuite, un module de traitement des requêtes s'appuyant sur un LLM pour sélectionner la cible, en routant dynamiquement les requêtes vers des experts spécialisés par type et en fusionnant leurs scores pour une sélection d'objectif cohérente quel que soit le formulation de la requête. Enfin, une représentation sémantique nettement plus compacte, avec une réduction de stockage d'environ 96 % par rapport aux approches à scene-graph 3D, tout en conservant l'information spatiale nécessaire à la navigation. Sur le plan des résultats, la représentation 2.5D dépasse la référence 3D de plus de 27 % en AUC normalisée, et le système complet améliore la récupération d'objets de plus de 17 % et le taux de réussite de navigation de plus de 23 % par rapport à la baseline, sur des types de requêtes variés. Pour les robots mobiles autonomes (AMR) et les agents embarqués évoluant en intérieur, ces travaux ciblent un goulot d'étranglement connu des systèmes VLN actuels : la cartographie sémantique existante manque de granularité au niveau des instances individuelles et se montre fragile face à la diversité réelle des formulations utilisateur. En réduisant drastiquement le coût de stockage des cartes tout en gardant leur précision spatiale, l'approche répond à une contrainte concrète de déploiement embarqué, où la mémoire et le calcul restent limités. C'est un signal que la navigation par langage naturel progresse vers une robustesse compatible avec des usages industriels au-delà des démonstrations de laboratoire. Le travail s'inscrit dans la lignée des systèmes VLN combinant cartes spatiales sémantiques et raisonnement par LLM, une direction de recherche active depuis l'essor des modèles de segmentation en vocabulaire ouvert. Les auteurs comparent explicitement leur méthode à des approches de référence en scene-graph 3D, positionnant leur contribution comme une alternative plus légère et plus précise. Le code et les démonstrations sont disponibles sur la page du projet, mais aucun calendrier de déploiement sur robot physique n'est mentionné à ce stade.

RecherchePaper

1 source

2arXiv cs.RO

Planification du mouvement multi-robots à partir de la vision et du langage par diffusion inspirée de la chaleur

Des chercheurs ont présenté LHD (Language-conditioned Heat-inspired Diffusion), un framework de planification de mouvement multi-robots publié sur arXiv (réf. 2512.13090v2). Le système génère, en réponse à des commandes en langage naturel, des trajectoires sans collision pour plusieurs robots opérant simultanément dans un espace partagé, sans nécessiter de représentation explicite de l'environnement à l'inférence. LHD combine les priors sémantiques de CLIP, le modèle vision-langage d'OpenAI, avec un noyau de diffusion inspiré de l'équation de la chaleur. Ce noyau agit comme un biais inductif physique : en simulant la propagation thermique depuis les positions cibles, il délimite naturellement l'espace atteignable par chaque robot, guidant la planification à l'intérieur de la zone effectivement accessible. Les évaluations menées sur des environnements simulés inspirés du monde réel et des expériences en conditions physiques réelles montrent des gains en taux de succès et une réduction de la latence de planification par rapport aux planificateurs par diffusion antérieurs. L'enjeu industriel est direct : des systèmes multi-robots capables d'interpréter des instructions verbales sans reconfiguration manuelle représentent un levier clé pour les entrepôts et les lignes de production flexible. Les approches par diffusion existantes souffraient de deux limites bloquantes pour le déploiement réel : un coût computationnel élevé à l'inférence et une dépendance à une cartographie explicite des obstacles. LHD adresse les deux simultanément. Le système gère également les scénarios hors distribution en termes d'accessibilité physique : si une cible est hors de portée, il redirige le robot vers l'alternative accessible la plus proche sémantiquement, exactement le type de robustesse attendu en conditions industrielles. Ces résultats renforcent l'hypothèse que des VLA (Vision-Language-Action) peuvent opérer sans représentation géométrique explicite, sans constituer pour autant une preuve de déploiement à l'échelle commerciale. Ce travail s'inscrit dans une vague de planificateurs neuronaux multi-robots apparue depuis 2023, en concurrence directe avec les approches MAPF (Multi-Agent Path Finding) classiques et les méthodes d'apprentissage par renforcement multi-agent comme QMIX ou MAPPO. L'intégration de CLIP distingue LHD par son conditionnement sémantique flexible, là où la plupart des approches concurrentes raisonnent en coordonnées ou en graphes discrets. Aucun acteur industriel ou institutionnel européen n'est associé à cette publication, dont les affiliations d'équipe ne sont pas précisées dans l'abstract arXiv. Une page projet accompagnée de démos vidéo et de code est accessible à jebeom.github.io/lhdprojectpage/, mais des intégrations avec des flottes AMR commerciales restent à démontrer.

RechercheOpinion

1 source

3arXiv cs.RO

Estimation de la pose 6-DOF d'un objet à partir d'un seul contact tactile

Une équipe de recherche publie sur arXiv (réf. 2606.28899) YOTO, pour "You Only Touch Once", un système d'estimation de pose 6-DoF fondé exclusivement sur le toucher. Contrairement aux approches visuelles classiques, YOTO reconstruit la position et l'orientation complète d'un objet à partir d'une seule paire de contacts tactiles simultanés, sans nécessiter d'historique de manipulation. Chaque contact est modélisé comme un nuage de points 3D local, puis localisé sur la surface de l'objet par un réseau coarse-to-fine. Les deux contacts localisés, combinés aux poses calibrées des capteurs, alimentent un solveur SVD en forme fermée, conscient des normales de surface, qui restitue la pose 6-DoF en une seule passe. Le réseau est préentraîné sur des patches tactiles virtuels générés depuis le modèle 3D de l'objet, puis affiné avec un petit nombre de contacts réels, réduisant significativement les besoins en données terrain. Les expériences portent sur quatre objets aux géométries variées avec des capteurs GelSight, et incluent une évaluation comparative entre reconstructions issues de scans mobiles grand public et modèles CAO de référence. Ce travail s'attaque à un angle mort bien documenté de la manipulation robotique : les méthodes visuelles de pose estimation échouent systématiquement en cas d'occlusion, d'éclairage défavorable, ou face à des surfaces réfléchissantes et transparentes, conditions courantes en environnement industriel réel. L'approche à contact unique sans historique constitue un avantage pratique majeur, car elle élimine les séquences d'exploration multi-contacts et s'intègre dans des boucles de manipulation courtes. YOTO surpasse les baselines visuelles et géométriques testées dans les scénarios où la perception visuelle est dégradée. La compatibilité avec des scans mobiles plutôt que des modèles CAO précis abaisse la barrière d'intégration pour des objets non catalogués, un point non négligeable pour les intégrateurs industriels. L'estimation de pose par capteurs tactiles de type GelSight est un axe de recherche actif depuis les travaux pionniers du MIT et de l'entreprise éponyme GelSight Inc. Les méthodes antérieures nécessitaient généralement plusieurs contacts successifs ou un historique de manipulation pour converger ; YOTO rompt avec cette contrainte. Sur le plan compétitif, les pipelines visuels basés sur des modèles de fondation (MegaPose, FoundPose, benchmarks BOP) restent dominants en conditions nominales, mais leur robustesse aux surfaces dégradées est limitée, c'est précisément là que le toucher devient complémentaire. Le code, les modèles entraînés et le jeu de données GelSight seront publiés à l'acceptation de l'article. À ce stade, il s'agit d'un preprint arXiv sans déploiement annoncé ni partenaire industriel identifié.

RecherchePaper

1 source

4arXiv cs.RO

Calibration simultanée de la covariance du bruit et de la cinématique pour l'estimation d'état des robots à pattes via optimisation bi-niveau

Une équipe de recherche publie sur arXiv (arXiv:2510.11539, version 5, republication d'un article existant) un nouveau cadre d'optimisation à deux niveaux pour calibrer simultanément les matrices de covariance de bruit et les paramètres cinématiques utilisés dans l'estimation d'état des robots à pattes. Le niveau supérieur traite les covariances de bruit de processus et de mesure ainsi que les paramètres du modèle cinématique comme des variables à optimiser, tandis que le niveau inférieur exécute un estimateur "full-information" complet. En rendant cet estimateur différentiable, les chercheurs peuvent optimiser directement des objectifs définis sur des trajectoires entières plutôt que sur des mesures instantanées. La méthode a été validée sur des robots quadrupèdes et humanoïdes, avec des gains mesurés en précision d'estimation et en calibration de l'incertitude par rapport à des réglages manuels de référence. L'enjeu dépasse le simple exercice académique. L'estimation d'état, savoir en temps réel où se trouve chaque articulation et comment le corps du robot évolue, est le socle sur lequel reposent l'équilibre, la marche et la manipulation des robots humanoïdes et quadrupèdes. Or les paramètres de bruit qui alimentent ces estimateurs (filtres de Kalman étendus, estimateurs à information complète) sont aujourd'hui réglés à la main par des ingénieurs, un processus long, peu reproductible et rarement optimal d'une plateforme à l'autre. Automatiser cette calibration via l'optimisation à deux niveaux s'attaque à un goulot d'étranglement resté dans l'ombre du débat plus médiatisé sur le "sim-to-real" des politiques de contrôle : ici, c'est la fiabilité de la perception proprioceptive elle-même qui est visée, un sujet critique pour tout intégrateur déployant des humanoïdes en environnement réel et non simulé. Ce travail s'inscrit dans une lignée de recherches sur les estimateurs différentiables et l'apprentissage de bout en bout appliqué aux filtres bayésiens, un axe actif depuis plusieurs années en robotique mobile et aérienne. Le fait que la méthode soit revendiquée comme généralisable "à travers diverses plateformes robotiques" laisse entrevoir un intérêt potentiel pour les fabricants de robots à pattes, humanoïdes comme quadrupèdes, qui doivent tous composer avec des capteurs bruités et des modèles cinématiques imparfaits, sans qu'aucun partenariat industriel ni déploiement commercial ne soit mentionné à ce stade.

RecherchePaper

1 source