Aller au contenu principal
Extraction sémantique guidée par LLM : peuplement automatique d'ontologies robotiques depuis des fichiers URDF
RecherchearXiv cs.RO1h

Extraction sémantique guidée par LLM : peuplement automatique d'ontologies robotiques depuis des fichiers URDF

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Des chercheurs ont publié fin juin 2026 sur arXiv (arXiv:2606.17073) une approche préliminaire pour automatiser la génération de représentations sémantiques de robots à partir de fichiers URDF (Unified Robot Description Format), le format standard décrivant la structure mécanique et cinématique d'un robot. Le problème ciblé est précis : les identifiants URDF sont souvent des étiquettes bas niveau ambiguës (noms de joints, liens, degrés de liberté) qui n'ont pas de sens conceptuel exploitable pour un système de raisonnement. Le pipeline proposé utilise des LLMs pour inférer les relations sémantiques en leur soumettant ces identifiants accompagnés de concepts issus d'une ontologie existante, garantissant ainsi que la classification produite reste alignée avec le modèle formel. Pour améliorer la fiabilité, les auteurs combinent un vote majoritaire sur plusieurs requêtes LLM avec une validation syntaxique et structurelle qui vérifie la conformité des sorties au schéma de l'ontologie cible. Les résultats présentés portent sur plusieurs descriptions de robots, sans que les modèles spécifiques ni les métriques quantitatives de précision ne soient détaillés dans l'abstract.

L'intérêt pour les intégrateurs et les équipes de robotique cognitive est réel : la construction manuelle d'ontologies robotiques est aujourd'hui un goulot d'étranglement reconnu, coûteux en temps d'ingénierie expert. En automatisant ce pont entre la description physique d'un robot et sa représentation de connaissances structurée, cette approche pourrait accélérer le déploiement de systèmes capables de raisonnement explicable, condition souvent nécessaire en interaction humain-robot (HRI) dans des environnements industriels ou de service. La combinaison LLM-plus-vote-majoritaire-plus-validation formelle est une réponse pragmatique au problème de fiabilité des sorties LLM non contraintes, un compromis classique dans ce domaine.

Ce travail s'inscrit dans un courant actif de la robotique cognitive qui cherche à connecter les représentations symboliques (ontologies OWL, Knowledge Graphs) aux descriptions bas niveau des systèmes embarqués, en réponse aux limites des approches purement neuronales pour l'explicabilité. Des approches concurrentes passent par des annotations manuelles enrichies ou des pipelines de semantic parsing plus traditionnels. Le papier est qualifié de "preliminary approach", signal clair qu'il s'agit d'un jalon de recherche et non d'un outil industrialisé : aucun code, benchmark standardisé, ni timeline de transfert applicatif ne sont mentionnés. Les prochaines étapes probables incluent une évaluation quantitative sur des ontologies robotiques de référence et des tests de passage à l'échelle sur des descriptions de robots complexes multi-DOF.

Dans nos dossiers

À lire aussi

Raisonnement guidé par ontologie pour des explications fondées sur les affordances en navigation robotique
1arXiv cs.RO 

Raisonnement guidé par ontologie pour des explications fondées sur les affordances en navigation robotique

Des chercheurs ont publié en juin 2026 sur arXiv (2606.00117) une méthode d'explication de la navigation robotique fondée sur le raisonnement ontologique et la théorie des affordances. L'approche construit, en temps réel, une ontologie locale représentant les entités proches du robot avec leurs affordances (ce qu'elles permettent de faire), leurs états possibles, et leurs relations spatiales qualitatives. Face à un obstacle, le système ne se contente pas de détecter le blocage : il évalue des hypothèses de changement d'état -- une porte peut-elle être ouverte, une chaise déplacée -- afin de générer des explications actionnables sur la manière de poursuivre la navigation. L'approche est validée sur un benchmark centré sur un scénario de robot bibliothécaire, avec des cas de navigation générés de manière procédurale. Les résultats montrent que le raisonnement ontologique identifie les facteurs d'explication pertinents avec une précision supérieure à une approche purement sémantique (semantic-only baseline), et reste robuste lorsque la densité d'objets non pertinents augmente -- ce qu'on appelle le semantic clutter, l'un des talons d'Achille des systèmes de navigation en environnement humain réel. Pour un intégrateur déployant des robots dans des espaces partagés (entrepôts mixtes, hôpitaux, bureaux), la capacité à expliquer les décisions de navigation répond à une exigence opérationnelle et réglementaire croissante, notamment sous l'AI Act européen. L'explication n'est pas ici cosmétique : elle est structurellement liée au raisonnement, ce qui la rend vérifiable et auditable par un opérateur humain. L'approche s'inscrit dans le courant de l'IA explicable (XAI) appliquée à la robotique. La théorie des affordances, conceptualisée par le psychologue James Gibson dans les années 1970, connaît un regain d'intérêt depuis l'émergence des vision-language models (VLMs) et des LLMs. Les approches concurrentes incluent les scene graphs sémantiques utilisés par Boston Dynamics et Sanctuary AI, ainsi que les planificateurs fondés sur LLM comme SayCan (Google DeepMind). Par rapport à ces méthodes, l'ontologie locale proposée ici est plus légère et plus explicite formellement, mais reste évaluée sur un benchmark synthétique limité -- le passage à des environnements réels non contrôlés reste à démontrer. Aucun partenariat industriel ni timeline de déploiement n'est mentionné : ce travail est une contribution académique de fond, pas un produit en voie de commercialisation.

UEL'approche répond structurellement aux exigences de l'AI Act pour les systèmes autonomes navigant en environnement humain, en fournissant des explications auditables sur les décisions de navigation, pertinent pour les intégrateurs européens déployant des robots en espaces partagés.

RecherchePaper
1 source
LAD-VF : la différentiation automatique par LLM permet la planification robotique sans ajustement fin à partir de méthodes formelles
2arXiv cs.RO 

LAD-VF : la différentiation automatique par LLM permet la planification robotique sans ajustement fin à partir de méthodes formelles

Une équipe de chercheurs a publié LAD-VF (LLM-AutoDiff with Verification Feedback), un cadre de planification robotique basé sur les grands modèles de langage (LLM) qui élimine le besoin de fine-tuning. Présenté dans un article arXiv (2509.18384v2), le système combine la vérification formelle des contraintes avec un mécanisme de différenciation automatique appliqué directement au texte, baptisé LLM-AutoDiff. Concrètement, LAD-VF génère des boucles de rétroaction à partir d'un vérificateur formel qui évalue si les plans produits respectent les spécifications de sécurité et réglementaires, puis affine itérativement les prompts plutôt que les paramètres du modèle. Lors d'expériences sur des tâches de navigation et de manipulation robotique, le taux de succès progresse de 60 % à plus de 90 %, sans modification des poids du modèle sous-jacent. Ce résultat adresse un problème central pour le déploiement industriel des LLM en robotique : les modèles actuels violent fréquemment les contraintes de sécurité par hallucination ou par alignement insuffisant, ce qui freine leur adoption dans des environnements réglementés comme l'industrie manufacturière, la mobilité autonome ou la chirurgie assistée. Les approches classiques de réalignement telles que le Direct Preference Optimization (DPO) ou le RLHF exigent des annotations humaines coûteuses et des cycles de fine-tuning intensifs en calcul GPU. En substituant l'optimisation de prompt à celle des poids, LAD-VF ouvre une voie d'adaptation scalable sans infrastructure de réentraînement dédiée, et produit des prompts auditables qui simplifient la traçabilité requise par des normes comme l'ISO 10218 ou le futur règlement européen sur l'IA. LAD-VF s'inscrit dans un courant émergent qui cherche à rendre les LLM exploitables dans des contextes à haute criticité sans passer par des pipelines de fine-tuning lourds. Les approches concurrentes incluent les méthodes de formal-feedback avec fine-tuning, le Constitutional AI d'Anthropic ou les frameworks de planification symbolique hybride comme SayCan (Google DeepMind). La nouveauté de LAD-VF tient à l'intégration de la différenciation automatique au niveau textuel, un concept issu des travaux sur AdalFlow. L'architecture modulaire revendiquée suggère une compatibilité avec des familles de modèles variées (GPT-4, Llama, Qwen), mais les expériences publiées restent limitées à des environnements de simulation ; le passage au réel en conditions industrielles reste entièrement à démontrer.

UELes prompts auditables générés par LAD-VF pourraient faciliter la conformité au règlement européen sur l'IA pour les applications robotiques à haute criticité, mais le système reste limité à des environnements de simulation sans validation industrielle réelle.

RecherchePaper
1 source
Entraînement de robots par LLM : génération automatisée de données via l'augmentation de démonstrations
3arXiv cs.RO 

Entraînement de robots par LLM : génération automatisée de données via l'augmentation de démonstrations

Des chercheurs de Carnegie Mellon University ont publié LLM Trainer (arXiv:2509.20070v2), un pipeline entièrement automatisé capable de transformer une poignée de démonstrations humaines, aussi peu qu'une seule, en un large jeu de données pour l'apprentissage par imitation robotique. Le système décompose la génération de nouvelles démonstrations en deux étapes : une annotation hors-ligne qui extrait des keyframes, des objets saillants et des relations pose-objet à partir des trajectoires originales, puis un retargeting de keyposes en ligne qui adapte ces keyframes à un nouvel environnement à partir d'une simple observation initiale. Le pipeline déforme ensuite géométriquement la trajectoire originale pour en produire une nouvelle, l'exécute sur le robot, et ne conserve les données que si l'exécution est concluante. Pour optimiser la qualité des annotations, réutilisables d'une scène à l'autre, l'équipe intègre un mécanisme de Thompson sampling qui améliore significativement le taux de succès. Les validations ont été conduites sur un bras Franka Emika Panda. L'enjeu est structurant pour l'imitation learning en robotique industrielle : le goulot d'étranglement reste la collecte coûteuse de démonstrations humaines. LLM Trainer propose de contourner ce problème en mobilisant la connaissance du monde embarquée dans les LLMs pour générer des variantes de scènes plausibles sans intervention humaine supplémentaire. Les résultats montrent que la méthode d'annotation LLM surpasse systématiquement des baselines conçues par des experts humains. L'approche d'ensemble, combinant un plan feed-forward LLM optimisé et un contrôleur par imitation en feedback, ouvre une piste vers des politiques plus robustes à la variabilité des environnements réels, ce qui intéresse directement les intégrateurs confrontés à des lignes de production hétérogènes. Ce travail s'inscrit dans une tendance forte en manipulation robotique : réduire la dépendance aux données humaines via l'augmentation synthétique, après des approches comme RoboAgent, DemoAugment ou les pipelines sim-to-real de Google DeepMind. Carnegie Mellon reste un acteur central de cet espace, aux côtés de Stanford (Mobile ALOHA), Berkeley (RoboVerse) et du MIT. Pour l'heure, LLM Trainer est uniquement validé sur un seul modèle de bras dans des conditions de laboratoire, ce qui laisse ouverte la question du passage à l'échelle vers des robots humanoïdes ou des environnements moins structurés. La version v2 publiée sur arXiv suggère des révisions post-soumission, probablement en vue d'une conférence comme CoRL 2025 ou ICRA 2026.

RecherchePaper
1 source
Évaluation de l'inférence d'affordance sémantique par VLM pour des morphologies robotiques non humanoïdes
4arXiv cs.RO 

Évaluation de l'inférence d'affordance sémantique par VLM pour des morphologies robotiques non humanoïdes

Une équipe de chercheurs publie sur arXiv (2604.19509) une évaluation empirique des modèles vision-langage (VLM) pour l'inférence d'affordances sur des robots à morphologie non humanoïde. L'"affordance" désigne ici la capacité d'un modèle à déterminer quelles actions sont physiquement réalisables par un robot donné face à un objet spécifique. Les auteurs ont constitué un jeu de données hybride combinant des annotations réelles de relations affordance-objet et des scénarios synthétiques générés par VLM, couvrant plusieurs catégories d'objets et plusieurs types de morphologies robotiques. Les résultats montrent une généralisation prometteuse aux formes non humanoïdes, mais des performances très variables selon les domaines d'objets. Le constat central est un schéma systématique de faible taux de faux positifs associé à un fort taux de faux négatifs, révélant que les VLM adoptent des prédictions trop conservatrices. Ce biais est particulièrement prononcé pour les outils inédits et les manipulations non conventionnelles. Pour les intégrateurs qui envisagent d'utiliser les VLM comme couche de planification sémantique, ce résultat est structurellement important. Le biais conservateur offre un avantage de sécurité intrinsèque, les robots n'entreprenant pas d'actions impossibles ou dangereuses, mais le taux élevé de faux négatifs freine l'exploitation réelle : le système refuse des tâches qu'il pourrait pourtant accomplir. Pour un architecte de système ou un COO industriel, cela confirme qu'un VLM seul ne peut pas servir de module d'affordance universel pour des cobots ou des AMR (robots mobiles autonomes) aux morphologies spécifiques. Des couches complémentaires, simulation physique ou vérification cinématique, restent nécessaires pour corriger ce défaut sans sacrifier la sécurité. La recherche sur les affordances VLM s'est construite massivement sur des corpus centrés sur l'interaction humain-objet, laissant les robots non humanoïdes structurellement sous-représentés. Des architectures VLA (Vision-Language-Action) comme pi-zero de Physical Intelligence ou GR00T N2 de NVIDIA ont été évaluées principalement sur des tâches de manipulation humain-like. Cette étude pointe un enjeu distinct pour des plateformes comme Spot de Boston Dynamics ou ANYmal d'ANYbotics, dont les effecteurs et degrés de liberté (DOF) diffèrent fondamentalement de la main humaine. Les auteurs proposent des architectures hybrides et des jeux de données morpho-spécifiques comme prochaines étapes pour réduire le biais conservateur tout en préservant les faibles taux de faux positifs, seul acquis de sécurité clairement démontré.

UELes intégrateurs européens déployant des AMR ou cobots non humanoïdes (ANYmal d'ANYbotics, Spot) doivent anticiper des couches de vérification cinématique complémentaires aux VLM avant tout déploiement autonome en planification sémantique.

RechercheOpinion
1 source