Aller au contenu principal
VeriGraph : graphes de scène pour la vérification de plans de robots
RecherchearXiv cs.RO6sem

VeriGraph : graphes de scène pour la vérification de plans de robots

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Des chercheurs ont publié VeriGraph (arXiv:2411.10446v3), un système de planification robotique qui combine des modèles vision-langage (VLM) avec un mécanisme de vérification formelle des actions. Le principe central repose sur l'utilisation de graphes de scène comme représentation intermédiaire : à partir d'images en entrée, le système construit un graphe capturant les objets présents et leurs relations spatiales, puis s'en sert pour valider et corriger en boucle les séquences d'actions générées par un planificateur LLM. Les gains rapportés sur des tâches de manipulation sont significatifs : +58 % de taux de complétion sur les tâches guidées par langage, +56 % sur des puzzles tangram, et +30 % sur les tâches guidées par image, par rapport aux méthodes de référence testées.

Ce résultat pointe un problème structurel bien documenté dans le domaine : les VLM et LLM génèrent des plans plausibles en surface mais géométriquement ou physiquement incorrects, un objet posé sur une surface inexistante, une saisie dans un ordre impossible. VeriGraph traite ce gap en introduisant une couche de vérification symbolique ancrée dans l'état réel de la scène, ce qui réduit les hallucinations de planification sans nécessiter de fine-tuning du modèle sous-jacent. Pour les intégrateurs industriels et les équipes robotique, cela suggère une voie pragmatique : greffer un vérificateur léger sur des LLM généralistes plutôt que de tout réentraîner, ce qui abaisse potentiellement le coût d'adaptation à de nouveaux environnements.

VeriGraph s'inscrit dans un courant de recherche actif autour des architectures hybrides neuro-symboliques pour la robotique, où des travaux comme SayPlan (Rana et al.), LLMTAMP ou les approches PDDL-guided cherchent tous à contraindre la génération de plans par des vérificateurs formels ou géométriques. La nouveauté ici réside dans l'usage du graphe de scène comme interface universelle entre perception et planification. Les auteurs publient le code sur un site dédié, ce qui facilite la reproductibilité, mais les expériences restent en environnement simulé ou de laboratoire contrôlé, aucun déploiement en conditions industrielles réelles n'est mentionné à ce stade.

Dans nos dossiers

À lire aussi

Génération de graphes de scène 3D actifs à partir de caméras RGB pour robots mobiles d'intérieur
1arXiv cs.RO 

Génération de graphes de scène 3D actifs à partir de caméras RGB pour robots mobiles d'intérieur

Des chercheurs ont publié le 26 mai 2026 sur arXiv (ref. 2605.18197) un framework permettant de construire des graphes de scène 3D en temps réel à partir de caméras RGB standard uniquement, sans capteur de profondeur dédié (LiDAR ou caméra RGB-D). Le système fonctionne de manière active et incrémentale : le robot sélectionne ses prochains points de vue en fonction de l'état courant du graphe partiellement construit, plutôt que de parcourir une trajectoire prédéfinie. Les expériences menées sur le dataset Replica montrent que le pipeline RGB-only atteint une parité de F1-score avec les baselines utilisant une profondeur ground-truth. Sur ReplicaCAD, l'exploration sémantique active détecte plus du double d'objets qu'une baseline frontier-based géométrique classique, à budget d'exploration identique. Le framework intègre également des caméras fixes externes, permettant d'amorcer le graphe de scène sans coût d'exploration supplémentaire pour le robot. Ce résultat est techniquement significatif parce qu'il décorrèle la construction de représentations métriques 3D riches de la nécessité d'un hardware spécialisé. Jusqu'ici, les scène graphs 3D étaient réservés aux plateformes équipées de capteurs profondeur (Boston Dynamics Spot avec lidar, plateformes AMR comme celles de Locus ou 6 River Systems). Ouvrir ces représentations à des caméras RGB banales abaisse le coût d'entrée et permet d'exploiter des flux vidéo d'infrastructure fixe (CCTV, caméras d'entrepôt) comme source de données complémentaires. La sélection active de viewpoints basée sur la sémantique du graphe, et non sur la géométrie seule, suggère que les VLA (Vision-Language-Action models) embarqués pourraient bénéficier directement de représentations environnementales plus denses et mieux informées. La génération de scene graphs 3D pour la robotique mobile s'appuie sur des travaux antérieurs comme 3D-SGG (CVPR 2020) et les pipelines SLAM-sémantique (SemanticFusion, Hydra de MIT SPARK Lab). La contrainte RGB-only rapproche ce travail des approches monoculaires comme MonoDepth ou DPT, désormais suffisamment robustes pour estimer la géométrie à l'échelle métrique. Les concurrents directs incluent les pipelines basés Open3D-SLAMgraph et les frameworks de mapping neuronaux (NeRF-based mapping). Ce papier est pour l'instant un preprint non peer-reviewed ; aucun déploiement industriel ni partenariat n'est annoncé, et les benchmarks restent sur des environnements simulés, ce qui laisse ouverte la question du sim-to-real gap sur des scènes encombrées réelles.

RecherchePaper
1 source
KGLAMP : un modèle de langage guidé par graphe de connaissances pour la planification multi-robot adaptative
2arXiv cs.RO 

KGLAMP : un modèle de langage guidé par graphe de connaissances pour la planification multi-robot adaptative

Des chercheurs ont publié KGLAMP (Knowledge Graph-guided Language Model for Adaptive Multi-robot Planning and Replanning), un framework de planification combinant graphes de connaissances et grands modèles de langage pour coordonner des équipes de robots hétérogènes sur des missions longues. La contribution centrale est une architecture en deux couches : un graphe de connaissances structuré encode en temps réel les relations entre objets, la portée spatiale de chaque robot et leurs capacités spécifiques, tandis qu'un LLM s'appuie sur ce graphe pour générer automatiquement des spécifications PDDL (Planning Domain Definition Language) correctes. Quand l'environnement évolue, un obstacle déplacé, un robot en panne, le graphe détecte l'incohérence et déclenche un replanification automatique. Sur le benchmark MAT-THOR (un environnement simulé de type habitat domestique conçu pour tester la coordination multi-agents), KGLAMP surpasse de 25,3 % au minimum les deux approches de référence : planificateurs PDDL classiques seuls et LLM seuls. Ce résultat est significatif parce qu'il attaque un problème structurel bien documenté dans la littérature : les planificateurs symboliques PDDL exigent des modèles du monde construits manuellement, coûteux à maintenir dans des environnements dynamiques, tandis que les LLM utilisés seuls tendent à ignorer l'hétérogénéité des agents et à produire des plans invalides face à l'incertitude. KGLAMP propose une mémoire persistante et mise à jour dynamiquement qui sert d'interface entre perception et raisonnement symbolique. Pour un intégrateur déployant des flottes mixtes (AMR, bras manipulateurs, drones), la promesse d'un replanning automatique sans re-modélisation manuelle représente un gain opérationnel concret, notamment dans les entrepôts à géométrie variable ou la logistique hospitalière. L'article s'inscrit dans la tendance des approches dites "neuro-symboliques" qui tentent de corriger les faiblesses des LLM par des représentations explicites du monde. Les travaux concurrents incluent SayPlan (Rana et al., 2023) et les variantes LLM+PDDL de Meta AI, Google DeepMind ou CMU. Il reste à noter que les expériences sont conduites exclusivement en simulation sur MAT-THOR : aucune validation physique n'est rapportée, ce qui laisse ouverte la question du sim-to-real gap pour des flottes réelles. La prochaine étape naturelle serait un déploiement sur des plateformes matérielles hétérogènes pour mesurer la robustesse du graphe de connaissances face au bruit sensoriel du monde réel.

RecherchePaper
1 source
Vers une vérification de propriété par backdoor pour les modèles vision-langage-action (VLA)
3arXiv cs.RO 

Vers une vérification de propriété par backdoor pour les modèles vision-langage-action (VLA)

Des chercheurs ont publié sur arXiv le 12 mai 2026 (référence 2605.09005) GuardVLA, premier cadre de vérification de propriété intellectuelle basé sur les backdoors pour les modèles Vision-Language-Action (VLA). Ces modèles permettent un contrôle robotique généraliste en convertissant des entrées multimodales (vision, langage, données proprioceptives) directement en séquences d'actions motrices. GuardVLA intègre un filigrane cryptographique lors de l'entraînement : un message secret est injecté dans les données visuelles du modèle sans altérer ses performances nominales sur les tâches cibles. La vérification post-déploiement s'effectue via un mécanisme baptisé "swap-and-detect" : un projecteur de déclenchement combiné à une tête de classification externe active et détecte le backdoor intégré à partir des probabilités de prédiction du modèle. Les expériences valident l'approche sur plusieurs architectures, jeux de données et scénarios d'adaptation. L'enjeu est direct pour les intégrateurs et éditeurs de modèles robotiques. Des VLA open-source comme Pi-0 (Physical Intelligence), OpenVLA ou GR00T N2 (NVIDIA) font déjà l'objet de fine-tuning intensif par des tiers. GuardVLA démontre que le filigrane résiste à ces adaptations post-release, ce qui contredit l'hypothèse courante selon laquelle le fine-tuning suffit à effacer toute traçabilité. Pour un éditeur cherchant à protéger un modèle robotique commercial ou à prouver sa propriété en cas de litige, c'est une voie technique crédible sans recours à des mécanismes de DRM contraignants. La capacité à certifier l'origine d'un modèle devient stratégique à l'heure où les VLA s'imposent comme actifs industriels à part entière. Le watermarking de modèles IA existe déjà pour les LLM et les modèles de diffusion d'images, mais les VLA posent une contrainte supplémentaire : leur sortie est une séquence d'actions motrices et non un texte ou une image, ce qui rend la détection de backdoor structurellement différente. Ce travail reste un preprint non évalué par les pairs, sans déploiement industriel annoncé à ce stade. Les approches concurrentes, hachage de poids ou licensing cryptographique, ne ciblent pas spécifiquement la modalité action des VLA. La soumission en conférence, probablement CoRL 2026 ou ICRA 2027, constituera la prochaine validation formelle. L'adoption à grande échelle dépendra aussi de l'intégration aux outils de distribution existants, notamment Hugging Face, où la majorité des VLA généralisés sont aujourd'hui hébergés et redistribués.

UELes éditeurs et chercheurs européens distribuant des modèles VLA via Hugging Face (entreprise française, principal hub de redistribution cité) pourraient adopter GuardVLA pour défendre leur propriété intellectuelle face aux fine-tunings non autorisés.

RechercheOpinion
1 source
Planification par réseau de neurones en graphe et contrôle prédictif pour la planification de mouvement multi-robots sans étiquettes sous contraintes de communication
4arXiv cs.RO 

Planification par réseau de neurones en graphe et contrôle prédictif pour la planification de mouvement multi-robots sans étiquettes sous contraintes de communication

Une équipe de chercheurs propose, dans un preprint déposé sur arXiv le 25 mai 2026 (arXiv:2605.19209), un framework hiérarchique pour résoudre le problème de planification de mouvement multi-robots sans étiquetage, c'est-à-dire l'assignation simultanée de robots à des objectifs et la génération de trajectoires sûres dans des environnements partagés. Le système combine deux composants : un Graph ATtention Planner (GATP), fondé sur des réseaux de neurones à graphes avec mécanisme d'attention, qui génère des sous-objectifs intermédiaires par coopération entre agents, et un contrôleur NMPC (Nonlinear Model Predictive Controller) décentralisé, exécuté en embarqué sur chaque robot, qui garantit la faisabilité des trajectoires sous dynamiques non-linéaires et contraintes d'actuation réelles. Le framework a été évalué à la fois en simulation et sur des quadrotors physiques. Les auteurs rapportent une tolérance aux délais de communication allant jusqu'à 200 ms, une inférence entièrement décentralisée à bord, et une meilleure généralisation à des équipes de taille croissante. Ce travail s'attaque directement au gouffre sim-to-real qui mine la plupart des approches GNN appliquées à la robotique multi-agents : les méthodes existantes supposent des dynamiques simplifiées et un environnement de simulation idéalisé, ce qui les rend fragiles en conditions réelles. En couplant un planificateur neuronal décentralisé à un contrôleur à modèle prédictif, le framework maintient les propriétés de scalabilité des GNN tout en imposant des garanties de sécurité physiques que les approches purement apprises ne fournissent pas. La robustesse aux délais de communication est particulièrement significative pour les déploiements en entrepôts ou en milieu industriel, où les réseaux sans fil ne sont jamais idéaux. Cette contribution s'inscrit dans un corpus actif de recherche sur les GNN pour la coordination multi-robots, aux côtés de travaux comme MAGAT ou DAN, qui visent à remplacer les solveurs centralisés classiques (MILP, CBS) par des approches distribuées passant à l'échelle. Le preprint n'est pas encore soumis à une revue avec comité de lecture, et aucun déploiement industriel ni partenariat n'est annoncé : il s'agit d'une validation expérimentale académique sur quadrotors, prometteuse mais à consolider. Les prochaines étapes naturelles seraient des expériences sur flottes plus larges et des robots à dynamiques plus complexes, comme des manipulateurs mobiles ou des AMR en environnement entrepôt.

RecherchePaper
1 source