Aller au contenu principal
NEXUS : apprentissage continu de contraintes symboliques pour une planification incarnée sûre et robuste
RecherchearXiv cs.RO6sem

NEXUS : apprentissage continu de contraintes symboliques pour une planification incarnée sûre et robuste

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

NEXUS est un cadre modulaire présenté en mai 2026 sous forme de preprint arXiv (2605.09387), conçu pour l'apprentissage continu de contraintes symboliques dans les agents incarnés. Son objectif central : combler l'écart fondamental entre l'incertitude probabiliste des grands modèles de langage (LLM) et les exigences de déterminisme strict requises dans le monde physique. Le framework dissocie explicitement deux dimensions : la faisabilité physique, améliorée par des retours d'exécution en boucle fermée, et les spécifications de sécurité, ancrées dans des contraintes dures déterministes formant une défense pré-action. Évalué sur le benchmark SafeAgentBench, NEXUS affiche des taux de succès supérieurs aux approches existantes, refuse efficacement les instructions non sûres, résiste aux attaques adversariales, et améliore progressivement son efficacité de planification par accumulation de connaissances symboliques.

La pertinence du cadre réside dans son traitement architectural d'un problème structurel : les LLM, malgré leurs performances en planification, restent des systèmes probabilistes susceptibles de produire des comportements dangereux en environnement physique contraint. NEXUS transforme les artefacts symboliques, jusqu'ici utilisés comme de simples interfaces statiques dans les travaux antérieurs, en vecteurs d'évolution de la connaissance. L'ancrage déterministe des risques est particulièrement utile pour les intégrateurs industriels : un agent peut apprendre à reconnaître et refuser des séquences d'actions dangereuses, y compris face à des instructions adversariales délibérément construites. Pour les décideurs envisageant le déploiement d'agents autonomes en entrepôts ou en production, la distinction entre défense réactive et défense pré-action constitue un avantage concret sur le plan de la certification et de la traçabilité.

Ce travail s'inscrit dans la continuité de cadres comme SayCan (Google DeepMind) ou Code as Policies, qui ont posé les bases de la planification incarnée par LLM mais traitaient la sécurité comme une contrainte externe figée. NEXUS la rend évolutive via l'apprentissage continu, ce qui le distingue architecturalement. SafeAgentBench, utilisé pour la validation, s'impose progressivement comme référence pour évaluer la robustesse sécuritaire des agents incarnés. Il convient de noter qu'il s'agit à ce stade d'un preprint sans déploiement industriel annoncé ni validation terrain confirmée. La séparation faisabilité/sécurité que propose NEXUS pourrait néanmoins influencer les prochaines générations de middleware robotique, notamment dans les contextes où la traçabilité réglementaire des décisions autonomes est requise.

Impact France/UE

Le cadre NEXUS, en rendant les décisions autonomes traçables et auditables via des contraintes symboliques déterministes, pourrait faciliter la mise en conformité avec l'AI Act pour les intégrateurs européens déployant des agents autonomes en environnement industriel.

Dans nos dossiers

À lire aussi

PO-PDDL : apprentissage de POMDP symboliques à partir de démonstrations visuelles pour la planification robotique sous incertitude
1arXiv cs.RO 

PO-PDDL : apprentissage de POMDP symboliques à partir de démonstrations visuelles pour la planification robotique sous incertitude

Des chercheurs ont proposé PO-PDDL (arXiv:2606.15654, juin 2026), une formulation symbolique des processus de décision markoviens partiellement observables (POMDP) pour la planification robotique en conditions réelles. Le système étend PDDL, standard de facto en planification symbolique depuis les années 1990, en y intégrant explicitement l'observabilité partielle, la stochasticité des actions et la gestion des croyances (beliefs). Un pipeline d'apprentissage reconstruit automatiquement les trajectoires d'état symbolique latentes à partir de vidéos d'exécution de robot réel, détecte les incohérences entre états inférés et observations visuelles pour localiser les zones d'incertitude perceptive, puis apprend les modèles de transition et d'observation stochastiques correspondants. Les domaines générés sont réutilisables entre tâches et permettent une planification en ligne dans l'espace des croyances. Testée sur des tâches de manipulation longue durée (long-horizon) en environnement physique réel, la méthode surpasse les approches existantes d'apprentissage de modèles PDDL et POMDP, avec un coût de planification significativement réduit. L'apport concret pour les intégrateurs robotiques est de supprimer l'effort d'ingénierie lié à la construction manuelle des modèles POMDP, traditionnellement l'un des verrous de la planification symbolique déployable. Apprendre depuis des vidéos de robots réels plutôt que depuis des simulateurs contourne partiellement le gap sim-to-real qui fragilise nombre d'approches d'apprentissage. La syntaxe PDDL préservée ouvre une voie d'intégration avec des LLM pour la spécification de tâches, un axe actif en recherche (voir LLM+P, ProgPrompt). Le fait que les domaines soient réutilisables et que la planification opère en temps réel sous incertitude perceptive et d'exécution représente un pas vers des architectures neuro-symboliques exploitables hors laboratoire. La planification symbolique butte depuis longtemps sur la difficulté de paramétrer les POMDP pour des environnements physiques réels. Des travaux antérieurs comme FAMA ou LOCM ont progressé sur l'apprentissage de modèles PDDL déterministes, sans traiter simultanément stochasticité et observabilité partielle depuis des observations visuelles brutes. PO-PDDL se positionne aussi face aux politiques de bout en bout (VLA, politiques de diffusion) qui absorbent l'incertitude dans le réseau sans la modéliser explicitement. La lisibilité et débuggabilité du formalisme symbolique restent un argument différenciant pour le déploiement industriel. Il s'agit pour l'instant d'un preprint non évalué par les pairs ; les prochaines étapes naturelles incluent l'évaluation sur des manipulations plus complexes et l'intégration dans des stacks open-source comme ROS 2.

RecherchePaper
1 source
Diffusion hybride pour la planification symbolique et continue simultanée
2arXiv cs.RO 

Diffusion hybride pour la planification symbolique et continue simultanée

Des chercheurs ont publié sur arXiv (identifiant 2509.21983, version 2) une méthode baptisée "Hybrid Diffusion" qui combine génération de trajectoires continues et planification symbolique de haut niveau pour les robots accomplissant des tâches complexes et longues. Le constat de départ est empirique : les modèles de diffusion purement continus, pourtant plébiscités pour générer des trajectoires robotiques, échouent sur les tâches à long horizon. En pratique, ils confondent différents modes de comportement, enchaînant des séquences d'actions incompatibles qui provoquent des échecs en cascade. La solution proposée consiste à diffuser simultanément deux types de variables : des variables discrètes formant un plan symbolique de haut niveau, et des variables continues décrivant la trajectoire physique du robot. Ce double processus, mélange inédit de diffusion discrète et continue, surpasse significativement les baselines selon les auteurs, et permet également de conditionner la génération d'actions sur des conditions symboliques partielles ou complètes. Ce travail s'attaque au "long-horizon planning gap", un verrou fondamental de la robotique cognitive : l'incapacité des systèmes actuels à enchaîner de nombreuses étapes cohérentes. Les approches purement continues, notamment les Visual Language Action models (VLA), souffrent d'une absence de structure symbolique explicite, les rendant fragiles face aux tâches multi-étapes structurées. En générant conjointement un plan symbolique, le modèle maintient une représentation explicite de ce qu'il doit faire et dans quel ordre, réduisant les confusions de modes. Cela dit, le papier est un preprint arXiv non encore soumis à peer review ; les résultats sur robots physiques réels restent à valider de manière indépendante. Les modèles de diffusion pour la robotique ont émergé comme alternative à l'imitation learning classique, notamment via Diffusion Policy (Chi et al., 2023). Hybrid Diffusion s'inscrit dans une tendance combinant raisonnement symbolique (TAMP, planification PDDL) et apprentissage par données, un terrain également exploré par Google avec SayCan et RT-2, ainsi que par les architectures utilisant des LLM comme planificateurs de haut niveau couplés à des policies continues. La prochaine étape naturelle sera la validation sur plateformes physiques, manipulateurs industriels ou robots mobiles, dans des environnements non contrôlés, ce que ce travail, centré sur des expériences en simulation, ne démontre pas encore.

RecherchePaper
1 source
Planification robotique sous contraintes de ressources face à une incertitude mixte
3arXiv cs.RO 

Planification robotique sous contraintes de ressources face à une incertitude mixte

Des chercheurs présentent le CMDPST (Consumption Markov Decision Process with Set-valued Transitions), un cadre formel inédit permettant à un robot de planifier ses actions en tenant compte simultanément de deux types d'incertitudes : le bruit probabiliste mesurable et les inconnues structurellement non-quantifiables, tout en garantissant que le système ne tombe jamais à court de ressources opérationnelles (batterie, capacité de charge, quota de déplacements). Publiée sur arXiv en mai 2026 (réf. 2605.05797), la contribution couple ce modèle à une spécification de tâche exprimée en LTLf (logique temporelle linéaire sur traces finies), un formalisme permettant d'encoder des objectifs complexes avec des contraintes temporelles précises. Les auteurs proposent deux algorithmes de synthèse de stratégie : une méthode directe par déroulage d'états et une version optimisée par élagage de l'espace d'états, plus efficace en temps de calcul. Les expériences sont conduites sur un réseau de transport en entrepôt simulé, sans validation sur hardware réel à ce stade. La contribution adresse un angle mort récurrent dans la planification robotique industrielle : la plupart des approches existantes traitent soit l'incertitude probabiliste via les MDP classiques, soit les contraintes de ressources, rarement les deux ensemble. Dans les déploiements AMR (autonomous mobile robots) d'entrepôt, où une flotte doit honorer des missions tout en gérant niveaux de batterie et pannes imprévisibles, cette dualité est pourtant critique. Le cadre CMDPST offre aux intégrateurs une garantie formelle : la stratégie synthétisée ne laissera jamais un robot en panne sèche, même face à des perturbations non modélisées. C'est un argument solide pour des environnements industriels où l'interruption de service a un coût direct et mesurable. Ce type de planification sous contraintes mixtes s'inscrit dans un corpus plus large incluant la vérification probabiliste de modèles (outils PRISM, Storm) et la planification formelle par MDP. Les acteurs de la logistique automatisée comme Exotec (France) ou Hai Robotics, dont les flottes AMR évoluent dans des environnements partiellement inconnus, sont directement concernés par ces avancées théoriques. Côté alternatives académiques, le reinforcement learning robuste et le model predictive control probabiliste existent, mais sans les garanties formelles d'épuisement de ressources que revendique cette approche. La prochaine étape attendue est une implémentation sur robot physique pour évaluer concrètement le gap sim-to-real.

UEExotec (France) est explicitement citée comme acteur directement concerné par ces avancées théoriques, ses flottes AMR en entrepôt étant précisément le cas d'usage visé par les garanties formelles de non-épuisement des ressources du cadre CMDPST.

RecherchePaper
1 source
Politique de contrainte de surface pour l'apprentissage de compétences robotiques contraintes et dynamiquement réalisables
4arXiv cs.RO 

Politique de contrainte de surface pour l'apprentissage de compétences robotiques contraintes et dynamiquement réalisables

Des chercheurs ont déposé en mai 2026 sur arXiv (identifiant 2605.31321) un article présentant la Surface Constraint Policy (SCP), une méthode destinée à améliorer la fiabilité des robots dans des tâches de manipulation dextre impliquant des contraintes de surface complexes et de forme libre. L'approche encode la géométrie de surface à partir de démonstrations humaines via une fonction noyau gaussien pondérée en deux dimensions. Sur cette base, une politique de diffusion infère des intentions d'action à partir d'entrées multimodales (observations visuelles et retour d'état du robot), qui sont ensuite transformées en primitives de mouvement dynamique contraintes à la surface (DMPs, Dynamic Movement Primitives) via une méthode de mapping par similarité. Ce pipeline produit des trajectoires à la fois géométriquement admissibles et dynamiquement réalisables. Les auteurs font état de taux de succès et d'une stabilité de contact supérieurs aux méthodes comparées, sans que le résumé ne détaille les métriques précises ni les benchmarks utilisés. Ce travail pointe un angle mort persistant des approches actuelles d'apprentissage par imitation à base de diffusion : les politiques classiques génèrent des actions de manière stochastique, sans modéliser explicitement la géométrie de la surface de contact. En pratique, cela se traduit par des glissements, des décrochages ou des trajectoires physiquement inadmissibles, problèmes rédhibitoires pour des applications industrielles comme le polissage, l'assemblage surfacique ou le soudage. L'originalité de SCP tient à l'intégration des contraintes géométriques dès la génération d'action, couplée à des DMPs qui garantissent la faisabilité dynamique. Pour les intégrateurs et les équipes R&D, cette approche représente un pas concret vers la répétabilité requise en production, là où la stabilité du contact prime sur la généralisation toutes-tâches. Ce travail s'inscrit dans une vague de recherche intense autour des politiques de diffusion pour la manipulation robotique, initiée par Diffusion Policy (Chi et al., 2023, Columbia University) et accélérée par des acteurs comme Physical Intelligence avec pi0, Google DeepMind avec RT-2, ou encore ACT de Stanford. Les primitives de mouvement dynamique mobilisées ici sont un outil classique de la robotique depuis les travaux de Schaal dans les années 2000, mais leur couplage avec un pipeline de diffusion moderne pour gérer des contraintes surfaciques constitue l'apport original de la méthode. Les limitations pointées par les auteurs sont partagées par la plupart des architectures VLA actuelles, ce qui signale un axe de recherche pertinent pour quiconque vise le déploiement industriel. Les prochaines étapes naturelles incluraient une validation sur des surfaces déformables ou en mouvement, ainsi qu'un test de passage à l'échelle avec une plus grande diversité de tâches et de morphologies robotiques.

RecherchePaper
1 source