Aller au contenu principal
Accessibilité différentiable parallèle pour l'apprentissage et la planification avec dynamiques neuronales et contrôleurs certifiés
RecherchearXiv cs.RO3h

Accessibilité différentiable parallèle pour l'apprentissage et la planification avec dynamiques neuronales et contrôleurs certifiés

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Une équipe de recherche a publié en mai 2026 (arXiv:2605.25346) un cadre de vérification formelle parallélisable et différentiable pour systèmes robotiques pilotés par réseaux de neurones (NN). Implémenté en JAX pour exploiter le calcul GPU-batché, le framework combine la construction de "flowpipes" par modèles de Taylor avec la propagation de bornes linéaires de type CROWN, une technique issue de la vérification des NN adversariaux. Le résultat est une représentation unifiée qui préserve les dépendances affines tout en supportant la différentiation automatique. Sur cette base, les auteurs proposent deux applications concrètes : une méthode d'entraînement certifié qui pousse les modèles NN à produire des dynamiques "reachability-friendly", et un schéma de commande prédictive (MPC) combinant échantillonnage et raffinement par gradient. Les expériences couvrent la manipulation non préhensile (objets poussés sans saisie) et des drones quadrotors, avec des évaluations hardware et des systèmes allant jusqu'à 72 dimensions d'état.

Le problème central que ce travail adresse est le fossé entre performance des NN et garanties formelles de sécurité : les outils de "reachability" existants (NNV, Veritex, CROWN-reach) produisent des sur-approximations valides des ensembles atteignables, mais sont trop lents pour être intégrés dans une boucle d'apprentissage ou de planification en ligne, et rarement différentiables. Rendre ce calcul GPU-compatible et différentiable ouvre la voie à une co-optimisation contrôleur/garantie, ce qui change la logique de déploiement : au lieu de vérifier après entraînement (post-hoc, coûteux), on certifie pendant l'entraînement. Pour les intégrateurs industriels et les équipes robotique, c'est un pas vers des robots NN-pilotés qui satisfont des contraintes de sécurité hard sans sacrifier la performance apprise.

La vérification formelle pour les NN en robotique est un axe de recherche actif depuis 2018, porté notamment par les travaux CROWN (Zhang et al.), qui ciblaient initialement la robustesse adversariale en vision. L'extension à la dynamique continue et aux boucles fermées reste un problème ouvert, avec des groupes concurrents chez MIT, CMU et DeepMind. Ce preprint positionne JAX comme plateforme centrale pour ce type de pipeline hybride apprentissage/vérification, une tendance émergente face à PyTorch. Les prochaines étapes probables incluent des tests sur manipulateurs industriels à plus haute dimensionnalité et l'intégration dans des frameworks MPC embarqués.

Impact France/UE

La certification embarquée dans la boucle d'entraînement s'aligne directement avec les exigences de vérifiabilité formelle de l'AI Act pour les systèmes IA à haut risque (dont les robots industriels et autonomes), réduisant le coût de mise en conformité pour les équipes R&D européennes.

Dans nos dossiers

À lire aussi

Contrôle neuronal : l'apprentissage adjoint par contraintes d'équilibre
1arXiv cs.RO 

Contrôle neuronal : l'apprentissage adjoint par contraintes d'équilibre

Une équipe de chercheurs a publié en mai 2026 sur arXiv (référence 2605.03288) un framework de contrôle baptisé "Neural Control", conçu pour piloter des systèmes physiques régis par des contraintes d'équilibre implicite. La cible principale est la manipulation d'objets linéaires déformables (DLO, deformable linear objects) tels que câbles, fils ou tuyaux flexibles. Dans ces systèmes, le robot n'actionne qu'un sous-ensemble de degrés de liberté (DoF de frontière), tandis que les DoF libres restants convergent vers une configuration d'énergie potentielle minimale. La difficulté centrale réside dans la multi-stabilité : pour les mêmes conditions aux limites, un câble peut atteindre plusieurs formes d'équilibre distinctes selon la trajectoire d'actionnement suivie. Neural Control résout ce problème en calculant des gradients proxy à travers les conditions d'équilibre via une formulation adjointe, évitant ainsi le déroulage complet des itérations du solveur et réduisant drastiquement l'empreinte mémoire et calcul. Le schéma est intégré dans un MPC à horizon glissant (receding-horizon MPC) qui ré-ancre l'optimisation à chaque pas sur l'équilibre réellement atteint, limitant les basculements entre bassins d'attraction. Les résultats, évalués en simulation et sur robots physiques, surpassent les méthodes sans gradient comme SPSA (Simultaneous Perturbation Stochastic Approximation) et CEM (Cross-Entropy Method). L'enjeu industriel est direct : la manipulation de câblages et de harnais est l'un des goulots d'étranglement non résolus de l'automatisation en assemblage automobile, électronique et médical. Les approches par apprentissage par renforcement standard buttent sur l'espace d'état combinatoire des DLO, et le sim-to-real reste fragile faute de gradients exploitables. La formulation adjointe proposée ici ouvre une voie différentiable sans le coût mémoire prohibitif du backpropagation à travers les solveurs itératifs, ce qui est un apport méthodologique tangible. Il faut noter que les métriques de performance publiées n'incluent pas de temps de cycle ni de taux de succès quantifiés sur cas industriels réels, les expériences physiques semblant rester au stade de validation en laboratoire. Ce travail s'inscrit dans un mouvement plus large de simulation différentiable appliquée à la robotique, avec des contributions récentes de groupes comme MIT, Stanford et ETH Zurich. Sur le segment DLO, il concurrence des approches comme les politiques visuomotrices apprises par imitation et les modèles d'espace d'état pour objets déformables. Aucun partenaire industriel ni déploiement pilote n'est mentionné dans la prépublication, ce qui situe clairement ce travail au stade recherche fondamentale. Les prochaines étapes probables incluent une validation sur des tâches de câblage plus complexes et une intégration dans des pipelines de planification temps-réel.

RecherchePaper
1 source
FORMULA : MPC de formation avec apprentissage de barrières neuronales pour la garantie de sécurité
2arXiv cs.RO 

FORMULA : MPC de formation avec apprentissage de barrières neuronales pour la garantie de sécurité

Une équipe de chercheurs propose FORMULA (FORmation MPC with neUral barrier Learning for safety Assurance), un framework de contrôle distribué pour systèmes multi-robots (MRS) publié sur arXiv (réf. 2604.04409v2). L'approche combine trois briques algorithmiques : du Model Predictive Control (MPC) pour la planification prédictive, des Control Lyapunov Functions (CLFs) pour garantir la stabilité de la formation, et des Control Barrier Functions (CBFs) implémentées sous forme de réseaux de neurones pour assurer la sécurité de manière décentralisée. L'objectif est de permettre à une flotte de robots de naviguer en formation dans des environnements encombrés et dynamiques, sans conception manuelle des contraintes de sécurité. Les résultats présentés sont issus de simulations uniquement ; aucun déploiement matériel n'est rapporté à ce stade. Le verrou technique adressé est réel : les approches MPC classiques pour la formation multi-robots peinent à passer à l'échelle, tandis que les CBFs, pourtant fondées mathématiquement pour l'enforcement de sécurité, sont difficiles à concevoir à la main pour des systèmes non-linéaires complexes. FORMULA automatise cette conception via l'apprentissage, ce qui réduit la charge de calcul en ligne et permet de résoudre les situations de blocage (deadlocks) en configuration dense. Pour un intégrateur ou un COO industriel, c'est le type de brique qui conditionne le passage de pilotes en cellule à des déploiements flotte réelle dans des entrepôts ou sur des sites logistiques. La formation en robotique mobile est un problème ouvert depuis les années 2000, et les approches MPC centralisées ont longtemps buté sur la scalabilité. Le contexte applicatif visé -- logistique entrepôt, transport de matériaux, réponse aux catastrophes -- est précisément celui où des acteurs comme Exotec (France) ou Locus Robotics opèrent avec des flottes d'AMR (Autonomous Mobile Robots) sans formation rigide. FORMULA se positionne donc sur un créneau de contrôle coordonné plus contraignant que les AMR classiques. La limite principale reste l'absence de validation sur hardware réel : le gap sim-to-real pour les CBFs neuronales, notamment en présence de bruit de capteurs et de latences réseau, n'est pas adressé dans ce preprint.

UESi les résultats se confirment sur hardware réel, des acteurs européens de la logistique robotisée (dont Exotec en France) pourraient intégrer ce type de brique de contrôle coordonné pour des flottes d'AMR en environnements denses, mais l'impact reste conditionnel à la validation sim-to-real.

RecherchePaper
1 source
Modèles de diffusion séquentiels pour l'apprentissage méta en contexte de la dynamique des robots
3arXiv cs.RO 

Modèles de diffusion séquentiels pour l'apprentissage méta en contexte de la dynamique des robots

Des chercheurs ont publié sur arXiv (réf. 2604.13366) une étude comparative portant sur l'identification de systèmes robotiques par méta-apprentissage en contexte, en opposant des modèles de séquences déterministes à des approches génératives basées sur la diffusion. L'équipe reformule le problème classique de l'identification de dynamiques robotiques comme une tâche de méta-apprentissage in-context : le modèle observe une séquence de paires (commande, observation) pour inférer les paramètres dynamiques d'un robot sans re-entraînement. Deux architectures de diffusion sont introduites et évaluées face à une baseline Transformer déterministe : une diffusion par inpainting (inspirée de Diffuser), qui apprend la distribution jointe entrée-observation, et des modèles de diffusion conditionnés sur les entrées de contrôle, déclinés en versions CNN et Transformer. Les expériences sont menées à grande échelle dans des simulations randomisées couvrant des régimes en distribution et hors distribution. Ces résultats sont significatifs pour la commande basée sur modèle (model-based control), qui exige des prédictions de dynamique précises et robustes. L'étude montre que les modèles de diffusion surpassent nettement la baseline déterministe lorsque les conditions d'exécution s'écartent de la distribution d'entraînement, un scénario courant dans les déploiements industriels réels où les robots rencontrent des charges utiles variables, des surfaces inattendues ou de l'usure mécanique. La diffusion par inpainting obtient les meilleures performances globales. Un résultat clé concerne la contrainte temps réel : grâce à un échantillonnage à démarrage chaud (warm-started sampling), les modèles de diffusion parviennent à opérer dans les fenêtres temporelles exigées par les boucles de contrôle, levant ainsi un obstacle majeur à leur adoption pratique. Ce travail s'inscrit dans un courant de recherche actif qui cherche à combiner les capacités génératives des modèles de diffusion avec les exigences de robustesse et de latence du contrôle robotique. La diffusion appliquée à la planification de trajectoires et à la prédiction de dynamiques a émergé avec des travaux comme Diffuser (Janner et al., 2022) et se confronte ici à un scénario de méta-apprentissage, plus réaliste pour des robots déployés dans des environnements variables. Les concurrents directs incluent les approches probabilistes bayésiennes et les réseaux neuronaux récurrents pour l'identification en ligne. La prochaine étape naturelle sera une validation sur hardware réel, notamment pour confirmer que les gains hors distribution observés en simulation résistent au sim-to-real gap.

RecherchePaper
1 source
Apprentissage par renforcement contraint par la sécurité avec vérification d'atteignabilité post-entraînement pour la navigation robotique
4arXiv cs.RO 

Apprentissage par renforcement contraint par la sécurité avec vérification d'atteignabilité post-entraînement pour la navigation robotique

Des chercheurs ont publié sur arXiv (2605.14174) un framework combinant apprentissage par renforcement contraint par le CVaR (Conditional Value-at-Risk) et vérification formelle post-entraînement pour la navigation sûre de robots mobiles en environnement encombré. La politique est entraînée sur un algorithme TD3 off-policy (Twin Delayed Deep Deterministic Policy Gradient) sous contraintes CVaR sur les coûts cumulés, ce qui la rend sensible aux événements rares à haute conséquence plutôt qu'aux seules performances moyennes. Après l'entraînement, des ensembles d'actions atteignables sont calculés sous incertitude d'observation bornée via une analyse par modèles de Taylor, produisant un taux de sécurité formel et quantifiable. Sur dix scénarios de navigation et six baselines concurrents, la méthode atteint 98,3 % de succès et le meilleur taux de vérification formelle parmi toutes les approches évaluées. La validation a été conduite sur un robot physique Clearpath Jackal, confirmant le transfert sim-to-real. Le résultat le plus significatif est une divergence démontrée entre classements par coût moyen et classements par vérification d'atteignabilité : un système jugé performant selon les métriques empiriques classiques peut dissimuler des comportements dangereux dans les queues de distribution. C'est un point critique pour les intégrateurs et les décideurs industriels qui qualifient leurs politiques de navigation sur des benchmarks de coût moyen. Les politiques entraînées avec contraintes CVaR maintiennent des marges de sécurité plus larges face aux obstacles, ce qui les rend structurellement plus compatibles avec la vérification formelle, prérequis pour une certification dans des secteurs réglementés comme la logistique, l'industrie ou la santé. Le CVaR, outil de la finance quantitative pour quantifier le risque de queue, s'impose progressivement dans les systèmes cyber-physiques. Ce travail reste une preprint arXiv, pas encore soumise à peer review. L'espace concurrent rassemble les approches par barrières de contrôle (CBF-QP), le RL lagrangien et les méthodes de Lyapunov. La vérification formelle de réseaux de neurones, portée par des outils comme alpha,beta-CROWN, est un axe en développement rapide. Des plateformes AMR comme celles de Clearpath (utilisée ici en validation) ou, côté français, des acteurs logistiques comme Exotec pourraient directement bénéficier de ce type de pipeline de validation. Les suites naturelles seraient une évaluation en environnements dynamiques avec obstacles mobiles et une soumission à une conférence majeure comme ICRA ou IROS.

UELes acteurs logistiques et industriels européens, dont Exotec en France, pourraient directement intégrer ce type de pipeline de validation formelle pour certifier leurs politiques de navigation AMR dans des secteurs réglementés (logistique, santé, industrie).

RecherchePaper
1 source