
Contrôle prédictif événementiel piloté par les données via apprentissage par renforcement profond pour un bras souple à câbles 3D
Des chercheurs ont publié sur arXiv (arXiv:2606.26048v1) un framework de contrôle hybride baptisé RL-ET-DeePC, combinant apprentissage par renforcement (RL) sans modèle et contrôle prédictif basé sur les données (DeePC) avec déclenchement événementiel, appliqué à un bras souple câblé à trois dimensions. L'approche repose sur une politique RL entraînée à décider dynamiquement quand activer le solveur d'optimisation DeePC, plutôt que de le lancer à chaque pas d'échantillonnage comme le fait le DeePC périodique classique. En simulation, le framework réduit la fréquence d'appel au solveur jusqu'à 66 % sans dégradation mesurable de la précision de suivi de trajectoire. Sur le banc physique, le transfert s'effectue en zero-shot, c'est-à-dire sans réentraînement ni adaptation, avec une réduction de 34 % des appels d'optimisation, une précision de suivi comparable au DeePC périodique, et des performances plus régulières qu'un déclenchement événementiel à seuil statique.
L'enjeu est directement industriel : le DeePC standard, qui évite la modélisation explicite en exploitant les trajectoires entrée-sortie mesurées, bute sur le coût computationnel de son optimisation en horizon glissant à chaque cycle. Sur des plateformes embarquées à ressources limitées, ce verrou bloque le déploiement temps réel. En déléguant la décision de déclenchement à une politique RL légère, RL-ET-DeePC rend le contrôle prédictif viable sur matériel contraint, tout en validant un transfert sim-to-real zero-shot sur un système souple, dont les dynamiques non linéaires et variant dans le temps constituent précisément le défi classique du gap simulation-réalité. C'est un résultat notable : les robots souples sont réputés récalcitrants au sim-to-real, et une réduction de 34 % des appels solveur sur hardware sans recalibration ouvre la voie à des architectures plus légères.
Le DeePC, introduit autour de 2019 comme alternative data-driven aux MPC classiques, souffre depuis de son coût en ligne. Les travaux sur le déclenchement événementiel (event-triggered control) cherchent depuis plusieurs années à conditionner l'appel au solveur à des critères d'état système, mais les seuils statiques manquent d'adaptabilité. L'usage du RL pour apprendre ce critère de déclenchement constitue la nouveauté architecturale centrale de ce papier. Dans le paysage des robots souples, les approches concurrentes incluent les contrôleurs basés sur des réseaux de neurones récurrents (LSTM, Echo State Networks) et les méthodes Koopman pour la linéarisation. Ce travail positionne RL-ET-DeePC comme une alternative sans modèle et computationnellement frugale, avec des perspectives de déploiement sur des bras chirurgicaux, des grippers adaptatifs, ou des exosquelettes souples où la puissance de calcul embarquée reste contrainte.
Dans nos dossiers




