
Optimisation bayésienne pour l'apprentissage du MPC non linéaire dans la navigation d'agents autonomes
Des chercheurs ont publié le 17 juin 2026 (arXiv:2606.14763) un framework de navigation autonome temps-réel combinant planification réactive, représentation d'occupation gaussienne par LiDAR et contrôle prédictif non-linéaire (MPC). À chaque cycle de contrôle, le système construit une carte d'occupation gaussienne à partir des données LiDAR, génère une trajectoire sans collision via algorithme A*, puis la fait suivre par un MPC formulé avec CasADi/IPOPT intégrant une barrière obstacle à sigmoïde lisse. Le tuning des paramètres du contrôleur est réalisé hors-ligne par optimisation bayésienne via Tree-structured Parzen Estimators (TPE), complétée d'un surrogate Gaussian Process pour analyser la sensibilité paramétrique. Déployé sur le quadrupède Unitree Go2, le système atteint un taux de succès de navigation de 90,0 % en conditions réelles et une amélioration moyenne de 38,9 % sur les métriques composites en simulation, sans retuning supplémentaire entre sim et hardware.
Le résultat le plus significatif pour le secteur est la validation du transfert sim-to-real sans post-tuning sur hardware : les paramètres identifiés en Gazebo tiennent sur le robot physique à performances comparables. C'est un point non trivial pour les équipes d'intégration robotique, où la divergence simulation/réalité reste un goulot d'étranglement majeur. L'approche "map-free" (sans cartographie préalable) combinée à un MPC réactif positionne ce framework pour des environnements dynamiques non-structurés, là où les planificateurs à carte globale échouent. La nature robot-agnostique de l'architecture élargit le périmètre d'application au-delà du quadrupède testé.
Ce travail s'inscrit dans un mouvement de recherche plus large visant à rendre le MPC praticable sur des plateformes embarquées à ressources limitées, en externalisant le coût computationnel du tuning vers une phase offline. Les concurrents directs incluent les approches RL-for-MPC (apprentissage de politiques qui paramètrent le contrôleur) et les méthodes de navigation end-to-end par réseau de neurones, mais ces dernières offrent moins de garanties de sécurité formelles. Le Unitree Go2, plateforme open-source à ~2 700 USD, est devenu un banc de test standard dans la communauté académique. Les suites naturelles incluent l'extension à des dynamiques multi-agents et le test sur plateformes à roues ou bras manipulateurs.
Dans nos dossiers




