
Robot Squid Game : locomotion quadrupède pour traverser des tunnels étroits
Des chercheurs publient sur arXiv (réf. 2605.13665, mai 2026) un framework d'apprentissage par renforcement (RL) permettant à des robots quadrupèdes de traverser de manière autonome des environnements 3D confinés : tunnels, grottes et structures effondrées, avec des applications ciblées en recherche et sauvetage et en inspection d'infrastructures. La méthode repose sur deux mécanismes complémentaires : une génération procédurale de géométries de tunnels pendant l'entraînement, qui expose le robot à une grande diversité de configurations spatiales, et un paradigme enseignant-étudiant (teacher-student) de distillation de politiques. Des politiques expertes spécialisées sur des géométries spécifiques transfèrent leur connaissance à une politique étudiante unifiée, évitant ainsi le reward shaping complexe habituellement requis dans l'entraînement end-to-end. Les résultats sont validés à la fois en simulation et en expériences physiques réelles sur robot quadrupède.
L'enjeu est concret : les approches classiques de locomotion quadrupède échouent régulièrement face à des espaces confinés non structurés, en raison d'allures (gaits) rigides et d'hypothèses environnementales trop simplistes. En décomposant une tâche complexe en sous-tâches apprenables indépendamment, le framework réduit la difficulté d'optimisation et améliore la généralisabilité, un résultat que les approches monolithiques end-to-end peinent à atteindre sur des géométries variées. Pour un intégrateur en sécurité civile ou en inspection de réseaux souterrains, ce type de robustesse comportementale dans des tunnels aux contraintes spatiales variables est un pas mesurable vers des déploiements autonomes réels, au-delà des démonstrations sur terrains balisés.
La locomotion quadrupède en milieu confiné a été un axe central du DARPA Subterranean Challenge (2018-2021), compétition qui a exposé les limites des approches heuristiques dans des souterrains non cartographiés, avec des équipes impliquant Boston Dynamics, CMU et ANYbotics. Le paradigme teacher-student appliqué à la locomotion RL s'inscrit dans une tendance active initiée notamment par les travaux d'ETH Zurich sur ANYmal et les recherches de DeepMind sur les locomoteurs polyvalents. Ce travail reste une preprint arXiv non encore évaluée par les pairs, sans partenaire industriel annoncé ni calendrier de déploiement mentionné : les résultats présentés sont encourageants mais restent à confirmer sur des plateformes plus variées et des scénarios de terrain réels.
Dans nos dossiers




