Aller au contenu principal
Apprentissage par renforcement pour le contrôle adaptatif multi-tâches de robots bipèdes jouant au football
RecherchearXiv cs.RO6sem

Apprentissage par renforcement pour le contrôle adaptatif multi-tâches de robots bipèdes jouant au football

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Des chercheurs ont publié sur arXiv (preprint arXiv:2604.19104, avril 2026) un cadre d'apprentissage par renforcement modulaire destiné aux robots bipèdes évoluant dans des environnements de football dynamiques. L'architecture propose deux modules distincts : un réseau de recherche et de frappe de balle (BSKN, Ball-Seeking and Kicking Network) et un réseau de récupération après chute (FRN, Fall Recovery Network), commutés par une machine à états basée sur la posture du robot. La génération de gaits de base est confiée à un oscillateur feedforward en boucle ouverte, tandis qu'un résiduel RL en boucle fermée gère les actions football plus complexes. Le FRN est entraîné via une stratégie de curriculum à atténuation progressive des forces. Les validations ont été conduites entièrement en simulation Unity, avec un temps de récupération après chute mesuré à 0,715 secondes en moyenne, et une capacité démontrée à localiser et frapper le ballon même depuis des angles de coin restrictifs.

Ce travail s'attaque à un verrou connu en robotique humanoïde : le couplage profond entre stabilité locomotrice et exécution de tâches complexes, qui provoque typiquement des interférences d'état lors des transitions (marche droite, frappe, chute, relevé). La séparation explicite en deux réseaux spécialisés, pilotée par une machine à états posturale, contourne ce problème architecturalement plutôt que de tenter de le résoudre par un unique réseau généraliste. Cela valide partiellement l'hypothèse que la modularité reste une approche compétitive face aux VLA (Vision-Language-Action models) monolithiques pour des tâches à contraintes temporelles dures. Réserve importante : les résultats sont entièrement sim-to-real non validés, l'écart simulation-réalité (sim-to-real gap) n'est pas quantifié, et les vidéos sélectives de démonstration Unity ne permettent pas d'évaluer la robustesse au déploiement physique.

Le contexte est celui de la RoboCup et des compétitions de football robotique bipède, terrain historique de benchmarking pour la locomotion dynamique depuis les années 2000. Les auteurs ne sont pas identifiés institutionnellement dans l'abstract, mais le style et la thématique évoquent des groupes de recherche est-asiatiques actifs sur cette compétition. Sur le plan concurrentiel, des approches similaires à base de RL modulaire ont été explorées par des équipes de l'ETH Zurich (ANYmal), de CMU et de Berkeley pour des robots quadrupèdes, avec transfert sim-to-real validé sur hardware. Pour les bipèdes football, la prochaine étape crédible serait un déploiement sur plateforme physique type DARwIn-OP ou NAO, dont ce papier ne mentionne aucune planification.

Dans nos dossiers

À lire aussi

Placement adaptatif des tâches selon la QoS en périphérie : un contrôle en boucle fermée pour les systèmes multi-robots
1arXiv cs.RO 

Placement adaptatif des tâches selon la QoS en périphérie : un contrôle en boucle fermée pour les systèmes multi-robots

Des chercheurs ont publié le 2 juin 2026 un preprint arXiv (identifiant 2606.00552) décrivant un contrôleur de placement adaptatif de tâches, baptisé ATP (Adaptive Task Placement), conçu pour les systèmes multi-robots (MRS). Le banc d'essai repose sur des nœuds Raspberry Pi interconnectés et évalue un pipeline caméra-vers-manipulateur dans trois configurations : exécution locale sur le robot, délestage statique vers un nœud edge partagé, et placement adaptatif piloté par ATP. Le contrôleur ATP calcule, sur des fenêtres de contrôle de deux secondes, un score de coût multi-métriques combinant latence normalisée, utilisation CPU et coût de commutation, puis sélectionne le nœud d'exécution optimal en boucle fermée. Le banc est instrumenté avec une synchronisation d'horloge sub-milliseconde et une émulation réseau afin de reproduire fidèlement la gigue et les contentions de ressources réelles. Les résultats expérimentaux sous contraintes de stress computationnel et de fautes réseau montrent que le délestage statique vers le edge réduit bien la charge CPU embarquée, mais amplifie la latence de queue et le nombre de dépassements d'échéance, un point critique pour les applications de commande en temps réel comme l'asservissement visuel. En revanche, ATP réduit de manière consistante ces deux indicateurs en arbitrant dynamiquement le placement selon des seuils mesurés. Pour un intégrateur ou un architecte de système cyber-physique industriel, ce résultat valide un principe qui était souvent posé en hypothèse : l'orchestration statique des charges de travail edge est insuffisante dès que le réseau ou la ressource partagée connaissent une variabilité, et une boucle de rétroaction fermée est nécessaire pour tenir des SLA temps-réel. Ce travail s'inscrit dans le domaine émergent du Cloud-Edge Robotics, où AWS RoboMaker, Azure IoT Edge et des initiatives open-source comme ROS 2 with DDS cherchent à standardiser la décomposition des pipelines de perception. L'architecture proposée reste à l'état de preprint académique sur matériel Raspberry Pi, pas encore un produit industriel validé à l'échelle, mais pose des lignes directrices de conception concrètes pour des déploiements fog/edge en robotique collaborative et en systèmes multi-robots industriels. Les prochaines étapes logiques incluraient une validation sur hardware embarqué plus représentatif (NVIDIA Jetson, x86 edge servers) et une intégration avec des frameworks d'orchestration comme Kubernetes ou ROS 2 Managed Nodes.

RecherchePaper
1 source
Q-SpiRL : apprentissage par renforcement quantique à impulsions pour la navigation adaptative des robots
2arXiv cs.RO 

Q-SpiRL : apprentissage par renforcement quantique à impulsions pour la navigation adaptative des robots

Une équipe de chercheurs présente Q-SpiRL (arXiv:2605.20801), un cadre d'apprentissage par renforcement combinant calcul neuromorphique et circuit quantique pour la navigation robotique en environnements dynamiques. Cinq familles d'agents sont comparées : Q-learning tabulaire, MLP classique, réseau à impulsions (SNN) classique, MLP à couche quantique (QMLP), et SNN à couche quantique (QSNN). L'architecture centrale est le QSNN, qui couple un traitement temporel basé sur les impulsions neuronales à une transformation de features par circuit quantique variationnel. Les expériences portent sur trois grilles de navigation de tailles croissantes (20x20, 30x30 et 40x40 cellules), avec obstacles statiques et dynamiques. Le QSNN atteint jusqu'à 99 % de taux de succès dans la configuration la plus exigeante, avec un SPL (success-weighted path length) élevé et un faible taux de rotation, surpassant les quatre autres architectures sur l'ensemble des métriques. L'exécution du framework sur matériel quantique réel via IBM Quantum confirme la faisabilité opérationnelle d'une politique hybride hors simulation pure. L'intérêt principal pour la robotique industrielle et mobile réside dans la combinaison des propriétés des SNNs et du quantum computing : les réseaux à impulsions traitent l'information de manière éparse et asynchrone, ce qui les rend naturellement économes en énergie par rapport aux MLP denses, avantage réel pour les plateformes embarquées. L'ajout d'une couche quantique variationnelle enrichit la représentation d'état sans faire exploser le coût de calcul classique. Les résultats valident empiriquement cette complémentarité, mais il convient de nuancer : les environnements testés sont des grilles 2D abstraites, très éloignées d'un entrepôt logistique ou d'une cellule de production. Aucun résultat sur robot physique n'est présenté, et les métriques de consommation énergétique effective ne sont pas mesurées. Cette publication s'inscrit dans la convergence de deux courants de recherche : le quantum machine learning appliqué au contrôle, et la robotique neuromorphique utilisant des puces comme Intel Loihi. Les approches classiques de navigation par reinforcement learning (PPO, SAC) restent dominantes dans les AMR commerciaux et les flottes d'entrepôt, mais la pression énergétique sur les systèmes embarqués alimente l'intérêt pour les alternatives neuromorphiques. La validation suivante naturelle serait des tests en simulation physique réaliste (Isaac Sim, Gazebo) puis sur plateforme robotique réelle, avec des benchmarks de consommation et de temps de cycle. Aucun partenariat industriel ni calendrier de transfert technologique n'est annoncé dans la publication.

RecherchePaper
1 source
Vers un contrôle adaptatif des robots humanoïdes par distillation multi-comportements et affinage renforcé
3arXiv cs.RO 

Vers un contrôle adaptatif des robots humanoïdes par distillation multi-comportements et affinage renforcé

Une équipe de chercheurs propose Adaptive Humanoid Control (AHC), un framework de contrôle locomoteur pour humanoïdes publié sur arXiv (2511.06371v3). Le problème de départ est structurel : les méthodes dominantes entraînent une politique séparée pour chaque compétence (se relever, marcher, courir, sauter), générant des contrôleurs rigides qui échouent dès que le terrain devient irrégulier. AHC y répond en deux phases : d'abord, plusieurs politiques primaires sont entraînées puis fusionnées par distillation multi-comportements en un contrôleur unique capable de commuter dynamiquement selon le contexte ; ensuite, un affinage par renforcement avec retours en ligne consolide l'adaptabilité sur terrains variés. Le système est validé en simulation et en conditions réelles sur le robot Unitree G1 d'Unitree Robotics. Pour les intégrateurs et les décideurs industriels, la promesse est concrète : un seul contrôleur couvrant l'ensemble des comportements locomoteurs réduit la complexité opérationnelle et supprime les transitions manuelles entre modes. Du côté de la recherche, le résultat le plus notable est que la distillation combinée à un fine-tuning par RL en ligne permet de réduire partiellement le sim-to-real gap sans ré-entraînement complet. La réserve à formuler : le papier ne publie pas de métriques quantitatives détaillées (taux de succès par terrain, fréquence de chute), ce qui rend difficile la comparaison objective avec d'autres approches. Le Unitree G1 (1,27 m, environ 35 kg, 16 000 dollars) est devenu depuis 2024 une plateforme de recherche de référence pour ce type de travaux. AHC s'inscrit dans une compétition internationale où Physical Intelligence (Pi-0), NVIDIA (GR00T N2), Figure (Helix) et Boston Dynamics cherchent tous à produire des politiques locomotrices généralisables hors environnement contrôlé. L'approche par distillation multi-politiques rappelle les travaux de curriculum learning menés à Berkeley et CMU, et l'affinage par RL en ligne emprunte aux méthodologies RLHF adaptées à la robotique physique. Aucun partenariat industriel ni calendrier de déploiement n'est annoncé ; le projet en est au stade de la démonstration académique.

RecherchePaper
1 source
Apprentissage du contrôle corps entier adapté au terrain pour la loco-manipulation perceptive de robots à pattes
4arXiv cs.RO 

Apprentissage du contrôle corps entier adapté au terrain pour la loco-manipulation perceptive de robots à pattes

Une équipe de chercheurs a publié sur arXiv (référence 2605.31343, mai 2026) un framework baptisé TA-WBC (Terrain-Aware Whole-Body Control) destiné aux manipulateurs à pattes, c'est-à-dire des robots combinant membres locomoteurs (quadrupèdes ou bipèdes) et bras articulés. Le coeur du système est une politique unifiée entraînée par apprentissage par renforcement (RL) qui pilote simultanément les jambes et le bras lors de tâches de loco-manipulation, terme désignant la capacité à se déplacer et manipuler des objets en même temps. L'architecture repose sur trois briques techniques : un encodeur d'extéroception hybride qui extrait en temps réel les caractéristiques du terrain, une méthode d'échantillonnage de l'effecteur final ancrée sur le plan de contact des pieds pour découpler la cible de manipulation des oscillations du torse, et un module de distillation à double politique pour intégrer motricité étendue et adaptabilité sans effacement catastrophique des compétences acquises. Les expériences en simulation et en environnement réel montrent une zone atteignable agrandie, une erreur de tracking réduite et moins de trébuchements imprévus. Ce travail s'attaque à une limitation structurelle des contrôleurs corps entier existants : leur dépendance quasi exclusive à la proprioception (capteurs internes, IMU, encodeurs) au détriment de l'extéroception (perception externe du terrain). En milieux industriels complexes comme les chantiers, les entrepôts en hauteur variable ou les sites nucléaires, cette lacune rend les plateformes mobiles-manipulatrices peu fiables dès que le sol n'est plus plan. Le découplage effecteur/torse est particulièrement notable pour les intégrateurs : il signifie que le bras peut maintenir une trajectoire stable même quand le corps compense une marche irrégulière, ce qui est un prérequis non négociable pour tout assemblage ou saisie de précision en terrain dégradé. La validation sim-to-real, même partielle, renforce la crédibilité d'une approche qui reste à ce stade un preprint non commercialisé. Les manipulateurs à pattes constituent une catégorie en pleine structuration. Boston Dynamics commercialise Spot avec bras depuis 2021, Unitree propose le B2W équipé d'un bras, et plusieurs laboratoires académiques majeurs (ETH Zurich, CMU, Berkeley) publient régulièrement sur la loco-manipulation. Le verrou que TA-WBC cherche à lever, la perception de topologie de terrain couplée au contrôle corps entier, est précisément ce qui freine le déploiement de ces plateformes au-delà des environnements structurés. Ce preprint n'annonce pas de produit ni de partenaire industriel ; il pose néanmoins une brique algorithmique que des acteurs comme Agility Robotics, Apptronik ou les équipes robotique de Google DeepMind pourraient intégrer dans leurs chaînes d'entraînement.

UETravail de recherche applicable aux déploiements industriels en environnements dégradés (sites nucléaires, entrepôts à topologie variable) présents en Europe, mais sans implication directe d'acteurs français ou européens.

RecherchePaper
1 source