Placement adaptatif des tâches selon la QoS en…

Apprentissage par renforcement pour le contrôle adaptatif multi-tâches de robots bipèdes jouant au football

33

1arXiv cs.RO

Apprentissage par renforcement pour le contrôle adaptatif multi-tâches de robots bipèdes jouant au football

Des chercheurs ont publié sur arXiv (preprint arXiv:2604.19104, avril 2026) un cadre d'apprentissage par renforcement modulaire destiné aux robots bipèdes évoluant dans des environnements de football dynamiques. L'architecture propose deux modules distincts : un réseau de recherche et de frappe de balle (BSKN, Ball-Seeking and Kicking Network) et un réseau de récupération après chute (FRN, Fall Recovery Network), commutés par une machine à états basée sur la posture du robot. La génération de gaits de base est confiée à un oscillateur feedforward en boucle ouverte, tandis qu'un résiduel RL en boucle fermée gère les actions football plus complexes. Le FRN est entraîné via une stratégie de curriculum à atténuation progressive des forces. Les validations ont été conduites entièrement en simulation Unity, avec un temps de récupération après chute mesuré à 0,715 secondes en moyenne, et une capacité démontrée à localiser et frapper le ballon même depuis des angles de coin restrictifs. Ce travail s'attaque à un verrou connu en robotique humanoïde : le couplage profond entre stabilité locomotrice et exécution de tâches complexes, qui provoque typiquement des interférences d'état lors des transitions (marche droite, frappe, chute, relevé). La séparation explicite en deux réseaux spécialisés, pilotée par une machine à états posturale, contourne ce problème architecturalement plutôt que de tenter de le résoudre par un unique réseau généraliste. Cela valide partiellement l'hypothèse que la modularité reste une approche compétitive face aux VLA (Vision-Language-Action models) monolithiques pour des tâches à contraintes temporelles dures. Réserve importante : les résultats sont entièrement sim-to-real non validés, l'écart simulation-réalité (sim-to-real gap) n'est pas quantifié, et les vidéos sélectives de démonstration Unity ne permettent pas d'évaluer la robustesse au déploiement physique. Le contexte est celui de la RoboCup et des compétitions de football robotique bipède, terrain historique de benchmarking pour la locomotion dynamique depuis les années 2000. Les auteurs ne sont pas identifiés institutionnellement dans l'abstract, mais le style et la thématique évoquent des groupes de recherche est-asiatiques actifs sur cette compétition. Sur le plan concurrentiel, des approches similaires à base de RL modulaire ont été explorées par des équipes de l'ETH Zurich (ANYmal), de CMU et de Berkeley pour des robots quadrupèdes, avec transfert sim-to-real validé sur hardware. Pour les bipèdes football, la prochaine étape crédible serait un déploiement sur plateforme physique type DARwIn-OP ou NAO, dont ce papier ne mentionne aucune planification.

RecherchePaper

1 source

Recherche à horizon adaptatif basée sur les conflits pour la planification de chemins multi-agents en boucle fermée

46

2arXiv cs.RO

Recherche à horizon adaptatif basée sur les conflits pour la planification de chemins multi-agents en boucle fermée

Des chercheurs ont publié sur arXiv (arXiv:2602.12024v2) un algorithme nommé ACCBS (Adaptive-Horizon Conflict-Based Search), conçu pour résoudre en temps réel le problème de coordination de flottes de robots dans des entrepôts automatisés. Le Multi-Agent Path Finding (MAPF) consiste à calculer des trajectoires sans collision pour des dizaines à des centaines d'AGV ou AMR opérant simultanément dans un même espace. ACCBS est un planificateur en boucle fermée qui adapte dynamiquement son horizon de planification en fonction du budget computationnel disponible, et réutilise un arbre de contraintes unique pour passer fluidement d'un horizon à l'autre. L'algorithme exhibe un comportement "anytime" : il retourne une solution faisable de bonne qualité très rapidement, puis l'améliore jusqu'à l'optimalité asymptotique si le temps de calcul le permet. L'enjeu industriel est direct. Les approches actuelles se divisent en deux familles peu satisfaisantes : les planificateurs en boucle ouverte, qui génèrent des trajectoires fixes et s'effondrent dès qu'un robot tombe en panne ou qu'un opérateur traverse une allée, et les heuristiques en boucle fermée, qui réagissent aux perturbations mais sans garantie de performance formelle, ce qui les exclut des déploiements à contraintes de sécurité. ACCBS propose un compromis crédible : la robustesse aux perturbations d'un système réactif combinée aux garanties théoriques d'un solveur optimal. Pour un intégrateur ou un COO logistique, cela signifie potentiellement pouvoir dimensionner une flotte plus serrée sans sacrifier la fiabilité SLA, et certifier le comportement du système face aux auditeurs. ACCBS s'appuie sur CBS (Conflict-Based Search), un algorithme de référence académique pour le MAPF optimal, et y greffe un mécanisme d'horizon variable inspiré du Model Predictive Control (MPC) et de l'iterative deepening. Ce domaine est activement disputé : Amazon Robotics, Geek+ et Exotec (acteur français, qui déploie des flottes Skypod dans plusieurs dizaines d'entrepôts en Europe et Amérique du Nord) investissent massivement dans la coordination de flottes à grande échelle. La contribution reste à ce stade un résultat de recherche avec études de cas simulées, aucun déploiement réel n'est annoncé, et les auteurs ne précisent pas le nombre d'agents testé ni les temps de cycle obtenus, ce qui limite l'évaluation de la maturité industrielle.

UEExotec, acteur français leader des flottes Skypod déployées dans des dizaines d'entrepôts en Europe, opère précisément dans le domaine adressé par ACCBS ; si l'algorithme atteint la maturité industrielle, il pourrait renforcer la compétitivité des solutions européennes de coordination de flottes AMR face aux acteurs américains et asiatiques.

RecherchePaper

1 source

Au-delà de la récupération d'erreur : un cadre de contrôle humain adaptatif pour les systèmes robotiques

42

3arXiv cs.RO

Au-delà de la récupération d'erreur : un cadre de contrôle humain adaptatif pour les systèmes robotiques

Des chercheurs ont publié sur arXiv en juin 2026 (arXiv:2606.18189) une méthode appelée E-MPC (Engagement-aware Model Predictive Control), conçue pour repenser le rôle de l'humain dans la supervision des robots d'assistance. L'approche a été validée en simulation puis dans une étude utilisateur réelle, sur un système robotique d'aide à l'alimentation (bite acquisition), avec des participants simulant des limitations de mobilité. Le principe central : plutôt que de solliciter l'opérateur uniquement lorsqu'un robot échoue ou est en incertitude, le système planifie proactivement des moments d'interaction pour maintenir un niveau d'engagement choisi par l'utilisateur, tout en respectant une contrainte de charge cognitive maximale. E-MPC intègre un modèle de dynamique d'interaction utilisateur qui prédit comment l'engagement évolue en fonction de la fréquence et du type d'intervention demandée. Ce travail remet en cause un postulat dominant dans la robotique d'assistance : que l'autonomie maximale est toujours préférable pour l'utilisateur. Dans des contextes de caregiving physique, les personnes à mobilité réduite risquent de devenir de simples observateurs passifs d'un robot qui agit entièrement seul, ce qui dégrade l'expérience et potentiellement l'adhésion au système. E-MPC déplace le curseur : l'interaction n'est plus un signal d'échec, mais un levier de conception du workflow. Cela a des implications concrètes pour les intégrateurs de systèmes d'assistance à domicile ou en EHPAD, où le consentement continu et le sentiment de contrôle de l'utilisateur sont des critères de certification et d'acceptabilité. La robotique d'assistance humanoïde et collaborative accumule depuis plusieurs années des travaux sur le human-in-the-loop, mais ceux-ci se concentrent presque exclusivement sur la robustesse (détection de pannes, out-of-distribution handling). E-MPC s'inscrit dans une tendance plus récente qui emprunte aux travaux sur l'interaction adaptative et la téléopération partagée, avec des connexions aux recherches sur le shared autonomy (Javdani, Srinivasa et al.). Les auteurs n'annoncent pas de commercialisation ni de partenariat industriel à ce stade : il s'agit d'un prototype de recherche avec étude utilisateur, pas d'un produit déployé. Les suites naturelles incluent des essais avec de vraies populations en situation de handicap et l'extension à des tâches multi-étapes plus complexes que l'alimentation.

UELes implications pour la certification des robots d'assistance à domicile et en EHPAD (consentement continu, sentiment de contrôle utilisateur) sont directement pertinentes pour les intégrateurs français et la réglementation médicosociale en France.

RecherchePaper

1 source

47

4arXiv cs.RO

Système de tâches et de planification min-max regret pour un robot multi-hétérogène en environnement partiellement connu

Une nouvelle étude publiée sur arXiv (2607.13403) propose un cadre de planification pour l'allocation de tâches dans des systèmes multi-robots hétérogènes (HMRS) évoluant en environnement partiellement connu. Le problème est formulé comme une optimisation min-max regret, avec une nouvelle représentation appelée Region-Binding Atomic Proposition (RbAP), qui encode directement l'incertitude sur les ressources dans la structure de l'automate utilisé pour exprimer les contraintes logiques temporelles des tâches. Pour résoudre ce problème, les auteurs introduisent un Extended Planning Decision Tree (E-PDT), couplé à une stratégie de Branch-and-Bound basée sur le regret (Regret-based BnB) qui élague dynamiquement les politiques sous-optimales. Contrairement aux approches classiques qui s'appuient sur des probabilités a priori ou une analyse de pire cas, cette méthode ajuste en continu l'arbitrage entre exploration des zones incertaines et exploitation des ressources déjà connues. L'équipe affirme une scalabilité quasi linéaire par rapport au nombre de robots et de types de robots, avec des gains significatifs en qualité de solution et en temps de calcul face à des méthodes de référence basées sur la programmation linéaire en nombres entiers mixtes (MILP), validés par des expériences numériques et des essais physiques. L'enjeu principal est la complexité exponentielle qui bloque aujourd'hui le déploiement de flottes de robots hétérogènes à grande échelle dès que les tâches impliquent des contraintes logiques complexes en environnement mal cartographié, un scénario courant en logistique, entrepôt ou intervention en zone partiellement explorée. Si les résultats se confirment au-delà du cadre académique, cela réduirait le compromis habituel entre robustesse théorique et coût de calcul, un frein connu pour les intégrateurs qui cherchent à faire monter en charge des flottes AMR mixtes sans tout recalculer à chaque mise à jour de la carte. Il faut toutefois noter que l'article reste un preprint arXiv de type recherche, sans indication du nombre de robots testés en conditions physiques réelles ni de partenaire industriel identifié, donc la portée pratique du gain de scalabilité annoncé reste à confirmer en dehors du banc d'essai des auteurs. Ce travail s'inscrit dans la lignée des recherches sur la planification multi-robots sous logique temporelle linéaire (LTL), un domaine où les méthodes MILP servent traditionnellement de référence malgré leur coût de calcul croissant avec la taille de la flotte. L'apport revendiqué ici est de sortir du dilemme entre méthodes probabilistes, qui nécessitent des priors souvent invérifiables sur le terrain, et méthodes pire-cas, jugées trop conservatrices. Les auteurs annoncent une preuve théorique de faisabilité et de complétude de leur approche, mais l'article ne précise pas de calendrier de suivi, de code source public ou de collaboration industrielle pour une validation à plus grande échelle.

RecherchePaper

1 source

Placement adaptatif des tâches selon la QoS en périphérie : un contrôle en boucle fermée pour les systèmes multi-robots

À lire aussi

Apprentissage par renforcement pour le contrôle adaptatif multi-tâches de robots bipèdes jouant au football

Recherche à horizon adaptatif basée sur les conflits pour la planification de chemins multi-agents en boucle fermée

Au-delà de la récupération d'erreur : un cadre de contrôle humain adaptatif pour les systèmes robotiques

Système de tâches et de planification min-max regret pour un robot multi-hétérogène en environnement partiellement connu