Aller au contenu principal
RecherchearXiv cs.RO4h

Placement adaptatif des tâches selon la QoS en périphérie : un contrôle en boucle fermée pour les systèmes multi-robots

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Des chercheurs ont publié le 2 juin 2026 un preprint arXiv (identifiant 2606.00552) décrivant un contrôleur de placement adaptatif de tâches, baptisé ATP (Adaptive Task Placement), conçu pour les systèmes multi-robots (MRS). Le banc d'essai repose sur des nœuds Raspberry Pi interconnectés et évalue un pipeline caméra-vers-manipulateur dans trois configurations : exécution locale sur le robot, délestage statique vers un nœud edge partagé, et placement adaptatif piloté par ATP. Le contrôleur ATP calcule, sur des fenêtres de contrôle de deux secondes, un score de coût multi-métriques combinant latence normalisée, utilisation CPU et coût de commutation, puis sélectionne le nœud d'exécution optimal en boucle fermée. Le banc est instrumenté avec une synchronisation d'horloge sub-milliseconde et une émulation réseau afin de reproduire fidèlement la gigue et les contentions de ressources réelles.

Les résultats expérimentaux sous contraintes de stress computationnel et de fautes réseau montrent que le délestage statique vers le edge réduit bien la charge CPU embarquée, mais amplifie la latence de queue et le nombre de dépassements d'échéance, un point critique pour les applications de commande en temps réel comme l'asservissement visuel. En revanche, ATP réduit de manière consistante ces deux indicateurs en arbitrant dynamiquement le placement selon des seuils mesurés. Pour un intégrateur ou un architecte de système cyber-physique industriel, ce résultat valide un principe qui était souvent posé en hypothèse : l'orchestration statique des charges de travail edge est insuffisante dès que le réseau ou la ressource partagée connaissent une variabilité, et une boucle de rétroaction fermée est nécessaire pour tenir des SLA temps-réel.

Ce travail s'inscrit dans le domaine émergent du Cloud-Edge Robotics, où AWS RoboMaker, Azure IoT Edge et des initiatives open-source comme ROS 2 with DDS cherchent à standardiser la décomposition des pipelines de perception. L'architecture proposée reste à l'état de preprint académique sur matériel Raspberry Pi, pas encore un produit industriel validé à l'échelle, mais pose des lignes directrices de conception concrètes pour des déploiements fog/edge en robotique collaborative et en systèmes multi-robots industriels. Les prochaines étapes logiques incluraient une validation sur hardware embarqué plus représentatif (NVIDIA Jetson, x86 edge servers) et une intégration avec des frameworks d'orchestration comme Kubernetes ou ROS 2 Managed Nodes.

Dans nos dossiers

À lire aussi

Apprentissage par renforcement pour le contrôle adaptatif multi-tâches de robots bipèdes jouant au football
1arXiv cs.RO 

Apprentissage par renforcement pour le contrôle adaptatif multi-tâches de robots bipèdes jouant au football

Des chercheurs ont publié sur arXiv (preprint arXiv:2604.19104, avril 2026) un cadre d'apprentissage par renforcement modulaire destiné aux robots bipèdes évoluant dans des environnements de football dynamiques. L'architecture propose deux modules distincts : un réseau de recherche et de frappe de balle (BSKN, Ball-Seeking and Kicking Network) et un réseau de récupération après chute (FRN, Fall Recovery Network), commutés par une machine à états basée sur la posture du robot. La génération de gaits de base est confiée à un oscillateur feedforward en boucle ouverte, tandis qu'un résiduel RL en boucle fermée gère les actions football plus complexes. Le FRN est entraîné via une stratégie de curriculum à atténuation progressive des forces. Les validations ont été conduites entièrement en simulation Unity, avec un temps de récupération après chute mesuré à 0,715 secondes en moyenne, et une capacité démontrée à localiser et frapper le ballon même depuis des angles de coin restrictifs. Ce travail s'attaque à un verrou connu en robotique humanoïde : le couplage profond entre stabilité locomotrice et exécution de tâches complexes, qui provoque typiquement des interférences d'état lors des transitions (marche droite, frappe, chute, relevé). La séparation explicite en deux réseaux spécialisés, pilotée par une machine à états posturale, contourne ce problème architecturalement plutôt que de tenter de le résoudre par un unique réseau généraliste. Cela valide partiellement l'hypothèse que la modularité reste une approche compétitive face aux VLA (Vision-Language-Action models) monolithiques pour des tâches à contraintes temporelles dures. Réserve importante : les résultats sont entièrement sim-to-real non validés, l'écart simulation-réalité (sim-to-real gap) n'est pas quantifié, et les vidéos sélectives de démonstration Unity ne permettent pas d'évaluer la robustesse au déploiement physique. Le contexte est celui de la RoboCup et des compétitions de football robotique bipède, terrain historique de benchmarking pour la locomotion dynamique depuis les années 2000. Les auteurs ne sont pas identifiés institutionnellement dans l'abstract, mais le style et la thématique évoquent des groupes de recherche est-asiatiques actifs sur cette compétition. Sur le plan concurrentiel, des approches similaires à base de RL modulaire ont été explorées par des équipes de l'ETH Zurich (ANYmal), de CMU et de Berkeley pour des robots quadrupèdes, avec transfert sim-to-real validé sur hardware. Pour les bipèdes football, la prochaine étape crédible serait un déploiement sur plateforme physique type DARwIn-OP ou NAO, dont ce papier ne mentionne aucune planification.

RecherchePaper
1 source
Un cadre d'apprentissage autonome en boucle fermée piloté par LLM pour robots confrontés à des tâches inédites en environnement ouvert
2arXiv cs.RO 

Un cadre d'apprentissage autonome en boucle fermée piloté par LLM pour robots confrontés à des tâches inédites en environnement ouvert

Une équipe de recherche a publié le 22 avril 2026 sur arXiv (référence 2604.22199) un framework d'apprentissage autonome en boucle fermée piloté par LLM, conçu pour permettre à des robots d'intégrer durablement de nouvelles compétences sans recourir indéfiniment à des modèles de langage externes. Le principe central : lorsqu'un robot rencontre une tâche absente de sa bibliothèque locale de méthodes, il déclenche un processus structuré dans lequel le LLM joue le rôle de raisonnement de haut niveau (analyse de tâche, sélection de modèle candidat, planification de collecte de données, organisation de la stratégie d'exécution). Le robot apprend ensuite à partir de sa propre exécution ou par observation active de comportements externes réussis, effectue un entraînement quasi-temps-réel, et consolide le résultat validé dans sa bibliothèque locale pour toute réutilisation future. Les résultats expérimentaux montrent une réduction du temps moyen d'exécution de 7,7772 s à 6,7779 s, et surtout une chute du nombre moyen d'appels LLM par tâche de 1,0 à 0,2 dans les scénarios de ré-exécution répétée -- soit 80 % de dépendance au LLM éliminée sur les tâches déjà apprises. L'intérêt industriel de cette approche est d'ordre économique autant que technique. Les architectures actuelles de robotique généraliste (VLA, agents LLM embarqués) génèrent des coûts d'inférence récurrents et des latences incompatibles avec des déploiements à l'échelle en environnement de production. En construisant un savoir local cumulatif à partir d'interactions réussies, ce framework agit comme un mécanisme de compilation implicite : les appels LLM coûteux disparaissent au fil des répétitions. C'est une réponse directe au reproche souvent adressé aux systèmes fondation : leur dépendance permanente au cloud pour des décisions qui devraient devenir réflexes. Ce travail s'inscrit dans une tendance de recherche active autour de l'adaptation continue des robots en monde ouvert, en concurrence avec des approches comme l'apprentissage few-shot en ligne (RT-2, OpenVLA) ou les architectures de mémoire hiérarchique explorées chez Physical Intelligence (pi0) et chez Figure AI. La distinction clé ici est la boucle fermée entre observation, entraînement local et pruning des dépendances externes, une piste encore peu exploitée à l'échelle réelle. Les auteurs ne citent pas de partenaire industriel ni de déploiement terrain : il s'agit pour l'heure d'une preuve de concept académique, dont la robustesse en environnement non contrôlé reste à démontrer.

RechercheOpinion
1 source
AssemPlanner : un cadre de planification de tâches multi-agents pour les systèmes d'assemblage flexibles
3arXiv cs.RO 

AssemPlanner : un cadre de planification de tâches multi-agents pour les systèmes d'assemblage flexibles

Une équipe de chercheurs a publié le 12 mai 2026 sur arXiv (référence 2605.08831) un framework de planification de tâches pour systèmes d'assemblage flexibles baptisé AssemPlanner. Le système prend en entrée des descriptions de tâches en langage naturel et les convertit automatiquement en séquences d'opérations de production exécutables. Son architecture repose sur plusieurs agents spécialisés : SchedAgent, qui joue le rôle de moteur de raisonnement central, KnowledgeAgent, chargé de fournir les connaissances métier, LineBalanceAgent, responsable de l'équilibrage des lignes, ainsi qu'un graphe de scène représentant l'état physique de l'environnement. Le code source et les jeux de données sont publiés en accès libre sur GitHub, ce qui facilite la reproductibilité des résultats. L'intérêt industriel de cette approche réside dans la réduction du temps de reconfiguration d'une ligne d'assemblage lors du passage à un nouveau produit. Dans les systèmes actuels, cette phase mobilise plusieurs experts pendant des périodes significatives, ce qui constitue un frein majeur à la flexibilité de la production. En substituant une interface en langage naturel à la configuration manuelle, AssemPlanner vise à abaisser la barrière d'entrée pour les intégrateurs et les responsables de production. Le recours à l'approche ReAct (Reasoning + Acting) permet à SchedAgent d'ajuster dynamiquement ses décisions en fonction des retours des autres agents, contrairement aux pipelines statiques traditionnels qui nécessitent une reprogrammation explicite dès que les contraintes du procédé changent. Cela pourrait réduire concrètement les délais de mise en production pour les PME industrielles et les intégrateurs spécialisés en automatisation. AssemPlanner s'inscrit dans la dynamique plus large des systèmes multi-agents LLM appliqués à l'automatisation industrielle, un champ en expansion rapide depuis 2023. L'architecture ReAct, introduite par des chercheurs de Google et Princeton en 2022, est ici transposée dans un contexte de manufacturing réel plutôt que symbolique. Les approches concurrentes incluent les systèmes experts classiques, la planification par jumeaux numériques, et des frameworks comme TaskMatrix ou AutoGen adaptés à des verticaux industriels. Il convient de souligner que le papier reste une contribution académique : aucun déploiement en environnement de production réel n'est documenté à ce stade, et les performances annoncées devront être validées hors contexte contrôlé.

RechercheActu
1 source
CoRAL : contrôle adaptatif basé sur LLM pour la manipulation robotique en contact riche
4arXiv cs.RO 

CoRAL : contrôle adaptatif basé sur LLM pour la manipulation robotique en contact riche

Une équipe de chercheurs propose CoRAL (Contact-Rich Adaptive LLM-based control), un framework publié en preprint sur arXiv (2605.02600) en mai 2025, conçu pour résoudre l'une des limites persistantes des grands modèles de langage appliqués à la robotique : la manipulation en contact riche, c'est-à-dire les tâches nécessitant des interactions physiques précises et réactives. L'architecture repose sur un découplage strict entre raisonnement de haut niveau et exécution de bas niveau. Contrairement aux approches VLA (Vision-Language-Action) qui emploient le modèle comme contrôleur direct, CoRAL utilise le LLM comme concepteur de fonctions de coût pour un planificateur par échantillonnage (MPPI, Model Predictive Path Integral). Un VLM fournit des priors sémantiques sur les paramètres physiques de l'environnement - masse et friction - affinés en temps réel par identification de système en ligne, tandis qu'une mémoire par récupération permet de réutiliser des stratégies validées sur des tâches récurrentes. Sur des scénarios incluant le retournement d'objets contre des murs via des contacts extrinsèques, CoRAL affiche un taux de succès supérieur de plus de 50 % en moyenne aux baselines VLA testées, sur des tâches jamais vues en entraînement, aussi bien en simulation que sur hardware réel. L'intérêt principal pour les intégrateurs réside dans la résilience au gap sim-to-real : en adaptant dynamiquement sa représentation des paramètres physiques lors des premières interactions, le système corrige en vol ses erreurs stratégiques sans nécessiter de re-entraînement. La séparation raisonnement/exécution garantit en outre une stabilité temps réel, le LLM étant par nature trop lent pour s'insérer dans une boucle de contrôle réactif. C'est un argument concret contre les VLA pures, qui peinent précisément sur les tâches à fort contact car leurs politiques apprises ne s'adaptent pas aux incertitudes physiques non vues. Le gain de 50 % mérite cependant d'être pondéré : les baselines exactes et le périmètre précis des tâches de test ne sont pas détaillés dans le résumé, et ce travail reste un preprint non relu par les pairs. CoRAL s'inscrit dans un champ de recherche actif qui cherche à hybrider planification symbolique et modèles de fondation pour dépasser les limites des VLA comme Pi-0 (Physical Intelligence), RT-2 (Google DeepMind) ou OpenVLA. Ces modèles ont montré des capacités convaincantes sur des tâches de manipulation standards mais buttent sur les contacts complexes et les environnements non vus. Le planificateur MPPI est une méthode stochastique éprouvée en robotique, ce qui ancre CoRAL dans un socle technique solide plutôt que dans une approche purement émergente. Aucun déploiement industriel ni partenariat n'est annoncé à ce stade - la prochaine étape naturelle serait une validation sur un spectre plus large de tâches industrielles, comme l'assemblage ou la manipulation d'objets déformables, pour mesurer la généralisation réelle de l'approche.

RecherchePaper
1 source