Passage de messages amélioré par flots normalisants pou…

Localisation par angle et contrôle de rigidité pour réseaux multi-robots

34

1arXiv cs.RO

Localisation par angle et contrôle de rigidité pour réseaux multi-robots

Des chercheurs ont publié sur arXiv (référence 2604.11754v2) une contribution théorique et algorithmique portant sur la localisation par mesures d'angles et le maintien de rigidité dans les réseaux multi-robots, en 2D et en 3D. Le résultat central établit une équivalence formelle entre rigidité angulaire et rigidité de type "bearing" (orientation relative) pour des graphes de détection dirigés avec mesures en référentiel embarqué : un système dans SE(d) est infinitésimalement rigide au sens bearing si et seulement s'il est infinitésimalement rigide au sens angulaire et que chaque robot acquiert au moins d-1 mesures de bearing (d valant 2 ou 3). À partir de cette base, les auteurs proposent un schéma de localisation distribué et démontrent sa stabilité exponentielle locale sous des topologies de détection commutantes, avec comme seule hypothèse la rigidité angulaire infinitésimale sur l'ensemble des topologies visitées. Une nouvelle métrique, la valeur propre de rigidité angulaire, est introduite pour quantifier le degré de rigidité du réseau, et un contrôleur décentralisé par gradient est proposé pour maintenir cette rigidité tout en exécutant des commandes de mission. Les résultats sont validés par simulation. L'intérêt pratique de ce travail réside dans le choix des mesures angulaires plutôt que des distances ou des orientations absolues : les angles entre vecteurs de direction peuvent être extraits directement depuis des caméras embarquées à bas coût, sans capteur de distance actif ni accès GPS. Pour les intégrateurs de systèmes multi-robots, notamment en essaims de drones ou en robotique entrepôt avec coordination décentralisée, la robustesse sous topologies commutantes est critique, car les lignes de vue entre agents changent constamment. Le contrôleur proposé adresse ce problème en maintenant activement une configuration spatiale suffisamment rigide pour garantir l'observabilité du réseau, ce qui évite les dégradations silencieuses de localisation que l'on observe dans les déploiements réels. C'est une avancée sur le problème dit du "rigidity maintenance", encore peu traité dans la littérature avec des garanties formelles en 3D. La rigidité de réseau comme fondation pour la localisation distribuée est un domaine actif depuis les travaux fondateurs sur la formation control et les frameworks d'Henneberg dans les années 2010. Les approches concurrentes incluent la localisation par distances (nécessitant UWB ou radar), par bearings seuls (plus sensible aux ambiguïtés), ou par fusion IMU/SLAM embarqué par robot, chacune avec ses propres hypothèses de connectivité et de coût matériel. Ce papier se positionne dans le créneau "caméra seule, pas de métadonnées globales", pertinent pour les petits drones ou les robots à budget capteur contraint. Aucun déploiement ni partenaire industriel n'est mentionné, il s'agit d'une contribution académique pure. Les suites naturelles incluraient une validation sur plateforme physique (type Crazyflie ou quadrupèdes en formation) et l'extension aux perturbations de mesures bruitées en environnement non contrôlé.

RecherchePaper

1 source

HALO : apprentissage de la collaboration humain-robot par optimisation de politique de Lyapunov multi-agents

45

2arXiv cs.RO

HALO : apprentissage de la collaboration humain-robot par optimisation de politique de Lyapunov multi-agents

Des chercheurs de Tsinghua University ont publié HALO (Heterogeneous-Agent Lyapunov Policy Optimization), un framework d'apprentissage par renforcement multi-agents (MARL) dédié à la collaboration humain-robot (HRC), disponible sur arXiv (2603.03741, version 2). Le problème ciblé est ce que les auteurs nomment le "rationality gap" (RG) : en apprentissage décentralisé, les mises à jour de politique du robot et de l'humain divergent structurellement, car l'humain n'optimise pas selon le même objectif formel que l'algorithme. Le problème d'entraînement devient alors un jeu différentiable à somme générale, où les gradients de politique indépendants peuvent osciller ou diverger sans contrainte supplémentaire. HALO résout ce verrou en imposant une contraction au sens de Lyapunov dans l'espace des paramètres de politique, via des projections quadratiques optimales qui rectifient les gradients décentralisés pour garantir une contraction monotone du RG. Les validations couvrent des simulations étendues et des expériences en conditions réelles sur des robots humanoïdes. La contribution centrale est d'avoir transposé la certification de Lyapunov, outil classique de la théorie du contrôle pour garantir la stabilité d'un système dynamique, à la stabilisation de la dynamique d'apprentissage elle-même dans un jeu multi-agents hétérogènes. En pratique, le système peut explorer des espaces d'interaction ouverts, incluant des comportements humains imprévus, sans que l'entraînement ne diverge. Les résultats montrent une meilleure généralisation sur les cas limites collaboratifs où MAPPO ou HATRPO échouent. Pour un intégrateur déployant un humanoïde en co-manutention, cela adresse directement le gap sim-to-real : une stabilité garantie à l'entraînement se traduit par une robustesse accrue face à la variabilité comportementale humaine, condition non-négociable pour tout déploiement industriel. Ce travail s'inscrit dans une littérature croissante sur le MARL pour HRC, où les approches CTDE (Centralized Training, Decentralized Execution) comme QMIX peinent face à l'hétérogénéité humain-robot. L'utilisation de la théorie de Lyapunov en RL existait déjà dans le safe RL pour contraindre les trajectoires d'état ; HALO l'applique à un objectif différent et moins exploré, celui de stabiliser la convergence dans un jeu multi-agents. Les détails des expériences humanoïdes en conditions réelles ne figurent pas dans le résumé et méritent une lecture approfondie avant de conclure sur la portée pratique. Le code et les résultats sont accessibles sur le site du projet, ce qui facilitera la reproductibilité. Des extensions naturelles concerneraient des équipes mixtes impliquant plusieurs humains, ou des scénarios où la politique humaine est elle-même apprise plutôt que supposée fixe.

UEImpact indirect pour les intégrateurs européens en co-manutention humanoïde : HALO adresse le gap sim-to-real dans les scénarios HRC, un verrou clé pour toute certification industrielle en Europe.

RecherchePaper

1 source

Agir face à l'invisible : filtrage collaboratif sans communication pour l'allocation décentralisée de tâches multi-robots

41

3arXiv cs.RO

Agir face à l'invisible : filtrage collaboratif sans communication pour l'allocation décentralisée de tâches multi-robots

Des chercheurs ont présenté sur arXiv (2605.25584) un cadre théorique et algorithmique baptisé Zero-Knowledge MRTA (ZK-MRTA), conçu pour l'allocation de tâches dans des équipes de robots sans aucune communication inter-agent, sans modèle de tâche préalable et sans coordinateur central. Dans ce régime, chaque robot ne dispose que d'une vue partielle et bruitée du flux public des résultats de ses coéquipiers. L'algorithme proposé, SwarmCF, exploite une structure cachée de faible rang (low-rank) qui gouverne l'adéquation entre chaque robot et chaque type de tâche, en appliquant du filtrage collaboratif en ligne, le même principe mathématique que les systèmes de recommandation Netflix ou Spotify. Les expériences montrent que SwarmCF récupère environ 80 % des performances d'un système centralisé avec communication complète, et maintient cet avantage même sous contention de capacité 1 (chaque tâche assignée à un seul robot à la fois). L'enjeu théorique est substantiel: les auteurs prouvent formellement que tout algorithme sans structure est coincé au plancher d'erreur de la moyenne a priori sur les paires (robot, tâche) jamais tentées, tandis que SwarmCF atteint une complexité d'échantillonnage par robot en Theta(d) au lieu de Theta(n), où d est le rang de la structure latente et n le nombre total de tâches, typiquement d est très inférieur à n. Cette séparation est catégorielle, pas un simple facteur constant. Pour les intégrateurs de flottes robotiques (entrepôts AMR, inspection industrielle, agriculture), cela signifie qu'une flotte hétérogène peut s'auto-organiser sur des tâches inédites sans infrastructure de communication, ce qui réduit la complexité système et améliore la résilience aux pannes réseau. Le scaling est positif: la compétence par robot sur les tâches non vues augmente avec la taille de l'équipe. Le problème d'allocation multi-robots (MRTA) est étudié depuis les années 2000, avec des approches classiques comme les enchères distribuées (CBBA), les méthodes à base de marché ou les algorithmes de consensus qui supposent toutes un canal de communication fiable. ZK-MRTA s'attaque au cas extrême opposé, commun dans les déploiements industriels réels (réseaux dégradés, robots hétérogènes sans protocole commun) mais largement ignoré en théorie. Côté concurrence, des travaux récents sur le multi-armed bandit collaboratif ou le federated reinforcement learning adressent des problèmes voisins mais supposent soit une communication périodique, soit un modèle de récompense partagé. La prochaine étape naturelle serait de valider SwarmCF sur des flottes physiques, notamment dans des contextes entrepôts ou de manipulation, où le sim-to-real gap reste la principale inconnue pour les méthodes fondées sur l'observation passive de coéquipiers.

RecherchePaper

1 source

LAMP : planification adaptative de manipulation à long horizon pour la collaboration multi-robots en espace encombré

49

4arXiv cs.RO

LAMP : planification adaptative de manipulation à long horizon pour la collaboration multi-robots en espace encombré

Une équipe de chercheurs a publié sur arXiv (référence 2606.29358v1) un nouveau cadre de planification intitulé LAMP, pour Long-horizon Adaptive Manipulation Planning, conçu pour coordonner plusieurs robots manipulateurs dans des environnements très encombrés. Le système repose sur deux planificateurs complémentaires : LAMPA*, qui effectue une recherche systématique dans l'espace couplé objets-robots, et LAMP-Lazy, un planificateur dit "paresseux" qui diffère certaines évaluations pour permettre une replanification en temps réel. Les expériences ont été menées dans des environnements simulés à haute densité d'obstacles, où les méthodes existantes échouent à trouver des solutions. Aucun déploiement physique ni timeline de commercialisation n'est annoncé. Le verrou technique que LAMP cherche à lever est fondamental pour l'industrie : coordonner plusieurs bras robotiques sur des tâches longues dans des espaces confinés implique de raisonner simultanément sur les contacts physiques, les dynamiques couplées entre robots, et l'évitement de collision. Les deux approches dominantes aujourd'hui se heurtent à des murs de scalabilité distincts. L'apprentissage par renforcement end-to-end peine à généraliser dès que l'horizon de tâche s'allonge ou que le nombre de robots augmente. Les méthodes hybrides, qui planifient les trajectoires d'objets et apprennent des primitives de contact à courte portée, ne tiennent pas dans des scènes très denses. LAMP propose de rendre ce problème tractable via un modèle génératif appris, combiné à une stratégie de recherche adaptative, ce qui constitue une approche architecturalement différente des VLA (Vision-Language-Action models) qui dominent l'espace humanoïde. La planification multi-robot en environnement encombré est un problème central pour l'automatisation logistique et industrielle, où des acteurs comme Exotec (France) déploient des flottes de robots AMR dans des entrepôts à haute densité. La recherche en robotique académique a longtemps traité la manipulation et la coordination de flotte séparément ; des travaux comme LAMP signalent une convergence vers des systèmes unifiés capables de gérer les deux dimensions. Cependant, l'absence totale de validation sur hardware réel est une limite importante : le sim-to-real gap reste le principal obstacle entre des résultats de simulation convaincants et une industrialisation effective. Les prochaines étapes naturelles seraient des tests sur bancs physiques multi-bras, dans des configurations représentatives de cellules de picking ou d'assemblage.

RecherchePaper

1 source

Passage de messages amélioré par flots normalisants pour la localisation collaborative multi-robots

À lire aussi

Localisation par angle et contrôle de rigidité pour réseaux multi-robots

HALO : apprentissage de la collaboration humain-robot par optimisation de politique de Lyapunov multi-agents

Agir face à l'invisible : filtrage collaboratif sans communication pour l'allocation décentralisée de tâches multi-robots

LAMP : planification adaptative de manipulation à long horizon pour la collaboration multi-robots en espace encombré