Aller au contenu principal
LLMs pour le comportement de recherche dans les essaims de robots décentralisés
RecherchearXiv cs.RO7sem

LLMs pour le comportement de recherche dans les essaims de robots décentralisés

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Une équipe de chercheurs a publié en mai 2026 sur arXiv (identifiant 2605.01461) LLM-Foraging, un contrôleur décentralisé pour essaims de robots conçu pour la collecte de ressources. L'approche intègre un large modèle de langage (LLM) comme décideur tactique dans la machine d'états du CPFA (central-place foraging algorithm), à trois points précis : après un dépôt de ressource, à l'arrivée en zone centrale, et lors d'un blocage de recherche (search starvation). Chaque robot embarque son propre client LLM et l'interroge sur la base de ses seules observations locales, sans communication centralisée. Les tests ont été conduits dans le simulateur Gazebo avec des robots TurtleBot3 virtuels, sur 36 configurations couvrant des équipes de 4 à 10 robots, des arènes de 6x6 à 10x10 mètres et trois distributions de ressources (groupée, loi de puissance, aléatoire). LLM-Foraging surpasse la baseline CPFA optimisée par algorithme génétique sur l'ensemble des configurations testées, avec une consistance que les auteurs jugent supérieure.

L'enjeu principal est l'absence de phase d'entraînement au déploiement. Un CPFA calibré par algorithme génétique produit des politiques figées sur une configuration donnée : tout changement de taille d'équipe, d'arène ou de distribution de ressources impose un recalcul coûteux. En substituant un LLM comme politique générale de décision, l'architecture se transfère à de nouvelles conditions sans ré-optimisation. Pour les intégrateurs de systèmes robotiques distribués, c'est une promesse de reconfigurabilité opérationnelle notable. Limite importante à retenir : l'évaluation reste entièrement en simulation, et le sim-to-real gap pour des décisions LLM dans des essaims physiques reste entièrement à démontrer.

Le CPFA est un algorithme de référence en robotique d'essaim depuis les années 2010, inspiré des stratégies de fourragement des insectes sociaux. LLM-Foraging s'inscrit dans la tendance d'intégration des modèles fondationnels en robotique, aux côtés d'architectures vision-langage-action (VLA) comme Pi-0 de Physical Intelligence ou GR00T N2 de NVIDIA, mais appliquée pour la première fois aux essaims décentralisés, un domaine où les approches évolutionnaires et par apprentissage par renforcement dominaient sans alternative crédible. Aucun acteur européen n'est impliqué dans ces travaux académiques. Les prochaines étapes naturelles incluent la validation sur robots physiques, le passage à des essaims dépassant la dizaine d'unités, et l'évaluation dans des environnements dynamiques où les ressources se déplacent ou disparaissent.

À lire aussi

Modélisation physique et contrôle des comportements émergents dans les essaims de robots
1arXiv cs.RO 

Modélisation physique et contrôle des comportements émergents dans les essaims de robots

Des chercheurs ont déposé le 2 juin 2026 sur arXiv (arXiv:2606.01597) un cadre baptisé PhySwarm pour modéliser et contrôler les comportements collectifs émergents d'essaims de robots. L'approche couple un niveau macroscopique, le modèle Macro-ADR (advection-diffusion-réaction multi-phases), qui décrit l'évolution de la densité spatiale de l'essaim au fil des phases comportementales, à un niveau microscopique, le Micro-EDM, qui traduit ces dynamiques en consignes de déplacement individuel via des champs de potentiel et des transitions d'état gérées par seuils. Un contrôleur neuro-physique (NPC), entraîné par un objectif hybride alliant apprentissage par renforcement (RL) et réseaux de neurones physique-informés (PINN), mappe les observations locales et la mémoire temporelle de chaque robot à des paramètres physiques bornés. Les auteurs valident l'approche sur trois missions en preuve de concept : fourragement guidé par piste, navigation avec reconfiguration de formation, et recherche-sauvetage avec réaffectation dynamique des rôles. L'intérêt principal de PhySwarm est l'interprétabilité des comportements émergents. Contrairement aux méthodes purement neurales où les dynamiques collectives restent des boîtes noires, le cadre produit des champs de densité et des paramètres physiques explicites (coefficients d'advection, de diffusion, taux de transition de phase), permettant d'auditer pourquoi un essaim adopte un comportement donné. Pour les intégrateurs et les décideurs industriels, c'est un levier concret : la capacité à décomposer et à certifier un comportement collectif est un prérequis pour déployer des essaims dans des environnements critiques, logistique entrepôt ou intervention d'urgence. La contrainte PINN force aussi l'apprentissage à rester physiquement cohérent, ce qui réduit théoriquement le fossé simulation-réel (sim-to-real gap), même si toutes les expériences présentées restent en simulation et ne constituent pas encore des déploiements terrain. Le contrôle formel d'essaims est un domaine actif depuis les années 1990, mais la modélisation des comportements multi-phases y reste un problème ouvert. Les approches concurrentes vont de la stigmergie bio-inspirée au multi-agent reinforcement learning (MARL) pur, en passant par les formulations de champ moyen (mean-field games). PhySwarm se positionne à l'intersection physique et deep learning, un créneau également exploré par des équipes d'ETH Zurich, MIT CSAIL et Carnegie Mellon. Du côté industriel, des acteurs comme Exotec (France) pour la logistique entrepôt déploient déjà des flottes de robots sans coordination physique-informée formelle ; ce type de cadre pourrait outiller une prochaine génération de systèmes multi-robots à comportements certifiables.

UEImpact prospectif uniquement : le cadre PhySwarm pourrait à terme outiller des acteurs français comme Exotec pour certifier les comportements de leurs flottes multi-robots, mais aucune institution ou entreprise européenne n'est impliquée dans cette recherche.

RecherchePaper
1 source
CommandSwarm : génération d'arbres de comportement en langage naturel pour essaims robotiques avec contraintes de sécurité
2arXiv cs.RO 

CommandSwarm : génération d'arbres de comportement en langage naturel pour essaims robotiques avec contraintes de sécurité

CommandSwarm est un pipeline qui convertit des commandes en langage naturel, vocales ou textuelles, en arbres de comportement (behavior trees, BT) au format XML pour piloter des essaims de robots. Publiée en mai 2026 sur arXiv (preprint 2605.07764), l'architecture enchaîne traduction multilingue, filtrage de sécurité au niveau commande, prompting contraint, un LLM adapté par LoRA, et un validateur déterministe basé sur une liste blanche de primitives d'essaim autorisées. Onze LLMs open source de 6,7 à 14 milliards de paramètres, tous quantifiés en 4 bits, ont été évalués : Falcon3-Instruct-10B et Mistral-7B-v3 ressortent comme les meilleurs candidats en few-shot prompting, avec des scores BLEU supérieurs à 0,60. Après adaptation LoRA sur un corpus synthétique de 2 063 paires instruction-BT, le Falcon3-Instruct-10B passe d'un BLEU zero-shot de 0,267 à 0,663, d'un ROUGE-L de 0,366 à 0,692, et d'une validité syntaxique acceptée par le parser de 0 % à 72 %. Pour le front-end multilingue, SeamlessM4T v2-large et EuroLLM-9B, initiative européenne, offrent le meilleur compromis qualité-latence. La conclusion opérationnelle centrale de ces travaux est que la qualité de génération seule est insuffisante pour un déploiement autonome : sans parser de validation et filtre de sécurité en sortie, même les meilleurs modèles produisent des plans non exécutables ou potentiellement dangereux. Pour les intégrateurs robotiques et les décideurs industriels, cela confirme que les garde-fous déterministes sont non négociables, quel que soit le score BLEU affiché par un modèle. La progression de 0 % à 72 % de validité syntaxique après fine-tuning souligne également que l'adaptation domaine-spécifique reste indispensable : aucun LLM généraliste, même performant, ne maîtrise spontanément la syntaxe XML des BTs robotiques. Les behavior trees se sont imposés depuis une dizaine d'années comme le paradigme de contrôle dominant en robotique avancée, supplantant les machines à états finis classiques. La commande par langage naturel rejoint une tendance de fond déjà illustrée par ProgPrompt (Microsoft/Stanford, 2022), SayCan (Google, 2022), et les VLAs Pi-0 (Physical Intelligence) ou GR00T N2 (NVIDIA) pour robots individuels. CommandSwarm se positionne sur le créneau des essaims multi-agents, où la coordination collective et les risques d'interférence rendent la validation formelle encore plus critique qu'en robotique unitaire. Ce travail reste à ce stade un preprint de recherche évalué sur scénarios de simulation ; aucun déploiement sur hardware physique n'est annoncé. Les prochaines étapes attendues comprennent des tests sur robots réels, l'évaluation de la latence temps-réel en conditions opérationnelles, et l'extension du corpus d'entraînement au-delà des 2 063 exemples synthétiques actuels.

UEEuroLLM-9B, initiative européenne, ressort comme l'un des meilleurs compromis qualité-latence pour le front-end multilingue, ce qui lui donne un avantage potentiel dans les projets robotiques financés ou réglementés en Europe.

RecherchePaper
1 source
Transport multi-robots de boîtes sur différentes surfaces avec contrôle proportionnel décentralisé basé sur les rôles
3arXiv cs.RO 

Transport multi-robots de boîtes sur différentes surfaces avec contrôle proportionnel décentralisé basé sur les rôles

Des chercheurs ont publié sur arXiv (référence 2605.26430) R2P2 (Roles with Rules and Proportional-control Primitive), une architecture décentralisée pour le transport collaboratif de caisses rectangulaires par plusieurs robots agissant par poussée, sans préhension. Le système assigne dynamiquement trois rôles distincts à chaque robot - pousser, soutenir ou bloquer - selon le mode de manipulation requis : rotation ou translation de la caisse. R2P2 a été évalué en simulation sur NVIDIA IsaacSim avec une équipe de six robots, testée sur des surfaces planes, en montée et en descente avec des variations de friction et de masse de caisse. La validation physique implique quatre TurtleBots déplaçant une caisse de 1,2 kg. Les auteurs revendiquent un meilleur taux de succès que l'approche de référence par leader-suiveur virtuel, sans préciser de métriques chiffrées au-delà des graphes de comparaison. L'élément différenciant clé est l'architecture décentralisée : chaque robot prend ses décisions localement en observant uniquement sa propre position et celle de la caisse, sans communication inter-robots, consensus ou coordinateur central. Cela élimine le point de défaillance unique et réduit les contraintes de synchronisation critiques pour un déploiement en entrepôt ou en zone sinistrée. La gestion simultanée d'inclinaison et de friction variables représente un défi rarement traité dans la littérature, où la plupart des démonstrateurs fonctionnent sur sol plat homogène. La validation sim-to-real, même à petite échelle, confirme que le contrôle proportionnel basé sur les rôles reste transposable au matériel réel - un résultat non trivial pour une méthode sans apprentissage. Le transport collaboratif par poussée est un problème ouvert en robotique multi-agents depuis les années 1990, qui regagne de l'intérêt avec la montée en puissance des flottes AMR dans la logistique et la construction. Les approches concurrentes incluent les méthodes par leader-suiveur centralisé, les algorithmes de consensus distribué et, plus récemment, le renforcement multi-agent. R2P2 se positionne comme une solution légère, interprétable et sans phase d'entraînement, un avantage pour les intégrateurs qui privilégient la prédictibilité et la facilité de certification. NVIDIA IsaacSim, utilisé ici pour les tests en simulation, est devenu la plateforme de référence pour la validation robotique, notamment adoptée par Figure, Boston Dynamics et 1X. Les auteurs ne mentionnent pas de déploiement industriel ni de partenariats : il s'agit d'une contribution académique, avec comme suites logiques des tests sur des charges plus lourdes, des géométries irrégulières et des équipes plus importantes.

RecherchePaper
1 source
Prise de décision bio-inspirée dans les essaims de robots soumis à des biais
4arXiv cs.RO 

Prise de décision bio-inspirée dans les essaims de robots soumis à des biais

Des chercheurs présentent dans un preprint arXiv (2509.07561, version 2, juin 2026) une étude comparative sur les mécanismes de prise de décision collective dans les essaims de robots minimalistes. Le scénario central : des robots individuels commettent fréquemment des erreurs de perception environnementale, mais le groupe doit néanmoins converger rapidement et fiablement vers la meilleure option parmi n alternatives discrètes. L'étude compare deux règles canoniques issues de la dynamique d'opinion observée dans les systèmes biologiques, le "direct-switch" (bascule directe) et la "cross-inhibition" (inhibition croisée), en les soumettant à des biais asociaux, c'est-à-dire des prédispositions individuelles indépendantes de l'interaction sociale. Les modèles de champ moyen existants sont généralisés pour intégrer ces perturbations. Les résultats ont une implication directe pour quiconque conçoit des systèmes multi-agents décentralisés : la cross-inhibition, mécanisme inspiré des colonies d'insectes et des populations neuronales, surpasse systématiquement le direct-switch en présence de biais. Là où le direct-switch se révèle performant en conditions idéales, il conduit à des blocages décisionnels ("decision deadlocks") dès que des biais individuels entrent en jeu. La cross-inhibition, elle, produit des décisions plus rapides, plus cohésives, plus précises et plus robustes sur une large gamme de conditions biaisées, et ce à des échelles croissantes d'essaims. C'est un résultat concret contre l'hypothèse que des règles simples suffisent sans distinction dans des environnements bruités. Cette recherche s'inscrit dans un corpus plus large sur la robotique en essaim (swarm robotics), domaine porté notamment par des équipes comme celles de Marco Dorigo (Université Libre de Bruxelles) et Vito Trianni (CNR-ISTC, Rome), avec des applications visées en surveillance environnementale, réponse aux catastrophes et logistique médicale. Sur le plan compétitif, les approches centralisées (flottes AMR coordonnées par un orchestrateur central, comme chez Exotec ou 6 River Systems) offrent des performances prévisibles mais restent fragiles à la perte de communication. L'enjeu ici est de prouver qu'une architecture entièrement distribuée peut égaler cette fiabilité sans infrastructure centralisée. La prochaine étape naturelle serait la validation expérimentale sur robots physiques, absente de cette version de l'étude.

UELes équipes européennes porteuses de ces travaux (Marco Dorigo, ULB Bruxelles ; Vito Trianni, CNR-ISTC Rome) positionnent la recherche EU en tête sur la robotique en essaim décentralisée, avec des retombées potentielles pour les applications de logistique et de réponse aux catastrophes en Europe.

RecherchePaper
1 source