
CommandSwarm : génération d'arbres de comportement en langage naturel pour essaims robotiques avec contraintes de sécurité
CommandSwarm est un pipeline qui convertit des commandes en langage naturel, vocales ou textuelles, en arbres de comportement (behavior trees, BT) au format XML pour piloter des essaims de robots. Publiée en mai 2026 sur arXiv (preprint 2605.07764), l'architecture enchaîne traduction multilingue, filtrage de sécurité au niveau commande, prompting contraint, un LLM adapté par LoRA, et un validateur déterministe basé sur une liste blanche de primitives d'essaim autorisées. Onze LLMs open source de 6,7 à 14 milliards de paramètres, tous quantifiés en 4 bits, ont été évalués : Falcon3-Instruct-10B et Mistral-7B-v3 ressortent comme les meilleurs candidats en few-shot prompting, avec des scores BLEU supérieurs à 0,60. Après adaptation LoRA sur un corpus synthétique de 2 063 paires instruction-BT, le Falcon3-Instruct-10B passe d'un BLEU zero-shot de 0,267 à 0,663, d'un ROUGE-L de 0,366 à 0,692, et d'une validité syntaxique acceptée par le parser de 0 % à 72 %. Pour le front-end multilingue, SeamlessM4T v2-large et EuroLLM-9B, initiative européenne, offrent le meilleur compromis qualité-latence.
La conclusion opérationnelle centrale de ces travaux est que la qualité de génération seule est insuffisante pour un déploiement autonome : sans parser de validation et filtre de sécurité en sortie, même les meilleurs modèles produisent des plans non exécutables ou potentiellement dangereux. Pour les intégrateurs robotiques et les décideurs industriels, cela confirme que les garde-fous déterministes sont non négociables, quel que soit le score BLEU affiché par un modèle. La progression de 0 % à 72 % de validité syntaxique après fine-tuning souligne également que l'adaptation domaine-spécifique reste indispensable : aucun LLM généraliste, même performant, ne maîtrise spontanément la syntaxe XML des BTs robotiques.
Les behavior trees se sont imposés depuis une dizaine d'années comme le paradigme de contrôle dominant en robotique avancée, supplantant les machines à états finis classiques. La commande par langage naturel rejoint une tendance de fond déjà illustrée par ProgPrompt (Microsoft/Stanford, 2022), SayCan (Google, 2022), et les VLAs Pi-0 (Physical Intelligence) ou GR00T N2 (NVIDIA) pour robots individuels. CommandSwarm se positionne sur le créneau des essaims multi-agents, où la coordination collective et les risques d'interférence rendent la validation formelle encore plus critique qu'en robotique unitaire. Ce travail reste à ce stade un preprint de recherche évalué sur scénarios de simulation ; aucun déploiement sur hardware physique n'est annoncé. Les prochaines étapes attendues comprennent des tests sur robots réels, l'évaluation de la latence temps-réel en conditions opérationnelles, et l'extension du corpus d'entraînement au-delà des 2 063 exemples synthétiques actuels.
EuroLLM-9B, initiative européenne, ressort comme l'un des meilleurs compromis qualité-latence pour le front-end multilingue, ce qui lui donne un avantage potentiel dans les projets robotiques financés ou réglementés en Europe.
Dans nos dossiers




