
HEART : coordination d'agents experts hétérogènes pour la planification de tâches robotiques ancrée dans le réel
Une équipe de chercheurs publie sur arXiv (réf. 2606.25404) HEART, un framework de planification robotique qui distribue le raisonnement entre plusieurs LLM spécialisés plutôt que de confier l'ensemble de la tâche à un seul modèle. Le principe : décomposer une instruction complexe en sous-tâches atomiques (vérification des capacités du robot, analyse de l'atteignabilité des objets, respect des contraintes logiques et temporelles), puis allouer chacune à un agent LLM dédié, le tout sous une contrainte de budget en tokens pour rester viable sur du matériel embarqué ou en communication limitée. La synthèse finale produit un plan d'actions physiquement exécutable, validé avant transmission au robot. Les expériences sur plusieurs benchmarks de scénarios domestiques montrent une amélioration consistante du taux de succès face aux planificateurs mono-LLM et aux approches à base de règles, sans que l'abstract disponible détaille de chiffres absolus.
La contribution centrale de HEART est d'intégrer une couche de validation physique avant la génération du plan, un angle mort chronique des approches LLM-only. Les modèles de langage généralisent bien le raisonnement symbolique mais peinent avec les contraintes géométriques réelles : objet hors de portée, séquence d'actions physiquement impossible, outil absent. En déléguant ces vérifications à des agents rôle-spécialisés, le framework réduit le taux de plans invalides ou incomplets. Pour les intégrateurs travaillant sur l'automatisation de tâches non-structurées en environnement domestique ou industriel léger, c'est un signal pertinent : la spécialisation des agents LLM par type de contrainte commence à produire des gains mesurables sur les benchmarks standard.
Ce travail s'inscrit dans un courant de recherche actif qui cherche à dépasser les limites du "single LLM as planner", avec des approches comme SayPlan, LLM+P ou Code as Policies comme antécédents directs. Aucun acteur industriel ni déploiement terrain n'est mentionné, et le papier reste un preprint non relu par les pairs. L'absence de métriques chiffrées précises dans l'abstract (taux de succès, nombre de benchmarks, configurations matérielles testées) rend l'évaluation externe difficile. Les prochaines étapes naturelles seraient une validation sur robot physique réel et une comparaison contre des frameworks VLA (Vision-Language-Action) comme pi-0 ou GR00T N2, qui intègrent déjà un raisonnement ancré dans la perception sensorielle.
Dans nos dossiers




