-
题名基于字符串相似度的URL聚类方法研究
- 1
-
-
作者
刘翼
田亮亮
高明
李凯茵
叶倩
-
机构
延安大学数学与计算机科学学院
延安大学教务处
-
出处
《现代电子技术》
北大核心
2025年第11期84-88,共5页
-
基金
国家自然科学基金项目(62262067)
国家自然科学基金项目(61962059)
+1 种基金
陕西省教育厅自然科学专项项目(24JK0723)
延安市科技计划项目(2022SLGYGG-007)。
-
文摘
内容分发网络(CDN)被用于解决网络访问负荷过载的问题。然而,同一网络服务可能包含多个域名,导致网页主题分类结果精确度和检索效率降低。文中提出一种基于字符串相似度算法的URL聚类方法,首先,获取校园网络7×24 h的真实流量数据,利用协议分析抽取特征信息,转化为数据集;其次,进行数据清洗与处理,去除缺省字段和错误字段,将相同数据条目集成;最后,采用字符串相似度算法计算URL之间的距离作为聚类算法的特征,并采用K-means聚类算法划分相似URL,达到将多个不同域名分类到相同网络服务的目的。实验通过对5种不同方法进行比较发现,Levenshtein算法的平均轮廓系数达到了91.4%,较其他方法平均提高12%,能够有效应对精确度降低和检索效率低下的问题。
-
关键词
数据聚类
字符串相似度
轮廓系数法
协议分析
K-MEANS
URL
CDN
Levenshtein算法
-
Keywords
data clustering
string similarity
silhouette coefficient method
protocol analysis
K⁃means
URL
CDN
Levenshtein algorithm
-
分类号
TN919-34
[电子电信—通信与信息系统]
TP393
[自动化与计算机技术—计算机应用技术]
-