期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
基于字符串相似度的URL聚类方法研究
1
作者 刘翼 田亮亮 +2 位作者 高明 李凯茵 叶倩 《现代电子技术》 北大核心 2025年第11期84-88,共5页
内容分发网络(CDN)被用于解决网络访问负荷过载的问题。然而,同一网络服务可能包含多个域名,导致网页主题分类结果精确度和检索效率降低。文中提出一种基于字符串相似度算法的URL聚类方法,首先,获取校园网络7×24 h的真实流量数据,... 内容分发网络(CDN)被用于解决网络访问负荷过载的问题。然而,同一网络服务可能包含多个域名,导致网页主题分类结果精确度和检索效率降低。文中提出一种基于字符串相似度算法的URL聚类方法,首先,获取校园网络7×24 h的真实流量数据,利用协议分析抽取特征信息,转化为数据集;其次,进行数据清洗与处理,去除缺省字段和错误字段,将相同数据条目集成;最后,采用字符串相似度算法计算URL之间的距离作为聚类算法的特征,并采用K-means聚类算法划分相似URL,达到将多个不同域名分类到相同网络服务的目的。实验通过对5种不同方法进行比较发现,Levenshtein算法的平均轮廓系数达到了91.4%,较其他方法平均提高12%,能够有效应对精确度降低和检索效率低下的问题。 展开更多
关键词 数据聚类 字符串相似度 轮廓系数法 协议分析 K-MEANS URL CDN Levenshtein算
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部