题名 基于字符串相似度的URL聚类方法研究
1
作者
刘翼
田亮亮
高明
李凯茵
叶倩
机构
延安大学数学与计算机科学学院
延安大学教务处
出处
《现代电子技术》
北大核心
2025年第11期84-88,共5页
基金
国家自然科学基金项目(62262067)
国家自然科学基金项目(61962059)
+1 种基金
陕西省教育厅自然科学专项项目(24JK0723)
延安市科技计划项目(2022SLGYGG-007)。
文摘
内容分发网络(CDN)被用于解决网络访问负荷过载的问题。然而,同一网络服务可能包含多个域名,导致网页主题分类结果精确度和检索效率降低。文中提出一种基于字符串相似度算法的URL聚类方法,首先,获取校园网络7×24 h的真实流量数据,利用协议分析抽取特征信息,转化为数据集;其次,进行数据清洗与处理,去除缺省字段和错误字段,将相同数据条目集成;最后,采用字符串相似度算法计算URL之间的距离作为聚类算法的特征,并采用K-means聚类算法划分相似URL,达到将多个不同域名分类到相同网络服务的目的。实验通过对5种不同方法进行比较发现,Levenshtein算法的平均轮廓系数达到了91.4%,较其他方法平均提高12%,能够有效应对精确度降低和检索效率低下的问题。
关键词
数据聚类
字符串相似度
轮廓系数法
协议分析
K-MEANS
URL
CDN
Levenshtein算法
Keywords
data clustering
string similarity
silhouette coefficient method
protocol analysis
K⁃means
URL
CDN
Levenshtein algorithm
分类号
TN919-34
[电子电信—通信与信息系统]
TP393
[自动化与计算机技术—计算机应用技术]
题名 方向相似性聚类方法DSCM
被引量:21
2
作者
修宇
王士同
吴锡生
胡德文
机构
江南大学信息工程学院
国防科学技术大学机电与自动化学院
出处
《计算机研究与发展》
EI
CSCD
北大核心
2006年第8期1425-1431,共7页
基金
国家自然科学基金项目(6022501)
江苏省自然科学基金项目(BK2003017)
+3 种基金
江苏省计算机信息处理重点实验室开放基金项目
教育部跨世纪优秀人才支持计划基金项目(NCET-04-0496)
教育部05年度科学研究重点基金项目(105087)
中国科学院自动化所模式识别国家重点实验室开放课题~~
文摘
针对方向性数据提出了一种鲁棒的基于方向相似性度量的聚类方法DSCM·DSCM首先基于方向性度量构造目标函数,然后通过不动点迭代法对目标函数优化,获得各个样本的最终稳定状态,最后基于样本的最终状态集利用层次聚类技术实现聚类·DSCM的优势在于对方向性数据聚类时不依赖于具体的初始化参数,且能自组织地求解最优聚类划分因而有很好的鲁棒性·通过实验证实了DSCM的有效性以及对已有的两个传统方向性聚类算法的优越性·
关键词
方向相似性
鲁棒聚类算法
聚类有效性
Keywords
directional similarity
robust clustering algorithm
clustering validity
分类号
TP181
[自动化与计算机技术—控制理论与控制工程]
题名 属性相似度在聚类算法中的有效性研究
被引量:4
3
作者
刘明术
方宏彬
张建
孙启林
机构
安徽大学数学科学院
出处
《计算机应用与软件》
CSCD
北大核心
2012年第9期146-147,174,共3页
基金
安徽省教育厅自然科学基金项目(05010428)
安徽大学人才队伍建设项目
文摘
针对欧氏距离将个体的不同属性(即各指标或各变量)之间的差别等同看待,忽视了个体不同属性的重要性。考虑数据的几何结构特征和个体属性,结合马氏距离提出一种新的属性相似性度量方法及新的聚类有效性函数;对采用欧氏距离的分层聚类算法进行改进。改进的聚类算法能提高聚类的速度和质量,是一种有效的聚类方法。
关键词
相似性
聚类算法
有效性
度量方法
Keywords
similarity , clustering algorithm ,validity , metric method
分类号
TP301.6
[自动化与计算机技术—计算机系统结构]
题名 基于混合距离学习的双指数模糊C均值算法
被引量:23
4
作者
王骏
王士同
机构
南京理工大学计算机科学与技术学院
江南大学信息工程学院
南京大学计算机软件新技术国家重点实验室
出处
《软件学报》
EI
CSCD
北大核心
2010年第8期1878-1888,共11页
基金
国家自然科学基金Nos.60773206
60704047
90820002~~
文摘
提出了一种基于DI-FCM(double indices fuzzy C-means)算法框架的无监督距离学习算法——基于混合距离学习的双指数模糊C均值算法HDDI-FCM(double indices fuzzy C-m eans with hybrid distance).数据集未知距离度量被表示为若干已有距离的线性组合,然后执行HDDI-FCM,在对数据集进行有效聚类的同时进行距离学习.为了保证迭代算法收敛,引入了Steffensen迭代法来改进计算簇中心点的迭代公式.讨论了算法中参数的选择.基于UCI(University of California,Irvine)数据集的实验结果表明该算法是有效的.
关键词
距离学习
聚类
模糊C均值算法
混合距离
Steffensen迭代法
Keywords
distance metric learning
clustering
fuzzy C-means algorithm
hybrid distance metric
Steffensen iteration method
分类号
TP181
[自动化与计算机技术—控制理论与控制工程]
题名 仿射传播算法在图像聚类应用中的实现与分析
被引量:6
5
作者
赵健
唐洁
谢瑜
机构
西北大学信息科学与技术学院
出处
《计算机应用研究》
CSCD
北大核心
2012年第10期3980-3982,共3页
基金
陕西省教育厅科技立项项目(2010JK847)
西北大学研究生重点课程项目基金资助项目(09YKC21)
文摘
近年来,基于划分的聚类算法被广泛应用于数据和图像聚类中。针对应用最为广泛的k-均值算法在图像聚类中存在的聚类速度慢、效果差等问题,提出一种仿射传播算法应用于图像聚类中。提取图像中颜色、形状和纹理等特征向量,利用仿射传播算法对综合特征向量模型进行聚类,最后将仿射传播算法和k-均值算法对MIT图像的聚类作了对比分析。仿真实验表明,仿射传播算法在速度和聚类效果上均优于已有的k-均值算法,在准确性和实时性方面均能达到较好的效果。
关键词
仿射传播算法
图像聚类
相似度距离
灰度共生矩阵
Keywords
affinity propagation algorithm
image clustering
similarity metric s
gray-scale co-occurrence matrix
分类号
TP391
[自动化与计算机技术—计算机应用技术]
题名 K-means算法在玉米良种选育中的应用
被引量:3
6
作者
杨娜
邱建林
潘阳
卞彩峰
陆鹏程
机构
南通大学电子信息学院
南通大学计算机科学与技术学院
出处
《计算机工程与设计》
CSCD
北大核心
2014年第8期2864-2871,共8页
基金
国家自然科学基金项目(NSF61272424)
江苏省自然科学基金项目(BK2010277)
+1 种基金
南通市科技计划基金项目(K2010002
AL2007033)
文摘
为降低k值选取对聚类效果的影响,用改进的聚类有效性函数来选取k值。综合考虑了类内相似性、类间差异性,通过UCI数据库中的几个数据集和k-means算法来验证其正确性,并应用于玉米良种选育。为确保得到的玉米良种集中不混有劣种,对聚类得到的玉米良种集进行主成分分析和熵值法的综合评价。实验结果表明,采用该函数在玉米良种集中得到了优良的玉米种子,验证了其正确性。
关键词
K-MEANS算法
主成分分析
熵值法
聚类有效性函数
玉米良种选育
Keywords
k-means algorithm
principal component analysis
entropy value method
clustering validity function
maizeseed breeding
分类号
TP311.13
[自动化与计算机技术—计算机软件与理论]
题名 改进的K-means算法在维文连体段聚类中的应用
被引量:1
7
作者
张建周
哈力木拉提.买买提
陈晓娇
机构
新疆大学信息科学与工程学院多语种信息技术重点实验室
出处
《计算机工程与应用》
CSCD
2014年第14期135-138,254,共5页
基金
国家自然科学基金(No.61032008
No.61163031
No.60863009)
文摘
在维吾尔文文字识别中,能否有效地聚类将直接影响识别结果的好坏。为改善聚类效果,针对维吾尔文连体段聚类,提出了一种改进的K-means聚类算法。该算法首先采用等间距法多次选择类中心,然后选择最佳码本和利用有效相似比来动态调整聚类个数K,最后完成了连体段聚类。实验结果表明:与传统K-means算法相比,改进的K-means算法得到了较好聚类效果,聚类正确率达90%以上。
关键词
维吾尔文文字识别
连体段
聚类算法
等间距法
有效相似比
正确率
Keywords
Uyghur character recognition
word-part
clustering algorithm
equal interval method
effective similarity ratio
accuracy
分类号
TP39
[自动化与计算机技术—计算机应用技术]
题名 基于改进GWO-CV优化的K-调和均值聚类算法
被引量:5
8
作者
张文宇
张茜
杨媛
刘嘉
机构
西安邮电大学经济与管理学院
中国航天系统科学与工程研究院
出处
《统计与决策》
CSSCI
北大核心
2020年第16期9-13,共5页
基金
陕西省教育厅重点项目(19JZ056)。
文摘
为克服传统聚类算法对初始聚类中心敏感且容易陷入局部最优的问题,文章提出一种基于改进的灰狼优化与交叉验证法结合的K-调和均值聚类算法(GWO-CVKHM)。首先将新的非线性收敛因子引入灰狼优化算法,以调整前期广度搜索与后期深度搜索比例,同时基于模糊控制权重决策对灰狼种群位置进行更新;其次利用改进灰狼优化算法与交叉验证的思想对初始聚类中心进行寻优;最后基于改进后的聚类算法选取UCI数据库中真实数据集进行聚类。实验结果表明,该算法在求解精度及算法稳定性方面优于对比算法,具有更快的收敛速度与更强的全局搜索能力。
关键词
K-调和均值聚类
灰狼优化算法(GWO)
交叉验证法(CV)
全局搜索能力
Keywords
k-harmonic mean clustering
gray wolf optimization algorithm (GWO)
cross validation method (CV)
global search ability
分类号
O21
[理学—概率论与数理统计]