期刊文献+
共找到6篇文章
< 1 >
每页显示 20 50 100
一种采用新型聚类方法的最佳类簇数确定算法 被引量:9
1
作者 朱二周 孙悦 +3 位作者 张远翔 高新 马汝辉 李学俊 《软件学报》 EI CSCD 北大核心 2021年第10期3085-3103,共19页
聚类分析是统计学、模式识别和机器学习等领域的研究热点.通过有效的聚类分析,数据集的内在结构与特征可以被很好地发掘出来.然而,无监督学习的特性使得当前已有的聚类方法依旧面临着聚类效果不稳定、无法对多种结构的数据集进行正确聚... 聚类分析是统计学、模式识别和机器学习等领域的研究热点.通过有效的聚类分析,数据集的内在结构与特征可以被很好地发掘出来.然而,无监督学习的特性使得当前已有的聚类方法依旧面临着聚类效果不稳定、无法对多种结构的数据集进行正确聚类等问题.针对这些问题,首先将K-means算法和层次聚类算法的聚类思想相结合,提出了一种混合聚类算法K-means-AHC;其次,采用拐点检测的思想,提出了一个基于平均综合度的新聚类有效性指标DAS(平均综合度之差,difference of average synthesis degree),以此来评估K-means-AHC算法聚类结果的质量;最后,将K-means-AHC算法和DAS指标相结合,设计了一种寻找数据集最佳类簇数和最优划分的有效方法.实验将K-means-AHC算法用于测试多种结构的数据集,结果表明:该算法在不过多增加时间开销的同时,提高了聚类分析的准确性.与此同时,新的DAS指标在聚类结果的评价上要优于当前已有的常用聚类有效性指标. 展开更多
关键词 分析 算法 有效性指标 最佳类簇数 据挖掘
在线阅读 下载PDF
基于语义的中文文本聚类最佳簇数研究
2
作者 刘金岭 《计算机工程与设计》 CSCD 北大核心 2010年第9期2034-2036,2100,共4页
分析了聚类数目的确定对大样本数据聚类效果的影响,对目前聚类质量衡量指标的几个主要流行观点进行了剖析。利用文本相似度的概念对文本语义最佳聚类数问题进行了研究,提出了一种基于聚类过程的文本最佳聚类数算法CTBP,其主要思想是在... 分析了聚类数目的确定对大样本数据聚类效果的影响,对目前聚类质量衡量指标的几个主要流行观点进行了剖析。利用文本相似度的概念对文本语义最佳聚类数问题进行了研究,提出了一种基于聚类过程的文本最佳聚类数算法CTBP,其主要思想是在文本向量集的每个文本向量中抽取出一个词汇,按相似度有序排列,用增量逐层划分以得到最优划分所对应的簇类数。这样通过扫描一遍数据就可以获得多个统计信息,最后求出最优解。实验结果表明了该算法的高质量和高效率。 展开更多
关键词 文本聚 类簇数 增量 划分 CTBP
在线阅读 下载PDF
结合密度参数与中心替换的改进K-means算法及新聚类有效性指标研究 被引量:16
3
作者 张亚迪 孙悦 +1 位作者 刘锋 朱二周 《计算机科学》 CSCD 北大核心 2022年第1期121-132,共12页
聚类是一种经典的数据挖掘技术,它在模式识别、机器学习、人工智能等多个领域得到了广泛的应用。通过聚类分析,目标数据集的深层次结构可以被有效地发掘出来。作为一种常用的划分聚类算法,K-means具有实现简单、能够处理大型数据等优点... 聚类是一种经典的数据挖掘技术,它在模式识别、机器学习、人工智能等多个领域得到了广泛的应用。通过聚类分析,目标数据集的深层次结构可以被有效地发掘出来。作为一种常用的划分聚类算法,K-means具有实现简单、能够处理大型数据等优点。然而,受收敛规则的影响,K-means算法仍然存在着对初始类簇中心的选取非常敏感、不能很好地处理非凸型分布和有离群值的数据集等问题。文中提出了一种基于密度参数和中心替换的改进K-means算法DC-Kmeans。该算法采用数据对象的密度参数来逐步确定初始类簇中心,使用中心替换方法更新偏离实际位置的初始中心,因而比传统聚的类算法更加精确。为了获得最佳聚类效果,文中同时提出了一个能够对聚类结果进行有效评价的新聚类有效性指标SCVI和一个能够快速获得目标数据集最佳类簇数的新算法OCNS。实验结果表明,所提聚类方法对各种类型的数据集都是有效的。 展开更多
关键词 算法 有效性指标 最佳类簇数 中心 据挖掘
在线阅读 下载PDF
一种新聚类评价指标 被引量:15
4
作者 谢娟英 周颖 《陕西师范大学学报(自然科学版)》 CAS CSCD 北大核心 2015年第6期1-8,共8页
用于发现数据集类簇数k的常用内部评价指标DB(Davies Bouldin)和BWP(Between-within Proportion)等需要先确定一个搜索范围kmax,使数据集的类簇数满足k≤kmax,但如何确定kmax尚无理论指导。针对这一问题,提出一个新F统计量Fr,将Fr作为... 用于发现数据集类簇数k的常用内部评价指标DB(Davies Bouldin)和BWP(Between-within Proportion)等需要先确定一个搜索范围kmax,使数据集的类簇数满足k≤kmax,但如何确定kmax尚无理论指导。针对这一问题,提出一个新F统计量Fr,将Fr作为新聚类有效性准则,以判断聚类算法收敛与否,自适应地确定数据集类簇数;将Fr应用于快速K-medoids算法的收敛性判断,并以基于最小生成树的测地距离,即样本对在最小生成树上的路径长度,代替其间的直接欧氏距离度量样本相似性,得到一种自适应的快速K-medoids聚类算法,解决了K-medoids算法需要人为给定类簇数和不能发现任意形状簇的问题。UCI机器学习数据库数据集和人工模拟数据集实验测试表明,本文提出的Fr指标是一种有效的聚类算法评价指标,基于该指标和测地距离的K-medoids算法不仅能发现任意形状的簇,还可以自适应地确定数据集的类簇数,且对噪音数据有很好的鲁棒性。 展开更多
关键词 F统计量 内部评价指标 类簇数 K-medoids聚算法 最小生成树
在线阅读 下载PDF
融合聚类算法和缺陷预测的测试用例优先排序方法 被引量:6
5
作者 肖蕾 陈荣赏 +1 位作者 缪淮扣 洪煜 《计算机科学》 CSCD 北大核心 2021年第5期99-108,共10页
持续集成环境下,软件快速更新加快了回归测试执行的频率,但缺陷快速反馈的需求对回归测试又提出了更高要求。测试用例优先排序技术研究测试用例的重要性,通常将缺陷探测能力强的测试用例优先执行,使其提早发现软件缺陷,其可解决持续集... 持续集成环境下,软件快速更新加快了回归测试执行的频率,但缺陷快速反馈的需求对回归测试又提出了更高要求。测试用例优先排序技术研究测试用例的重要性,通常将缺陷探测能力强的测试用例优先执行,使其提早发现软件缺陷,其可解决持续集成环境下的快速反馈需求。缺陷预测技术可通过被测系统代码特征和历史缺陷来预估信息预测软件在新版本中发现缺陷的可能性,传统基于聚类的测试用例优先排序方法大多未考虑不同类簇数和特征子集对聚类结果的影响。文中将缺陷预测应用到聚类优先排序方法,构建测试用例和代码关联矩阵,对测试用例进行聚类分析,结合缺陷预测结果和最大最小距离策略指导簇间和簇内排序。通过实验验证发现,类簇数和聚类特征子集选择对排序效果有一定影响,当未能获取最佳类簇数和特征子集时,相比单一的聚类优先排序方法,所提方法可更有效地提高回归测试效率。 展开更多
关键词 回归测试 测试用例优先排序 缺陷预测 分析 最佳类簇数 特征子集
在线阅读 下载PDF
一种对孤立点不敏感的新的K-Means聚类算法 被引量:5
6
作者 包志强 赵媛媛 +1 位作者 胡啸天 赵研 《现代电子技术》 北大核心 2020年第5期109-112,共4页
针对传统K-Means聚类算法的不足,提出一种新的对孤立点不敏感的K-Means聚类算法。首先,采用孤立点移除算法消除数据集中存在的孤立点;然后,对不包含孤立点的数据集进行传统K-Means聚类,再引入轮廓系数并选择轮廓系数最大值对应的簇类数... 针对传统K-Means聚类算法的不足,提出一种新的对孤立点不敏感的K-Means聚类算法。首先,采用孤立点移除算法消除数据集中存在的孤立点;然后,对不包含孤立点的数据集进行传统K-Means聚类,再引入轮廓系数并选择轮廓系数最大值对应的簇类数作为数据集中簇的最优选择数目K;最后,通过自定义的聚类有效性评价函数评估聚类效果。实验结果表明,相对于传统K-Means聚类算法,对孤立点不敏感的新的K-Means聚类算法能够消除孤立点对数据集整体的影响,并优化了聚类中心的选择。 展开更多
关键词 K-MEANS聚算法 孤立点 轮廓系 有效性评价函 中心
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部