期刊文献+
共找到17篇文章
< 1 >
每页显示 20 50 100
引入信息熵的CURE聚类算法 被引量:14
1
作者 伍恒 李文杰 蒋旻 《计算机应用研究》 CSCD 北大核心 2017年第8期2303-2305,共3页
为了提高传统CURE(clustering using representatives)聚类算法的质量,引入信息熵对其进行改进。该算法使用K-means算法对样本数据集进行预聚类;采用基于信息熵的相似性度量,利用簇中元素提供的信息度量不同簇之间的相互关系,并描述数... 为了提高传统CURE(clustering using representatives)聚类算法的质量,引入信息熵对其进行改进。该算法使用K-means算法对样本数据集进行预聚类;采用基于信息熵的相似性度量,利用簇中元素提供的信息度量不同簇之间的相互关系,并描述数据的分布;在高、低层聚类阶段,采取不同的选取策略,分别选取相应的代表点。在UCI和人造数据集上的实验结果表明,提出的算法在一定程度上提高了聚类的准确率,且在大型数据集上比传统CURE算法有着更高的聚类效率。 展开更多
关键词 层次聚类 cure算法 信息熵 代表点选取
在线阅读 下载PDF
Binary-Positive下的并行化CURE算法 被引量:3
2
作者 王民 尹超 +2 位作者 王稚慧 要趁红 高婧 《计算机工程与应用》 CSCD 2014年第11期58-61,共4页
当CURE算法在处理不均匀的海量数据时,针对随机抽样不具有代表性的问题,提出了一种健壮的并行化改进算法。该算法使用Binary-Positive算法得到原始数据的有效属性,并利用MapReduce并行框架对有效数据进行层次聚类,从而实现了正确率与效... 当CURE算法在处理不均匀的海量数据时,针对随机抽样不具有代表性的问题,提出了一种健壮的并行化改进算法。该算法使用Binary-Positive算法得到原始数据的有效属性,并利用MapReduce并行框架对有效数据进行层次聚类,从而实现了正确率与效率的一种权衡。实验分析表明,改进后的CURE算法具有更高的执行效率,且聚类效果良好。 展开更多
关键词 聚类 利用代表点聚类(cure) Binary—Positive MAPREDUCE 并行
在线阅读 下载PDF
基于CURE的用户聚类算法研究 被引量:8
3
作者 赵妍 赵学民 《计算机工程与应用》 CSCD 2012年第11期97-101,共5页
通过对Web网站的日志进行聚类分析,目的是获取用户兴趣访问模式,进而为不同用户群体提供定制的个性化服务。针对原始CURE算法在代表点选择的随机性、不能充分体现用户兴趣偏好方面存在的问题,提出了改进的用户聚类算法,根据用户兴趣的... 通过对Web网站的日志进行聚类分析,目的是获取用户兴趣访问模式,进而为不同用户群体提供定制的个性化服务。针对原始CURE算法在代表点选择的随机性、不能充分体现用户兴趣偏好方面存在的问题,提出了改进的用户聚类算法,根据用户兴趣的显著特征提取元素的主要属性进行预聚类,为小类合并提供合理的初始类集,实验结果证明了该方法有较好的聚类结果。 展开更多
关键词 利用代表点聚类(cure)算法 聚类分析 用户兴趣 个性化
在线阅读 下载PDF
基于改进CURE算法的不确定性移动用户数据聚类 被引量:8
4
作者 高长元 王海晶 王京 《计算机工程与科学》 CSCD 北大核心 2016年第4期768-774,共7页
随着云计算、大数据以及移动互联网的发展,移动终端用户数据呈现出数据量大、噪声大、动态性及不确定性增强的趋势,影响了移动用户数据聚类准确率与效率。针对上述问题,提出了一种改进的层次聚类算法CURE。该算法将原有算法中抽样处理... 随着云计算、大数据以及移动互联网的发展,移动终端用户数据呈现出数据量大、噪声大、动态性及不确定性增强的趋势,影响了移动用户数据聚类准确率与效率。针对上述问题,提出了一种改进的层次聚类算法CURE。该算法将原有算法中抽样处理数据的方式用Map Reduce函数实现并行化处理,同时结合区间数的概念,将移动用户数据用一个区间表示,计算其区间距离来适应移动用户数据的不确定性特点,从而提高聚类效率与准确率。最后利用MIT Reality项目数据集进行仿真,仿真结果表明了该方法的有效性及可行性,为移动用户数据的进一步利用及用户的个性化推荐提供支持。 展开更多
关键词 cure 不确定性数据 移动用户数据 Map REDUCE
在线阅读 下载PDF
增量式CURE聚类算法研究 被引量:9
5
作者 冯兴杰 黄亚楼 《小型微型计算机系统》 CSCD 北大核心 2004年第10期1847-1849,共3页
聚类是一种非常有用的数据挖掘方法 ,可用于发现隐藏在数据背后的分组和数据分布信息 .目前已经提出了许多聚类算法及其变种 ,但在增量式聚类算法研究方面所作的工作较少 .当数据集因更新而发生变化时 ,数据挖掘的结果也应该进行相应的... 聚类是一种非常有用的数据挖掘方法 ,可用于发现隐藏在数据背后的分组和数据分布信息 .目前已经提出了许多聚类算法及其变种 ,但在增量式聚类算法研究方面所作的工作较少 .当数据集因更新而发生变化时 ,数据挖掘的结果也应该进行相应的更新 .由于数据量大 ,在更新后的数据集上重新执行聚类算法以更新挖掘结果显然比较低效 ,因此亟待研究增量式聚类算法 .通过对 CURE聚类算法的改进 ,提出了一种高效的增量式 CU RE聚类算法 .它能够很好的解决传统聚类算法在伸缩性、数据定期更新时所面临的问题 . 展开更多
关键词 数据挖掘 cure聚类算法 最近邻 增量式聚类算法
在线阅读 下载PDF
FDBSCAN:一种快速 DBSCAN算法(英文) 被引量:42
6
作者 周水庚 周傲英 +2 位作者 金文 范晔 钱卫宁 《软件学报》 EI CSCD 北大核心 2000年第6期735-744,共10页
聚类分析是一门重要的技术 ,在数据挖掘、统计数据分析、模式匹配和图象处理等领域具有广泛的应用前景 .目前 ,人们已经提出了许多聚类算法 .其中 ,DBSCAN是一种性能优越的基于密度的空间聚类算法 .利用基于密度的聚类概念 ,用户只需输... 聚类分析是一门重要的技术 ,在数据挖掘、统计数据分析、模式匹配和图象处理等领域具有广泛的应用前景 .目前 ,人们已经提出了许多聚类算法 .其中 ,DBSCAN是一种性能优越的基于密度的空间聚类算法 .利用基于密度的聚类概念 ,用户只需输入一个参数 ,DBSCAN算法就能够发现任意形状的类 ,并可以有效地处理噪声 .文章提出了一种加快 DBSCAN算法的方法 .新算法以核心对象邻域中所有对象的代表对象为种子对象来扩展类 ,从而减少区域查询次数 ,降低 I/ O开销 .实验结果表明 ,FDBSCAN能够有效地对大规模数据库进行聚类 ,速度上数倍于 DBSCAN. 展开更多
关键词 大规模数据库 数据挖掘 聚类 快速DBSCAN算法 代表点
在线阅读 下载PDF
一种基于密度的快速聚类算法 被引量:90
7
作者 周水庚 周傲英 +1 位作者 曹晶 胡运发 《计算机研究与发展》 EI CSCD 北大核心 2000年第11期1287-1292,共6页
聚类是数据挖掘领域中的一个重要研究方向 .聚类技术在统计数据分析、模式识别、图像处理等领域有广泛应用 .迄今为止人们提出了许多用于大规模数据库的聚类算法 .基于密度的聚类算法 DBSCAN就是一个典型代表 .以 DBSCAN为基础 ,提出了... 聚类是数据挖掘领域中的一个重要研究方向 .聚类技术在统计数据分析、模式识别、图像处理等领域有广泛应用 .迄今为止人们提出了许多用于大规模数据库的聚类算法 .基于密度的聚类算法 DBSCAN就是一个典型代表 .以 DBSCAN为基础 ,提出了一种基于密度的快速聚类算法 .新算法以核心对象邻域中所有对象的代表对象为种子对象来扩展类 ,从而减少区域查询次数 ,降低 I/ O开销 ,实现快速聚类 .对二维空间数据测试表明 :快速算法能够有效地对大规模数据库进行聚类 ,速度上数倍于已有 DBSCAN算法 . 展开更多
关键词 数据挖掘 聚类 密度 快速算法 数据库
在线阅读 下载PDF
一种基于划分的层次聚类算法 被引量:13
8
作者 沈洁 赵雷 +1 位作者 杨季文 李榕 《计算机工程与应用》 CSCD 北大核心 2007年第31期175-177,共3页
CURE算法是针对大规模数据聚类算法的典型代表。提出了一种新的算法K-CURE,该方法基于划分思想对CURE算法作了改进,同时给出了在聚类中剔除孤立点的时机选择方法。测试表明,改进后的算法效率明显高于原算法,且聚类效果良好。
关键词 数据挖掘 层次聚类 代表对象 cure 孤立点
在线阅读 下载PDF
面向图表示社区检测的新型聚类覆盖算法 被引量:6
9
作者 陈洁 李锐 +1 位作者 赵姝 张燕平 《电子学报》 EI CAS CSCD 北大核心 2020年第9期1680-1687,共8页
图表示社区检测使用图表示方法学习网络节点的向量表示,然后对节点向量进行聚类获得社团结构.然而经典的聚类算法在聚类节点向量时,得到的结果往往不能够体现社区的特性.提出一种新型的聚类覆盖算法,将聚类所得覆盖视为社区划分结果.首... 图表示社区检测使用图表示方法学习网络节点的向量表示,然后对节点向量进行聚类获得社团结构.然而经典的聚类算法在聚类节点向量时,得到的结果往往不能够体现社区的特性.提出一种新型的聚类覆盖算法,将聚类所得覆盖视为社区划分结果.首先在节点向量空间中计算得到每个簇的覆盖中心;然后根据覆盖中心到同类样本的平均距离作为覆盖半径,在向量空间中形成覆盖;最后对未覆盖的点做二次划分得到社区结构.在多个有真实和无真实标签网络的实验表明,所提出的算法可以得到更合理的社区结果. 展开更多
关键词 社区发现 图表示 聚类 覆盖算法
在线阅读 下载PDF
一种基于层次聚类的机场噪声数据挖掘方法 被引量:12
10
作者 徐涛 谢继文 杨国庆 《南京航空航天大学学报》 EI CAS CSCD 北大核心 2013年第5期715-721,共7页
针对机场噪声数据集特征,提出一种基于代表点的快速层次聚类算法,该算法在传统凝聚层次聚类算法的基础上,借助聚类代表点法和二分法策略进行改进。同时,提出一种聚类代表点和聚类算法相似性定义相结合的聚类结果评价方法,并采用其对聚... 针对机场噪声数据集特征,提出一种基于代表点的快速层次聚类算法,该算法在传统凝聚层次聚类算法的基础上,借助聚类代表点法和二分法策略进行改进。同时,提出一种聚类代表点和聚类算法相似性定义相结合的聚类结果评价方法,并采用其对聚类结果进行评价。实验结果表明,该算法不仅运行效率高,而且能够较准确地发现特定类型飞行事件的噪声分布模式,利用该分布模式能够较准确地预测特定类型飞行事件的噪声分布状况。 展开更多
关键词 数据挖掘 机场噪声预测 代表点 快速层次聚类算法 聚类结果评价
在线阅读 下载PDF
基于相异性选择的密度聚类算法研究 被引量:2
11
作者 胡文瑜 孙志挥 周晓云 《小型微型计算机系统》 CSCD 北大核心 2006年第9期1601-1604,共4页
在最优K相异性算法(OptiSim)的基础上,提出一种扩展的最优K相异性算法(EOptiSim),由于EOptiSim在处理组合数据库和分布式数据库方面能弥补基本的OptiSim方法的不足,所以通过在DBSCAN算法之前应用OptiSim或EOptiSim多样化代表性子集选择... 在最优K相异性算法(OptiSim)的基础上,提出一种扩展的最优K相异性算法(EOptiSim),由于EOptiSim在处理组合数据库和分布式数据库方面能弥补基本的OptiSim方法的不足,所以通过在DBSCAN算法之前应用OptiSim或EOptiSim多样化代表性子集选择技术,在显著降低I/O耗费和内存需求的同时,不仅能够有效地聚类单一的大规模空间数据库,而且还能聚类大规模组合数据库或分布式数据库.实验结果表明本文的算法是可行、有效的. 展开更多
关键词 聚类分析 多样化代表性子集选择 相异性选择算法 密度聚类算法
在线阅读 下载PDF
基于最优K相异性的密度聚类算法研究 被引量:2
12
作者 胡文瑜 孙志挥 周晓云 《计算机工程与应用》 CSCD 北大核心 2005年第22期171-173,201,共4页
该文提出一种利用最优K相异性算法(OptiSim)的密度聚类算法,通过代表性子集选择技术与DBSCAN算法的结合,可显著降低I/O耗费和内存需求,使之能够有效地处理大规模空间数据库,并提出一种扩展的OptiSim代表性子集选择方法(EOptiSim),它在... 该文提出一种利用最优K相异性算法(OptiSim)的密度聚类算法,通过代表性子集选择技术与DBSCAN算法的结合,可显著降低I/O耗费和内存需求,使之能够有效地处理大规模空间数据库,并提出一种扩展的OptiSim代表性子集选择方法(EOptiSim),它在处理组合数据库方面能弥补基本的OptiSim方法的不足。实验结果表明文章的算法是可行、有效的。 展开更多
关键词 聚类分析 代表性子集选择 密度聚类算法
在线阅读 下载PDF
聚类分析在多极值函数优化中的应用 被引量:3
13
作者 杨皎平 高雷阜 赵宏霞 《辽宁工程技术大学学报(自然科学版)》 CAS 北大核心 2004年第4期567-569,共3页
将聚类分析方法应用于经典的优化和遗传寻优过程当中,提出了一种求解多极值函数全局最优解的方法。在基于梯度的算法中,先取多个初始点,几次迭代搜索后做聚类分析。在每类取一点,将目标函数分为多个单极值函数,然后分别寻优,通过比较得... 将聚类分析方法应用于经典的优化和遗传寻优过程当中,提出了一种求解多极值函数全局最优解的方法。在基于梯度的算法中,先取多个初始点,几次迭代搜索后做聚类分析。在每类取一点,将目标函数分为多个单极值函数,然后分别寻优,通过比较得到全局最优解。在遗传算法中,通过聚类分析在每类取若干个体作为代表个体,它们将始终参与遗传操作,从而有望达到全局最优。 展开更多
关键词 局部最优 均匀选点:聚类分析 模式代表:遗传算法 全局最优
在线阅读 下载PDF
基于航迹聚类的终端区飞行程序轨迹表示 被引量:19
14
作者 徐涛 陈雪蕊 吕宗平 《四川大学学报(工程科学版)》 EI CAS CSCD 北大核心 2016年第6期188-196,共9页
为了定量评估飞行员严格按照规定的飞行程序执行飞行任务的能力,对终端区飞行程序轨迹的表示方法进行研究。通常终端区范围内一条真实的航迹约有150个航迹点,而标准飞行程序仅使用4~9个航路点表示,不足以描述一条完整的航迹。针对... 为了定量评估飞行员严格按照规定的飞行程序执行飞行任务的能力,对终端区飞行程序轨迹的表示方法进行研究。通常终端区范围内一条真实的航迹约有150个航迹点,而标准飞行程序仅使用4~9个航路点表示,不足以描述一条完整的航迹。针对这一问题,提出了基于航迹间面积加权的航迹相似性度量方法,并利用CURE算法实现航迹聚类。通过比较聚类集平均航迹和代表航迹分别与标准飞行程序的关系,建立了飞行程序轨迹表示模型。最后利用某大型国际机场的一条标准离场飞行程序以及实际运行航迹对提出的方法进行验证,实验表明,本文所述方法能更好地实现航迹聚类,并可准确地表示飞行程序轨迹,为分析与评估飞行员飞行品质提供理论基础和实践应用参考。 展开更多
关键词 飞行程序 航迹相似性 cure算法 航迹聚类 平均航迹
在线阅读 下载PDF
大数据环境下超声波焊缝缺陷识别方法的研究 被引量:3
15
作者 董本志 丁文雪 《计算机工程与应用》 CSCD 北大核心 2016年第23期176-180,共5页
为了解决常规超声波焊缝缺陷识别方法分类模型固定和训练集规模有限而难以体现不同缺陷的差异性和同类缺陷的多态性的问题,结合当今大数据环境下的数据分析策略和基因缺陷识别中匹配的思想,通过主成分分析和CURE聚类算法将缺陷回波信号... 为了解决常规超声波焊缝缺陷识别方法分类模型固定和训练集规模有限而难以体现不同缺陷的差异性和同类缺陷的多态性的问题,结合当今大数据环境下的数据分析策略和基因缺陷识别中匹配的思想,通过主成分分析和CURE聚类算法将缺陷回波信号编码转换成可进行匹配的对象,进而将当前检测缺陷特征与历史检测数据进行匹配,并利用最近邻方法实现了对缺陷历史检测数据集的扩充。通过在R上应用基于基本空位罚分的Smith-Waterman比对算法进行仿真实验验证了该缺陷识别方法是可行的,有效地识别了气孔、夹渣、裂纹、未焊透和未熔合五类常见缺陷,具有较好的识别准确率。 展开更多
关键词 缺陷识别 主成分分析 cure聚类算法 比对算法
在线阅读 下载PDF
基于网格和密度权值的模糊c均值聚类算法 被引量:1
16
作者 邱保志 卢海艇 《计算机工程与设计》 CSCD 北大核心 2010年第4期822-824,共3页
改进了基于网格和密度的模糊c均值聚类初始化方法,提出了基于网格和密度权值的模糊c均值算法。该算法在参数初始化时用网格代表点代替原算法的网格凝聚点,同时考虑到在样本空间中处于不同位置的样本点对聚类的影响不同,把密度权值作为... 改进了基于网格和密度的模糊c均值聚类初始化方法,提出了基于网格和密度权值的模糊c均值算法。该算法在参数初始化时用网格代表点代替原算法的网格凝聚点,同时考虑到在样本空间中处于不同位置的样本点对聚类的影响不同,把密度权值作为系数加入到模糊c均值聚类算法中。实验结果表明,提出的算法对提高算法的效率是有效的。 展开更多
关键词 模糊C均值聚类算法 代表点 密度权值 GDWFCM GDFCM
在线阅读 下载PDF
基于图分类的智能车辆复杂场景风险等级评估与建模 被引量:5
17
作者 吕超 孟相浩 +1 位作者 崔格格 龚建伟 《北京理工大学学报》 EI CAS CSCD 北大核心 2023年第7期726-733,共8页
准确估计驾驶场景的风险等级是保障车辆安全驾驶的基础,也是车辆智能化的重要体现.针对多种交通参与者共存的复杂行驶场景,提出一种基于图分类的场景风险等级评估方法,完成对场景的建模和对当前场景风险等级的有效评估.实车实验表明,所... 准确估计驾驶场景的风险等级是保障车辆安全驾驶的基础,也是车辆智能化的重要体现.针对多种交通参与者共存的复杂行驶场景,提出一种基于图分类的场景风险等级评估方法,完成对场景的建模和对当前场景风险等级的有效评估.实车实验表明,所采用的驾驶员操作特征数据可以很好地表示驾驶员对场景风险等级的理解,并且图表示模型可以对场景中多种动态交通参与者及其交互关系进行有效说明,所提出的方法能够较为准确地对复杂行驶场景的风险等级进行评估,促进智能车辆安全行驶系统在复杂环境下的发展. 展开更多
关键词 汽车工程 图表示模型 图核方法 聚类算法 风险等级评估
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部