期刊文献+
共找到10篇文章
< 1 >
每页显示 20 50 100
K-均值算法的初始化改进与聚类质量评估 被引量:1
1
作者 何选森 何帆 于海澜 《西安工程大学学报》 CAS 2024年第6期114-123,共10页
为解决K-均值算法随机初始化的问题,提出了相应的改进方案。通过特征标准化和主成分分析(principal component analysis, PCA)实现数据降维;以最远质心和最小-最大距离规则确定算法的初始质心。为获得数据固有的聚类数量,采用经验法则... 为解决K-均值算法随机初始化的问题,提出了相应的改进方案。通过特征标准化和主成分分析(principal component analysis, PCA)实现数据降维;以最远质心和最小-最大距离规则确定算法的初始质心。为获得数据固有的聚类数量,采用经验法则和肘部法,并用轮廓分析评价聚类质量。仿真结果表明:其他算法平均的λ检验统计量是本方案的2.72倍,而且改进后的聚类误差下降了6.04%。 展开更多
关键词 K-均值算法 主成分分析 最远质心选择 最小-最大距离规则 经验法则 肘部法 轮廓分析 聚类
在线阅读 下载PDF
高维数据聚类数量可视化确定模式
2
作者 何选森 何帆 +1 位作者 樊跃平 陈洪军 《沈阳航空航天大学学报》 2024年第3期71-84,共14页
为了解决经典K-均值聚类算法要求用户事先知道待处理数据的聚类数量及聚类结果对算法的初始化很敏感的问题,提出一种对K-均值聚类算法的改进措施并可视化地确定聚类数量的综合方案。首先,对数据进行标准化,使其服从正态分布,利用主分量... 为了解决经典K-均值聚类算法要求用户事先知道待处理数据的聚类数量及聚类结果对算法的初始化很敏感的问题,提出一种对K-均值聚类算法的改进措施并可视化地确定聚类数量的综合方案。首先,对数据进行标准化,使其服从正态分布,利用主分量分析(princi‐palcomponentanalysis,PCA)抽取数据中最重要的特征以实现高维数据的降维;然后,采用最远质心选择和最小-最大距离规则对K-均值聚类算法的初始化进行修正,避免出现空聚类并确保数据的可分离性;在此基础上,采用统计经验法则估计聚类数量的可能范围,通过搜索在此范围内平方误差和(sum-of-squared-error,SSE)曲线的肘部估计最佳的聚类数量;最后,通过计算比较各个聚类的轮廓系数以评价算法的聚类质量,从而最终确定数据集固有的聚类数量。仿真结果表明,该方案不仅能可视化地确定数据集潜在的聚类数量,而且为大数据时代的高维数据分析提供了一种有效的方法。 展开更多
关键词 K-均值聚类算法 主分量分析 最远质心选择 最小-最大距离规则 统计经验法则 肘部法 轮廓分析
在线阅读 下载PDF
一种基于双重距离尺度的高维索引结构 被引量:3
3
作者 庄毅 翁建广 +1 位作者 庄越挺 吴飞 《浙江大学学报(工学版)》 EI CAS CSCD 北大核心 2007年第3期380-385,共6页
为了提高高维数据相似查询的效率,提出一种基于双重距离尺度(DDM)的新型高维索引结构.通过建模得到该DDM的四元组数据结构,对于高维空间中的数据点,通过k平均聚类算法将数据点聚成若干类,分别计算每个点对应的始点和质心距离,得到基于... 为了提高高维数据相似查询的效率,提出一种基于双重距离尺度(DDM)的新型高维索引结构.通过建模得到该DDM的四元组数据结构,对于高维空间中的数据点,通过k平均聚类算法将数据点聚成若干类,分别计算每个点对应的始点和质心距离,得到基于加权的质心距离,并将加权的质心距离作为每个数据点的索引键值,且用基于分片的B+树建立索引,得到了该索引的创建算法.高维空间的查询就转变成对一维空间的检索,并研究了数据点的维数、数据量和查询请求参数对查询性能的影响.结果表明,该DDM能更有效地缩小搜索空间,减少距离计算的开销,特别适合海量高维数据的查询. 展开更多
关键词 K近邻查询 类超球 质心距离 始点距离
在线阅读 下载PDF
一种基于最大最小距离和SSE的自适应聚类算法 被引量:47
4
作者 成卫青 卢艳红 《南京邮电大学学报(自然科学版)》 北大核心 2015年第2期102-107,共6页
K均值聚类是一种常用的聚类算法,需要指定初始中心和簇数,但随意指定初始中心可能导致聚类陷入局部最优解,且实际应用中簇数未必是已知的。针对K均值聚类的不足,文中提出了一个自适应聚类算法,该算法基于数据实例之间的最大最小距离选... K均值聚类是一种常用的聚类算法,需要指定初始中心和簇数,但随意指定初始中心可能导致聚类陷入局部最优解,且实际应用中簇数未必是已知的。针对K均值聚类的不足,文中提出了一个自适应聚类算法,该算法基于数据实例之间的最大最小距离选取初始聚类中心,基于误差平方和(SSE)选择相对最稀疏的簇分裂,并根据SSE变化趋势停止簇分裂从而自动确定簇数。实验结果表明,该算法可以在不增加迭代次数的情况下得到更准确的聚类结果,验证了所提聚类算法是有效的。 展开更多
关键词 K均值聚类算法 最大最小距离 初始中心 误差平方和
在线阅读 下载PDF
一种基于嵌入技术的异构信息网络的快速聚类算法 被引量:3
5
作者 陈丽敏 杨静 张健沛 《电子与信息学报》 EI CSCD 北大核心 2015年第11期2634-2641,共8页
异构信息网络聚类分析是当前的热点研究问题之一。利用异构信息网络的稀疏性,该文提出一种基于嵌入技术的星型模式的异构信息网络的快速聚类算法。首先从相容的角度将异构信息网络转化为若干个相容的二部图,使用随机映射和一种线性时间... 异构信息网络聚类分析是当前的热点研究问题之一。利用异构信息网络的稀疏性,该文提出一种基于嵌入技术的星型模式的异构信息网络的快速聚类算法。首先从相容的角度将异构信息网络转化为若干个相容的二部图,使用随机映射和一种线性时间求解程序快速计算出每个二部图的近似通勤距离嵌入,每个嵌入都存在一个子集指示目标数据集;然后,使用这些指示子集构建一个通用的聚类模型;最后,将所有指示子集的类设置标号,通过计算指示同一目标对象的指示数据与标号相同类的中心点的加权距离总和,同时划分所有的指示子集,从而快速获得通用模型的极小值。通过理论分析及实验验证,该文算法聚类速度快,聚类准确率高。 展开更多
关键词 异构信息网络 聚类 通勤距离 嵌入 加权距离总和
在线阅读 下载PDF
一种改进K均值的小样本聚类算法 被引量:2
6
作者 刘畅 肖斌 +3 位作者 蒋铁军 苏凯 何鹏翔 王成宇 《兵器装备工程学报》 CSCD 北大核心 2021年第S01期266-270,共5页
通过肘方法确定类别数,采取平方差半径法选择聚类种子中心,优化聚类中心的重新选择,采用熵权法对数据对象的属性赋权修正对象间的欧式距离,计算属性间的作用差异。结果表明,在类别数不变,添加异常数据后,对于维度低、类别间差异大的小... 通过肘方法确定类别数,采取平方差半径法选择聚类种子中心,优化聚类中心的重新选择,采用熵权法对数据对象的属性赋权修正对象间的欧式距离,计算属性间的作用差异。结果表明,在类别数不变,添加异常数据后,对于维度低、类别间差异大的小样本数据,改进算法在执行效率几乎等同的情况下比原算法精确、稳定。 展开更多
关键词 信息熵 K-MEANS 小样本 欧式距离 聚类中心 肘方法 误差平方和 聚类精确度
在线阅读 下载PDF
利用噪声能量和卡方分布约束的虚假锋电位筛除方法 被引量:1
7
作者 李志辉 刘新玉 尚志刚 《郑州大学学报(工学版)》 CAS 北大核心 2015年第5期111-115,共5页
神经元锋电位可靠检测在神经科学研究与脑机接口应用中具有重要价值.针对低信噪比条件下锋电位检测的假阳性问题,提出了一种利用锋电位信号背景噪声能量和服从卡方分布约束的虚假锋电位去除方法.首先使用K-Means算法对过阈值检测的待判... 神经元锋电位可靠检测在神经科学研究与脑机接口应用中具有重要价值.针对低信噪比条件下锋电位检测的假阳性问题,提出了一种利用锋电位信号背景噪声能量和服从卡方分布约束的虚假锋电位去除方法.首先使用K-Means算法对过阈值检测的待判锋电位进行聚类,并用最小协方差算法估计各聚类总体噪声均值向量与协方差;进而计算各噪声样本与对应总体之间的马氏距离平方作为锋电位背景噪声能量和的度量指标;最后利用该指标卡方分布的置信区间对虚假锋电位进行筛除.不同信噪比条件下的仿真数据和动物实验数据应用结果表明:与传统的基于锋电位波形特征的阵列去噪算法相比,该方法可以有效识别出单电极记录神经信号中的虚假锋电位,正确率在95%以上,并且计算结果不依赖于聚类参数的选择. 展开更多
关键词 锋电位检测 虚假锋电位 噪声能量和 马氏距离 卡方分布 K-MEANS聚类
在线阅读 下载PDF
嵌入技术的动态异构信息网络的演化聚类
8
作者 陈丽敏 杨静 张健沛 《哈尔滨工程大学学报》 EI CAS CSCD 北大核心 2015年第5期692-696,719,共6页
为研究动态异构信息网络划分问题,利用异构信息网络的稀疏性,提出一种解决星型模式的动态异构信息网络的演化聚类算法。首先从相容的角度将异构信息网络转化为若干个相容的二部图,并构造时间平滑二部图,使其能够表达某时刻及先前时间结... 为研究动态异构信息网络划分问题,利用异构信息网络的稀疏性,提出一种解决星型模式的动态异构信息网络的演化聚类算法。首先从相容的角度将异构信息网络转化为若干个相容的二部图,并构造时间平滑二部图,使其能够表达某时刻及先前时间结点间的关系;然后由随机映射和一种线性时间的求解程序快速计算出每个时间平滑二部图的近似commute time嵌入,获得指示目标数据集的多个指示子集;最后计算指示同一个目标对象的所有指示数据与标号相同的类的中心点加权距离总和,由k-means方法确定目标对象所属的类。经验证,该算法划分动态异构信息网络的准确率较高,计算速度较快。 展开更多
关键词 异构信息网络 稀疏性 演化聚类 随机映射 嵌入 加权距离总和 时间平滑
在线阅读 下载PDF
基于质心距离和密度网格的数据流聚类算法 被引量:3
9
作者 万新贵 李玲娟 《南京邮电大学学报(自然科学版)》 北大核心 2017年第1期97-103,共7页
针对基于密度网格的数据流聚类算法D-Stream存在的缺陷,提出了基于质心距离和密度网格的数据流聚类算法CDD-Stream。该算法分为在线、离线以及历史簇查询3个部分。在线部分通过各网格单元的数据量、密度以及存在的网格数来计算加权平均... 针对基于密度网格的数据流聚类算法D-Stream存在的缺陷,提出了基于质心距离和密度网格的数据流聚类算法CDD-Stream。该算法分为在线、离线以及历史簇查询3个部分。在线部分通过各网格单元的数据量、密度以及存在的网格数来计算加权平均密度,基于加权平均密度动态设置网格单元的密度阈值和时间间隔gap;采用新的簇边界判定方法,依据稀疏网格与其邻接稠密网格的质心距离,将稀疏网格归并到相应的簇中,在一定程度上避免了簇边界的误删,提高了聚类精度。离线部分使用金字塔时间模型存储网格帧,供用户查询历史簇,查询结果可以为用户进行簇演化分析提供依据。与D-Stream算法和NDD-Stream算法的对比实验结果表明,CDD-Stream算法在数据流对象上有更好的聚类时效性和更高的聚类精度。 展开更多
关键词 质心距离 密度网格 数据流 聚类 金字塔时间模型
在线阅读 下载PDF
K-Means算法最优聚类数量的确定 被引量:28
10
作者 何选森 何帆 +1 位作者 徐丽 樊跃平 《电子科技大学学报》 EI CAS CSCD 北大核心 2022年第6期904-912,共9页
K-均值(K-means)聚类算法是学术与工业领域的经典算法。然而,它却具有两个明显缺陷:1)需要预先知道聚类的数量;2)对算法的随机初始化非常敏感。为了解决这两个问题,首先归纳了K-均值算法的基本步骤,并对聚类有效性进行了分析;然后以数... K-均值(K-means)聚类算法是学术与工业领域的经典算法。然而,它却具有两个明显缺陷:1)需要预先知道聚类的数量;2)对算法的随机初始化非常敏感。为了解决这两个问题,首先归纳了K-均值算法的基本步骤,并对聚类有效性进行了分析;然后以数据样本点的欧几里德距离为基础,定义了以聚类数量k为自变量的类间质心距离之和以及类内距离之和,由此构造了聚类有效性评价函数;最后根据经验规则,在聚类数量的可能范围内通过求解聚类有效性评价函数的最小值以确定数据集的最优聚类数量。对UCI的3个数据集Iris、Seeds和Wine的仿真结果说明,提出的聚类有效性评价函数不仅能够准确地反映数据的真实聚类结构,还能有效地抑制算法对随机初始化的敏感性,通过对K-均值算法的多次运行,其结果也验证了聚类有效性评价函数的鲁棒性。 展开更多
关键词 聚类有效性评价函数 K-均值聚类 最优聚类数量 类间质心距离之和 类内距离之和
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部