期刊文献+
共找到14篇文章
< 1 >
每页显示 20 50 100
云模式事件混沌关联特征提取的物联网大数据聚类算法 被引量:10
1
作者 王雪蓉 万年红 《计算机应用研究》 CSCD 北大核心 2021年第2期391-397,共7页
目前的聚类方法单纯从某个角度研究数据聚类问题,对基于云模式的混沌的物联网大数据聚类的考虑不足,聚类质量不高。为实现敏捷、智能、平稳的物联网大数据聚类,基于开展物联网事件的云模式通用描述模型、物联网事件混沌关联特征的云模... 目前的聚类方法单纯从某个角度研究数据聚类问题,对基于云模式的混沌的物联网大数据聚类的考虑不足,聚类质量不高。为实现敏捷、智能、平稳的物联网大数据聚类,基于开展物联网事件的云模式通用描述模型、物联网事件混沌关联特征的云模式通用解析模型、基于云模式的物联网事件混沌关联特征提取算法、基于云模式混沌关联特征的物联网大数据关联挖掘研究,改进分解奇异值算法、网格耦合聚类算法、K-means算法、决策树学习法、分析主成分法、分层合并法等算法和分布概率函数,设计了一种基于事件混沌关联特征、敏捷、智能、平稳的物联网大数据聚类算法。最后,开展实验验证,并与传统算法进行性能对比分析。实验结果表明,相比传统算法,该算法聚类时间短、误差小,且敏捷性、智能性、动态演化性和平稳性高。因此,该算法实现了基于云模式的具有混沌关联特征的物联网事件大数据的有效聚类,具有较高的应用价值。 展开更多
关键词 物联网事件 云模式 混沌关联特征 关联挖掘 大数据聚类算法
在线阅读 下载PDF
基于优化粒子群算法的云环境大数据聚类算法 被引量:6
2
作者 胡毅 朱子江 《现代电子技术》 北大核心 2020年第14期72-75,共4页
对于传统云环境大数据聚类中的量子进化方法的聚类精准度比较低的问题,为了降低存储开销,提高数据管理能力与调度能力,提出将优化粒子群算法作为基础的云环境大数据聚类算法,对云环境大数据聚类原理进行分析,将传统模糊C均值聚类作为基... 对于传统云环境大数据聚类中的量子进化方法的聚类精准度比较低的问题,为了降低存储开销,提高数据管理能力与调度能力,提出将优化粒子群算法作为基础的云环境大数据聚类算法,对云环境大数据聚类原理进行分析,将传统模糊C均值聚类作为基础,通过粒子群聚类算法对大数据聚类算法进行改进,从而实现空间分割,得出云存储系统的海量数据模糊聚类。利用粒子群聚类方法分配聚类数据离散成本,得到数据聚类信息浓度;与粒子群优化聚类约束条件结合,得到云环境大数据聚类中心最优解。仿真结果表明,此算法的数据聚类精准度比较高,具有良好的收敛性能。 展开更多
关键词 大数据聚类 云环境 粒子群优化 空间分割 模糊 仿真测试
在线阅读 下载PDF
云环境下基于群智能算法的大数据聚类挖掘技术 被引量:9
3
作者 刘云恒 《现代电子技术》 北大核心 2019年第9期65-67,71,共4页
云计算从分布式存储和分布式计算两个方面为大数据处理提供了强力的支持,并逐渐成为大数据挖掘的主流平台。但是在处理云平台中的大规模数据集时典型聚类挖掘算法存在一定不足,因此,提出一种基于群智能算法的大数据K-means聚类挖掘算法... 云计算从分布式存储和分布式计算两个方面为大数据处理提供了强力的支持,并逐渐成为大数据挖掘的主流平台。但是在处理云平台中的大规模数据集时典型聚类挖掘算法存在一定不足,因此,提出一种基于群智能算法的大数据K-means聚类挖掘算法。首先对云计算Hadoop框架的存储数据能力和采用的Map Reduce计算模型进行分析,然后采用群智能算法对传统数据挖掘K-means聚类算法进行改进,解决其容易陷入局部最优问题。实验结果表明,相比加权K-means聚类算法,提出的改进算法表现出更好的聚类精度和运行速度,可以适用于大规模数据的聚类挖掘。 展开更多
关键词 大数据聚类挖掘 云计算模型分析 分析 算法设计 算法优化 算法改进
在线阅读 下载PDF
基于大数据聚类的化妆品包装符号元素特征提取 被引量:5
4
作者 吴芳菲 《日用化学工业》 CAS CSCD 北大核心 2020年第1期44-48,共5页
研究了基于大数据聚类的化妆品包装符号元素特征提取方法。初始化处理水平集函数,获取化妆品包装符号元素图像的局部标准差图像,根据余弦相似性确定局部标准差图像像素点在轮廓曲线上的演化方向,水平集演化改进SPF函数,完成符号元素分割... 研究了基于大数据聚类的化妆品包装符号元素特征提取方法。初始化处理水平集函数,获取化妆品包装符号元素图像的局部标准差图像,根据余弦相似性确定局部标准差图像像素点在轮廓曲线上的演化方向,水平集演化改进SPF函数,完成符号元素分割;计算大数据的离散样本频谱特征,由置信度获取数据聚类中心的粒子最优解的向量矩阵,完成数据聚类;结合卷积神经网络和AutoEncoder,通过卷积、过滤以及池化操作,在输出层存在的节点中获取最大激活值,实现化妆品包装符号元素特征的提取。实验结果表明,所提方法的特征提取时间较短、特征辨识力有所提高且提取准确率较高。 展开更多
关键词 化妆品包装 大数据聚类 符号元素 特征提取
在线阅读 下载PDF
基于粒子群算法的无线传感网络大数据聚类优化方法 被引量:5
5
作者 程宁 李超 《传感技术学报》 CAS CSCD 北大核心 2023年第8期1316-1322,共7页
大数据聚类在无线传感网络数据处理领域中具有重要意义,但是大数据聚类方法存在聚类效果不佳、Jaccard系数较低等问题,提出基于粒子群算法的无线传感网络大数据优化方法。该方法结合主成分分析方法和信息熵降维处理大数据,减少数据聚类... 大数据聚类在无线传感网络数据处理领域中具有重要意义,但是大数据聚类方法存在聚类效果不佳、Jaccard系数较低等问题,提出基于粒子群算法的无线传感网络大数据优化方法。该方法结合主成分分析方法和信息熵降维处理大数据,减少数据聚类所需的时间,采用直觉模糊核聚类算法聚类大数据,引入粒子群算法,优化直觉模糊核聚类方法,利用优化后的算法获得无线传感网络大数据聚类的优化结果,实现大数据聚类。仿真分析结果表明,所提方法的聚类效果较好,Jaccard系数在0.70以上,数据平均熵仅为0.36,并且时间复杂度仅为26.3%,该方法的应用价值更高。 展开更多
关键词 无线传感网络 大数据聚类 粒子群算法 主成分分析 信息熵 直觉模糊核算法
在线阅读 下载PDF
云环境下基于群智能算法的大数据聚类挖掘技术 被引量:11
6
作者 郑琳 张辉 《现代电子技术》 北大核心 2020年第15期115-118,共4页
传统的大数据聚类挖掘技术由于迭代次数过多,使其并行效率下降,为此,设计云环境下基于群智能算法的大数据聚类挖掘技术。在云环境下采用群智能算法初始化聚类中心,计算数据密度参数及类间距离,根据计算结果更新聚类中心,输出距离最小的... 传统的大数据聚类挖掘技术由于迭代次数过多,使其并行效率下降,为此,设计云环境下基于群智能算法的大数据聚类挖掘技术。在云环境下采用群智能算法初始化聚类中心,计算数据密度参数及类间距离,根据计算结果更新聚类中心,输出距离最小的最优解即为最优划分聚类,设计并行化聚类挖掘,以输出的最优解为依据,完成大数据聚类挖掘。实验结果表明,在数据集相同的情况下,与传统的两种聚类挖掘算法相比,文中设计的云环境下的群智能算法的大数据聚类挖掘算法随着迭代次数的增加,依然保持较高的并行效率,没有出现下降的趋势,说明该算法适合应用在实际项目中。 展开更多
关键词 大数据聚类挖掘 云环境 群智能算法 数据挖掘 并行化挖掘 数据密度计算
在线阅读 下载PDF
基于节点抽样的分布式二阶段聚类方法
7
作者 张曼静 何玉林 +1 位作者 李旭 黄哲学 《计算机科学》 北大核心 2025年第2期134-144,共11页
针对大数据聚类中存在的计算资源消耗大、聚类效率低的问题,提出了一种新的基于节点抽样的分布式二阶段聚类方法。该方法首先在各个本地节点对节点上的数据执行局部聚类操作,并基于局部聚类结果,从每个节点中抽取代表性的数据样本,然后... 针对大数据聚类中存在的计算资源消耗大、聚类效率低的问题,提出了一种新的基于节点抽样的分布式二阶段聚类方法。该方法首先在各个本地节点对节点上的数据执行局部聚类操作,并基于局部聚类结果,从每个节点中抽取代表性的数据样本,然后将各节点选定的样本数据传输至中央节点。之后,在中央节点上,对合并的样本数据进行进一步的聚类分析,并将样本聚类的结果传回各个本地节点。最后,各本地节点结合自身的局部聚类结果和中央节点的样本聚类结果,完成最终的聚类标签统一。通过以上流程,所提方法实现了对集中式聚类算法的分布式改造,能够快速一致地完成对全局数据的聚类分析。理论分析和数值实验均表明,与传统的全量数据集中式聚类方法相比,二阶段聚类方法有效地结合了并行处理的高效性和集成分析的准确性,在保证聚类质量的前提下能够显著降低计算资源的消耗,是一种可行的大数据聚类分布式解决方案。 展开更多
关键词 大数据聚类 分布式计算 节点抽样 并行计算 二阶段
在线阅读 下载PDF
抽样改进加权核大数据谱聚类算法 被引量:4
8
作者 申锐 吴睿 《机械设计与制造》 北大核心 2021年第1期171-174,共4页
经典谱聚类算法将数据聚类转为图划分问题,在分析其Normalized Cut函数与传统加权核k-means等价基础上,设计了一种基于抽样改进加权核k-means算法的大规模数据集谱聚类算法,算法通过加权核k-means迭代优化避免Laplacian矩阵特征分解的... 经典谱聚类算法将数据聚类转为图划分问题,在分析其Normalized Cut函数与传统加权核k-means等价基础上,设计了一种基于抽样改进加权核k-means算法的大规模数据集谱聚类算法,算法通过加权核k-means迭代优化避免Laplacian矩阵特征分解的大量资源占用,通过随机映射得到近似奇异值分解,并由近似奇异向量确定各点数据权重及抽样概率,以此得到快速合理抽样,通过数据抽样并将聚类中心约束到抽样点生成的子空间中,避免全部核矩阵的使用,从而降低经典算法的时间空间复杂度。实验结果表明,改进算法在保持与经典算法相近精度基础上,大幅提高了聚类效率,实验验证了改进算法的有效性。 展开更多
关键词 大数据 加权核k-means算法 数据抽样 矩阵特征分解 核矩阵
在线阅读 下载PDF
基于信息理论的网络文本组合聚类
9
作者 王扬 袁昆 +2 位作者 刘洪甫 吴俊杰 包秀国 《北京航空航天大学学报》 EI CAS CSCD 北大核心 2016年第8期1603-1611,共9页
尽管近年来针对文本聚类问题进行了大量研究,其仍然是数据挖掘领域的一个富有挑战性的问题,特别在弱相关特征乃至噪声特征的处理上,仍然存在诸多挑战。针对这一问题提出了文本聚类的分解-组合算法框架——DIAS。该方法首先通过简单随机... 尽管近年来针对文本聚类问题进行了大量研究,其仍然是数据挖掘领域的一个富有挑战性的问题,特别在弱相关特征乃至噪声特征的处理上,仍然存在诸多挑战。针对这一问题提出了文本聚类的分解-组合算法框架——DIAS。该方法首先通过简单随机特征抽样将高维文本数据进行分解得到多样化的结构知识,其优点是能够较好地避免产生大量的噪声特征。然后采用基于信息理论的一致性聚类(ICC)将多视角基础聚类知识组合起来,得到高质量的一致性划分。最后通过在8个真实文本数据集上的实验,证明DIAS算法相较于其他被广泛使用的算法具有明显优势,特别在处理弱基础聚类上具有突出效果。由于在分布式计算上的天然优势,DIAS有望成为大规模文本聚类的主流算法。 展开更多
关键词 文本 分解-组合算法 基于信息理论的一致性 K-均值 大数据聚类
在线阅读 下载PDF
半监督的仿射传播聚类 被引量:29
10
作者 王开军 李健 +1 位作者 张军英 涂重阳 《计算机工程》 CAS CSCD 北大核心 2007年第23期197-198,201,共3页
仿射传播聚类算法快速、有效,可以解决大数据集的聚类问题,但当数据的聚类结构比较松散时,聚类准确性不高。该文提出了半监督的仿射传播聚类算法,在迭代过程中嵌入了有效性指标以监督和引导算法向最优聚类结果的方向运行。实验结果表明... 仿射传播聚类算法快速、有效,可以解决大数据集的聚类问题,但当数据的聚类结构比较松散时,聚类准确性不高。该文提出了半监督的仿射传播聚类算法,在迭代过程中嵌入了有效性指标以监督和引导算法向最优聚类结果的方向运行。实验结果表明,该方法对于聚类结构比较紧密和松散的数据集,均可以给出较为准确的聚类结果。 展开更多
关键词 仿射传播 半监督 大数据集的算法
在线阅读 下载PDF
聚类算法综述 被引量:226
11
作者 章永来 周耀鉴 《计算机应用》 CSCD 北大核心 2019年第7期1869-1882,共14页
大数据时代,聚类这种无监督学习算法的地位尤为突出。近年来,对聚类算法的研究取得了长足的进步。首先,总结了聚类分析的全过程、相似性度量、聚类算法的新分类及其结果的评价等内容,将聚类算法重新划分为大数据聚类与小数据聚类两个大... 大数据时代,聚类这种无监督学习算法的地位尤为突出。近年来,对聚类算法的研究取得了长足的进步。首先,总结了聚类分析的全过程、相似性度量、聚类算法的新分类及其结果的评价等内容,将聚类算法重新划分为大数据聚类与小数据聚类两个大类,并特别对大数据聚类作了较为系统的分析与总结。此外,概述并分析了各类聚类算法的研究进展及其应用概况,并结合研究课题讨论了算法的发展趋势。 展开更多
关键词 相似性度量 大数据聚类 数据 评价
在线阅读 下载PDF
面向大数据的数据处理与分析算法综述 被引量:30
12
作者 周宇 曹英楠 王永超 《南京航空航天大学学报》 CAS CSCD 北大核心 2021年第5期664-676,共13页
大数据处理是近年来广受关注和研究的技术领域,数据挖掘作为从大量数据中挖掘隐藏价值信息的技术,是处理大数据的有效工具。本文主要从数据挖掘的角度对大数据处理算法的研究现状进行分类总结。首先介绍了大数据中针对流式数据分类的方... 大数据处理是近年来广受关注和研究的技术领域,数据挖掘作为从大量数据中挖掘隐藏价值信息的技术,是处理大数据的有效工具。本文主要从数据挖掘的角度对大数据处理算法的研究现状进行分类总结。首先介绍了大数据中针对流式数据分类的方法,包括单模型算法和集成分类算法;其次分别从单机算法和基于分布式并行平台的多机算法两个角度概括介绍了大数据聚类方法以及大数据关联规则挖掘方法;最后总结了现有面向大数据的数据挖掘算法的研究进展并展望未来的发展趋势。 展开更多
关键词 大数据算法 大数据聚类算法 大数据关联规则挖掘
在线阅读 下载PDF
KDSG-DBSCAN:一种基于K-D Tree和Spark GraphX的高性能DBSCAN算法 被引量:10
13
作者 高旭 桂志鹏 +3 位作者 隆玺 栗法 吴华意 秦昆 《地理与地理信息科学》 CSCD 北大核心 2017年第6期1-7,共7页
DBSCAN是一种基于密度的聚类算法,其能从包含噪声点的数据集中发现任意形状的聚类并且无需预先设定聚类个数,因此得到了广泛应用。但随着数据规模的增大,迭代式的点间距离计算导致经典单机串行DBSCAN算法的性能显著下降,使之无法满足实... DBSCAN是一种基于密度的聚类算法,其能从包含噪声点的数据集中发现任意形状的聚类并且无需预先设定聚类个数,因此得到了广泛应用。但随着数据规模的增大,迭代式的点间距离计算导致经典单机串行DBSCAN算法的性能显著下降,使之无法满足实际应用的效率需求。为此,该文提出一种性能改进的分布式并行聚类算法——KDSG-DBSCAN。该算法利用K-D Tree邻域查询减少点间距离计算次数,利用图连通算法优化局部类簇合并过程,并基于Apache Spark MapReduce平台实现了计算过程的并行化。通过4组对比实验,分析了KDSGDBSCAN、经典DBSCAN与未使用图连通的KDS-DBSCAN算法的执行效率、KDSG-DBSCAN各子阶段执行时间占比、不同数据规模下KDSG-DBSCAN的扩展性以及不同计算节点数量和CPU核数下KDSG-DBSCAN的扩展性。结果表明,KDSG-DBSCAN算法具有良好的可扩展性和加速比。 展开更多
关键词 DBSCAN K-D TREE MAPREDUCE SPARK GraphX 空间大数据聚类
在线阅读 下载PDF
基于激光扫描的电网高压线故障检测系统设计 被引量:5
14
作者 卢瑛 张仁永 谢箭 《激光杂志》 北大核心 2019年第8期125-129,共5页
电网高压线在高压变电网络中的随机扰动和耦合性较大,故障发生概率较高,为了提高对电网高压线的故障检测能力,提出一种基于激光扫描的电网高压线故障检测方法。采用激光扫描技术进行电网高压线的故障分布式大数据采集,采集的电网高压线... 电网高压线在高压变电网络中的随机扰动和耦合性较大,故障发生概率较高,为了提高对电网高压线的故障检测能力,提出一种基于激光扫描的电网高压线故障检测方法。采用激光扫描技术进行电网高压线的故障分布式大数据采集,采集的电网高压线故障样本数据有短路数据、线路断路数据、线路视觉信息数据等,构建电网高压线故障样本数据的传感信息组网结构模型,采用关联规则重组方法进行电网高压线故障样本数据结构重组,根据结构相似性特征进行电网高压线的故障判别,采用相关性融合滤波检测方法实现电网高压线的故障性融合和特征检测,根据特征提取结果进行信息分类,采用激光扫描样本空间聚类方法,实现电网高压线故障检测。在嵌入式的DSP中进行系统硬件设计,使用Workbench软件对电网高压线故障测量数据进行导出分析,仿真结果表明,采用该方法进行电网高压线故障检测的准确性较高,稳定性较好。 展开更多
关键词 激光扫描 电网高压线 故障检测 大数据聚类
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部