期刊文献+
共找到5篇文章
< 1 >
每页显示 20 50 100
基于磁盘表存储FP-TREE的关联规则挖掘算法 被引量:14
1
作者 申彦 宋顺林 朱玉全 《计算机研究与发展》 EI CSCD 北大核心 2012年第6期1313-1322,共10页
随着现实待挖掘数据库规模不断增长,系统可使用的内存成为用FP-GROWTH算法进行关联规则挖掘的瓶颈.为了摆脱内存的束缚,对大规模数据库中的数据进行关联规则挖掘,基于磁盘的关联规则挖掘成为重要的研究方向.对此,改进原始的FP-TREE数据... 随着现实待挖掘数据库规模不断增长,系统可使用的内存成为用FP-GROWTH算法进行关联规则挖掘的瓶颈.为了摆脱内存的束缚,对大规模数据库中的数据进行关联规则挖掘,基于磁盘的关联规则挖掘成为重要的研究方向.对此,改进原始的FP-TREE数据结构,提出了一种新颖的基于磁盘表的DTRFP-GROWTH(disk table resident FP-TREE growth)算法.该算法利用磁盘表存储FP-TREE,降低内存使用,在传统FP-GROWTH算法占用过多内存、挖掘工作无法进行时,以独特的磁盘表存储FP-TREE技术,减少内存使用,能够继续完成挖掘工作,适合空间性能优先的场合.不仅如此,该算法还将关联规则挖掘和关系型数据库整合,克服了基于文件系统相关算法效率较低、开发难度较大等问题.在真实数据集上进行了验证实验以及性能分析.实验结果表明,在内存空间有限的情况下,DTRFP-GROWTH算法是一种有效的基于磁盘的关联规则挖掘算法. 展开更多
关键词 FP-TREE 关联规则 磁盘存储 频繁项目集 DTRFP-GROWTH算法 FP-GROWTH算法 数据挖掘
在线阅读 下载PDF
基于磁盘存储1项集计数的增量FP_GROWTH算法 被引量:4
2
作者 申彦 朱玉全 刘春华 《计算机研究与发展》 EI CSCD 北大核心 2015年第3期569-578,共10页
随着数据集规模的不断增大,提高频繁项集的挖掘效率成为数据挖掘领域的研究重点.频繁项集的增量更新挖掘算法因其可以利用已挖掘发现的信息提高对新数据集的挖掘效率,成为重要的研究方向.但现有频繁项集增量更新算法大多基于APRIORI算... 随着数据集规模的不断增大,提高频繁项集的挖掘效率成为数据挖掘领域的研究重点.频繁项集的增量更新挖掘算法因其可以利用已挖掘发现的信息提高对新数据集的挖掘效率,成为重要的研究方向.但现有频繁项集增量更新算法大多基于APRIORI算法框架,性能提高有限.最近出现的建立在FP-TREE等树形结构上的增量更新算法又往往存在树形结构调整困难、已发现频繁项集及树形结构保存效率较低等问题,算法性能有待进一步地提高.对此,通过分析增量挖掘过程中的关键信息,提出了一种基于磁盘存储1项集计数的增量FP_GROWTH算法(IU_FPGROWTH_1COUNTING).该算法无需保存临时树形结构及临时挖掘结果,可以在原数据集及支持度均发生变化时,减少FP_GROWTH算法对数据集的扫描,提高频繁项集的挖掘效率.在生成以及真实数据集上进行了验证实验以及性能分析,结果表明IU_FPGROWTH_1COUNTING是一种有效的频繁项集增量更新挖掘算法. 展开更多
关键词 关联规则 频繁项集 大规模数据 FP_GROWTH算法 增量更新
在线阅读 下载PDF
CMP上基于数据集划分的K-means多核优化算法 被引量:4
3
作者 申彦 朱玉全 《智能系统学报》 CSCD 北大核心 2015年第4期607-614,共8页
虽然现在多核CPU非常普及,但传统K-means聚类算法由于没有专门进行并行化设计,不能充分利用现代CPU的多核计算能力,算法针对大规模数据集的聚类效率有待进一步提高。因此,对K-means算法进行CMP并行化改进,提出了一种Multi-core K-means(... 虽然现在多核CPU非常普及,但传统K-means聚类算法由于没有专门进行并行化设计,不能充分利用现代CPU的多核计算能力,算法针对大规模数据集的聚类效率有待进一步提高。因此,对K-means算法进行CMP并行化改进,提出了一种Multi-core K-means(MC-K-means)算法。该算法对K-means的聚类任务进行了分解,设计了独立且均衡的聚类子任务并分配给各线程并行执行,以此利用现代CPU的多核计算能力。实验结果表明,MC-K-means相比K-means获得了较高的多核加速比,提高了针对大规模数据集的聚类能力。 展开更多
关键词 K均值算法 聚类算法 单片多核 大规模数据集 数据挖掘 无监督学习 大数据
在线阅读 下载PDF
分布式故障诊断在SNMP中的模拟与应用 被引量:1
4
作者 申彦 杜建国 《计算机工程》 CAS CSCD 北大核心 2009年第8期137-139,142,共4页
分析传统网络管理集中式及分层次体系结构的缺陷,提出分布式网络管理的体系结构,把用于大规模集成电路故障诊断的系统级故障诊断算法ADSD应用到计算机网络故障诊断中。为了验证计算机网络分布式故障诊断的可行性,在NS中嵌入ADSD算法,模... 分析传统网络管理集中式及分层次体系结构的缺陷,提出分布式网络管理的体系结构,把用于大规模集成电路故障诊断的系统级故障诊断算法ADSD应用到计算机网络故障诊断中。为了验证计算机网络分布式故障诊断的可行性,在NS中嵌入ADSD算法,模拟整个算法的执行,对算法的执行效率如诊断延时、报文流量进行分析。在此基础上对原算法进行改进,以减小算法对正常网络应用的影响。通过对SNMP的模拟实验,验证在网络管理中引入分布式故障诊断的可行性。 展开更多
关键词 计算机网络管理 分布式网络管理 网络模拟 分布式算法
在线阅读 下载PDF
基于Spark的分布式时序分类学习模型 被引量:1
5
作者 申彦 敬露艺 张士翔 《计算机工程与设计》 北大核心 2023年第4期1042-1049,共8页
LearnNSE算法保留了所有基分类器进行集成,基分类器权重调整较慢,对长期累积大数据的分类学习效率不高,且仅关注累积大数据,缺乏对短时间内突发产生大数据的关注,为此在所提PFLearnNSE-Pruned-Age算法基础上,研究一种基于Spark的分布式... LearnNSE算法保留了所有基分类器进行集成,基分类器权重调整较慢,对长期累积大数据的分类学习效率不高,且仅关注累积大数据,缺乏对短时间内突发产生大数据的关注,为此在所提PFLearnNSE-Pruned-Age算法基础上,研究一种基于Spark的分布式时序分类学习模型DSCLM-spark。实验结果表明,DSCLM-spark能够取得非常接近、在许多场景下甚至优于LearnNSE的准确率,进一步提高集成分类学习的效率,兼顾短时产生及长时间累积的大数据,适用于对分类挖掘实时性要求较高的场合。 展开更多
关键词 分类算法 大数据挖掘 集成学习 增量学习 非稳定环境 分布式系统 计算机集群
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部