期刊文献+
共找到29篇文章
< 1 2 >
每页显示 20 50 100
云制造环境下并行频繁模式增长算法优化 被引量:5
1
作者 王洁 戴清灏 +1 位作者 曾宇 杨东日 《计算机集成制造系统》 EI CSCD 北大核心 2012年第9期2124-2129,共6页
针对云制造环境下的海量数据挖掘,分析了现有并行频繁模式增长算法的实现和不足。研究了利用键值存储系统对其中的计数和分组部分进行优化。利用键值型数据库存储简单、自动增长且有序的方式,将计数和分组的信息存储在了键值型数据库上... 针对云制造环境下的海量数据挖掘,分析了现有并行频繁模式增长算法的实现和不足。研究了利用键值存储系统对其中的计数和分组部分进行优化。利用键值型数据库存储简单、自动增长且有序的方式,将计数和分组的信息存储在了键值型数据库上。通过减少对分布式文件系统的读写,并将计数过程和排序过程并行化执行,优化后的算法减小了存储节点的网络及内存开销。在真实数据集上,通过实验对比了优化前后算法的性能以及对于文件系统I/O的开销。 展开更多
关键词 云制造 并行频繁模式增长算法 键值存储系统 数据挖掘 算法优化
在线阅读 下载PDF
动车组故障诊断知识挖掘中改进的并行频繁模式增长算法 被引量:4
2
作者 周斌 徐文胜 《计算机集成制造系统》 EI CSCD 北大核心 2016年第10期2450-2457,共8页
针对动车组历史运维数据的知识挖掘问题,从有效利用动车组历史运维数据来指导动车组故障诊断的角度出发,分析了现有并行频繁模式增长算法的实现形式和不足。结合动车组故障诊断的要求,提出利用局部频繁模式树代替全局频繁模式树的数据... 针对动车组历史运维数据的知识挖掘问题,从有效利用动车组历史运维数据来指导动车组故障诊断的角度出发,分析了现有并行频繁模式增长算法的实现形式和不足。结合动车组故障诊断的要求,提出利用局部频繁模式树代替全局频繁模式树的数据挖掘算法。该算法在各主要步骤上均实现了并行处理,优化了局部频繁模式树生成规则,对频繁模式的搜索策略进行了改进。改进后的算法大大提高了关联规则挖掘的效率,挖掘结果很好地保留了故障信息与状态信息之间的关联关系,并合理去除了无效规则。通过对该算法的具体分析与实际测试,表明该算法在动车组故障诊断知识获取过程中具有快速、高效、准确的特点。 展开更多
关键词 故障诊断 动车组 关联规则 并行频繁模式增长算法 局部频繁模式 MAPREDUCE
在线阅读 下载PDF
基于分布式协调系统的并行频繁模式增长算法的优化 被引量:1
3
作者 王洁 戴清灏 李环 《计算机科学》 CSCD 北大核心 2012年第3期170-173,共4页
频繁模式挖掘可以发现数据中频繁出现的模式,是关联规则挖掘的重要步骤。并行频繁模式算法将其应用到并行环境中,以对海量数据进行挖掘。在Apache软件基金会的Mahout项目实现的基础上,对计数和排序阶段以及算法的执行顺序提出了新的优... 频繁模式挖掘可以发现数据中频繁出现的模式,是关联规则挖掘的重要步骤。并行频繁模式算法将其应用到并行环境中,以对海量数据进行挖掘。在Apache软件基金会的Mahout项目实现的基础上,对计数和排序阶段以及算法的执行顺序提出了新的优化策略。优化后的设计将计数信息存储在分布式协调系统上,充分地利用了分布式协调系统的高可用性、适宜存储元数据信息的特点。该设计减小了小文件在分布式文件系统(HDFS)上的开销,同时保留了其优点,还能使计数过程和排序过程并行执行,减小了计算节点的内存开销。对比了文件系统I/O的开销,并分析了实现设计中的难点,为未来的工作打下了基础。 展开更多
关键词 频繁模式增长算法 并行数据挖掘 分布式协调系统 性能优化
在线阅读 下载PDF
不确定数据流中频繁模式的并行挖掘算法 被引量:6
4
作者 常艳芬 王乐 王辉兵 《计算机应用与软件》 CSCD 2016年第9期20-23,162,共5页
不确定数据集中频繁模式挖掘的研究热点之一是挖掘算法的时空效率的提高,特别在目前数据量越来越大的情况下,实际应用对挖掘算法效率的要求也更高。针对动态不确定数据流中的频繁模式挖掘模型,在算法AT-Mine的基础上,给出一个基于MapRed... 不确定数据集中频繁模式挖掘的研究热点之一是挖掘算法的时空效率的提高,特别在目前数据量越来越大的情况下,实际应用对挖掘算法效率的要求也更高。针对动态不确定数据流中的频繁模式挖掘模型,在算法AT-Mine的基础上,给出一个基于MapReduce的并行挖掘算法。该算法需要两次MapReduce就可以从一个滑动窗口中挖掘出所有的频繁模式。实验中,多数情况下通过一次MapReduce就可以挖掘到全部频繁项集,并且能按数据量大小均匀地把数据分配到各个节点上。实验验证了该算法的时间效率能提高1个数量级。 展开更多
关键词 不确定数据 频繁模式 数据挖掘 并行算法
在线阅读 下载PDF
分布环境中的并行频繁模式挖掘算法 被引量:3
5
作者 阮幼林 李庆华 刘干 《计算机工程与应用》 CSCD 北大核心 2005年第25期1-3,22,共4页
频繁模式的并行挖掘算法是数据挖掘中重要的研究课题。目前已经提出的并行算法大多是基于Apriori或基于FP-tree。由于两者的固有局限性,而且在计算过程中需要多次同步,因而具有较低的性能。文章提出了一种基于分布数据库的并行挖掘算法... 频繁模式的并行挖掘算法是数据挖掘中重要的研究课题。目前已经提出的并行算法大多是基于Apriori或基于FP-tree。由于两者的固有局限性,而且在计算过程中需要多次同步,因而具有较低的性能。文章提出了一种基于分布数据库的并行挖掘算法。该算法尽可能地让每个处理器独立地挖掘,每个处理器基于前缀树采用深度优先搜索的策略挖掘局部频繁模式集,并通过相关性质尽量减少候选全局频繁模式的规模,减少网络的通信量和同步次数以提高挖掘效率。 展开更多
关键词 频繁模式 并行算法 前缀树 全局频繁模式
在线阅读 下载PDF
基于Spark的并行频繁项集挖掘算法 被引量:7
6
作者 毛伊敏 吴斌 +1 位作者 许春冬 张茂省 《计算机集成制造系统》 EI CSCD 北大核心 2023年第4期1267-1283,共17页
针对大数据环境下基于Spark的频繁模式增长(FP-Growth)算法存在创建条件频繁模式树(FP-tree)时空效率低,节点间通信开销大,以及冗余搜索等问题,提出了基于Spark的并行频繁项集挖掘算法(PAFMFI-Spark)。首先,该算法提出非负矩阵分解策略(... 针对大数据环境下基于Spark的频繁模式增长(FP-Growth)算法存在创建条件频繁模式树(FP-tree)时空效率低,节点间通信开销大,以及冗余搜索等问题,提出了基于Spark的并行频繁项集挖掘算法(PAFMFI-Spark)。首先,该算法提出非负矩阵分解策略(SNMF),通过提供支持度计数查询和分解储存支持度计数的矩阵,解决了创建条件FP-tree的时空效率低的问题;其次,提出基于遗传算法的分组策略(GS-GA),均衡分配频繁1项集至各节点,解决了节点间的通信开销大的问题;最后,提出高效缩减树结构策略(ERTSS),缩减FP-tree树结构,解决了冗余搜索的问题。实验结果验证了PAFMFI-Spark算法的可行性以及相较于其他挖掘算法的性能优势,所提算法能有效适应各种数据的频繁项集挖掘。 展开更多
关键词 大数据 Spark框架 并行频繁项集挖掘 频繁模式增长算法 非负矩阵分解
在线阅读 下载PDF
基于数据流的大图中频繁模式挖掘算法研究 被引量:7
7
作者 汤小春 樊雪枫 +1 位作者 周佳文 李战怀 《计算机学报》 EI CSCD 北大核心 2020年第7期1293-1311,共19页
随着单个图数据规模的扩大以及应用领域的扩展,大规模单图的频繁模式挖掘的需求越来越强烈.传统的单机环境已经无法满足大规模图数据挖掘的要求,而现有的并行或者分布式环境下的挖掘方法,普遍受到并行性以及数据倾斜等问题的限制,论文... 随着单个图数据规模的扩大以及应用领域的扩展,大规模单图的频繁模式挖掘的需求越来越强烈.传统的单机环境已经无法满足大规模图数据挖掘的要求,而现有的并行或者分布式环境下的挖掘方法,普遍受到并行性以及数据倾斜等问题的限制,论文在分析了现有的频繁模式挖掘算法后,提出了一种基于数据流的单个大图频繁模式挖掘方法.首先,建立基于数据流的频繁模式挖掘模型,将MapReduce模型中的“批”数据变成“微批”数据,提高了数据处理的并行度,并且其迭代方式也满足频繁子图挖掘的反单调性;其二,设计了数据流模型中的频繁模式检查、子图实例扩展以及正规编码计算等操作,实现了基于数据流模型的频繁模式挖掘算法;其三,为解决正规编码计算中的复杂性问题,提出了基于不变关系的正规编码计算策略以及基于编码树的优化策略,优化正规编码比未优化编码的计算性能提升了30%,基于编码树的优化策略比原始编码计算策略在性能上提升了10%;最后,对涉及的相关算法进行了实验测试,实验证明,算法提高了频繁模式挖掘的并行性,大幅度减少了大图的搜索空间,降低了正规编码的计算时间,相比于传统算法大规模单图中频繁模式挖掘的效率提升了30%. 展开更多
关键词 图挖掘 频繁模式 数据流模型 并行算法 编码树
在线阅读 下载PDF
一种高效的闭频繁模式挖掘算法 被引量:4
8
作者 谭军 卜英勇 杨勃 《计算机工程与应用》 CSCD 北大核心 2010年第6期130-132,共3页
为了构造条件FP树,必须两次遍历FP树。提出一种FP阵列技术,直接从FP阵列得到频繁项的计数,从而省略了第一次遍历。为了检查闭频繁项集,采用FP树的一种变形结构,并将它与FP阵列结合起来,提出了一种高效的闭频繁模式挖掘算法。实验表明,... 为了构造条件FP树,必须两次遍历FP树。提出一种FP阵列技术,直接从FP阵列得到频繁项的计数,从而省略了第一次遍历。为了检查闭频繁项集,采用FP树的一种变形结构,并将它与FP阵列结合起来,提出了一种高效的闭频繁模式挖掘算法。实验表明,该算法具有很好的性能。 展开更多
关键词 频繁模式增长算法 频繁模式 FP阵列
在线阅读 下载PDF
一种基于FP阵列技术的频繁模式挖掘算法 被引量:2
9
作者 谭军 卜英勇 杨勃 《计算机科学》 CSCD 北大核心 2009年第7期208-210,共3页
在FP-growth算法中,为了产生条件FP树,必须扫描FP树两次。提出一种新颖的FP阵列技术,将FP-tree数据结构与FP阵列有效地结合起来,直接从FP阵列得到频繁项的计数,从而省略了第一次扫描,节省了时间。尤其对于稀疏数据库,该算法在执行时间... 在FP-growth算法中,为了产生条件FP树,必须扫描FP树两次。提出一种新颖的FP阵列技术,将FP-tree数据结构与FP阵列有效地结合起来,直接从FP阵列得到频繁项的计数,从而省略了第一次扫描,节省了时间。尤其对于稀疏数据库,该算法在执行时间上比原FP-growth算法具有更优的性能。 展开更多
关键词 频繁模式增长算法 频繁模式 稀疏数据库 FP阵列
在线阅读 下载PDF
频繁闭合项目集的并行挖掘算法研究 被引量:5
10
作者 缪裕青 《计算机科学》 CSCD 北大核心 2004年第5期166-168,共3页
频繁项目集挖掘因其在数据挖掘领域中的基础地位和广泛应用备受学术界和产业界的关注,用挖掘频繁闭合项目集代替挖掘频繁项目集是近年来提出的一个重要策略。不同于以往提出的挖掘所有频繁项目集的并行算法,本文针对频繁闭合项目集的特... 频繁项目集挖掘因其在数据挖掘领域中的基础地位和广泛应用备受学术界和产业界的关注,用挖掘频繁闭合项目集代替挖掘频繁项目集是近年来提出的一个重要策略。不同于以往提出的挖掘所有频繁项目集的并行算法,本文针对频繁闭合项目集的特性及并行挖掘的特点,给出了共享存储器模型上(Shared Memory)基于频繁模式树(FP-tree)的挖掘频繁闭合项目集的并行算法(FCIPM)思想,提出了频繁闭合项目集直接判断法,性能分析表明所提技术对算法的性能提高起到了关键作用。 展开更多
关键词 频繁项目集 数据挖掘 并行算法 频繁模式 频繁闭合项目集
在线阅读 下载PDF
一种高效的并行挖掘频繁序列的算法
11
作者 佘春东 吴跃 +2 位作者 孙世新 李磊 车著明 《计算机科学》 CSCD 北大核心 2004年第10期203-205,共3页
序列模式发现在数据挖掘领域中的地位越来越重要,本文首先介绍了频繁序列挖掘模式的基本概念,然后基于投影树算法,给出了其数据并行模式和任务并行模式,接着进行了算法的复杂性分析,我们的实验证明这些算法都能获得较好的加速比,而且任... 序列模式发现在数据挖掘领域中的地位越来越重要,本文首先介绍了频繁序列挖掘模式的基本概念,然后基于投影树算法,给出了其数据并行模式和任务并行模式,接着进行了算法的复杂性分析,我们的实验证明这些算法都能获得较好的加速比,而且任务并行模式具有更好的可扩展性。 展开更多
关键词 频繁序列 并行挖掘 算法 并行模式 序列模式 数据并行 数据挖掘 任务 地位 复杂性分析
在线阅读 下载PDF
序列模式数据挖掘算法的并行化研究
12
作者 王宗江 《计算机科学》 CSCD 北大核心 2008年第8期249-251,257,共4页
序列模式在许多领域都有着重要的应用,大量的数据和模式需要高效的、可扩展的并行算法。针对目前序列模式挖掘算法存在的普遍问题,在对串行序列模式数据挖掘算法研究的基础上,本文提出了一种并行的序列模式数据挖掘算法。通过理论分析... 序列模式在许多领域都有着重要的应用,大量的数据和模式需要高效的、可扩展的并行算法。针对目前序列模式挖掘算法存在的普遍问题,在对串行序列模式数据挖掘算法研究的基础上,本文提出了一种并行的序列模式数据挖掘算法。通过理论分析与实验验证可知:该并行数据挖掘算法,在海量数据的情形下,能很好地提高数据挖掘的效率。 展开更多
关键词 数据挖掘 序列模式 最小支持度 并行算法 频繁序列集
在线阅读 下载PDF
一种基于新增阈值的频繁模式挖掘算法 被引量:1
13
作者 林景亮 董槐林 +1 位作者 姜青山 吴书 《计算机研究与发展》 EI CSCD 北大核心 2006年第z3期366-370,共5页
在FP-growth算法的基础上,结合新的阈值,提出了一种改进的频繁模式树构造算法(NCFP-growth).该算法通过兴趣度权重的引入,有效地对频繁项做了进一步的过滤,从而减少了系统在采用FP-growth算法时所产生的大量冗余虚假的规则.对于FP-growt... 在FP-growth算法的基础上,结合新的阈值,提出了一种改进的频繁模式树构造算法(NCFP-growth).该算法通过兴趣度权重的引入,有效地对频繁项做了进一步的过滤,从而减少了系统在采用FP-growth算法时所产生的大量冗余虚假的规则.对于FP-growth算法而言,该算法在构建频繁模式树时,有效地减小了树的规模,降低了系统存储空间,算法的搜索空间也得到了有效压缩. 展开更多
关键词 关联规则 频繁模式 FP-增长算法 NCFP-增长算法 数据库
在线阅读 下载PDF
基于FP-参考树/表的频繁模式挖掘算法 被引量:2
14
作者 石巍 傅彦 《计算机科学》 CSCD 北大核心 2006年第6期206-209,共4页
通分析FP-growth算法中包含的冗余操作,引入数据结构FP参考树/表,改变FP-growth算法中条件模式基的存储和生成方式,提出了新的FPRSG算法,高效地解决了频繁模式挖掘问题。理论分析与实验结果表明,FPRSG算法优于FP-growth算法。
关键词 关联规则 频繁模式 FP参考树/表 FP参考收缩/增长算法 条件模式
在线阅读 下载PDF
分布式并行关联规则挖掘算法研究 被引量:13
15
作者 王智钢 王池社 马青霞 《计算机应用与软件》 CSCD 北大核心 2013年第10期113-115,119,共4页
关联规则挖掘算法FP-Growth虽然效率比Apriori要快一个数量级,但存在频繁模式树可能过大而内存无法容纳和数据挖掘过程串行处理等两大缺点。提出一种分布式并行关联规则挖掘算法,该算法针对分布式应用数据架构,不需要产生全局FPtree,避... 关联规则挖掘算法FP-Growth虽然效率比Apriori要快一个数量级,但存在频繁模式树可能过大而内存无法容纳和数据挖掘过程串行处理等两大缺点。提出一种分布式并行关联规则挖掘算法,该算法针对分布式应用数据架构,不需要产生全局FPtree,避免全局FP-tree可能过大而内存无法容纳的问题,算法在各个主要步骤上都实现了并行处理。算法测试结果和分析表明,与传统的关联规则挖掘算法FP-Growth相比,该算法通过多节点分布式并行处理显著提高了执行效率和处理能力。 展开更多
关键词 数据挖掘 关联规则 频繁模式 并行算法
在线阅读 下载PDF
负载均衡的FP-growth并行算法研究 被引量:10
16
作者 曾志勇 杨呈智 陶冶 《计算机工程与应用》 CSCD 北大核心 2010年第4期125-126,229,共3页
针对在大数据量频繁模式挖掘的时候,有效地利用空闲的计算资源,提出一种基于FP-growth算法的并行算法。该算法有效地将FP-growth主要的计算部分合理地分配到各个计算节点上,各个节点独立完成挖掘后返回结果,从而缩短总计算时间。实验证... 针对在大数据量频繁模式挖掘的时候,有效地利用空闲的计算资源,提出一种基于FP-growth算法的并行算法。该算法有效地将FP-growth主要的计算部分合理地分配到各个计算节点上,各个节点独立完成挖掘后返回结果,从而缩短总计算时间。实验证明,该算法可以完整高效地挖掘频繁模式,并且实现均衡负载。 展开更多
关键词 数据挖掘 并行算法 FP—growth 频繁模式
在线阅读 下载PDF
一种单遍扫描频繁模式树结构 被引量:4
17
作者 谭军 卜英勇 杨勃 《计算机工程》 CAS CSCD 北大核心 2010年第14期32-33,共2页
针对频繁模式增长算法无法适应数据流的无限性和流动性的特点,提出一种新颖的FP-tree的变形结构-SP-tree,只需单遍扫描便能容纳全部数据库信息。为使SP-tree具有与FP-tree一样良好的压缩性能,给出一种有效的动态重构树的方法,称为宽度... 针对频繁模式增长算法无法适应数据流的无限性和流动性的特点,提出一种新颖的FP-tree的变形结构-SP-tree,只需单遍扫描便能容纳全部数据库信息。为使SP-tree具有与FP-tree一样良好的压缩性能,给出一种有效的动态重构树的方法,称为宽度排序方法,该方法能够在挖掘过程中动态地逐条分支地重构树,最终产生一棵频繁递减的前缀树。实验结果表明,SP-tree的压缩性能优于其他单遍扫描的前缀树结构。 展开更多
关键词 数据流 频繁模式增长算法 单遍扫描模式 宽度排序方法
在线阅读 下载PDF
数据流上一种单遍扫描频繁模式树结构 被引量:1
18
作者 谭军 卜英勇 陈爱斌 《计算机工程与应用》 CSCD 2013年第2期152-154,共3页
针对频繁模式增长算法无法适应数据流的无限性和流动性的特点,提出一种新颖的FP-tree的变形结构——FPS-tree,只需单遍扫描便能获取当前窗口的全部数据库信息。为了在滑动窗口时有效地删除过期窗格和插入新窗格,提出一个新颖的概念——&... 针对频繁模式增长算法无法适应数据流的无限性和流动性的特点,提出一种新颖的FP-tree的变形结构——FPS-tree,只需单遍扫描便能获取当前窗口的全部数据库信息。为了在滑动窗口时有效地删除过期窗格和插入新窗格,提出一个新颖的概念——"尾结点",FPS-tree中每条路径上的窗格信息只保持在尾结点里。实验结果表明FPS-tree的压缩性能要优于其他单遍扫描的前缀树结构。 展开更多
关键词 数据流 频繁模式增长算法 单遍扫描模式 尾结点
在线阅读 下载PDF
一种基于投影树的并行序列挖掘算法
19
作者 佘春东 范植华 +2 位作者 孙世新 胡四泉 车著明 《计算机工程与应用》 CSCD 北大核心 2004年第14期4-5,56,共3页
在许多科学和商业领域,序列模式的发现技术发挥着越来越重要的作用,然而人们对于高效的基于投影树算法的并行模式关注较少。该文首先介绍了频繁序列挖掘模式的基本概念,然后基于投影树算法,提出了分布式存储并行序列挖掘算法,并对算法... 在许多科学和商业领域,序列模式的发现技术发挥着越来越重要的作用,然而人们对于高效的基于投影树算法的并行模式关注较少。该文首先介绍了频繁序列挖掘模式的基本概念,然后基于投影树算法,提出了分布式存储并行序列挖掘算法,并对算法的性能进行了详细的分析。 展开更多
关键词 数据挖掘 投影算法 并行处理 频繁序列模式
在线阅读 下载PDF
基于Spark的并行FP-Growth算法优化及实现 被引量:10
20
作者 顾军华 武君艳 +2 位作者 许馨匀 谢志坚 张素琪 《计算机应用》 CSCD 北大核心 2018年第11期3069-3074,共6页
为了进一步提高在Spark平台上的频繁模式增长(FP-Growth)算法执行效率,提出一种新的基于Spark的并行FP-Growth算法——BFPG。首先,从频繁模式树(FP-Tree)规模大小和分区计算量对F-List分组策略进行改进,保证每个分区负载总和近似相等;然... 为了进一步提高在Spark平台上的频繁模式增长(FP-Growth)算法执行效率,提出一种新的基于Spark的并行FP-Growth算法——BFPG。首先,从频繁模式树(FP-Tree)规模大小和分区计算量对F-List分组策略进行改进,保证每个分区负载总和近似相等;然后,通过创建列表P-List对数据集划分策略进行优化,减少遍历次数,降低时间复杂度。实验结果表明,BFPG算法提高了并行FP-Growth算法挖掘效率,且算法具有良好的扩展性。 展开更多
关键词 大数据平台 关联规则 频繁项集 频繁模式增长算法 SPARK
在线阅读 下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部