期刊文献+
共找到2篇文章
< 1 >
每页显示 20 50 100
基于Spark的并行化高效用项集挖掘算法 被引量:6
1
作者 何登平 何宗浩 李培强 《计算机工程与科学》 CSCD 北大核心 2019年第10期1723-1730,共8页
针对传统基于链表结构的Top-K高效用挖掘算法在大数据环境下不能满足挖掘需求的问题,提出一种基于Spark的并行化高效用项集挖掘算法(STKO)。首先从阈值提升、搜索空间缩小等方面对TKO算法进行改进;然后选择Spark平台,改变原有数据存储结... 针对传统基于链表结构的Top-K高效用挖掘算法在大数据环境下不能满足挖掘需求的问题,提出一种基于Spark的并行化高效用项集挖掘算法(STKO)。首先从阈值提升、搜索空间缩小等方面对TKO算法进行改进;然后选择Spark平台,改变原有数据存储结构,利用广播变量优化迭代过程,在避免大量重新计算的同时使用负载均衡思想实现Top-K高效用项集的并行挖掘。实验结果表明,该并行算法能有效地挖掘出大数据集中的高效用项集。 展开更多
关键词 数据挖掘 高效用项集 Spark大数据框架 并行化 TOP-K
在线阅读 下载PDF
基于R-list的Top-K高效用项集挖掘算法 被引量:5
2
作者 何登平 何宗浩 《计算机工程与科学》 CSCD 北大核心 2019年第7期1318-1324,共7页
针对现有的一阶段Top-K高效用项集挖掘算法挖掘过程中阈值提升慢,迭代时生成大量候选项集造成内存占用过多等问题,提出一种基于重用链表(R-list)的Top-K高效用挖掘算法RHUM。使用一种新的数据结构R-list来存储并快速访问项集信息,无需第... 针对现有的一阶段Top-K高效用项集挖掘算法挖掘过程中阈值提升慢,迭代时生成大量候选项集造成内存占用过多等问题,提出一种基于重用链表(R-list)的Top-K高效用挖掘算法RHUM。使用一种新的数据结构R-list来存储并快速访问项集信息,无需第2次扫描数据库进行项集挖掘。该算法重用内存以保存候选集信息,结合改进的RSD阈值提升策略对数据进行预处理,期间采用更严格的剪枝参数在递归搜索的过程中同时计算多个项集的效用来缩小搜索空间。在不同类型数据集中的实验结果表明:RHUM算法在内存效率方面均优于其他一阶段算法,且在K值变化时能保持稳定。 展开更多
关键词 高效用项集 一阶段挖掘 重用链表 数据挖掘 TOP-K
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部