-
题名基于Spark的并行化高效用项集挖掘算法
被引量:6
- 1
-
-
作者
何登平
何宗浩
李培强
-
机构
重庆邮电大学通信与信息工程学院
重庆邮电大学通信新技术应用研究中心
重庆信科设计有限公司
-
出处
《计算机工程与科学》
CSCD
北大核心
2019年第10期1723-1730,共8页
-
文摘
针对传统基于链表结构的Top-K高效用挖掘算法在大数据环境下不能满足挖掘需求的问题,提出一种基于Spark的并行化高效用项集挖掘算法(STKO)。首先从阈值提升、搜索空间缩小等方面对TKO算法进行改进;然后选择Spark平台,改变原有数据存储结构,利用广播变量优化迭代过程,在避免大量重新计算的同时使用负载均衡思想实现Top-K高效用项集的并行挖掘。实验结果表明,该并行算法能有效地挖掘出大数据集中的高效用项集。
-
关键词
数据挖掘
高效用项集
Spark大数据框架
并行化
TOP-K
-
Keywords
data mining
high utility itemset
Spark big data framework
parallelization
Top-K
-
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
-
-
题名基于R-list的Top-K高效用项集挖掘算法
被引量:5
- 2
-
-
作者
何登平
何宗浩
-
机构
重庆邮电大学通信与信息工程学院
重庆邮电大学通信新技术应用研究中心
重庆信科设计有限公司
-
出处
《计算机工程与科学》
CSCD
北大核心
2019年第7期1318-1324,共7页
-
文摘
针对现有的一阶段Top-K高效用项集挖掘算法挖掘过程中阈值提升慢,迭代时生成大量候选项集造成内存占用过多等问题,提出一种基于重用链表(R-list)的Top-K高效用挖掘算法RHUM。使用一种新的数据结构R-list来存储并快速访问项集信息,无需第2次扫描数据库进行项集挖掘。该算法重用内存以保存候选集信息,结合改进的RSD阈值提升策略对数据进行预处理,期间采用更严格的剪枝参数在递归搜索的过程中同时计算多个项集的效用来缩小搜索空间。在不同类型数据集中的实验结果表明:RHUM算法在内存效率方面均优于其他一阶段算法,且在K值变化时能保持稳定。
-
关键词
高效用项集
一阶段挖掘
重用链表
数据挖掘
TOP-K
-
Keywords
high utility item set
one-phase mining
R-list
data mining
top-K
-
分类号
TP301.6
[自动化与计算机技术—计算机系统结构]
-