-
题名并行Fp-growth算法在搜索引擎中的应用
被引量:2
- 1
-
-
作者
黄剑
李明奇
郭文强
-
机构
电子科技大学数学科学学院
新疆财经大学计算机科学与工程学院
-
出处
《计算机科学》
CSCD
北大核心
2015年第S1期459-461 483,483,共4页
-
基金
国家自然科学基金(61163066)资助
-
文摘
针对用户历史检索过程产生的Web日志文件,研究其查询词和点击链接是否为频繁集,以及在分布式条件下频繁集挖掘的效率问题。基于Hadoop框架,设计了并行Fp-growth算法,对搜索引擎Web日志进行挖掘。仿真实验结果显示,满足支持度的查询词和点击链接频繁集在Web日志中普遍存在。随着Hadoop节点数的增加,并行Fpgrowth算法性能将得到大幅提高。由此,频繁集挖掘效率得到明显提高,且数据量越大,效率提升越明显。
-
关键词
日志文件
频繁集
hadoop
fp-growth
-
Keywords
log file,frequent itemset,hadoop,fp-growth
-
分类号
TP391.3
[自动化与计算机技术—计算机应用技术]
TP311.13
[自动化与计算机技术—计算机软件与理论]
-
-
题名基于SQL的频繁项目集的研究
被引量:4
- 2
-
-
作者
王涛伟
胡锡伟
柴本成
-
机构
浙江万里学院计算机与信息学院
-
出处
《计算机工程与设计》
CSCD
北大核心
2006年第23期4494-4497,共4页
-
文摘
Apriori算法是关联规则中挖掘频繁项目集的典型算法。在Apriori算法的基础上,利用关系数据库管理系统的强大功能和SQL语言操作简单,效率高的特点,提出了基于SQL的Apriori算法。该算法实现简单快速,可有效缩小扫描数据库的大小。将该算法应用于经过数据预处理的Web日志文件数据库,实验结果显示该算法是有效的。
-
关键词
数据挖掘
关联规则
频繁项目集
SQL
数据预处理
Web日志文件
-
Keywords
data mining
association role
frequent itemsets
structured query language
data prepr- ocessed
web log file
-
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
-