题名 一种新的高效生成FP-Tree条件模式基的算法
被引量:7
1
作者
周钦亮
李玉忱
公爱国
机构
山东大学计算机科学与技术学院
出处
《计算机应用》
CSCD
北大核心
2006年第6期1418-1421,共4页
文摘
FP-Tree模式的提出,提高了挖掘效率,是关联规则挖掘史上的一个历程碑。频繁模式增长算法在求取条件模式基时,重复遍历FP-Tree的路径,造成了性能上的浪费。针对此问题,提出一种解决方法,即在遍历FP-Tree每条由叶子到根路径过程中,依次将路径上的所有结点对应项的条件模式基信息求出并保存,避免了同一路径的重复遍历。理论分析和实验结果表明,修改后的算法的性能明显优于原算法。
关键词
数据挖掘
关联规则
频繁模式 增长
条件模式基
Keywords
data mining
association rules
FP-growth
conditional pattern base
分类号
TP311.13
[自动化与计算机技术—计算机软件与理论]
题名 基于FP-参考树/表的频繁模式挖掘算法
被引量:2
2
作者
石巍
傅彦
机构
电子科技大学计算机科学与工程学院
出处
《计算机科学》
CSCD
北大核心
2006年第6期206-209,共4页
基金
国家自然科学基金(14076006)资助。
文摘
通分析FP-growth算法中包含的冗余操作,引入数据结构FP参考树/表,改变FP-growth算法中条件模式基的存储和生成方式,提出了新的FPRSG算法,高效地解决了频繁模式挖掘问题。理论分析与实验结果表明,FPRSG算法优于FP-growth算法。
关键词
关联规则
频繁模式
FP参考树/表
FP参考收缩/增长算法
条件模式基
Keywords
Association rule, Frequent pattern, FP-Reference-Tree/List, FPRSG algorithm, Conditional pattern base
分类号
TP311.13
[自动化与计算机技术—计算机软件与理论]
题名 基于改进FP-tree的最大频繁项目集挖掘算法
被引量:9
3
作者
马丽生
姚光顺
杨传健
机构
滁州学院计算机与信息工程学院
出处
《计算机应用》
CSCD
北大核心
2012年第2期326-329,共4页
基金
安徽省高校省级自然科学研究项目(KJ2010B421
KJ2011Z276)
+1 种基金
安徽省高校省级优秀青年人才基金项目(2010SQRL137
2011SQRL123)
文摘
针对已有算法为了减少PF-tree中路径被重复遍历的次数,需要保存FP-tree中所有频繁1-项集的条件模式基的问题,对FP-tree的数据结构进行修改,使得只需要保存FP-tree中每个叶子节点的父节点到根节点路径上项目组成的条件模式基,降低了保存条件模式基的存储空间开销。在分析最大频繁项目集挖掘算法中搜索空间以及数据表示方法的基础上,通过理论分析和证明,设计了剪枝策略和压缩策略,缩小了算法搜索空间,压缩了FP-tree的规模,提高了算法的执行效率。最后将新算法分别与NHTFPG算法、FpMAX算法进行对比,验证算法的正确性和有效性。实验结果表明,新算法保存FP-tree条件模式基所需要的存储空间不到NHTFPG算法的50%,执行效率比FpMAX算法提高了2~3倍。
关键词
频繁项目集
最大频繁项目集
条件模式基
项头表
剪枝策略
压缩策略
Keywords
frequent itemset
maximal frequent itemset
conditional pattern base
item header table
pruning strategy
compression strategy
分类号
TP311.13
[自动化与计算机技术—计算机软件与理论]
题名 基于MapReduce的频繁项集并行挖掘算法
被引量:9
4
作者
马强
杨金民
机构
湖南大学信息科学与工程学院
出处
《计算机应用与软件》
CSCD
2015年第9期13-16,101,共5页
基金
国家自然科学基金项目(61272401
61133005)
文摘
现有FP-growth频繁集挖掘算法在处理大数据时存在时空效率不高的问题,且内存的使用随着数据的增加已经无法满足把待挖掘数据压缩存储在单个内存中,为此,提出一种基于MapReduce模型的频繁项集并行挖掘算法。该算法采用一种基于key/value键值对直接扫描value寻找条件模式基的方式,同时通过在原有FP-tree树节点中新增一个带频繁项前缀的域空间来构建一颗新的条件模式树NFP-tree,使得对一项频繁项的条件模式基进行一次建树一次遍历就可以得到相应的频繁项集。对所提出的算法在Hadoop平台进行了验证与分析,实验结果表明该算法效率较传统FP-growth算法平均提高16.6%。
关键词
频繁项集
FP—growth
MAPREDUCE
条件模式基
NFP—tree并行
Keywords
Frequent itemsets FP-growth MapReduce Conditional pattern NFP-tree Parallel
分类号
TP3
[自动化与计算机技术—计算机科学与技术]
题名 基于双向十字链表的频繁项集挖掘
被引量:2
5
作者
胡斌
张天
胡勇
机构
北京科技大学计算机与通信学院
长春师范大学计算机科学与技术学院
出处
《科学技术与工程》
北大核心
2014年第22期68-72,共5页
基金
国家自然科学基金项目(2011AA040101)
中央高校基本科研基金(FRF-MP-12-007A)资助
文摘
有效地进行频繁项挖掘一直以来都是数据挖掘任务中最为重要的组成部分。已有的大部分频繁项挖掘算法在数据项多及支持度低的情况下,算法的效率急剧下降。为了有效地解决此类问题,提出了一种采用双向十字链表结构的频繁项挖掘算法(two-way crossed list for frequent itemsets mining,TCLFI)。极大地降低了搜索空间,加快了频繁项的筛选过程,减少了所需保存的数据项个数,从而降低了时间复杂度,提高了频繁项的挖掘效率。实验通过真实数据集和合成数据集验证了算法的有效性和扩展性。
关键词
条件模式基
频繁模式
频繁项挖掘
关联规则
Keywords
conditional pattern base
frequent pattern
frequent itemsets
association rule
分类号
TP311.1
[自动化与计算机技术—计算机软件与理论]
题名 一种改进的最大频繁项集挖掘算法
被引量:2
6
作者
胡德敏
赵瑞可
机构
上海理工大学光电信息与计算机工程学院
出处
《计算机应用与软件》
CSCD
北大核心
2012年第12期186-188,共3页
文摘
研究基于条件模式基排序的最大频繁项集挖掘算法。通常在基于FP-tree(frequent pattern tree)的最大频繁项集挖掘算法中,影响执行效率的主要是递归和超集检测。因此提出了改进的最大频繁项集挖掘算法S-FP-MFI(sorted frequent pattern tree for maximal frequent item set),根据条件模式基含有的项目数对条件模式基进行动态排序,以减少递归次数;另外基于MFI-tree(maximalfrequent item tree)的投影策略减少了超集检测时间。实验表明S-FP-MFI算法在支持度较小的情况下,具有优越性。
关键词
递归
最大频繁项集
频繁模式 树
条件模式基
超集检测
Keywords
Recursive Maximal frequent item set Frequent pattern tree Conditional pattern base Superset checking
分类号
TP301.6
[自动化与计算机技术—计算机系统结构]