-
题名基于前缀共享树的频繁情节挖掘算法
- 1
-
-
作者
丁勇
朱辉生
高广银
-
机构
南京理工大学泰州科技学院
泰州学院计算机科学与技术学院
-
出处
《科学技术与工程》
北大核心
2014年第28期231-234,246,共5页
-
基金
国家自然科学基金项目(61003001,61103009)资助
-
文摘
经典的频繁情节挖掘算法NONEPI及其改进算法NONEPI+存在时空复杂度高、"重复计算"等问题,基于最小且非重叠发生的支持度定义,提出一个基于前缀共享树的频繁情节挖掘算法PST_NONEPI,该算法采用深度优先搜索策略,将发现的频繁情节压缩到前缀共享树中,通过动态维护前缀共享树来发现所有的频繁情节。该算法只需扫描事件序列一次,大大提高了频繁情节挖掘的效率。实验证明,PST_NONEPI算法能有效地挖掘频繁情节。
-
关键词
事件序列
频繁情节
最小且非重叠发生
前缀共享树
-
Keywords
event sequence
frequent episode
minimal and non-overlapped occurrence
prefix shared tree
-
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
-
-
题名基于FP-Tree的共享前缀频繁项集挖掘算法
被引量:4
- 2
-
-
作者
胡中栋
罗会兰
曾珽
-
机构
江西理工大学信息工程学院
-
出处
《计算机工程与应用》
CSCD
北大核心
2009年第27期137-139,共3页
-
基金
江西省教育厅科技项目(No.GJJ08285)
-
文摘
在数据挖掘中发现关联规则是一个基本问题,而发现频繁项集是关联规则挖掘中最基本、最重要的问题。提出了基于FP-Tree的共享前缀频繁项集挖掘算法-FP-SPMA算法。构造FP-Tree来压缩事务数据库,通过共享前缀和前瞻剪枝快速减小候选项集,无需递归构造条件模式树,算法性能有明显的提高。
-
关键词
频繁项集
高频繁模式树(FP-Tree)
共享前缀
基于FP-tree的共享前缀频繁项集挖掘算法(FP-SPMA)
-
Keywords
frequent item sets
FP-tree
sharing prefix
FP-SPMA
-
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
-
-
题名一种基于共享前缀的两级索引结构
被引量:1
- 3
-
-
作者
喻波
赵国鸿
陈曙晖
-
机构
国防科学技术大学计算机学院
-
出处
《计算机工程与科学》
CSCD
北大核心
2010年第12期113-116,121,共5页
-
基金
国家自然科学基金资助项目(90604006)
-
文摘
大多数倒排索引结构并未提出词汇表的组织形式,传统的基于Hash算法组织的词汇表存在大量碰撞的索引词。本文提出一种基于共享前缀的两级索引结构,通过对汉字、英文、数字进行统一编码,把具有相同首字的索引词映射到一级索引的相同位置;二级索引使用共享前缀树的结构组织索引词,既能通过二分查找快速定位索引文件存储块的位置,又能通过共享前缀的方式减少对相同字的存储,有效地减少了索引文件占用的存储空间。实验结果表明,该结构索引文件与源文档大小的压缩比达到0.59,与顺序索引和Hash索引相比,具有较高的时空效率。
-
关键词
倒排结构
两级索引
共享前缀
平衡二叉树
-
Keywords
inverted structure
two-level index
share-prefix
balancing binary tree
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名一种基于Hadoop的关联规则挖掘算法
被引量:8
- 4
-
-
作者
丁勇
朱长水
武玉艳
-
机构
南京理工大学泰州科技学院
-
出处
《计算机科学》
CSCD
北大核心
2018年第B11期409-411,416,共4页
-
基金
2015江苏省高校自然科学研究面上项目(15KJB520016)
2017年度江苏省高校"青蓝工程"资助
-
文摘
传统的并行关联规则算法对每一次迭代都定义一个MapReduce任务,以实现候选项集的生成和计数功能,但多次启动MapReduce任务会带来极大的性能开销。文中定义了一种并行关联规则挖掘算法PST-Apriori,该算法采取分治策略,在每个分布式计算节点定义一个前缀共享树,通过递归调用的方式将事务T生成的候选项集逐层压缩到前缀共享树(PST)中。然后广度遍历PST,逐层将每个节点对应的〈key,value〉作为map函数的输入,并由MapReduce框架自动按照key值进行聚集。最后调用reduce函数对多个任务的处理结果进行汇总,得到满足最小支持度阈值的频繁项集。算法只使用两个MapReduce任务,且PST按照key值排序便于Mapper端的shuffle操作,提高了运行效率。
-
关键词
关联规则
HADOOP
MAPREDUCE
前缀共享树
-
Keywords
Association rule
Hadoop
MapReduce
Prefix shared tree
-
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
-
-
题名基于自动机的XML流多查询处理
被引量:1
- 5
-
-
作者
张兵令
-
机构
上海杉达学院教务处
-
出处
《计算机工程》
CAS
CSCD
北大核心
2008年第16期63-65,共3页
-
文摘
XML流数据处理在研究领域引起广泛关注,该文针对XML流上的多查询处理提出一种算法,把多个查询合并为一个共享前缀的查询树,应用自动机和运行时栈相结合的方法,单遍扫描XML流处理数据流上的多个查询。该算法采用一种分层栈结构保存查询模式匹配候选集,利用XML节点的区间编码来确定节点之间的关系,返回整条匹配路径。
-
关键词
XML数据流
前缀共享
自动机
-
Keywords
XML data stream
prefix sharing
automata
-
分类号
TP311.5
[自动化与计算机技术—计算机软件与理论]
-
-
题名XML关键字检索中Dewey码存储方式的研究
- 6
-
-
作者
杨宁
陈群
-
机构
西北工业大学计算机学院
-
出处
《计算机工程与应用》
CSCD
2013年第1期137-140,151,共5页
-
基金
国家自然科学基金(No.60803043)
-
文摘
Dewey码是XML关键字检索中采用的重要编码方式。在目前的研究当中,Dewey码通常以字符形式进行存储,这种方式造成Dewey码存储代价过大,并且在LCA求解过程中也必须通过字符比较才能获得Dewey码各层的数值,影响LCA求解效率。提出采用前缀共享和变长整形编码思路的PSVL存储方式,在消除字符比较操作的同时减少了Dewey码集合的存储代价。实验证明利用该存储方式对Dewey码集合进行存储,可以有效地降低其存储代价,并且减少获取Dewey码各层数值这一步骤花费的时间,间接提高了LCA的求解效率。
-
关键词
Dewey码存储
变长整形编码
前缀共享
-
Keywords
Dewey encoding storage
variable length integer encoding
prefixes sharing
-
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
-
-
题名关联规则挖掘在证券业个性化服务中的应用
被引量:1
- 7
-
-
作者
徐晓峰
黄林鹏
顾锡康
-
机构
上海交通大学计算机科学与工程系
东吴证券有限责任公司
-
出处
《计算机工程》
EI
CAS
CSCD
北大核心
2005年第19期214-216,共3页
-
基金
国家"863"计划基金资助项目(2001AA113160)
-
文摘
提出了一种适用于证券业交易数据库挖掘的频繁模式链表关联规则挖掘算法,它采用共享前缀交易项树和频繁模式链表结构,无须产生候选项集,FPL-growth算法通过直接排列出链路中的频项组合,就可得到完整的频繁模式集,且支持多阈值挖掘,挖掘到的关联规则带有时间段属性,特别适用于证券业的个性化信息需求获取。
-
关键词
关联规则
共享前缀交易树
频繁模式链表
频繁模式链表关联规则算法
时间属性
证券
-
Keywords
Association rule
STP-tree
FP-link
FPL-growth
Time-property
Stock
-
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
-
-
题名关联规则挖掘在证券业中的应用
被引量:1
- 8
-
-
作者
徐晓峰
黄林鹏
顾锡康
-
机构
上海交通大学计算机科学与工程系
东吴证券有限责任公司
-
出处
《计算机工程》
CAS
CSCD
北大核心
2004年第B12期6-7,96,共3页
-
基金
国家"863"计划基金资助项目(2001AA113160)
-
文摘
基于证券业急需一种能帮助其提高个性化服务质量的系统,该文提出了一种适用干证券业单交易项交易数据库挖掘的频繁模式链表 关联规则挖掘算法,它采用共享前缀交易项树和频繁模式链表结构,无须产生候选项集,FPL-growth算法通过直接排列出链路中的频项组 合,就可得到完整的频繁模式集,且支持多阈值挖掘,挖掘到的关联规则带有时间段属性,特别适用于证券业的个性化信息需求获取。
-
关键词
关联规则
共享前缀交易树
频繁模式链表
频繁模式链表关联规则算法
时间属性
证券
-
Keywords
Association rule
STP-trce
FP-link
FPL-growth
Time-property
Stock
-
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
-