-
题名频繁和高效用项集挖掘
被引量:4
- 1
-
-
作者
李慧
刘贵全
瞿春燕
-
机构
中国科技大学计算机与技术学院
-
出处
《计算机科学》
CSCD
北大核心
2015年第5期82-87,123,共7页
-
基金
中央高校基本科研基金(WK2100100021)
国家科技支撑计划(2012BAH17B03)
安徽省自主创新专项-智能语音技术研发和产业化专项(13Z02008-5)资助
-
文摘
对从事务数据库中挖掘有意义的项集的研究已超过10年。然而,大多数的研究要么使用频繁度或支持度(如频繁项集挖掘),要么使用效用值或利润(如高效用项集挖掘)作为主要的衡量标准。单独使用这两种衡量方式都有各自的局限性,比如频繁度很高的项集其效用值有可能很低,而效用值很高的项集其频繁度往往很低,将这些项集推荐给用户没有意义。将这两种衡量标准综合考虑,希望找出那些频繁度和效用值都很高的项集。该项工作最大的挑战是效用值既不满足单调性也不满足反单调性。因此,提出了高效算法FHIMA。FHIMA采用PrefixSpan的思想,挖掘时能避免产生非频繁的候选项集。此外,还根据效用和质量上界的一些性质,有效地缩小了搜索空间,极大地提高了FHIMA算法的效率。
-
关键词
TOP-K
频繁
高效用
高质量项集
-
Keywords
Top-k, Frequent, High utility, Qualified itemsets
-
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
-