频繁模式挖掘(Frequent Pattern Mining,FPM)是图数据分析、挖掘领域的核心问题之一,其目的是从大规模图数据中发现支持度不低于指定阈值的模式.传统的频繁模式挖掘算法依赖支持度进行剪枝,返回结果往往包含大量“冗余”模式;top-k模式...频繁模式挖掘(Frequent Pattern Mining,FPM)是图数据分析、挖掘领域的核心问题之一,其目的是从大规模图数据中发现支持度不低于指定阈值的模式.传统的频繁模式挖掘算法依赖支持度进行剪枝,返回结果往往包含大量“冗余”模式;top-k模式挖掘算法虽然仅返回k个频繁模式,但该类算法主要依据“客观”指标,如支持度等,对模式进行评估,难以充分反映用户的主观兴趣偏好.针对上述问题,提出一种基于主动学习的模式兴趣评估方法(Pattern Interestingness Evaluation with Active Learning,PIEAL),通过主动学习策略,从采样图上挖掘的频繁模式中选择代表性模式,并利用有限次人机交互收集用户对这些模式的偏好,进而预测模式的兴趣分数,指导算法发现用户感兴趣的模式.在人机交互环节,PIEAL采用基于成对比较的策略来收集用户对模式的偏好反馈,有效降低了用户的主观评价难度.在真实数据集上的实验结果表明,PIEAL仅需要少量的人机交互便可发现用户感兴趣的模式,其测试集准确率最高可达95%.展开更多
传统周期模式挖掘忽略了模式本身的相关性和时效性,导致获取到一些实用价值有限的弱相关且时效性较低的模式。因此,提出了新颖的基于时效性和相关性约束的周期模式挖掘方法(correlation and recency periodic frequent pattern-breadth ...传统周期模式挖掘忽略了模式本身的相关性和时效性,导致获取到一些实用价值有限的弱相关且时效性较低的模式。因此,提出了新颖的基于时效性和相关性约束的周期模式挖掘方法(correlation and recency periodic frequent pattern-breadth first search,CRPFP-BFS)和(correlation and recency periodic frequent pattern-depth first search,CRPFP-DFS)。将给定的数据库压缩到一个列式结构的列表CRPFP-List中,CRPFP-BFS和CRPFP-DFS分别采用广度优先和深度优先搜索方式递归地进行挖掘,同时利用支持度、周期、时效性以及相关性剪枝策略减少搜索空间,以有效地发现相关时效周期模式。与当前最先进算法在密集数据集和稀疏数据集上进行对比实验,结果表明CRPFP-BFS和CRPFP-DFS具有较低的内存占用和更高的运行效率,并且具有良好的可扩展性,其中CRPFP-DFS适合于内存要求严格的情况,CRPFP-BFS在长事务稀疏数据集下的运行效率更高。展开更多
挖掘最大频繁项目集是多种数据挖掘应用中的关键问题,之前的很多研究都是采用Apriori类的候选项目集生成-检验方法.然而,候选项目集产生的代价是很高的,尤其是在存在大量强模式和/或长模式的时候.提出了一种快速的基于频繁模式树(FP-tr...挖掘最大频繁项目集是多种数据挖掘应用中的关键问题,之前的很多研究都是采用Apriori类的候选项目集生成-检验方法.然而,候选项目集产生的代价是很高的,尤其是在存在大量强模式和/或长模式的时候.提出了一种快速的基于频繁模式树(FP-tree)的最大频繁项目集挖掘DMFIA(discover maximum frequent itemsets algorithm)及其更新算法UMFIA(update maximum frequent itemsets algorithm).算法UMFIA将充分利用以前的挖掘结果来减少在更新的数据库中发现新的最大频繁项目集的费用.展开更多
文摘频繁模式挖掘(Frequent Pattern Mining,FPM)是图数据分析、挖掘领域的核心问题之一,其目的是从大规模图数据中发现支持度不低于指定阈值的模式.传统的频繁模式挖掘算法依赖支持度进行剪枝,返回结果往往包含大量“冗余”模式;top-k模式挖掘算法虽然仅返回k个频繁模式,但该类算法主要依据“客观”指标,如支持度等,对模式进行评估,难以充分反映用户的主观兴趣偏好.针对上述问题,提出一种基于主动学习的模式兴趣评估方法(Pattern Interestingness Evaluation with Active Learning,PIEAL),通过主动学习策略,从采样图上挖掘的频繁模式中选择代表性模式,并利用有限次人机交互收集用户对这些模式的偏好,进而预测模式的兴趣分数,指导算法发现用户感兴趣的模式.在人机交互环节,PIEAL采用基于成对比较的策略来收集用户对模式的偏好反馈,有效降低了用户的主观评价难度.在真实数据集上的实验结果表明,PIEAL仅需要少量的人机交互便可发现用户感兴趣的模式,其测试集准确率最高可达95%.
文摘传统周期模式挖掘忽略了模式本身的相关性和时效性,导致获取到一些实用价值有限的弱相关且时效性较低的模式。因此,提出了新颖的基于时效性和相关性约束的周期模式挖掘方法(correlation and recency periodic frequent pattern-breadth first search,CRPFP-BFS)和(correlation and recency periodic frequent pattern-depth first search,CRPFP-DFS)。将给定的数据库压缩到一个列式结构的列表CRPFP-List中,CRPFP-BFS和CRPFP-DFS分别采用广度优先和深度优先搜索方式递归地进行挖掘,同时利用支持度、周期、时效性以及相关性剪枝策略减少搜索空间,以有效地发现相关时效周期模式。与当前最先进算法在密集数据集和稀疏数据集上进行对比实验,结果表明CRPFP-BFS和CRPFP-DFS具有较低的内存占用和更高的运行效率,并且具有良好的可扩展性,其中CRPFP-DFS适合于内存要求严格的情况,CRPFP-BFS在长事务稀疏数据集下的运行效率更高。
文摘挖掘最大频繁项目集是多种数据挖掘应用中的关键问题,之前的很多研究都是采用Apriori类的候选项目集生成-检验方法.然而,候选项目集产生的代价是很高的,尤其是在存在大量强模式和/或长模式的时候.提出了一种快速的基于频繁模式树(FP-tree)的最大频繁项目集挖掘DMFIA(discover maximum frequent itemsets algorithm)及其更新算法UMFIA(update maximum frequent itemsets algorithm).算法UMFIA将充分利用以前的挖掘结果来减少在更新的数据库中发现新的最大频繁项目集的费用.
基金Supported by the National Natural Science Foundation of China under Grant Nos.60473075 60773063 (国家自然科学基金)+2 种基金the Key Program National Natural Science Foundation of China under Grant No.60533110 (国家自然科学基金重点项目)the National Basic Research Program of China under Grant No.2006CB303000 (国家重点基础研究发展计划(973))the Program for New Century Excellent Talents in University (NCET) under Grant No.NCET-05-0333 (新世纪优秀人才支持计划)