摘要
针对基于MapReduce框架的Apriori关联规则挖掘算法产生候选项集较长、算法执行效率低等问题,以及大数据环境中数据快速更新造成增量处理等缺陷进行了研究,提出了一种基于项集动态加权的增量挖掘算法WDU-Apriori(weighted dynamic updating-Apriori)。首先提出W-DPC(weighted dynamic passes combiner)机制作为其候选项集的结合方式,有效提高算法在大数据环境下的适应能力;其次对于新来的增量数据,设计了WBI(weighted border itemsets)策略,用于生成加权边界项集,以改进对增量数据的挖掘效率;最后构建了CTP(calculate transform probability)方法,用于量化阈值边界项集变为频繁项集的可能性,这对先前的挖掘结果有了更高效的应用,在降低节点负载的同时也解决了原始数据集扫描次数较多的问题。理论分析与实验结果共同表明,WDU-Apriori算法不仅有效提高了挖掘效率,平衡了每一个阶段的工作量,同时也有效降低了算法的时间复杂度。
出处
《计算机应用研究》
CSCD
北大核心
2020年第S02期73-75,79,共4页
Application Research of Computers
基金
国家重点研发计划资助项目(2018YFC1504705)
国家自然科学基金资助项目(41562019)
作者简介
赵欣灿(1996-),女,甘肃定西人,硕士研究生,主要研究方向为大数据、数据挖掘等;朱云(1984-),男,江西瑞金人,副教授,硕导,博士,主要研究方向为非线性系统、非线性电路等;通信作者:毛伊敏(1970-),女,新疆伊犁人,教授,硕导,博士,主要研究方向为大数据、数据挖掘、生物技术、地理信息等(mymlyc@163.com).