针对高效用模式挖掘任务中假阳性模式和冗余模式的判别问题,提出一种基于无限制检验和独立成长率的判别高效用模式挖掘算法UTDHU(Unlimited Testing for Discriminative High Utility pattern mining)。首先,找到目标事务集合中满足效...针对高效用模式挖掘任务中假阳性模式和冗余模式的判别问题,提出一种基于无限制检验和独立成长率的判别高效用模式挖掘算法UTDHU(Unlimited Testing for Discriminative High Utility pattern mining)。首先,找到目标事务集合中满足效用阈值和差异阈值的判别高效用模式;其次,建立前缀项共享树以快速计算每个模式的独立成长率,并基于独立成长率筛除未超过独立阈值的冗余判别高效用模式;最后,使用无限制检验计算余下每个模式的统计显著性度量p值,并根据错误率判断族过滤整体结果中的假阳性判别高效用模式。在4个基准事务集合和2个仿真事务集合上的实验结果表明,相较于Hamm和YBHU(Yekutieli-Benjamini resampling for High Utility pattern mining)等算法,所提算法在模式数量方面输出最少,过滤了至少97.8%的被检验模式;在模式质量方面,所提算法的假阳性判别高效用模式占比低于5.2%,且构造特征的分类准确率高于对比算法至少1.5个百分点;虽然所提算法在运行时间方面慢于Hamm算法,但快于其余3个基于统计显著性检验的算法。可见,所提算法能够有效剔除一定数量的假阳性和冗余判别高效用模式,在挖掘性能上更优,且运行效率更高。展开更多
文摘针对高效用模式挖掘任务中假阳性模式和冗余模式的判别问题,提出一种基于无限制检验和独立成长率的判别高效用模式挖掘算法UTDHU(Unlimited Testing for Discriminative High Utility pattern mining)。首先,找到目标事务集合中满足效用阈值和差异阈值的判别高效用模式;其次,建立前缀项共享树以快速计算每个模式的独立成长率,并基于独立成长率筛除未超过独立阈值的冗余判别高效用模式;最后,使用无限制检验计算余下每个模式的统计显著性度量p值,并根据错误率判断族过滤整体结果中的假阳性判别高效用模式。在4个基准事务集合和2个仿真事务集合上的实验结果表明,相较于Hamm和YBHU(Yekutieli-Benjamini resampling for High Utility pattern mining)等算法,所提算法在模式数量方面输出最少,过滤了至少97.8%的被检验模式;在模式质量方面,所提算法的假阳性判别高效用模式占比低于5.2%,且构造特征的分类准确率高于对比算法至少1.5个百分点;虽然所提算法在运行时间方面慢于Hamm算法,但快于其余3个基于统计显著性检验的算法。可见,所提算法能够有效剔除一定数量的假阳性和冗余判别高效用模式,在挖掘性能上更优,且运行效率更高。