针对传统序列模式挖掘(SPM)不考虑模式重复性且忽略各项的效用(单价或利润)与模式长度对用户兴趣度影响的问题,提出一次性条件下top-k高平均效用序列模式挖掘(TOUP)算法。TOUP算法主要包括两个核心步骤:平均效用计算和候选模式生成。首...针对传统序列模式挖掘(SPM)不考虑模式重复性且忽略各项的效用(单价或利润)与模式长度对用户兴趣度影响的问题,提出一次性条件下top-k高平均效用序列模式挖掘(TOUP)算法。TOUP算法主要包括两个核心步骤:平均效用计算和候选模式生成。首先,提出基于各项出现位置与项重复关系数组的CSP(Calculation Support of Pattern)算法计算模式支持度,从而实现模式平均效用的快速计算;其次,采用项集扩展和序列扩展生成候选模式,并提出了最大平均效用上界,基于该上界实现对候选模式的有效剪枝。在5个真实数据集和1个合成数据集上的实验结果表明,相较于TOUP-dfs和HAOP-ms算法,TOUP算法的候选模式数分别降低了38.5%~99.8%和0.9%~77.6%;运行时间分别降低了33.6%~97.1%和57.9%~97.2%。TOUP的算法性能更优,能更高效地挖掘用户感兴趣的模式。展开更多
针对高效用模式挖掘任务中假阳性模式和冗余模式的判别问题,提出一种基于无限制检验和独立成长率的判别高效用模式挖掘算法UTDHU(Unlimited Testing for Discriminative High Utility pattern mining)。首先,找到目标事务集合中满足效...针对高效用模式挖掘任务中假阳性模式和冗余模式的判别问题,提出一种基于无限制检验和独立成长率的判别高效用模式挖掘算法UTDHU(Unlimited Testing for Discriminative High Utility pattern mining)。首先,找到目标事务集合中满足效用阈值和差异阈值的判别高效用模式;其次,建立前缀项共享树以快速计算每个模式的独立成长率,并基于独立成长率筛除未超过独立阈值的冗余判别高效用模式;最后,使用无限制检验计算余下每个模式的统计显著性度量p值,并根据错误率判断族过滤整体结果中的假阳性判别高效用模式。在4个基准事务集合和2个仿真事务集合上的实验结果表明,相较于Hamm和YBHU(Yekutieli-Benjamini resampling for High Utility pattern mining)等算法,所提算法在模式数量方面输出最少,过滤了至少97.8%的被检验模式;在模式质量方面,所提算法的假阳性判别高效用模式占比低于5.2%,且构造特征的分类准确率高于对比算法至少1.5个百分点;虽然所提算法在运行时间方面慢于Hamm算法,但快于其余3个基于统计显著性检验的算法。可见,所提算法能够有效剔除一定数量的假阳性和冗余判别高效用模式,在挖掘性能上更优,且运行效率更高。展开更多
文摘针对传统序列模式挖掘(SPM)不考虑模式重复性且忽略各项的效用(单价或利润)与模式长度对用户兴趣度影响的问题,提出一次性条件下top-k高平均效用序列模式挖掘(TOUP)算法。TOUP算法主要包括两个核心步骤:平均效用计算和候选模式生成。首先,提出基于各项出现位置与项重复关系数组的CSP(Calculation Support of Pattern)算法计算模式支持度,从而实现模式平均效用的快速计算;其次,采用项集扩展和序列扩展生成候选模式,并提出了最大平均效用上界,基于该上界实现对候选模式的有效剪枝。在5个真实数据集和1个合成数据集上的实验结果表明,相较于TOUP-dfs和HAOP-ms算法,TOUP算法的候选模式数分别降低了38.5%~99.8%和0.9%~77.6%;运行时间分别降低了33.6%~97.1%和57.9%~97.2%。TOUP的算法性能更优,能更高效地挖掘用户感兴趣的模式。
文摘针对高效用模式挖掘任务中假阳性模式和冗余模式的判别问题,提出一种基于无限制检验和独立成长率的判别高效用模式挖掘算法UTDHU(Unlimited Testing for Discriminative High Utility pattern mining)。首先,找到目标事务集合中满足效用阈值和差异阈值的判别高效用模式;其次,建立前缀项共享树以快速计算每个模式的独立成长率,并基于独立成长率筛除未超过独立阈值的冗余判别高效用模式;最后,使用无限制检验计算余下每个模式的统计显著性度量p值,并根据错误率判断族过滤整体结果中的假阳性判别高效用模式。在4个基准事务集合和2个仿真事务集合上的实验结果表明,相较于Hamm和YBHU(Yekutieli-Benjamini resampling for High Utility pattern mining)等算法,所提算法在模式数量方面输出最少,过滤了至少97.8%的被检验模式;在模式质量方面,所提算法的假阳性判别高效用模式占比低于5.2%,且构造特征的分类准确率高于对比算法至少1.5个百分点;虽然所提算法在运行时间方面慢于Hamm算法,但快于其余3个基于统计显著性检验的算法。可见,所提算法能够有效剔除一定数量的假阳性和冗余判别高效用模式,在挖掘性能上更优,且运行效率更高。