期刊文献+
共找到4篇文章
< 1 >
每页显示 20 50 100
高性能中文垃圾邮件过滤器 被引量:7
1
作者 齐浩亮 程晓龙 +3 位作者 杨沐昀 何晓宁 李生 雷国华 《中文信息学报》 CSCD 北大核心 2010年第2期76-83,共8页
设计并实现了基于在线过滤模式高性能中文垃圾邮件过滤器,能够较好地识别不断变化的垃圾邮件。以逻辑回归模型为基础,该文提出了字节级n元文法提取邮件特征,并采用TONE(Train On or Near Error)方法训练过滤器。在多个大规模中文垃圾邮... 设计并实现了基于在线过滤模式高性能中文垃圾邮件过滤器,能够较好地识别不断变化的垃圾邮件。以逻辑回归模型为基础,该文提出了字节级n元文法提取邮件特征,并采用TONE(Train On or Near Error)方法训练过滤器。在多个大规模中文垃圾邮件过滤公开评测数据上的实验结果表明,该文过滤器的性能在TREC 06C数据上优于当年评测的最好成绩,在SEWM07立即反馈上1-ROCA值达到了0.000 0%,并明显优于SEWM08评测在线过滤任务中的所有其他方法。 展开更多
关键词 计算机应用 中文信息处理 中文垃圾邮件过滤 在线学习 逻辑回归模型 字节级n元文法 TONE
在线阅读 下载PDF
基于贝叶斯算法的中文垃圾邮件过滤系统研究 被引量:16
2
作者 刘浩然 丁攀 +2 位作者 郭长江 常金凤 崔静闯 《通信学报》 EI CSCD 北大核心 2018年第12期151-159,共9页
目前大部分中文垃圾邮件过滤系统受文本稀疏及模型特征局限的影响较大,其特征高维和特征局限的缺陷成为制约过滤效果的重要因素。针对特征高维问题,提出一种基于中心词扩展的TF-IDF(term frequency-inverse document frequency)特征提... 目前大部分中文垃圾邮件过滤系统受文本稀疏及模型特征局限的影响较大,其特征高维和特征局限的缺陷成为制约过滤效果的重要因素。针对特征高维问题,提出一种基于中心词扩展的TF-IDF(term frequency-inverse document frequency)特征提取算法,增加了特征节点的表达能力,实现了特征降维。针对分类模型特征局限和属性间条件独立性假设不成立问题,提出一种基于GWO_GA(grey wolf optimizer-genetic algorithm)结构学习算法的3层贝叶斯网络模型,放松了条件独立性假设,增加了特征多样性,最终形成基于中心词扩展的TF-IDF特征提取及GWO_GA结构学习的3层贝叶斯算法。通过大量中文邮件数据验证,算法可明显提高中文垃圾邮件过滤效果。 展开更多
关键词 贝叶斯网络 TF-IDF 遗传算法 短文本分类 中文垃圾邮件过滤
在线阅读 下载PDF
抗好词攻击的中文垃圾邮件过滤模型 被引量:5
3
作者 邓蔚 秦志光 +1 位作者 刘峤 程红蓉 《电子测量与仪器学报》 CSCD 2010年第12期1146-1152,共7页
针对当前中文垃圾邮件过滤领域面临的好词攻击威胁,提出了一种鲁棒的中文垃圾邮件过滤模型。该模型基于多示例学习机制,并结合中文分词和特征选择方法,将一封邮件转化为若干示例的组合,然后应用多示例逻辑回归模型进行学习和分类。对多... 针对当前中文垃圾邮件过滤领域面临的好词攻击威胁,提出了一种鲁棒的中文垃圾邮件过滤模型。该模型基于多示例学习机制,并结合中文分词和特征选择方法,将一封邮件转化为若干示例的组合,然后应用多示例逻辑回归模型进行学习和分类。对多示例学习而言,当一封邮件中至少有一个示例为垃圾信息时,该邮件为垃圾邮件,否则为正常邮件。分别对训练数据集和测试数据集进行好词攻击,在多个大规模中文垃圾邮件过滤公开数据库上进行了测试。实验结果表明,在中文邮件过滤领域对抗好词攻击,分类器使用多示例反击策略较之于单示例反击策略有更强的鲁棒性。 展开更多
关键词 中文垃圾邮件过滤 敌手学习 多示例学习 逻辑回归 好词攻击 鲁棒性
在线阅读 下载PDF
基于图正则化MNMF的中文垃圾邮件过滤
4
作者 刘遵雄 黄志强 +1 位作者 郑淑娟 石菲 《计算机应用研究》 CSCD 北大核心 2013年第9期2672-2676,共5页
利用向量空间模型表示的文本邮件数据具有高维性,不利于邮件过滤模型的建立,需要对数据进行降维处理。最大间隔Semi-NMF(max-margin semi-nonnegative matrix factorization,MNMF)能够同时实现维数约减和邮件分类,而图正则化NMF能保持... 利用向量空间模型表示的文本邮件数据具有高维性,不利于邮件过滤模型的建立,需要对数据进行降维处理。最大间隔Semi-NMF(max-margin semi-nonnegative matrix factorization,MNMF)能够同时实现维数约减和邮件分类,而图正则化NMF能保持数据空间的几何结构。基于以上两种NMF改进模型,提出了图正则化MNMF(graph regularized MNMF,GMNMF)算法,并设计了一个迭代的求解算法。将GMNMF算法及其他相关算法用于中文垃圾邮件过滤实验,结果表明GMNMF算法构建的过滤模型要优于其他较好的算法构建的过滤模型。 展开更多
关键词 向量空间模型 维数约减 最大间隔Semi—NMF 图正则化MNMF 中文垃圾邮件过滤
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部