题名 高性能中文垃圾邮件过滤器
被引量:7
1
作者
齐浩亮
程晓龙
杨沐昀
何晓宁
李生
雷国华
机构
黑龙江工程学院计算机科学与技术系
哈尔滨工业大学计算机科学与技术学院
哈尔滨理工大学计算机科学与技术学院
出处
《中文信息学报》
CSCD
北大核心
2010年第2期76-83,共8页
基金
国家自然科学基金重点资助项目(60736044)
国家自然科学基金资助项目(60873105)
黑龙江省科技攻关计划资助项目(GZ07A108)
文摘
设计并实现了基于在线过滤模式高性能中文垃圾邮件过滤器,能够较好地识别不断变化的垃圾邮件。以逻辑回归模型为基础,该文提出了字节级n元文法提取邮件特征,并采用TONE(Train On or Near Error)方法训练过滤器。在多个大规模中文垃圾邮件过滤公开评测数据上的实验结果表明,该文过滤器的性能在TREC 06C数据上优于当年评测的最好成绩,在SEWM07立即反馈上1-ROCA值达到了0.000 0%,并明显优于SEWM08评测在线过滤任务中的所有其他方法。
关键词
计算机应用
中文 信息处理
中文垃圾邮件过滤
在线学习
逻辑回归模型
字节级n元文法
TONE
Keywords
computer application
Chinese information processing
Chinese spam filtering
online learning
logistic regression model
byte N-gram
TONE
分类号
TP391
[自动化与计算机技术—计算机应用技术]
题名 基于贝叶斯算法的中文垃圾邮件过滤系统研究
被引量:16
2
作者
刘浩然
丁攀
郭长江
常金凤
崔静闯
机构
燕山大学信息科学与工程学院
河北省特种光纤与光纤传感重点实验室
燕山大学里仁学院
出处
《通信学报》
EI
CSCD
北大核心
2018年第12期151-159,共9页
基金
国家自然科学基金资助项目(No.51641609)
河北省自然科学基金资助项目(No.F2016203354)
文摘
目前大部分中文垃圾邮件过滤系统受文本稀疏及模型特征局限的影响较大,其特征高维和特征局限的缺陷成为制约过滤效果的重要因素。针对特征高维问题,提出一种基于中心词扩展的TF-IDF(term frequency-inverse document frequency)特征提取算法,增加了特征节点的表达能力,实现了特征降维。针对分类模型特征局限和属性间条件独立性假设不成立问题,提出一种基于GWO_GA(grey wolf optimizer-genetic algorithm)结构学习算法的3层贝叶斯网络模型,放松了条件独立性假设,增加了特征多样性,最终形成基于中心词扩展的TF-IDF特征提取及GWO_GA结构学习的3层贝叶斯算法。通过大量中文邮件数据验证,算法可明显提高中文垃圾邮件过滤效果。
关键词
贝叶斯网络
TF-IDF
遗传算法
短文本分类
中文垃圾邮件过滤
Keywords
Bayesian network
TF-IDF
Genetic Algorithm
short text classification
Chinese spam filtering
分类号
TP181
[自动化与计算机技术—控制理论与控制工程]
题名 抗好词攻击的中文垃圾邮件过滤模型
被引量:5
3
作者
邓蔚
秦志光
刘峤
程红蓉
机构
电子科技大学计算机科学与工程学院
出处
《电子测量与仪器学报》
CSCD
2010年第12期1146-1152,共7页
基金
国家自然科学基金(编号:60903157
60973118)资助项目
国家"863"计划(编号:2009AA01Z422)资助项目
文摘
针对当前中文垃圾邮件过滤领域面临的好词攻击威胁,提出了一种鲁棒的中文垃圾邮件过滤模型。该模型基于多示例学习机制,并结合中文分词和特征选择方法,将一封邮件转化为若干示例的组合,然后应用多示例逻辑回归模型进行学习和分类。对多示例学习而言,当一封邮件中至少有一个示例为垃圾信息时,该邮件为垃圾邮件,否则为正常邮件。分别对训练数据集和测试数据集进行好词攻击,在多个大规模中文垃圾邮件过滤公开数据库上进行了测试。实验结果表明,在中文邮件过滤领域对抗好词攻击,分类器使用多示例反击策略较之于单示例反击策略有更强的鲁棒性。
关键词
中文垃圾邮件过滤
敌手学习
多示例学习
逻辑回归
好词攻击
鲁棒性
Keywords
Chinese spam filtering
adversarial learning
multiple instance learning
logistic regression
good word attacks
robustness
分类号
TP393.098
[自动化与计算机技术—计算机应用技术]
题名 基于图正则化MNMF的中文垃圾邮件过滤
4
作者
刘遵雄
黄志强
郑淑娟
石菲
机构
华东交通大学信息工程学院
江西财经大学科研处
出处
《计算机应用研究》
CSCD
北大核心
2013年第9期2672-2676,共5页
基金
国家自然科学基金资助项目(61065003)
国家教育部人文社会科学研究规划基金资助项目(10YJC630379)
文摘
利用向量空间模型表示的文本邮件数据具有高维性,不利于邮件过滤模型的建立,需要对数据进行降维处理。最大间隔Semi-NMF(max-margin semi-nonnegative matrix factorization,MNMF)能够同时实现维数约减和邮件分类,而图正则化NMF能保持数据空间的几何结构。基于以上两种NMF改进模型,提出了图正则化MNMF(graph regularized MNMF,GMNMF)算法,并设计了一个迭代的求解算法。将GMNMF算法及其他相关算法用于中文垃圾邮件过滤实验,结果表明GMNMF算法构建的过滤模型要优于其他较好的算法构建的过滤模型。
关键词
向量空间模型
维数约减
最大间隔Semi—NMF
图正则化MNMF
中文垃圾邮件过滤
Keywords
vector space model (VSM)
dimensionality reduction
MNMF
GMNMF
Chinese spam filtering
分类号
TP181
[自动化与计算机技术—控制理论与控制工程]