基于自适应特征词的微博噪音过滤方法

Microblog Noise Filtering Method Based on Self-adaptive Characteristics

在线阅读下载PDF

导出

摘要微博噪音过滤具有去除垃圾样本、降低数据规模等作用。利用聚类算法产生噪音种子词,在未标注数据上采用FP-Growth算法对种子词扩展,生成噪音特征词词典,结合用户和内容特征,引入支持向量机模型用于噪音微博过滤。实验结果正确率为84%,召回率为79%,F1值为81%,证明该模型产生的噪音特征词有助于提升微博过滤的效果。 Microblog noise filtering can remove garbage samples and reduce data scale.The noise seed words are generated by the clustering algorithm.FP-Growth algorithm is used to expand the seed words on unlabeled data to generate a noise feature word dictionary.Combining user and content characteristics,the support vector machine model is introduced to filter noise microblogs.The experimental results shows that the precision is 84%,the recall is 79%,the F1 value is 81%,which proves that the noise char-acteristics generated by the model can help to improve the filtering effect of microblog.

作者张晓瑜高扬苗星星祝永霞 ZHANG Xiaoyu;GAO Yang;MIAO Xingxing;ZHU Yongxia(No.32317 Troops of PLA,Urumqi 830000;No.32319 Troops of PLA,Urumqi 830000;The Army Border Sea Defense Academy of PLA,Urumqi 830000)

机构地区中国人民解放军中国人民解放军陆军边海防学院

出处《计算机与数字工程》 2024年第2期496-501,共6页 Computer & Digital Engineering

关键词微博自适应噪音特征词支持向量机 microblog self-adaptive noise characteristics SVM

分类号 TP301 [自动化与计算机技术—计算机系统结构]

作者简介张晓瑜,男,硕士研究生,工程师,研究方向:计算机网络、信息检索;高扬,男,硕士研究生,工程师,研究方向:网络新媒体、信息安全;苗星星,男,助理工程师,研究方向:观点挖掘与网络舆情分析;祝永霞,女,硕士研究生,工程师,研究方向:自然语言处理。

引文网络
相关文献

参考文献8

1唐晓波,房小可.基于隐含狄利克雷分配的微博推荐模型研究[J].情报科学,2015,33(2):3-8. 被引量：13
2高明,金澈清,钱卫宁,王晓玲,周傲英.面向微博系统的实时个性化推荐[J].计算机学报,2014,37(4):963-975. 被引量：53
3姚子瑜,屠守中,黄民烈,朱小燕.一种半监督的中文垃圾微博过滤方法[J].中文信息学报,2016,30(5):176-186. 被引量：8
4屠守中,杨婧,赵林,朱小燕.半监督的微博话题噪声过滤方法[J].清华大学学报（自然科学版）,2019,59(3):178-185. 被引量：3
5贾志洋,李伟伟,张海燕.基于内容的搜索引擎垃圾网页检测[J].计算机应用与软件,2009,26(11):165-167. 被引量：9
6王琳,冯时,徐伟丽,杨卓,王大玲,张一飞.一种面向微博客文本流的噪音判别与内容相似性双重检测的过滤方法[J].计算机应用与软件,2012,29(8):25-29. 被引量：15
7于然,刘春阳,靳小龙,王元卓,程学旗.基于多视角特征融合的中文垃圾微博过滤[J].山东大学学报（理学版）,2013,48(11):53-58. 被引量：7
8孙建旺,吕学强,郭跇秀.基于微博转发集的微博过滤研究[J].北京信息科技大学学报（自然科学版）,2013,28(3):27-33. 被引量：3

二级参考文献100

1胡恬,夏迎炬,黄萱菁,吴立德.基于向量空间模型的Web中文信息过滤系统[J].计算机工程,2003,29(z1):25-26. 被引量：6
2王元珍,钱铁云,冯小年.基于关联规则挖掘的中文文本自动分类[J].小型微型计算机系统,2005,26(8):1380-1383. 被引量：13
3樊兴华,孙茂松.一种高性能的两类中文文本分类方法[J].计算机学报,2006,29(1):124-131. 被引量：70
4赵丰年,刘林,商建云.基于概念的文本过滤模型[J].计算机工程与应用,2006,42(4):186-188. 被引量：11
5Jansen B ,Spink A. An Analysis of web documents retrieved and viewed [ C ]//Proceedings of ICIC '03. Las Vegas, Nevada, USA,2003 : 65 - 69.
6Ntoulas A, Najork M, Manasse M. Detecting spam web pages through content analysis[ C ]//Proceedings of the 15th International Conference on World Wide Web. Edinburgh, Scotland,2006 : 83 - 92.
7Gyongyi Z, Molina H. Web spam taxonomy [ C]//Proceedings of the 1 st International Workshop on Adversarial Information Retrieval on the Web. Chiba, Japan,2005 : 39 - 47.
8Brin S, Page L. The anatomy of a large-scale hypertextual web search engine[ C ]//Proceedings of the Seventh International Conference on World Wide Web. Brisbane, Australia, 1998 : 107 - 117.
9Bianchini M,Gori M, Scarselli F. Inside PageRank [ J ]. ACM transactions on Internet Technology,2005,5( 1 ) :92 - 128.
10Fetterly D, Manasse M, Najork M. Spam, damn spam, and statistics : using statistical analysis to locate spam web pages [ C ]//Proceedings of the Seventh International Workshop on the Web and Databases. Paris, France ,2004 : 1 - 6.

共引文献94

1张宗福.一种基于LCS的微博相似页面检测方法[J].集成技术,2013,2(3):5-9.
2张晓宇,吴向前,张平洋.农业网站中垃圾网页过滤方法的研究[J].网络安全技术与应用,2011(1):55-57. 被引量：2
3贾志洋,李伟伟,高炜,夏幼明.基于支持向量机的搜索引擎垃圾网页检测研究[J].云南民族大学学报（自然科学版）,2011,20(3):173-176. 被引量：5
4贾志洋,夏幼明,高炜,王勇刚.搜索引擎垃圾网页检测模型研究[J].重庆文理学院学报（自然科学版）,2011,30(5):53-58. 被引量：1
5李永可,吴悠,张太红,冯向萍,吴向前.维文垃圾网页多元线性回归识别研究[J].新疆大学学报（自然科学版）,2012,29(2):218-222. 被引量：1
6王玮.基于网页抓取分析和统计压缩模型的垃圾邮件过滤系统研究[J].信息网络安全,2013(6):50-53.
7孙建旺,吕学强,郭跇秀.基于微博转发集的微博过滤研究[J].北京信息科技大学学报（自然科学版）,2013,28(3):27-33. 被引量：3
8于然,刘春阳,靳小龙,王元卓,程学旗.基于多视角特征融合的中文垃圾微博过滤[J].山东大学学报（理学版）,2013,48(11):53-58. 被引量：7
9高俊波,梅波.基于文本内容分析的微博广告过滤模型研究[J].计算机工程,2014,40(5):17-20. 被引量：2
10张海涛,宋拓,张连峰,许孝君.基于信息内容与信息属性的微博热点信息生态化的实现研究[J].图书情报工作,2014,58(15):123-127. 被引量：10

1陈焱彬,黄腾,牛继伟,李腾腾,刘凯仑.基于FP-Growth算法的台区线损窃电研究[J].中国新技术新产品,2024(6):137-139. 被引量：1
2肖春华,张礼成,丁腊春,叶恩光.电子病历中文字词及其分布规律研究——以妇幼保健院电子病历为例[J].中国数字医学,2024,19(3):47-51.
3周朝阳,贺艳菊,夏岭梅,闵昭浩.融合词性与语义相关性的图书馆智能咨询系统问句相似性计算方法研究[J].情报探索,2024(5):1-8.
4郑明明.基于机器学习的景点评论文本分析[J].统计与管理,2023,38(2):119-128. 被引量：1
5陈丹琪,李英梅,庞国莉,段丽.基于人工智能的规模化与个性化相结合教学环境构建——以软件工程课程为例[J].大学教育,2024(4):84-87.
6刘丹,罗颜声,李诗轩,许钢焱,李墨潇.面向飞行全过程的民航事故致因关联网络分析[J].中国安全科学学报,2024,34(3):84-92. 被引量：3

计算机与数字工程

2024年第2期

浏览历史

内容加载中请稍等...

基于自适应特征词的微博噪音过滤方法

参考文献8

二级参考文献100

共引文献94

相关作者

相关机构

相关主题

浏览历史