期刊文献+

基于自适应特征词的微博噪音过滤方法

Microblog Noise Filtering Method Based on Self-adaptive Characteristics
在线阅读 下载PDF
导出
摘要 微博噪音过滤具有去除垃圾样本、降低数据规模等作用。利用聚类算法产生噪音种子词,在未标注数据上采用FP-Growth算法对种子词扩展,生成噪音特征词词典,结合用户和内容特征,引入支持向量机模型用于噪音微博过滤。实验结果正确率为84%,召回率为79%,F1值为81%,证明该模型产生的噪音特征词有助于提升微博过滤的效果。 Microblog noise filtering can remove garbage samples and reduce data scale.The noise seed words are generated by the clustering algorithm.FP-Growth algorithm is used to expand the seed words on unlabeled data to generate a noise feature word dictionary.Combining user and content characteristics,the support vector machine model is introduced to filter noise microblogs.The experimental results shows that the precision is 84%,the recall is 79%,the F1 value is 81%,which proves that the noise char-acteristics generated by the model can help to improve the filtering effect of microblog.
作者 张晓瑜 高扬 苗星星 祝永霞 ZHANG Xiaoyu;GAO Yang;MIAO Xingxing;ZHU Yongxia(No.32317 Troops of PLA,Urumqi 830000;No.32319 Troops of PLA,Urumqi 830000;The Army Border Sea Defense Academy of PLA,Urumqi 830000)
出处 《计算机与数字工程》 2024年第2期496-501,共6页 Computer & Digital Engineering
关键词 微博 自适应 噪音特征词 支持向量机 microblog self-adaptive noise characteristics SVM
作者简介 张晓瑜,男,硕士研究生,工程师,研究方向:计算机网络、信息检索;高扬,男,硕士研究生,工程师,研究方向:网络新媒体、信息安全;苗星星,男,助理工程师,研究方向:观点挖掘与网络舆情分析;祝永霞,女,硕士研究生,工程师,研究方向:自然语言处理。
  • 相关文献

参考文献8

二级参考文献100

  • 1胡恬,夏迎炬,黄萱菁,吴立德.基于向量空间模型的Web中文信息过滤系统[J].计算机工程,2003,29(z1):25-26. 被引量:6
  • 2王元珍,钱铁云,冯小年.基于关联规则挖掘的中文文本自动分类[J].小型微型计算机系统,2005,26(8):1380-1383. 被引量:13
  • 3樊兴华,孙茂松.一种高性能的两类中文文本分类方法[J].计算机学报,2006,29(1):124-131. 被引量:70
  • 4赵丰年,刘林,商建云.基于概念的文本过滤模型[J].计算机工程与应用,2006,42(4):186-188. 被引量:11
  • 5Jansen B ,Spink A. An Analysis of web documents retrieved and viewed [ C ]//Proceedings of ICIC '03. Las Vegas, Nevada, USA,2003 : 65 - 69.
  • 6Ntoulas A, Najork M, Manasse M. Detecting spam web pages through content analysis[ C ]//Proceedings of the 15th International Conference on World Wide Web. Edinburgh, Scotland,2006 : 83 - 92.
  • 7Gyongyi Z, Molina H. Web spam taxonomy [ C]//Proceedings of the 1 st International Workshop on Adversarial Information Retrieval on the Web. Chiba, Japan,2005 : 39 - 47.
  • 8Brin S, Page L. The anatomy of a large-scale hypertextual web search engine[ C ]//Proceedings of the Seventh International Conference on World Wide Web. Brisbane, Australia, 1998 : 107 - 117.
  • 9Bianchini M,Gori M, Scarselli F. Inside PageRank [ J ]. ACM transactions on Internet Technology,2005,5( 1 ) :92 - 128.
  • 10Fetterly D, Manasse M, Najork M. Spam, damn spam, and statistics : using statistical analysis to locate spam web pages [ C ]//Proceedings of the Seventh International Workshop on the Web and Databases. Paris, France ,2004 : 1 - 6.

共引文献94

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部