期刊文献+

维文垃圾网页多元线性回归识别研究 被引量:1

Research on Uighur Spam Web Page Recognition Based on Multiple Linear Regression
在线阅读 下载PDF
导出
摘要 本文在对维文垃圾网页特征分析基础上,利用卡方检验方法提取网页特征,并采用最小二乘估计方法,设计了维吾尔文垃圾网页识别模型.为检测不同特征对模型性能的影响,本文分别对网页维文字符个数及关键词进行对比实验.结果表明,在特征包含网页维文字符长度,特征词个数在5~20个之间时,模型识别精确度达90%左右,网页维文字符个数在维吾尔文垃圾网页模型构建中具有重要作用. This paper extracts web page's character by chi-squaxe(X2) test based on the analysis of Uighur web page character, and designs Uighur spare web page recognition model in least-square estimation method. To detect different character's influence to model's performance, this page carried out contrast and experiment using different character such as feature word and web page's Uighur char length. The results show that when the character contain Uighur char' length and the number of feature words between 5 and 20, the precision of model can reach 90%, and the length of web page's Uighur char has an important influence to the model.
出处 《新疆大学学报(自然科学版)》 CAS 2012年第2期218-222,共5页 Journal of Xinjiang University(Natural Science Edition)
基金 自治区高技术研究发展项目(201012112) 自治区电子发展专项资金项目(XJDZZXZJ20109)
关键词 维吾尔文文本分类 多元回归分析 特征提取 Uighur web page identification multiple regression analysis feature extraction
作者简介 李永可(1985-),男,硕士生,从事搜索引擎领域的研究. 通讯作者:吴向前,E-mail:wxq@xju.edu.cn
  • 相关文献

参考文献17

二级参考文献35

  • 1古丽拉.阿东别克,米吉提.阿布力米提.维吾尔语词切分方法初探[J].中文信息学报,2004,18(6):61-65. 被引量:39
  • 2吴俊森,吐尔根.依不拉音.基于内容的维文文本检索系统[J].现代计算机,2006,12(10):90-92. 被引量:2
  • 3冯是聪 单松巍 张志刚 等.一个中文网页数据集及其分类体系[A]..海峡两岸技术交流会[C].南京,2002-10.121-129.
  • 4Jansen B ,Spink A. An Analysis of web documents retrieved and viewed [ C ]//Proceedings of ICIC '03. Las Vegas, Nevada, USA,2003 : 65 - 69.
  • 5Ntoulas A, Najork M, Manasse M. Detecting spam web pages through content analysis[ C ]//Proceedings of the 15th International Conference on World Wide Web. Edinburgh, Scotland,2006 : 83 - 92.
  • 6Gyongyi Z, Molina H. Web spam taxonomy [ C]//Proceedings of the 1 st International Workshop on Adversarial Information Retrieval on the Web. Chiba, Japan,2005 : 39 - 47.
  • 7Brin S, Page L. The anatomy of a large-scale hypertextual web search engine[ C ]//Proceedings of the Seventh International Conference on World Wide Web. Brisbane, Australia, 1998 : 107 - 117.
  • 8Bianchini M,Gori M, Scarselli F. Inside PageRank [ J ]. ACM transactions on Internet Technology,2005,5( 1 ) :92 - 128.
  • 9Fetterly D, Manasse M, Najork M. Spam, damn spam, and statistics : using statistical analysis to locate spam web pages [ C ]//Proceedings of the Seventh International Workshop on the Web and Databases. Paris, France ,2004 : 1 - 6.
  • 10Stilton G, McGill M. Introduction to modem information retrieval [ M ]. New York : McGraw-Hill Inc, 1986.

共引文献96

同被引文献7

引证文献1

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部