维文垃圾网页多元线性回归识别研究被引量：1

Research on Uighur Spam Web Page Recognition Based on Multiple Linear Regression

在线阅读下载PDF

导出

摘要本文在对维文垃圾网页特征分析基础上,利用卡方检验方法提取网页特征,并采用最小二乘估计方法,设计了维吾尔文垃圾网页识别模型.为检测不同特征对模型性能的影响,本文分别对网页维文字符个数及关键词进行对比实验.结果表明,在特征包含网页维文字符长度,特征词个数在5～20个之间时,模型识别精确度达90%左右,网页维文字符个数在维吾尔文垃圾网页模型构建中具有重要作用. This paper extracts web page＇s character by chi-squaxe（X2） test based on the analysis of Uighur web page character, and designs Uighur spare web page recognition model in least-square estimation method. To detect different character＇s influence to model＇s performance, this page carried out contrast and experiment using different character such as feature word and web page＇s Uighur char length. The results show that when the character contain Uighur char＇ length and the number of feature words between 5 and 20, the precision of model can reach 90%, and the length of web page＇s Uighur char has an important influence to the model.

作者李永可吴悠张太红冯向萍吴向前

机构地区新疆农业大学计算机与信息工程学院电子科技大学计算机科学与工程学院新疆大学信息科学与工程学院

出处《新疆大学学报（自然科学版）》 CAS 2012年第2期218-222,共5页 Journal of Xinjiang University(Natural Science Edition)

基金自治区高技术研究发展项目(201012112) 自治区电子发展专项资金项目(XJDZZXZJ20109)

关键词维吾尔文文本分类多元回归分析特征提取 Uighur web page identification multiple regression analysis feature extraction

分类号 TP311.11 [自动化与计算机技术—计算机软件与理论]

作者简介李永可（1985-），男，硕士生，从事搜索引擎领域的研究．通讯作者：吴向前，E-mail：wxq@xju．edu．cn

引文网络
相关文献

参考文献17

1贾志洋,李伟伟,张海燕.基于内容的搜索引擎垃圾网页检测[J].计算机应用与软件,2009,26(11):165-167. 被引量：9
2李永可,张太红,冯向萍,陈艳红,马健.中文农业网站多元线性回归识别研究[J].新疆农业大学学报,2011,34(5):442-446. 被引量：6
3茆诗松,程依明,濮晓龙.概率论与数理统计教程[M].北京:高等教育出版社.2009.
4单松巍,冯是聪,李晓明.几种典型特征选取方法在中文网页分类上的效果比较[J].计算机工程与应用,2003,39(22):146-148. 被引量：76
5Soumen Chakrabarti.Web数据挖掘[M].北京:人民邮电出版社,2009,53-137.
6陈丽珍,卡米力.毛依丁.WEB维文信息检索系统中维文的存储和特征项抽取[J].新疆大学学报（自然科学版）,2006,23(1):90-92. 被引量：1
7海丽且木·艾沙,维尼拉·木沙江.网页分类及其维文信息检索中的应用研究[J].电脑知识与技术,2011,7(1):192-193. 被引量：2
8吐尔地.托合提,维尼拉.木沙江,艾斯卡尔.艾木都拉.维、哈、柯全文搜索引擎检索器的关键技术[J].计算机工程,2008,34(21):45-47. 被引量：4
9丛帅,张积宾,徐志明,王宇颖.Feature selection algorithm for text classification based on improved mutual information[J].Journal of Harbin Institute of Technology(New Series),2011,18(3):144-148. 被引量：1
10Yiming yang, Jan O Pedersen. A comparative Study on Feature Selection in text Categorization In:Proceeding of the Fourteenth International[C].Conference on Machine Learning ICML(97),1997,2-6.

二级参考文献35

1古丽拉.阿东别克,米吉提.阿布力米提.维吾尔语词切分方法初探[J].中文信息学报,2004,18(6):61-65. 被引量：39
2吴俊森,吐尔根.依不拉音.基于内容的维文文本检索系统[J].现代计算机,2006,12(10):90-92. 被引量：2
3冯是聪单松巍张志刚等.一个中文网页数据集及其分类体系[A]..海峡两岸技术交流会[C].南京,2002-10.121-129.
4Jansen B ,Spink A. An Analysis of web documents retrieved and viewed [ C ]//Proceedings of ICIC '03. Las Vegas, Nevada, USA,2003 : 65 - 69.
5Ntoulas A, Najork M, Manasse M. Detecting spam web pages through content analysis[ C ]//Proceedings of the 15th International Conference on World Wide Web. Edinburgh, Scotland,2006 : 83 - 92.
6Gyongyi Z, Molina H. Web spam taxonomy [ C]//Proceedings of the 1 st International Workshop on Adversarial Information Retrieval on the Web. Chiba, Japan,2005 : 39 - 47.
7Brin S, Page L. The anatomy of a large-scale hypertextual web search engine[ C ]//Proceedings of the Seventh International Conference on World Wide Web. Brisbane, Australia, 1998 : 107 - 117.
8Bianchini M,Gori M, Scarselli F. Inside PageRank [ J ]. ACM transactions on Internet Technology,2005,5( 1 ) :92 - 128.
9Fetterly D, Manasse M, Najork M. Spam, damn spam, and statistics : using statistical analysis to locate spam web pages [ C ]//Proceedings of the Seventh International Workshop on the Web and Databases. Paris, France ,2004 : 1 - 6.
10Stilton G, McGill M. Introduction to modem information retrieval [ M ]. New York : McGraw-Hill Inc, 1986.

共引文献96

1张培颖.基于Web内容和日志挖掘的个性化网页推荐系统[J].计算机系统应用,2008,17(9):9-11. 被引量：6
2高博,朱东华,韩士雄.一种智能化的信息采集系统的研究与实现[J].兵工学报,2009,30(S1):130-134. 被引量：3
3陈淑珍.Web文本挖掘中的特征表示与特征提取技术[J].三明高等专科学校学报,2004,21(2):53-57. 被引量：2
4江祥奎,原思聪.中文网页分类中的网页特征提取方法[J].电脑开发与应用,2005,18(10):27-28. 被引量：1
5马光志,张生庭.基于关联规则的Web文档分类[J].计算机工程与设计,2005,26(9):2515-2518. 被引量：8
6薛为民,陆玉昌.文本挖掘技术研究[J].北京联合大学学报,2005,19(4):59-63. 被引量：63
7付雪峰,刘邱云,王明文.基于互信息的粗糙集信息检索模型[J].山东大学学报（理学版）,2006,41(3):17-19. 被引量：2
8谭金波,黄峰,杨晓江,李艺.一种改进的互信息特征选择算法[J].情报学报,2006,25(6):651-656. 被引量：7
9段军峰,黄维通,陆玉昌.中文网页分类研究与系统实现[J].计算机科学,2007,34(6):210-213. 被引量：12
10付雪峰,刘邱云.不确定性推理在文本分类上的应用研究[J].江西师范大学学报（自然科学版）,2007,31(4):383-386. 被引量：3

同被引文献7

1贾志洋,李伟伟,张海燕.基于内容的搜索引擎垃圾网页检测[J].计算机应用与软件,2009,26(11):165-167. 被引量：9
2岑荣伟,刘奕群,张敏,茹立云,马少平.基于日志挖掘的搜索引擎用户行为分析[J].中文信息学报,2010,24(3):49-54. 被引量：32
3张晓宇,吴向前,张平洋.农业网站中垃圾网页过滤方法的研究[J].网络安全技术与应用,2011(1):55-57. 被引量：2
4贾志洋,李伟伟,高炜,夏幼明.基于支持向量机的搜索引擎垃圾网页检测研究[J].云南民族大学学报（自然科学版）,2011,20(3):173-176. 被引量：5
5贾志洋,崔博文,王勇刚,石宜金.搜索引擎垃圾网页技术分析[J].情报探索,2011(7):94-96. 被引量：2
6王莉丽,朱焱,马永强.基于朴素贝叶斯的伪装型垃圾网页检测[J].计算机应用,2013,33(A01):102-103. 被引量：4
7杨凡,朱焱,唐寿洪.基于免疫克隆选择算法的垃圾网页检测[J].计算机应用与软件,2015,32(6):20-23. 被引量：1

引证文献1

1李驰,李林.搜索引擎应对垃圾网页的技术研究[J].电脑知识与技术（过刊）,2015,21(9X):20-22.

1阿丽亚·艾尔肯,哈力旦·阿布都热依木.KNN和SVM分类器对维吾尔文文本分类性能的比较研究[J].新疆大学学报（自然科学维文版）,2015,36(2):59-65. 被引量：1
2阿力木江.艾沙,吐尔根.依布拉音,库尔班.吾布力,艾山.吾买尔.基于SVM的维吾尔文文本分类研究[J].计算机工程与科学,2012,34(12):150-154. 被引量：11
3阿力木江.艾沙,吐尔根.依布拉音,库尔班.吾布力,瓦依提.阿不力孜,艾山.吾买尔.基于类别分布差异和特征熵的维吾尔语文本特征选择[J].计算机应用研究,2013,30(10):2958-2961. 被引量：5
4何燕,哈力旦.阿布都热依木,阿丽亚.艾尔肯,吴冰冰.一种新的维吾尔文文本分类特征选择方法[J].河南科技大学学报（自然科学版）,2016,37(3):42-46. 被引量：1
5于达仁,鲍文,王广雄.一种新的摩擦力最小二乘估计方法[J].哈尔滨工业大学学报,1999,31(1):35-37.
6阿力木江·艾沙,吐尔根·依布拉音,艾山·吾买尔,马尔哈巴·艾力.基于机器学习的维吾尔文文本分类研究[J].计算机工程与应用,2012,48(5):110-112. 被引量：20
7阿力木江·艾沙,吐尔根·依布拉音,库尔班·吾布力,李哲.基于短语的维吾尔文文本分类[J].计算机应用,2012,32(10):2923-2926. 被引量：5
8陈洋,哈力旦.阿布都热依木,伊力亚尔.达吾提,亚力青.阿里玛斯.基于加权改进贝叶斯算法的维吾尔文文本分类[J].计算机工程与设计,2014,35(6):1999-2003. 被引量：5
9董瑞,周喜.面向维吾尔文不平衡数据分类的特征选择方法[J].计算机工程与设计,2013,34(1):349-352. 被引量：3
10阿丽亚.艾尔肯,哈力旦.阿布都热依木,何燕,吴冰冰.基于深度置信网络的维吾尔文垃圾短信分类技术研究[J].计算机工程与科学,2016,38(10):2134-2139. 被引量：6

新疆大学学报（自然科学版）

2012年第2期

浏览历史

内容加载中请稍等...

维文垃圾网页多元线性回归识别研究被引量：1

参考文献17

二级参考文献35

共引文献96

同被引文献7

引证文献1

相关作者

相关机构

相关主题

浏览历史

维文垃圾网页多元线性回归识别研究 被引量：1

参考文献17

二级参考文献35

共引文献96

同被引文献7

引证文献1

相关作者

相关机构

相关主题

浏览历史

维文垃圾网页多元线性回归识别研究被引量：1