基于网页挖掘的网页作弊检测技术

Overview of Web Page Cheating Detection Technology

在线阅读下载PDF

导出

摘要搜索引擎模仿了社会网络研究的技术,在商业上取得了收益.商业机构为了经济利益,利用网页作弊获得较高的用户点击率.网页作弊严重影响用户获取的信息,浪费了用户时间.采用数据挖掘技术来发现网页中的作弊方法,包括基于内容的网页作弊、基于链接的网页作弊和基于隐藏技术的网页作弊.借助常规统计和语言特征分析,分析了基于内容的网页作弊检测技术;通过比较3种典型的基于网页排名的算法,即TrustRank算法、类似BadRank算法和Truncated PageRank算法的区别,分析了基于链接的网页作弊检测技术,从基于搜索引擎的访问率、源网页概率和短期导航率着手,分析了基于用户行为的网页作弊检测技术. The search engine imitates the social network research technology,has obtained huge profits in business.In the pursuit of economic interest,commercial organizations obtain the high user click rate by using web page cheating.Web Page cheating seriously affects users’access to information and wastes their time.Data mining is used to discover the cheating types in web pages,including content-based cheating,link-based cheating and hiding-based cheating.With the help of conventional statistical analysis and linguistic feature analysis,this paper analyzes the technology of web page cheating detection based on link;by comparing three typical Algorithms based on Web page rank,namely TrustRank Algorithm,similar BadRank algorithm and Truncated PageRank algorithm,this paper analyzes the content-based web page cheating detection technology;starting with the visit rate,source page probability and short-term navigation rate of search engine,the technology of web page cheating detection based on user behavior is analyzed.

作者焉凯聂韶华 YAN Kai;NIE Shao-hua(Department of Information Engineering,Laiwu Vocational and Technical College,Jinan 271100,Shandong,China;College of Education,Linyi University,Linyi 276000,Shandong,China)

机构地区莱芜职业技术学院信息工程系临沂大学教育学院

出处《韶关学院学报》 2020年第9期18-23,共6页 Journal of Shaoguan University

基金山东省高等学校实验技术研究项目(2018-494).

关键词网页作弊搜索引擎网页作弊分类作弊检测技术 web page cheating search engine cheating web page cheating classification cheating detection

分类号 TP393.0 [自动化与计算机技术—计算机应用技术]

作者简介焉凯(1972-),男,山东济南人,莱芜职业技术学院信息工程系副教授,硕士,研究方向:数据挖掘及数据库安全.

引文网络
相关文献

参考文献1

1张瑾.基于改进TF-IDF算法的情报关键词提取方法[J].情报杂志,2014,33(4):153-155. 被引量：65

二级参考文献7

1曾元显.关键词自动提取技术与相关词反馈.中国图书馆学报,1997,.
2李原.中文文本分类中分词和特征选择方法研究[D].长春:吉林大学,2011.
3Gerard Salton, Christopher Buckley. Term-weighting Approaches iu Automatic Text Retrieval [ J ]. Information Processing & Man- agement, 1988, 24(5 ) :513-523.
4章成志.自动标引研究的回顾与展望[J].现代图书情报技术,2007(11):33-39. 被引量：40
5沈志斌,白清源.文本分类中特征权重算法的改进[J].南京师范大学学报（工程技术版）,2008,8(4):95-98. 被引量：14
6张瑜,张德贤.一种改进的特征权重算法[J].计算机工程,2011,37(5):210-212. 被引量：20
7苏丹,周明全,王学松,任玉芝.一种基于最少出现文档频的文本特征提取方法[J].计算机工程与应用,2012,48(10):164-166. 被引量：6

共引文献64

1李建平.手法治疗骶髂关节错缝52例[J].按摩与导引,2000,16(3):52-53.
2郝晋清,王珺.主题-时序视域下中国图书馆学会年会主题分布及演化分析[J].图书情报工作,2019,63(2):107-119. 被引量：8
3郭伟光,汪本强,杨学春.基于改进K-medoids的社会化标注资源两阶段聚类研究[J].情报杂志,2015,34(2):159-163. 被引量：2
4方康,韩立新.基于HMM的加权Textrank单文档的关键词抽取算法[J].信息技术,2015,39(4):114-116. 被引量：12
5王茜,习磊.基于行业分布的企业网络信息安全威胁及对策研究[J].价值工程,2015,34(20):50-53.
6胡琪,郝晓燕,张兴忠,陈耀文.关键词抽取策略研究[J].太原理工大学学报,2016,47(2):228-232. 被引量：5
7蒙杰,杨生举,施韶亭.基于文本挖掘的科研项目管理辅助决策系统研究与实现[J].计算机应用与软件,2016,33(9):24-26. 被引量：9
8贺科达,朱铮涛,程昱.基于改进TF-IDF算法的文本分类方法研究[J].广东工业大学学报,2016,33(5):49-53. 被引量：24
9王亚民,胡悦.基于BTM的微博舆情热点发现[J].情报杂志,2016,35(11):119-124. 被引量：29
10段旭磊,张仰森,李超逸.基于科技文献库的领域专家群发现及其推荐方法[J].北京信息科技大学学报（自然科学版）,2016,31(6):23-27. 被引量：1

1刘馨蔚.中日博览会彰显后疫情时代企业合作意愿强烈[J].中国对外贸易,2020(11):64-65. 被引量：1
2夏晴云.从马克思主义视角分析抖音短视频的广告植入现象[J].市场周刊,2020,33(10):71-73.
3李颖.“高仿”微信公众号幕后的黑产业链[J].中国质量万里行,2020(10):22-23.
4于林轩,李业丽,曾庆涛.PageRank算法在主题网络爬虫中的应用[J].北京印刷学院学报,2020,28(10):143-147. 被引量：1
5张骏,张立森.网络平台市场支配地位的认定[J].华侨大学学报（哲学社会科学版）,2020(5):101-112. 被引量：14
6Lorenzo Zaninetti.New Probability Distributions in Astrophysics: III. The Truncated Maxwell-Boltzmann Distribution[J].International Journal of Astronomy and Astrophysics,2020,10(3):191-202. 被引量：1
7Serdar Beji.Resolution of Grandi’s Paradox as Extended to Complex Valued Functions[J].Advances in Pure Mathematics,2020,10(8):447-463. 被引量：2
8蔡顾浩,顾海燕,高红,徐冠华,孙丽.老年骨质疏松性椎体骨折患者医院-家庭过渡期用药差异及其影响因素研究[J].中国全科医学,2020,23(36):4640-4644. 被引量：14
9童曼琪,黄江升,郭昆.融合Spark与隐性兴趣的用户综合影响力度量[J].计算机工程,2020,46(11):61-69. 被引量：1
10陆高峰.从货郎挑子到直播带货:网红营销历史与发展的冷思考[J].新闻论坛,2020,34(5):11-14. 被引量：2

韶关学院学报

2020年第9期

浏览历史

内容加载中请稍等...

基于网页挖掘的网页作弊检测技术

参考文献1

二级参考文献7

共引文献64

相关作者

相关机构

相关主题

浏览历史