基于网页文本结构的网页去重被引量：13

Detection and elimination of similar Web pages based on text structure

在线阅读下载PDF

导出

摘要搜索引擎返回的重复网页不但浪费了存储资源,而且加重了用户浏览的负担。针对网页重复的特征和网页文本自身的特点,提出了一种动态的网页去重方法。该方法通过将网页的正文表示成目录结构树的形式,实现了一种动态的特征提取算法和层次指纹的相似度计算算法。实验证明,该方法对全文重复和部分重复的网页都能进行准确的检测。 Similar Web pages that search engine returns not only waste storage resources but also increase the burden on Web users. A dynamic method to detect similar Web pages was proposed. By this method, Texts of Web pages were expressed in the style of catalogue structure trees according to the features of similar Web pages and the features of Web pages themselves. A dynamic algorithm to extract features of texts and a layer fingerprint algorithm to calculate similar degree were implemented. The experimental results show that completely similar Web pages are detected accurately, and partly similar Web pages are detected exactly.

作者魏丽霞郑家恒

机构地区山西大学计算机与信息技术学院

出处《计算机应用》 CSCD 北大核心 2007年第11期2854-2856,共3页 journal of Computer Applications

基金国家自然科学基金资助项目(60473139 60775041) 山西省自然科学基金资助项目(20051034)

关键词层次指纹文本结构网页去重 layer fingerprint text structure detection and elimination of similar Web pages

分类号 TP393.09 [自动化与计算机技术—计算机应用技术]

作者简介魏丽霞（1981-），女，山西繁峙人，硕士研究生，主要研究方向：自然语言处理；（goodwlx@163．com）郑家恒（1948-），女，湖南人，教授，博士生导师，主要研究方向：自然语言处理。

引文网络
相关文献

参考文献7

1中国互联网信息中心.第十九次中国互联网络发展状况统计报告[EB/OL].[2007-05-05].http://www.cnnic.net.cn/index/OE/00/11/index.htm.
2王建勇,谢正茂,雷鸣,李晓明.近似镜像网页检测算法的研究与评价[J].电子学报,2000,28(z1):130-132. 被引量：21
3MANBER U.Finding similar files in a large file system[C/OL]// Proceedings of the Winter 1994 USENIX Technical Conference.1994:1 -10[2007 -05 -10].http://manber.com/publications.html.
4BRIN S,DAVIS J,GARCIA-MOLINA H.Copy detection mechanisms for digital documents[C/OL] // Proceedings of the ACM SICMOD Annual Conference.1995:398-409[2007 -05-10].http://www-db.stanford.edu/pub/brin/1995/copy.ps.
5HEINTZE N.Scalable document fingerprinting[C/OL]//Proceedings of the 2nd USENIX Workshop on Electronic Commerce.1996:191 -200[2007 -05-10].http://www.cs.cmu.edu/afs/cs/user/nch/www/koala/main.html.
6BORDER A Z,GLASSMAN S C,MANASSES M S,et al.Syntactic clustering of the web[C/OL]// Proceedings of the 6th ACM International Conference on World Wide Web.USA:ACM Press,1997:1157 -1166[2007-05-10].http://gatekeeper.research.compaq.com/ pub/DEC/SRC/technical-notes/SRC-1997-015-html/.
7冯是聪,单松巍,龚笔宏,张志刚,李晓明.“天网”目录导航服务研究[J].计算机研究与发展,2004,41(4):653-659. 被引量：8

二级参考文献13

1[1]Narayanan Shivakumar,et al.Finding near-replicas of documents on the web[DB/OL].http://dbpubs.stanford.edu/pub/1998-31.
2[2]J.Liu,M.Lei,J.Wang,and B.Chen.Digging for gold on the web:Experience with the WebGather[A].Proc.of the 4th Inter.Conf.on High Performance Computing in the Asia-Pacific Region[C],Beijing,P.R.China,May 2000:751-755.
3[3]U.Manber.Finding similar files in a large file system[R].Technical Report TR 93-33,University of Arizona,Tuscon,Arizona,October 1993.
4WebInfomallWebsitshttp://net.cs.pku.edu.cn/-webg/infomall/index.html . 2002
5TianwangsearchengineWebsits http://e.pku.edu.cn . 1997
6http://cn.yahoo.com . 2003
7YYang,XLiu.Are examinationoftextcategorizationmethods[].ACMSIGIRConfonResearchandDevelopmentinInformationRetrieval.1999
8FengShicong,ShanSongwei,ZhangZhigongetal.AdatasetofChineseWebpagesanditscategorization[].ProcoftheCross straitInformationTechnologyWorkshop.2002
9YYang,JanOPedersen.Acomparativestudyonfeatureselectionintextcategorization[].ThethInt’’lConfonMachineLearning.1997
10YYang.Astudyonthresholdingstrategiesfortextcategoriza tion[].ACMSIGIRConfonResearchandDevelopmentinInforma tionRetrieval.2001

共引文献27

1张明辉,王成耀,宋威.一种基于段落的分段签名近似镜像新算法[J].情报杂志,2005,24(1):21-23. 被引量：2
2刘华.超大规模分类语料库构建[J].现代图书情报技术,2006(1):71-73. 被引量：6
3谷峰,刘晨曦,吴扬扬.基于序列数据挖掘的中文网页特征选择方法[J].山东大学学报（理学版）,2006,41(3):97-100. 被引量：2
4刘华.网页信息抽取及建库系统C#实现[J].计算机工程,2006,32(16):49-51. 被引量：5
5连浩,刘悦,许洪波,程学旗.改进的基于布尔模型的网页查重算法[J].计算机应用研究,2007,24(2):36-39. 被引量：7
6郭淼霞,吴扬扬.一种利用相邻页面信息修正分类结果的方法[J].福建电脑,2008(4):78-79.
7樊勇,郑家恒.基于主题的网页去重[J].电脑开发与应用,2008,21(4):4-6. 被引量：2
8张曼,李弼程,林琛.基于SHA-1的邮件去重算法[J].计算机工程,2008,34(11):270-272. 被引量：1
9郭淼霞,吴扬扬.基于Web超链接结构信息的网页分类技术研究[J].泉州师范学院学报,2008,26(4):25-29. 被引量：4
10杨申彦,黄青松.网页去重在基于Web企业竞争情报平台中的应用与研究[J].云南民族大学学报（自然科学版）,2008,17(4):380-382.

同被引文献95

1韩正服,杨喜权,张一鸣,丛荣华.基于特征码的大规模XML文档去重研究[J].中国管理信息化（综合版）,2006,9(7):75-77. 被引量：1
2谢蕙,秦杰.基于元搜索的网页消重方法研究[J].计算机系统应用,2008,17(8):94-96. 被引量：5
3姚新波,马治坤.基于特征串的网页去重算法[J].科技信息,2008(28). 被引量：3
4曹传东,郭理.一种基于文本抽取的网页正文去重算法[J].科技信息,2009(1):102-103. 被引量：1
5王哲.基于特征码的网页去重算法研究[J].山东电大学报,2009(1):14-16. 被引量：4
6王建勇,谢正茂,雷鸣,李晓明.近似镜像网页检测算法的研究与评价[J].电子学报,2000,28(z1):130-132. 被引量：21
7张志刚,陈静,李晓明.一种HTML网页净化方法[J].情报学报,2004,23(4):387-393. 被引量：57
8王琦,唐世渭,杨冬青,王腾蛟.基于DOM的网页主题信息自动提取[J].计算机研究与发展,2004,41(10):1786-1792. 被引量：81
9白广慧,连浩,刘悦,程学旗.网页查重技术在企业数据仓库中的应用[J].计算机应用,2005,25(7):1713-1715. 被引量：3
10彭曙蓉,章兢,杨文忠.MD5算法在消除重复网页算法中的应用[J].电脑知识与技术,2005(10):15-16. 被引量：5

引证文献13

1黄仁,冯胜,杨吉云,刘宇,敖民.基于正文结构和长句提取的网页去重算法[J].计算机应用研究,2010,27(7):2489-2491. 被引量：13
2李志义,梁士金.国内网页去重技术研究:现状与总结[J].图书情报工作,2011,55(7):118-121. 被引量：9
3张小娣,宋余庆.基于网页正文逻辑段落和长句提取的网页去重算法[J].图书情报研究,2012,5(2):41-45. 被引量：1
4程芃森,安俊秀.基于特征词群的新闻类重复网页和近似网页识别算法[J].成都信息工程学院学报,2012,27(4):374-379.
5周杨.基于关键长句及正文长度预分类的网页去重算法研究[J].软件导刊,2012,11(10):48-50. 被引量：2
6王景中,郭兆亮.高校道德教育价值的“知识化”取向探微[J].网络安全技术与应用,2012(11):32-35.
7闫俊伢.基于MD5的网页去重算法的设计与研究[J].实验室研究与探索,2013,32(12):105-108. 被引量：1
8杨长春,徐小松,叶施仁,周猛.基于文本相似度的微博网络水军发现算法[J].微电子学与计算机,2014,31(3):82-85. 被引量：11
9王君泽,曾润喜,杜洪涛.基于网页转载关系判别的网络舆情传播态势分析[J].情报杂志,2015,34(1):144-149. 被引量：4
10陈剑,史有群,陶然.近似镜像网页去重方法研究[J].电气工程与自动化（中英文版）,2016,5(2):56-61.

二级引证文献35

1李志义,梁士金.国内网页去重技术研究:现状与总结[J].图书情报工作,2011,55(7):118-121. 被引量：9
2张小娣,宋余庆.基于网页正文逻辑段落和长句提取的网页去重算法[J].图书情报研究,2012,5(2):41-45. 被引量：1
3程芃森,安俊秀.基于特征词群的新闻类重复网页和近似网页识别算法[J].成都信息工程学院学报,2012,27(4):374-379.
4熊忠阳,牙漫,张玉芳.基于网页正文结构和特征串的相似网页去重算法[J].计算机应用,2013,33(2):554-557. 被引量：11
5罗元.网页净化及去重研究综述[J].现代计算机,2013,19(10):3-7. 被引量：1
6李纲,毛进,陈璟浩.基于语义指纹的中文文本快速去重[J].现代图书情报技术,2013(9):41-47. 被引量：5
7丁泽亚,张全.基于编辑距离的网页去重策略[J].网络新媒体技术,2013,2(6):1-7.
8闫俊伢.基于MD5的网页去重算法的设计与研究[J].实验室研究与探索,2013,32(12):105-108. 被引量：1
9高翔,李兵.中文短文本去重方法研究[J].计算机工程与应用,2014,50(16):192-197. 被引量：4
10王君泽,曾润喜,杜洪涛.基于网页转载关系判别的网络舆情传播态势分析[J].情报杂志,2015,34(1):144-149. 被引量：4

1樊勇,郑家恒.基于主题的网页去重[J].电脑开发与应用,2008,21(4):4-6. 被引量：2
2朱正鹏.让每一页都打印出顶端标题行[J].电脑知识与技术（经验技巧）,2008(3):51-51.
3刘驰,闫宏飞.基于元信息的云盘资源检索结果去重[J].山东大学学报（理学版）,2016,51(7):11-17.
4樊勇,郑家恒.网页去重方法研究[J].计算机工程与应用,2009,45(12):141-143. 被引量：7
5黄仁,冯胜,杨吉云,刘宇,敖民.基于正文结构和长句提取的网页去重算法[J].计算机应用研究,2010,27(7):2489-2491. 被引量：13
6黄恩博.基于布隆过滤器的网页搜索去重方法[J].现代计算机,2013,19(14):7-10. 被引量：4
7谢蕙,秦杰,胡双双.基于用户查询关键词的网页去重方法研究[J].现代图书情报技术,2008(7):43-46. 被引量：6
8李林,刘桂峰,赵朋朋,崔志明.结构化信息的去重方法[J].计算机工程,2009,35(3):23-25. 被引量：3
9赵晓永,杨扬,王宁.基于声学指纹的海量MP3文件近似去重方法[J].计算机工程,2013,39(7):73-75. 被引量：2
10贺晟,程家兴,王为为,蔡欣宝.结构化Web数据的自动去重方法[J].计算机应用与软件,2010,27(12):12-14.

计算机应用

2007年第11期

浏览历史

内容加载中请稍等...

基于网页文本结构的网页去重被引量：13

参考文献7

二级参考文献13

共引文献27

同被引文献95

引证文献13

二级引证文献35

相关作者

相关机构

相关主题

浏览历史

基于网页文本结构的网页去重 被引量：13

参考文献7

二级参考文献13

共引文献27

同被引文献95

引证文献13

二级引证文献35

相关作者

相关机构

相关主题

浏览历史

基于网页文本结构的网页去重被引量：13