期刊导航
期刊开放获取
上海教育软件发展有限公..
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
基于特征码的网页去重算法研究
被引量:
4
在线阅读
下载PDF
职称材料
导出
摘要
本文探讨了数据挖掘和搜索引擎的理论框架,以去除内容重复的冗余网页为研究目标,分析了搜索引擎工作原理,讨论了现有的去重算法。给出了一种基于特征码的网页去重算法,并采用二叉排序树实现了算法。实验证明算法有着较高的去重准确率、召回率,达到了对算法的预期。
作者
王哲
机构地区
济南广播电视大学
出处
《山东电大学报》
2009年第1期14-16,共3页
Journal of Shandong TV University
关键词
数据挖掘
搜索引擎
网页去重
分类号
TP393.092 [自动化与计算机技术—计算机应用技术]
引文网络
相关文献
节点文献
二级参考文献
14
参考文献
3
共引文献
72
同被引文献
30
引证文献
4
二级引证文献
6
参考文献
3
1
张永奎,张彦,安增波,刘睿.
Web新闻语料分词和标注错误分析[J]
.计算机工程与应用,2007,43(15):166-169.
被引量:4
2
杨柳,袁方,霍亮.
基于渐进式丰富词典的分词方法研究[J]
.计算机工程与应用,2006,42(32):164-166.
被引量:1
3
欧健文,董守斌,蔡斌.
模板化网页主题信息的提取方法[J]
.清华大学学报(自然科学版),2005,45(S1):1743-1747.
被引量:70
二级参考文献
14
1
荆涛,左万利.
基于可视布局信息的网页噪音去除算法[J]
.华南理工大学学报(自然科学版),2004,32(z1):84-87.
被引量:22
2
陈小荷.
自动分词中未登录词问题的一揽子解决方案[J]
.语言文字应用,1999(3):103-109.
被引量:26
3
张志刚,陈静,李晓明.
一种HTML网页净化方法[J]
.情报学报,2004,23(4):387-393.
被引量:57
4
常育红,姜哲,朱小燕.
基于标记树表示方法的页面结构分析[J]
.计算机工程与应用,2004,40(16):129-132.
被引量:24
5
张磊,周明,黄昌宁,潘海华.
中文文本自动校对[J]
.语言文字应用,2001(1):19-26.
被引量:23
6
张虎,郑家恒,刘江.
汉语语料库词性标注自动校对方法研究[J]
.计算机应用,2005,25(1):17-19.
被引量:1
7
费洪晓,康松林,朱小娟,谢文彪.
基于词频统计的中文分词的研究[J]
.计算机工程与应用,2005,41(7):67-68.
被引量:68
8
吴胜远.
一种汉语分词方法[J]
.计算机研究与发展,1996,33(4):306-311.
被引量:49
9
黄昌宁 李娟子.语料库语言学[M].北京:商务印书馆,2002.115-120.
10
张华平,刘群.汉语词法分析系统.北京:中国科学院计算技术研究所,2002.
共引文献
72
1
郑长松,傅彦,佘莉.
基于模板的Web信息自动提取方法[J]
.计算机应用研究,2009,26(2):570-572.
被引量:10
2
许文,都云程,李渝勤,施水才.
一种通用HTML网页主题信息提取方法[J]
.现代图书情报技术,2007(1):40-43.
被引量:11
3
刘晨曦,吴扬扬.
一种基于块分析的网页去噪音方法[J]
.广西师范大学学报(自然科学版),2007,25(2):149-152.
被引量:8
4
冯少卿,都云程.
网页结构模板生成新方法研究[J]
.北京机械工业学院学报,2007,22(3):15-19.
被引量:2
5
张恒,屈景辉,张亮.
网页文本信息提取及结果评价[J]
.微计算机应用,2007,28(9):921-924.
被引量:10
6
时达明,林鸿飞,杨志豪.
基于网页框架和规则的网页噪音去除方法[J]
.计算机工程,2007,33(19):276-278.
被引量:17
7
王建冬,王继民,田飞佳.
一种基于内容规则的网页去噪算法[J]
.现代图书情报技术,2008(3):51-54.
被引量:4
8
时达明,林鸿飞,赵晶.
基于模板化的Blog信息抽取[J]
.计算机工程与应用,2008,44(9):156-158.
被引量:5
9
万乐,左万利,高金.
基于主题的网页噪音去除机制[J]
.计算机工程与设计,2008,29(8):2072-2074.
被引量:8
10
孙桂煌,刘发升.
基于正文特征的网页正文信息提取方法[J]
.现代计算机,2008,14(9):34-38.
被引量:5
同被引文献
30
1
姚新波,马治坤.
基于特征串的网页去重算法[J]
.科技信息,2008(28).
被引量:3
2
曹传东,郭理.
一种基于文本抽取的网页正文去重算法[J]
.科技信息,2009(1):102-103.
被引量:1
3
王建勇,谢正茂,雷鸣,李晓明.
近似镜像网页检测算法的研究与评价[J]
.电子学报,2000,28(z1):130-132.
被引量:21
4
彭曙蓉,章兢,杨文忠.
MD5算法在消除重复网页算法中的应用[J]
.电脑知识与技术,2005(10):15-16.
被引量:5
5
高凯,王永成,肖君.
网页去重策略[J]
.上海交通大学学报,2006,40(5):775-777.
被引量:13
6
杨文忠,章兢.
用信息-摘要算法提高Web信息检索效率的研究[J]
.计算机技术与发展,2006,16(6):222-223.
被引量:3
7
刘艳敏,刘飚,封化民,宋国森,方勇.
Web页面主题信息抽取研究与实现[J]
.计算机工程与应用,2006,42(21):146-148.
被引量:11
8
连浩,刘悦,许洪波,程学旗.
改进的基于布尔模型的网页查重算法[J]
.计算机应用研究,2007,24(2):36-39.
被引量:7
9
SHIVAKUMAR N,GARCIA M H.Finding near-replicas of documents on the Web[C]//WebDW98.Berlin Heidelberg:SpringerVerlag,1999:204-212.
10
孔索然,黄萱菁.基于模糊匹配思想的网页去重算法[D].上海:复旦大学,2006.
引证文献
4
1
张京阳,张华平,刘金刚.
基于聚团词的大规模文本转载识别算法[J]
.计算机应用,2010,30(6):1661-1663.
被引量:2
2
张小娣,宋余庆.
基于网页正文逻辑段落和长句提取的网页去重算法[J]
.图书情报研究,2012,5(2):41-45.
被引量:1
3
汤立,李雪山.
基于Web-Harvest的Web铁路信息采集系统的设计与应用[J]
.铁路计算机应用,2013,22(3):41-44.
被引量:2
4
闫俊伢.
基于MD5的网页去重算法的设计与研究[J]
.实验室研究与探索,2013,32(12):105-108.
被引量:1
二级引证文献
6
1
吴涛,张方方.
基于特征选择的多侧面覆盖算法[J]
.计算机应用,2011,31(5):1318-1320.
被引量:4
2
施侃晟,刘海涛,白英彩,宋文涛,周书勇.
便于快速信息融合的主题检测算法[J]
.电子科技大学学报,2012,41(6):890-892.
被引量:1
3
闫俊伢.
基于MD5的网页去重算法的设计与研究[J]
.实验室研究与探索,2013,32(12):105-108.
被引量:1
4
常丽君,钱钢.
面向不规则列表的网页数据抽取技术的研究[J]
.计算机应用研究,2015,32(9):2651-2654.
被引量:1
5
刘驰,闫宏飞.
基于元信息的云盘资源检索结果去重[J]
.山东大学学报(理学版),2016,51(7):11-17.
6
李雪山,郭肖肖,姚冬冬.
轨道交通知识服务平台暨数字图书馆的设计与实现[J]
.铁路计算机应用,2019,28(3):42-45.
被引量:6
1
吴平博,陈群秀,马亮.
基于特征串的大规模中文网页快速去重算法研究[J]
.中文信息学报,2003,17(2):28-35.
被引量:41
2
王一.
SEO优化策略在网站中的应用[J]
.信息系统工程,2015,0(6):36-36.
3
王玉芳,毛晓菊,桑健.
搜索引擎工作原理浅析[J]
.中国电子商务,2010(9):81-82.
4
张艳.
基于专业搜索引擎的网页去重技术研究[J]
.软件导刊,2012,11(4):138-141.
5
刘卓.
相同内容重复巧输入[J]
.电脑爱好者,2012(9):51-51.
被引量:1
6
王姣,徐海霞.
搜索引擎工作原理再探究[J]
.电脑知识与技术,2016,0(9):165-166.
被引量:4
7
徐娜,刘四维,汪翔,倪卫明.
基于Bloom Filter的网页去重算法[J]
.微型电脑应用,2011(3):48-51.
被引量:6
8
周小平,黄家裕,刘连芳,梁一平,申文明.
基于网页正文主题和摘要的网页去重算法[J]
.广西科学院学报,2009,25(4):251-253.
被引量:5
9
张玉连,王莎莎,宋桂江.
基于元搜索的网页去重算法[J]
.燕山大学学报,2011,35(2):121-123.
被引量:2
10
古丽萍.
完善中的搜索引擎及其发展[J]
.北京电子,2004(7):45-48.
山东电大学报
2009年 第1期
职称评审材料打包下载
相关作者
内容加载中请稍等...
相关机构
内容加载中请稍等...
相关主题
内容加载中请稍等...
浏览历史
内容加载中请稍等...
;
用户登录
登录
IP登录
使用帮助
返回顶部