-
题名一种提高中文搜索引擎检索质量的HTML解析方法
被引量:20
- 1
-
-
作者
宋睿华
马少平
陈刚
李景阳
-
机构
清华大学计算机科学与技术系
-
出处
《中文信息学报》
CSCD
北大核心
2003年第4期19-26,共8页
-
基金
国家重点基础研究资助项目 (973) (G19980 30 5 0 9)
自然科学基金资助项目 (6 0 2 2 30 0 4 )
86 3高科技资助项目 (2 0 0 1AA114 0 82 )
-
文摘
中文搜索引擎经常会返回大量的无关项或者不含具体信息的间接项 ,产生这类问题的一个原因是网页中存在着大量与主题无关的文字。对使用关键字检索方法的搜索引擎来说 ,想在检索或者后处理阶段解决这类问题不仅要付出一定代价 ,而且在大多数情况下是不可能的。在这篇论文中 ,我们提出了网页噪声的概念 ,并针对中文网页的特点 ,实现了一种对网页自动分块并去噪的HTML解析方法 ,从而达到在预处理阶段消除潜在无关项和间接项的目的。实验结果表明 ,该方法能够在不占用查询时间的前提下 10 0 %地消除中文搜索引擎隐藏的间接项 ,以及大约 11%的无法过滤或隐藏的无关项或间接项 ,从而大幅度提高检索结果的查准率。
-
关键词
中文搜索引擎
检索质量
html解析方法
网页噪声
分块模型
网页去噪
中文信息处理
-
Keywords
computer application
Chinese information processing
html parser
noise filtering
block model
search engine
-
分类号
TP391.3
[自动化与计算机技术—计算机应用技术]
TP393.092
[自动化与计算机技术—计算机应用技术]
-