-
题名一种提高Web信息检索精度的分段检索方法
被引量:2
- 1
-
-
作者
宋睿华
马少平
张敏
-
机构
清华大学计算机系智能技术与系统国家重点实验室
-
出处
《广西师范大学学报(自然科学版)》
CAS
2003年第A01期151-155,共5页
-
基金
国家重点基础研究基金资助项目(973)(G1998030509)
自然科学基金资助项目(69836040)
-
文摘
在Web上存在一些长文档,它们包含着多个子主题,如果把这样的文档分成段,每个段的内容只围绕一个主题,将会提高检索质量.阐述了使用HTML结构中带有语义特征的标记来将多主题的文档分成段,在此基础上,对10G规模的Web数据实现了分段检索的方法,并通过使用TREC-9的查询做实验,比较了分段检索方法和传统的文档检索方法的检索质量.实验结果显示,在多主题文档集上分段检索方法比文档检索方法的11点平均准确率提高了大约9%,而在所有文档集上分段检索比文档检索提高了大约1.6%.分析发现,分段检索方法可以明显改善结果的排序,而且实际检索质量提高的幅度比现有的评价结果显示的更显著.
-
关键词
信息检索
分段检索
Web数据
HTML结构
-
Keywords
information retrieval
passage retrieval
Web data
HTML structure
-
分类号
TP391.3
[自动化与计算机技术—计算机应用技术]
-