-
题名基于主题词对的文档重排方法
被引量:2
- 1
-
-
作者
何婷婷
许婷
瞿国忠
涂新辉
-
机构
华中师范大学计算机科学系
教育部教育信息技术工程研究中心
-
出处
《计算机工程与应用》
CSCD
北大核心
2007年第11期161-163,共3页
-
基金
国家自然科学基金(the National Natural Science Foundation of China under Grant No.60442005
No.60673040)
+1 种基金
国家社科基金(No.06BYY029)
教育部科学技术研究重点项目(No.105117)。
-
文摘
提出了一种基于主题词对的文档重排方法,使得检索结果在保持召回率的前提下提高精确率。主题词对意指能够共同表征同一主题的两个词语,其中一个来自于查询,另一个来自于文档,两者之间具有紧密的联系。主题词对的选择采用概率潜在语义索引的方法,并根据主题词对在文档中的分布状况对其进行重排。对NTCIR-5中文信息检索的文档集合进行测试,采用trec标准评估方法,结果表明采用该方法使得精确率在rigid和relax结果集上分别提高了53.6%和55.8%。
-
关键词
主题词对
概率潜在语义索引
文档重排
-
Keywords
topic word pair
Probabilistic Latent Semantic Indexing (PLSI)
document re-ranking
-
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
-
-
题名基于团模型的文档重排算法研究
被引量:2
- 2
-
-
作者
付剑波
王明文
罗远胜
张华伟
-
机构
江西财经大学信息管理学院
江西师范大学计算机信息工程学院
江西财经大学现代教育技术中心
-
出处
《中文信息学报》
CSCD
北大核心
2009年第1期71-78,共8页
-
基金
国家自然科学基金资助项目(60663007)
江西省科技攻关项目(20062184)
+1 种基金
江西省教育厅科技项目(20072129)
江西省自然科学基金资助项目(2007GZS2168)
-
文摘
为了满足用户对信息检索结果准确不断提高的需求,尽可能应用那些与查询及检索结果有关的信息进行查询结果优化是一种有效的手段。查询扩展和结果重排就是利用附加信息进行检索结果优化的方法。该文提出了基于文档团的文档重排模型(DCRM模型),此模型通过对文档集的学习,构造文档与文档关系的Markov网络,提取出文档Markov网络中的"文档团",应用文档团信息进行文档重排。在adi、cacm、med、cisi和cran五个数据集上的实验结果表明,本文提出的基于文档团的文档重排模型较BM25模型性能得到有效提高。
-
关键词
计算机应用
中文信息处理
MARKOV网络
文档团
文档重排
-
Keywords
computer application
Chinese information processing
Markov network
document clique
document reranking
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名倒排索引中的文档序号重排技术综述
被引量:4
- 3
-
-
作者
史亮
张鸿
刘欣然
王勇
王斌
-
机构
国家计算机网络应急技术处理协调中心
中国科学院信息工程研究所
-
出处
《中文信息学报》
CSCD
北大核心
2015年第2期24-32,共9页
-
基金
国家973重点基础研究发展规划项目(2011CB302605)
科技支撑计划(2012BAH47B04)
-
文摘
倒排索引作为文本搜索的核心索引技术,广泛应用于搜索引擎、桌面搜索和数字图书馆领域。倒排索引由字典和对应的倒排表组成,倒排表一般采用差值存储和整数编码进行压缩。研究表明,当倒排表具有较好的局部连续性时,上述方法能够获得很高的压缩率。整数编码研究通过不断改进编码算法来充分利用倒排表的局部连续性特征,而文档序号重排正是一种对文档序号重新排列来产生局部连续性的技术。通过文档序号重排,索引压缩率得到显著提高。该文主要介绍近年来文档序号重排技术取得的研究成果:首先介绍索引压缩的基本原理,然后详细介绍文档序号重排技术,包括分析、对比各个方法的优劣;最后对文档序号重排技术进行总结、整理和展望。
-
关键词
搜索引擎
性能优化
索引压缩
文档序号重排
局部连续性
-
Keywords
search engine
performance optimization
index compression
document identifier reordering
locality
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-