-
题名基于主题词对的文档重排方法
被引量:2
- 1
-
-
作者
何婷婷
许婷
瞿国忠
涂新辉
-
机构
华中师范大学计算机科学系
教育部教育信息技术工程研究中心
-
出处
《计算机工程与应用》
CSCD
北大核心
2007年第11期161-163,共3页
-
基金
国家自然科学基金(the National Natural Science Foundation of China under Grant No.60442005
No.60673040)
+1 种基金
国家社科基金(No.06BYY029)
教育部科学技术研究重点项目(No.105117)。
-
文摘
提出了一种基于主题词对的文档重排方法,使得检索结果在保持召回率的前提下提高精确率。主题词对意指能够共同表征同一主题的两个词语,其中一个来自于查询,另一个来自于文档,两者之间具有紧密的联系。主题词对的选择采用概率潜在语义索引的方法,并根据主题词对在文档中的分布状况对其进行重排。对NTCIR-5中文信息检索的文档集合进行测试,采用trec标准评估方法,结果表明采用该方法使得精确率在rigid和relax结果集上分别提高了53.6%和55.8%。
-
关键词
主题词对
概率潜在语义索引
文档重排
-
Keywords
topic word pair
Probabilistic Latent Semantic Indexing (PLSI)
document re-ranking
-
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
-
-
题名基于PLSI的标签聚类研究
被引量:4
- 2
-
-
作者
吴志媛
钱雪忠
-
机构
江南大学物联网工程学院
-
出处
《计算机应用研究》
CSCD
北大核心
2013年第5期1316-1319,共4页
-
基金
国家自然科学基金资助项目(61103129)
江苏省科技支撑计划资助项目(BE2009009)
-
文摘
针对现有的大众分类中标签模糊导致影响用户搜索效率的问题,使用概率潜在语义索引(probabilistic latent semantic indexing,PLSI)模型对标签进行潜在语义分析,经回火期望最大化(tempered exception maximization,TEM)算法训练得到在潜在语义下的条件概率,生成概率向量;在此基础上,提出凝聚式层次k中心点(hierarchical agglomerative K-mediods,HAK-mediods)聚类算法对概率向量进行聚类,并进行了相关对比实验。实验结果表明,HAK-mediods算法的聚类效果要好于传统的聚类算法,从而验证了该算法的可行性和有效性。
-
关键词
大众分类
概率潜在语义索引
语义标签
回火期望最大化算法
凝聚式层次k中心点聚类
-
Keywords
Folksonomy
PLSI
semantic tags
TEM algorithm
HAK-mediods clustering
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-