-
题名基于主题语言模型的中文信息检索系统研究
被引量:4
- 1
-
-
作者
张俊林
孙乐
孙玉芳
-
机构
中国科学院软件研究所系统软件与中文信息中心
-
出处
《中文信息学报》
CSCD
北大核心
2005年第3期14-20,共7页
-
基金
国家自然科学基金资助项目 (6 0 2 0 30 0 7)
国家 86 3计划资助项目 (2 0 0 1AA114 0 4 0 )
-
文摘
准确的文档语言模型估计对于改善语言模型检索系统的性能是非常重要的。在本文中我们提出了基于主题语言模型的信息检索系统,首先设计了“改进的两阶段K Means聚类算法”来对文档集合进行聚类,通过引入AspectModel结合聚类结果可以得到基于主题的语言模型。这个新的语言模型较深入地刻画了词汇在不同主题下的分布规律以及文档所蕴含不同主题的分布规律。将主题语言模型和文档本身的语言模型通过线性插值可以更准确地估计文档语言模型。实验结果表明我们提出的这个方法显著改善了检索系统的性能,与Jelinek Mercer模型方法相比较,主题语言模型检索系统的平均精度提高大约16 17% ,召回率提高大约9 6 4%。
-
关键词
人工智能
自然语言处理
主题语言模型
信息检索
-
Keywords
artificial intelligence
natural language processing
language model
information retrieval
topic
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于主题的汉语语言模型的研究
被引量:4
- 2
-
-
作者
曲卫民
张俊林
孙乐
-
机构
中国科学院软件研究所系统软件与中文信息中心
-
出处
《计算机研究与发展》
EI
CSCD
北大核心
2003年第9期1368-1374,共7页
-
基金
国家自然科学基金 ( 60 2 0 3 0 0 7)
国家"八六三"高技术研究发展计划重大项目基金 ( 2 0 0 1AA114 0 40 )
-
文摘
基于主题的自适应语言模型能有效地解决语言模型跨主题应用的问题 ,针对其面临的两个主要问题———语料的分类和各语言模型的融合 ,采用了一种新的语料分类算法 ,突破了原有分类方法的一些局限性 ,并提出了一种改进的融合各语言模型的方法 :概率 +线性插值法 ,该方法既改善了语言模型的性能 。
-
关键词
语言模型
自适应
主题
分类
-
Keywords
language model
adaptive
topic based
cluster
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名XML数据查询中值匹配查询代价估计算法
被引量:6
- 3
-
-
作者
曲卫民
孙乐
孙玉芳
-
机构
中国科学院软件研究所系统软件与中文信息中心
-
出处
《软件学报》
EI
CSCD
北大核心
2005年第4期561-569,共9页
-
基金
国家自然科学基金
国家高技术研究发展计划(863)
北京市科技新星计划~~
-
文摘
XML数据查询中值匹配查询条件的查询代价估计问题是一种典型的多元素查询条件代价估计问题.它与传统关系型数据库中的多元素查询条件不同,因为XML数据中的值信息分布不仅与其他值信息分布相关,还与XML数据中的结构信息相关,而且当XML数据结构比较复杂时,可能会形成高维元素相关.针对以上问题,提出了一种面向XML数据的基于小波的多维直方图查询代价估计算法,并提出了确定XML数据中以某值元素为主键的相互依赖元组的方法,将值匹配条件改写为多元素查询条件的方法以及结构信息的值化方法.实验结果证明,提出的方法取得了较准确的查询代价估计结果.
-
关键词
XML
值匹配条件
查询代价估计
-
Keywords
XML
value predicate
result size estimation
-
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
-
-
题名一种改进的基于记忆的自适应汉语语言模型
被引量:2
- 4
-
-
作者
张俊林
孙乐
孙玉芳
-
机构
中国科学院软件研究所系统软件与中文信息中心
-
出处
《中文信息学报》
CSCD
北大核心
2005年第1期8-13,共6页
-
基金
国家自然科学基金资助项目 (6 0 2 0 30 0 7)
国家"十五"86 3重大项目资助 (2 0 0 1AA114 0 4 0 )
-
文摘
基于记忆的自适应语言模型虽然在一定程度上增强了语言模型对不同领域的适应性 ,但其假设过于简单 ,即认为一个在文章的前面部分出现过的词往往会在后面重复出现。通过对一些文本的观察分析 ,我们认为作者在书写文章的时候 ,除了常常使用前文中出现过的词汇外 ,为了避免用词单调 ,还会在行文过程中使用前文出现过词汇的近义词或者同义词。另外 ,一篇文章总是围绕某个主题展开 ,所以在文章中出现的许多词汇往往在语义上有很大的相关性。我们对基于记忆的语言模型进行了扩展 ,利用汉语义类词典 ,将与缓存中所保留词汇语义上相近或者相关的词汇也引入缓存。实验表明这种改进在很大程度上提高了原有模型的性能 ,与n元语言模型相比困惑度下降了 4 0 1% ,有效地增强了语言模型的自适应性。
-
关键词
人工智能
自然语言处理
语言模型
自适应
同义词词林
困惑度
-
Keywords
artificial intelligence
natural language processing
language model
adaptive model
Chinese thesaurus
perplexity
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-