检索结果-维普期刊中文期刊服务平台

基于主题语言模型的中文信息检索系统研究被引量：4: 1; 作者张俊林孙乐孙玉芳《中文信息学报》 CSCD 北大核心 2005年第3期14-20,共7页; 准确的文档语言模型估计对于改善语言模型检索系统的性能是非常重要的。在本文中我们提出了基于主题语言模型的信息检索系统,首先设计了“改进的两阶段K Means聚类算法”来对文档集合进行聚类,通过引入AspectModel结合聚类结果可以得到... 展开更多; 关键词人工智能自然语言处理主题语言模型信息检索; 在线阅读下载PDF 职称材料

基于主题的汉语语言模型的研究被引量：4: 2; 作者曲卫民张俊林孙乐《计算机研究与发展》 EI CSCD 北大核心 2003年第9期1368-1374,共7页; 基于主题的自适应语言模型能有效地解决语言模型跨主题应用的问题 ,针对其面临的两个主要问题———语料的分类和各语言模型的融合 ,采用了一种新的语料分类算法 ,突破了原有分类方法的一些局限性 ,并提出了一种改进的融合各语言模型的... 展开更多; 关键词语言模型自适应主题分类; 在线阅读下载PDF 职称材料

XML数据查询中值匹配查询代价估计算法被引量：6: 3; 作者曲卫民孙乐孙玉芳《软件学报》 EI CSCD 北大核心 2005年第4期561-569,共9页; XML数据查询中值匹配查询条件的查询代价估计问题是一种典型的多元素查询条件代价估计问题.它与传统关系型数据库中的多元素查询条件不同,因为XML数据中的值信息分布不仅与其他值信息分布相关,还与XML数据中的结构信息相关,而且当XML数... 展开更多; 关键词 XML 值匹配条件查询代价估计; 在线阅读下载PDF 职称材料

一种改进的基于记忆的自适应汉语语言模型被引量：2: 4; 作者张俊林孙乐孙玉芳《中文信息学报》 CSCD 北大核心 2005年第1期8-13,共6页; 基于记忆的自适应语言模型虽然在一定程度上增强了语言模型对不同领域的适应性 ,但其假设过于简单 ,即认为一个在文章的前面部分出现过的词往往会在后面重复出现。通过对一些文本的观察分析 ,我们认为作者在书写文章的时候 ,除了常常使... 展开更多; 关键词人工智能自然语言处理语言模型自适应同义词词林困惑度; 在线阅读下载PDF 职称材料

题名基于主题语言模型的中文信息检索系统研究被引量：4: 1; 作者张俊林孙乐孙玉芳; 机构中国科学院软件研究所系统软件与中文信息中心; 出处《中文信息学报》 CSCD 北大核心 2005年第3期14-20,共7页; 基金国家自然科学基金资助项目 (6 0 2 0 30 0 7) 国家 86 3计划资助项目 (2 0 0 1AA114 0 4 0 ); 文摘准确的文档语言模型估计对于改善语言模型检索系统的性能是非常重要的。在本文中我们提出了基于主题语言模型的信息检索系统,首先设计了“改进的两阶段K Means聚类算法”来对文档集合进行聚类,通过引入AspectModel结合聚类结果可以得到基于主题的语言模型。这个新的语言模型较深入地刻画了词汇在不同主题下的分布规律以及文档所蕴含不同主题的分布规律。将主题语言模型和文档本身的语言模型通过线性插值可以更准确地估计文档语言模型。实验结果表明我们提出的这个方法显著改善了检索系统的性能,与Jelinek Mercer模型方法相比较,主题语言模型检索系统的平均精度提高大约16 17% ,召回率提高大约9 6 4%。; 关键词人工智能自然语言处理主题语言模型信息检索; Keywords artificial intelligence natural language processing language model information retrieval topic; 分类号 TP391 [自动化与计算机技术—计算机应用技术]; 在线阅读下载PDF 职称材料

题名基于主题的汉语语言模型的研究被引量：4: 2; 作者曲卫民张俊林孙乐; 机构中国科学院软件研究所系统软件与中文信息中心; 出处《计算机研究与发展》 EI CSCD 北大核心 2003年第9期1368-1374,共7页; 基金国家自然科学基金 ( 60 2 0 3 0 0 7) 国家"八六三"高技术研究发展计划重大项目基金 ( 2 0 0 1AA114 0 40 ); 文摘基于主题的自适应语言模型能有效地解决语言模型跨主题应用的问题 ,针对其面临的两个主要问题———语料的分类和各语言模型的融合 ,采用了一种新的语料分类算法 ,突破了原有分类方法的一些局限性 ,并提出了一种改进的融合各语言模型的方法 :概率 +线性插值法 ,该方法既改善了语言模型的性能。; 关键词语言模型自适应主题分类; Keywords language model adaptive topic based cluster; 分类号 TP391 [自动化与计算机技术—计算机应用技术]; 在线阅读下载PDF 职称材料

题名XML数据查询中值匹配查询代价估计算法被引量：6: 3; 作者曲卫民孙乐孙玉芳; 机构中国科学院软件研究所系统软件与中文信息中心; 出处《软件学报》 EI CSCD 北大核心 2005年第4期561-569,共9页; 基金国家自然科学基金国家高技术研究发展计划(863) 北京市科技新星计划~~; 文摘 XML数据查询中值匹配查询条件的查询代价估计问题是一种典型的多元素查询条件代价估计问题.它与传统关系型数据库中的多元素查询条件不同,因为XML数据中的值信息分布不仅与其他值信息分布相关,还与XML数据中的结构信息相关,而且当XML数据结构比较复杂时,可能会形成高维元素相关.针对以上问题,提出了一种面向XML数据的基于小波的多维直方图查询代价估计算法,并提出了确定XML数据中以某值元素为主键的相互依赖元组的方法,将值匹配条件改写为多元素查询条件的方法以及结构信息的值化方法.实验结果证明,提出的方法取得了较准确的查询代价估计结果.; 关键词 XML 值匹配条件查询代价估计; Keywords XML value predicate result size estimation; 分类号 TP311 [自动化与计算机技术—计算机软件与理论]; 在线阅读下载PDF 职称材料

题名一种改进的基于记忆的自适应汉语语言模型被引量：2: 4; 作者张俊林孙乐孙玉芳; 机构中国科学院软件研究所系统软件与中文信息中心; 出处《中文信息学报》 CSCD 北大核心 2005年第1期8-13,共6页; 基金国家自然科学基金资助项目 (6 0 2 0 30 0 7) 国家"十五"86 3重大项目资助 (2 0 0 1AA114 0 4 0 ); 文摘基于记忆的自适应语言模型虽然在一定程度上增强了语言模型对不同领域的适应性 ,但其假设过于简单 ,即认为一个在文章的前面部分出现过的词往往会在后面重复出现。通过对一些文本的观察分析 ,我们认为作者在书写文章的时候 ,除了常常使用前文中出现过的词汇外 ,为了避免用词单调 ,还会在行文过程中使用前文出现过词汇的近义词或者同义词。另外 ,一篇文章总是围绕某个主题展开 ,所以在文章中出现的许多词汇往往在语义上有很大的相关性。我们对基于记忆的语言模型进行了扩展 ,利用汉语义类词典 ,将与缓存中所保留词汇语义上相近或者相关的词汇也引入缓存。实验表明这种改进在很大程度上提高了原有模型的性能 ,与n元语言模型相比困惑度下降了 4 0 1% ,有效地增强了语言模型的自适应性。; 关键词人工智能自然语言处理语言模型自适应同义词词林困惑度; Keywords artificial intelligence natural language processing language model adaptive model Chinese thesaurus perplexity; 分类号 TP391 [自动化与计算机技术—计算机应用技术]; 在线阅读下载PDF 职称材料

	题名	作者	出处	发文年	被引量	操作
1	基于主题语言模型的中文信息检索系统研究	张俊林孙乐孙玉芳	《中文信息学报》 CSCD 北大核心	2005	4	在线阅读下载PDF 职称材料
2	基于主题的汉语语言模型的研究	曲卫民张俊林孙乐	《计算机研究与发展》 EI CSCD 北大核心	2003	4	在线阅读下载PDF 职称材料
3	XML数据查询中值匹配查询代价估计算法	曲卫民孙乐孙玉芳	《软件学报》 EI CSCD 北大核心	2005	6	在线阅读下载PDF 职称材料
4	一种改进的基于记忆的自适应汉语语言模型	张俊林孙乐孙玉芳	《中文信息学报》 CSCD 北大核心	2005	2	在线阅读下载PDF 职称材料