期刊文献+
共找到31篇文章
< 1 2 >
每页显示 20 50 100
跨语言信息检索中的双语主题相关模型 被引量:8
1
作者 罗远胜 王明文 +1 位作者 勒中坚 张华伟 《小型微型计算机系统》 CSCD 北大核心 2013年第12期2758-2763,共6页
如何通过双语平行语料库提取语言之间的语义对信息,对改善跨语言信息检索的性能有着十分重要的意义.双语平行文档拥有相同的主题,这些双语主题在具体模型上可体现为语义相关.本文首先将双语平行文档看作同一语义内容的两种语言表示,从... 如何通过双语平行语料库提取语言之间的语义对信息,对改善跨语言信息检索的性能有着十分重要的意义.双语平行文档拥有相同的主题,这些双语主题在具体模型上可体现为语义相关.本文首先将双语平行文档看作同一语义内容的两种语言表示,从双语平行语料库构造每种语言的潜在语义空间,从而提出一种新的双语主题模型,即双语偏最小二乘主题相关模型.新模型克服了跨语言潜在语义索引模型没有充分考虑双语语义联系的不足.在中英双语新闻语料集上实验结果显示,新模型的文档配对搜索和伪查询跨语言检索性能明显优于跨语言潜在语义索引模型;在使用Google翻译得到的TREC-9双语平行语料库上,新模型也获得了较好的检索性能. 展开更多
关键词 跨语言信息检索 双语平行文档 主题模型 双语偏最小二乘主题相关模型
在线阅读 下载PDF
基于相关主题模型的程序网络自动构建与分析 被引量:5
2
作者 孙小兵 刘湘月 +1 位作者 李斌 张伟佳 《电子学报》 EI CAS CSCD 北大核心 2017年第5期1052-1056,共5页
程序理解的目的在于获得足够的软件系统信息,以适用于人理解的形式展现出来,辅助开发人员对软件的理解.本文通过使用相关主题模型,为软件系统类层次的代码文件建立程序网络,并可视化展示整个软件系统的相关结构和功能,辅助开发者理解整... 程序理解的目的在于获得足够的软件系统信息,以适用于人理解的形式展现出来,辅助开发人员对软件的理解.本文通过使用相关主题模型,为软件系统类层次的代码文件建立程序网络,并可视化展示整个软件系统的相关结构和功能,辅助开发者理解整个程序代码.该技术综合考虑了软件代码中的结构性信息和内容性信息,所建立的程序网络可帮助开发者更好的理解程序的语法依赖关系和语义功能相关关系.实验验证了建立的程序网络具有较好的准确性以及可以为指定的类推荐相关类. 展开更多
关键词 程序理解 相关主题模型 程序网络
在线阅读 下载PDF
基于主题描述模型的相关性判断在网页信息抽取中的应用 被引量:6
3
作者 谭胜 马静 吴一占 《情报学报》 CSSCI 北大核心 2011年第2期155-159,共5页
信息抽取是从海量网页获取有价值信息的重要方式,对目标网页内容进行主题相关性判断是提高信息抽取效率和准确性的关键环节.目前的相关性判断主要采用人工筛选和文档训练的方法,这其中存在效率低、重复训练等问题,而本文尝试针对抽取任... 信息抽取是从海量网页获取有价值信息的重要方式,对目标网页内容进行主题相关性判断是提高信息抽取效率和准确性的关键环节.目前的相关性判断主要采用人工筛选和文档训练的方法,这其中存在效率低、重复训练等问题,而本文尝试针对抽取任务引入主题描述模型用于网页内容的主题相关性判断.从任务的主题描述模型的角度出发,计算模型中的关键词基于标记信息的加权频率,将网页内容进行量化表示,然后分析关键词加权频率关于任务主题描述模型的变化来判断网页内容的主题相关性.最后通过对比该方法在国防产品信息抽取中结果,实验证明该方法大大提高了网页信息抽取的效率和准确性. 展开更多
关键词 主题相关 主题描述模型 文档频率 信息抽取
在线阅读 下载PDF
信息检索中一种基于词语—主题词相关度的语言模型 被引量:3
4
作者 田萱 杜小勇 李海华 《中文信息学报》 CSCD 北大核心 2007年第6期43-51,共9页
本文提出一种基于词语-主题词相关关系的语言模型TSA-LM(Term-Subject Association Based Language Model),它的基本思想是把一篇文档分成两个文档块,一部分是由领域主题词表中的主题词构成的主题词文档块,另一部分是由非主题词构成的... 本文提出一种基于词语-主题词相关关系的语言模型TSA-LM(Term-Subject Association Based Language Model),它的基本思想是把一篇文档分成两个文档块,一部分是由领域主题词表中的主题词构成的主题词文档块,另一部分是由非主题词构成的非主题词文档块,分别计算两个文档块和查询的似然程度。对非主题词文档块,假设词语间独立无关,沿用经典的语言模型计算;对主题词文档块,把查询词语和主题词相关关系引入语言模型中来估计该文档块和查询的似然程度。词语-主题词相关关系采用词语-主题词相关度来衡量。词语-主题词相关度的计算除了来源于对文档中词语-主题词共现性的观察外,还来源于宏观上对词语-文档-主题词归属关系的观察。公开数据集上的检索实验结果表明,基于词语-主题词相关关系的语言模型可以有效提高检索效果。 展开更多
关键词 计算机应用 中文信息处理 语言模型 主题 词语-主题相关关系 词语 文档-主题词归属关系 词语 主题词共现关系
在线阅读 下载PDF
基于相关主题模型和多层知识表示的文本情感分析 被引量:3
5
作者 马长林 王涛 《郑州大学学报(理学版)》 北大核心 2021年第4期30-35,共6页
将相关主题模型和多层知识表示方法相结合开展文本情感分析研究。首先,针对传统分割算法的不足和主题间相关关系,采用相关主题模型对文本进行主题特征分割,构造主题先验信息输入预训练语言模型;其次,基于主题先验信息和相关关系向量,采... 将相关主题模型和多层知识表示方法相结合开展文本情感分析研究。首先,针对传统分割算法的不足和主题间相关关系,采用相关主题模型对文本进行主题特征分割,构造主题先验信息输入预训练语言模型;其次,基于主题先验信息和相关关系向量,采用预训练的语言模型嵌入进行文本词的动态表示,能有效解决一词多义的问题;最后,使用双向长短期记忆模型对文本句子进行表示,考虑每个词的前后信息来捕捉句子的位置信息,在句子表示向量的信息抽取中融入注意力机制,使用多头抽取考虑全局的方式,可以抽取更全面的文本信息。 展开更多
关键词 相关主题模型 多层知识表示 深度学习 文本分割 注意力机制
在线阅读 下载PDF
政策主题视角下中央和地方DRG政策协同研究
6
作者 吴尚 钱爱兵 耿铎 《卫生经济研究》 北大核心 2025年第9期19-23,28,共6页
目的:分析中央和地方DRG政策协同情况,为推动政策实施提出建议。方法:利用LDA主题模型提取DRG政策主题,计算地方试点政策主题扩散比、承继比、创新比和协同比。结果:中央和地方DRG政策具有6个相同主题:医保支付改革、医疗服务监管、信... 目的:分析中央和地方DRG政策协同情况,为推动政策实施提出建议。方法:利用LDA主题模型提取DRG政策主题,计算地方试点政策主题扩散比、承继比、创新比和协同比。结果:中央和地方DRG政策具有6个相同主题:医保支付改革、医疗服务监管、信息平台建设、成本核算标准、中医支付改革、机构绩效考核;地方试点政策创新了支付监管和医保基金管理;广东佛山、安徽合肥、山东青岛的政策协同度较高;北京、安徽合肥、新疆生产建设兵团的政策主题承继和创新表现突出;东部、中部、西部地区政策传达比较全面,东北地区政策执行面临一定的响应滞后。结论:应进一步强化政策框架的灵活性,鼓励地方政策创新与调整,扩大沟通反馈渠道,加强信息化建设,强化地方执行力与中央监管协同,推动DRG政策高效实施。 展开更多
关键词 疾病诊断相关分组 政策主题 政策协同 LDA主题模型
在线阅读 下载PDF
基于本体与LDA主题模型的文本资源推荐方法研究 被引量:4
7
作者 祝婷 秦春秀 +1 位作者 马晓悦 李祖海 《情报杂志》 CSSCI 北大核心 2015年第11期150-156,共7页
为了解决基于LDA主题模型的推荐结果总是局限在同一主题范围内从而在一定程度上限制了推荐惊喜度的问题。将本体引入到基于LDA主题模型的文本资源推荐中,通过本体扩展LDA模型的主题得到关联主题,然后考虑关联主题在文本中的分布概率,结... 为了解决基于LDA主题模型的推荐结果总是局限在同一主题范围内从而在一定程度上限制了推荐惊喜度的问题。将本体引入到基于LDA主题模型的文本资源推荐中,通过本体扩展LDA模型的主题得到关联主题,然后考虑关联主题在文本中的分布概率,结合加权后的关联主题给予用户最终的推荐。实验结果表明,引入本体后,基于LDA主题模型的推荐惊喜度有了明显的提高。 展开更多
关键词 LDA主题模型 本体 文本推荐 语义相关 惊喜度 关联主题
在线阅读 下载PDF
基于CTM-PMF模型的物品推荐 被引量:1
8
作者 彭江平 《计算机工程与应用》 CSCD 2013年第2期1-4,8,共5页
为了克服传统协同过滤推荐技术的局限,提出了一种基于CTM-PMF模型的物品推荐方法。在PMF模型的基础上,引入CTM模型,将PMF模型良好的推荐品质和CTM模型优越的物品表示方法相结合,有效地实现了新物品推荐;通过引入用户兴趣因子,解决了用... 为了克服传统协同过滤推荐技术的局限,提出了一种基于CTM-PMF模型的物品推荐方法。在PMF模型的基础上,引入CTM模型,将PMF模型良好的推荐品质和CTM模型优越的物品表示方法相结合,有效地实现了新物品推荐;通过引入用户兴趣因子,解决了用户对已购买物品的兴趣变化问题。在自建的物品数据集上,利用提出的方法、PMF模型、G-PLSA模型和UBCF方法进行了对比实验,实验结果表明该方法具有良好的物品推荐品质。 展开更多
关键词 相关主题模型(ctm) 概率矩阵分解(PMF)模型 用户兴趣因子 物品推荐
在线阅读 下载PDF
一种用于查询扩展词选取的主题模型 被引量:2
9
作者 张博 张斌 高克宁 《东北大学学报(自然科学版)》 EI CAS CSCD 北大核心 2013年第3期348-351,共4页
为能在搜索引擎返回的结果集上构建贴近用户意图的主题层,并在文档词与主题间建立映射,将社会化标注引入经典的LDA模型,构建一种基于主题-标签-文档词之间关系的三层主题模型,并将其用于伪相关反馈查询扩展词的选取.实验结果表明,该模... 为能在搜索引擎返回的结果集上构建贴近用户意图的主题层,并在文档词与主题间建立映射,将社会化标注引入经典的LDA模型,构建一种基于主题-标签-文档词之间关系的三层主题模型,并将其用于伪相关反馈查询扩展词的选取.实验结果表明,该模型提取的查询扩展词能描述标签的语义,模型用于伪相关反馈后,提取的扩展词能覆盖查询条件,在多数情况下结果列表的NDCG值高于基本伪相关反馈和结果集聚类方法. 展开更多
关键词 主题模型 相关反馈 查询扩展 扩展词选取 社会化标注
在线阅读 下载PDF
基于CTM模型的观点挖掘和可视化 被引量:3
10
作者 马长林 谢罗迪 陈梦丽 《计算机工程与科学》 CSCD 北大核心 2018年第4期745-751,共7页
如何从海量文本中自动提取有价值的观点信息已成为重要的技术挑战,当下的观点挖掘方法大多数是在假设主题相互独立的前提下进行的,但实际上主题与主题之间有着复杂的内在联系。为解决以上问题,在CTM模型的基础上提出了基于主题情感混合... 如何从海量文本中自动提取有价值的观点信息已成为重要的技术挑战,当下的观点挖掘方法大多数是在假设主题相互独立的前提下进行的,但实际上主题与主题之间有着复杂的内在联系。为解决以上问题,在CTM模型的基础上提出了基于主题情感混合的主题相关模型,在考虑到主题相关性的同时,还分析了对应主题下的观点特征以及潜藏的情感倾向,更为精确地获取了文档主题的情感极性,仿真实验验证了本模型的有效性,并使用R语言进行了可视化实验分析。 展开更多
关键词 ctm模型 主题情感混合模型 观点挖掘 可视化
在线阅读 下载PDF
基于分类关键词词频模型的地缘政治主题爬虫设计 被引量:4
11
作者 魏勇 胡丹露 +1 位作者 郝晨光 欧小平 《计算机工程》 CAS CSCD 北大核心 2016年第2期45-50,共6页
针对词频-逆文档频率模型应用于主题爬虫时存在的非结构化问题,设计基于分类关键词词频(CKTF)模型的主题爬虫。利用网页文档结构特征和主题词语的分布信息将网页映射为五维向量,根据维基百科中文语料库和搜狗全网新闻数据语料库选择关... 针对词频-逆文档频率模型应用于主题爬虫时存在的非结构化问题,设计基于分类关键词词频(CKTF)模型的主题爬虫。利用网页文档结构特征和主题词语的分布信息将网页映射为五维向量,根据维基百科中文语料库和搜狗全网新闻数据语料库选择关键词并计算其与地缘政治主题的相关度,使用支持向量机实现网页向量的学习和分类。实验结果表明,与传统主题爬虫相比,该主题爬虫能够挖掘地缘政治主题中的丰富内容,有效衡量网页与主题的相关度,具有较高的爬准率和稳定性。 展开更多
关键词 主题爬虫 分类关键词词频模型 词向量 支持向量机 相关
在线阅读 下载PDF
面向蒙古文主题的网络爬虫采集策略模型
12
作者 马志强 张泽广 +1 位作者 闫瑞 杨双涛 《北京工业大学学报》 CAS CSCD 北大核心 2015年第7期1012-1019,共8页
针对蒙古文主题爬虫主要面临的预测采集URL和发现隧道2个核心问题,提出一种基于主题团的站点聚类、排序和隧道发现的采集模型.通过站点的主题识别,将待爬行URL分为站点链接和非站点链接,使用文本相似度和超链图分析建立了预测URL优先级... 针对蒙古文主题爬虫主要面临的预测采集URL和发现隧道2个核心问题,提出一种基于主题团的站点聚类、排序和隧道发现的采集模型.通过站点的主题识别,将待爬行URL分为站点链接和非站点链接,使用文本相似度和超链图分析建立了预测URL优先级排序算法,基于站点粒度设计了站点自适应隧道发现算法,最后,构建了一个面向蒙古文主题的网络爬虫系统.实验结果表明:该算法在采准率、信息总量与采集速率上都得到了提高,明显优于基线算法. 展开更多
关键词 主题爬虫 主题模型 相关度计算 隧道 N-GRAM模型
在线阅读 下载PDF
利用主题内容排序的伪相关反馈
13
作者 闫蓉 高光来 《计算机科学与探索》 CSCD 北大核心 2017年第5期814-821,共8页
传统的伪相关反馈(pseudo relevance feedback,PRF)方法,将文档作为基本抽取单元进行查询扩展,抽取粒度过大造成扩展源中噪音量的增加。研究利用主题分析技术来减轻扩展源的低质量现象。通过获取隐藏在伪相关文档集(pseudo-relevant set... 传统的伪相关反馈(pseudo relevance feedback,PRF)方法,将文档作为基本抽取单元进行查询扩展,抽取粒度过大造成扩展源中噪音量的增加。研究利用主题分析技术来减轻扩展源的低质量现象。通过获取隐藏在伪相关文档集(pseudo-relevant set)各文档内容中的语义信息,并从中提取与用户查询相关的抽象主题内容作为基本抽取单元用于查询扩展。在NTCIR 8中文语料上,与传统PRF方法和基于主题模型的PRF方法相比较,实验结果表明该方法可以抽取出更符合用户查询的扩展词。此外,结果显示从更小的主题内容粒度出发进行查询扩展,可以有效提升检索性能。 展开更多
关键词 主题模型 主题内容 相关反馈
在线阅读 下载PDF
基于领域本体的主题信息采集方法 被引量:8
14
作者 郑国良 叶飞跃 +1 位作者 林国俊 耿冬 《计算机应用》 CSCD 北大核心 2008年第12期3274-3277,共4页
基于关键词的向量空间模型是传统的专业搜索引擎中主题信息采集常用的方法,它通过考虑关键词的权重以及关键词在网页中出现的频率来采集相关的网页。而基于本体的主题信息采集方法,它反映的不再是简单的词条出现频率,而是强化了网页中... 基于关键词的向量空间模型是传统的专业搜索引擎中主题信息采集常用的方法,它通过考虑关键词的权重以及关键词在网页中出现的频率来采集相关的网页。而基于本体的主题信息采集方法,它反映的不再是简单的词条出现频率,而是强化了网页中词条间的语义关系,从而克服了使用传统向量空间时产生的多义词、同义词和单词依赖等现象。通过实验,比较了提出的方法与基于关键词方法的实验数据,进一步说明了方法的可行性。 展开更多
关键词 主题相关 领域本体 向量空间模型 相关度分析 词频率
在线阅读 下载PDF
一种基于特征符号的网页主题信息抽取方法 被引量:4
15
作者 王舒 朱敏 +2 位作者 张明 牛颢 赵瑜 《计算机应用研究》 CSCD 北大核心 2009年第12期4539-4541,共3页
随着Internet网络的日益普及,W eb上的海量数据给文本挖掘尤其是网页主题提取带来了更多的挑战,现有的文本提取方法在保证高准确率的同时无法满足W eb挖掘方法的通用性。通过对W eb网页结构进行研究,对网页生成树模型进行了改进,找到网... 随着Internet网络的日益普及,W eb上的海量数据给文本挖掘尤其是网页主题提取带来了更多的挑战,现有的文本提取方法在保证高准确率的同时无法满足W eb挖掘方法的通用性。通过对W eb网页结构进行研究,对网页生成树模型进行了改进,找到网页结构的通用规则,提出一种基于特征符号的提取方法CECS(contentextraction characteristic symbols),结合相关度对网页主题内容进行提取。实验证明,所提算法具有很高的准确性和通用性。 展开更多
关键词 生成树模型 特征符号 相关 主题提取
在线阅读 下载PDF
混合词汇特征和LDA的语义相关度计算方法 被引量:5
16
作者 肖宝 李璞 蒋运承 《计算机工程与应用》 CSCD 北大核心 2017年第12期152-157,165,共7页
文本语义相关度计算在自然语言处理、语义信息检索等方面起着重要作用,以Wikipedia为知识库,基于词汇特征的ESA(Explicit Semantic Analysis)因简单有效的特点在这些领域中受到学术界的广泛关注和应用。然而其语义相关度计算因为有大量... 文本语义相关度计算在自然语言处理、语义信息检索等方面起着重要作用,以Wikipedia为知识库,基于词汇特征的ESA(Explicit Semantic Analysis)因简单有效的特点在这些领域中受到学术界的广泛关注和应用。然而其语义相关度计算因为有大量冗余概念的参与变成了一种高维度、低效率的计算方式,同时也忽略了文本所属主题因素对语义相关度计算的作用。引入LDA(Latent Dirichlet Allocation)主题模型,对ESA返回的相关度较高的概念转换为模型的主题概率向量,从而达到降低维度和提高效率的目的;将JSD距离(Jensen-Shannon Divergence)替换余弦距离的测量方法,使得文本语义相关度计算更加合理和有效。最后对不同层次的数据集进行算法的测试评估,结果表明混合词汇特征和主题模型的语义相关度计算方法的皮尔逊相关系数比ESA和LDA分别高出3%和9%以上。 展开更多
关键词 主题模型 词汇特征 显式语义分析(ESA) 隐含狄利克雷分布(LDA) 语义相关度计算
在线阅读 下载PDF
矿山设备领域主题爬虫研究与设计 被引量:2
17
作者 龚炳江 黄彦欣 贾海鑫 《计算机应用与软件》 CSCD 北大核心 2014年第11期122-124,129,共4页
通过对主题网络爬虫的研究,设计一个对网络中的矿山设备资源进行收集的主题网络爬虫。设计内容主要包括主题网络爬虫的各个功能模块以及各功能模块实现的方法。例如判定网页主题相关度及URL价值评价等。使用的主要技术为向量空间模型和P... 通过对主题网络爬虫的研究,设计一个对网络中的矿山设备资源进行收集的主题网络爬虫。设计内容主要包括主题网络爬虫的各个功能模块以及各功能模块实现的方法。例如判定网页主题相关度及URL价值评价等。使用的主要技术为向量空间模型和PageRank算法。矿山设备领域主题网络爬虫的研究与设计为矿山设备领域主题爬虫的实现奠定了基础。 展开更多
关键词 主题爬虫 URL价值评价 主题相关 空间向量模型
在线阅读 下载PDF
融合潜在狄利克雷分布与元路径分析的用户相关性度量方法 被引量:2
18
作者 徐红艳 王丹 +1 位作者 王富海 王嵘冰 《计算机应用》 CSCD 北大核心 2019年第11期3288-3292,共5页
用户相关性度量是异构信息网络研究的基础与核心。现有的用户相关性度量方法由于未充分开展多维度分析和链路分析,其准确性尚存在提升空间。为此,提出了一种融合狄利克雷分布(LDA)与元路径分析的用户相关性度量方法。首先利用LDA进行主... 用户相关性度量是异构信息网络研究的基础与核心。现有的用户相关性度量方法由于未充分开展多维度分析和链路分析,其准确性尚存在提升空间。为此,提出了一种融合狄利克雷分布(LDA)与元路径分析的用户相关性度量方法。首先利用LDA进行主题建模,通过分析网络中节点的内容来计算节点的相关性;然后,引入元路径来刻画节点间关系类型,通过关联度量(DPRel)方法对异构信息网络中的用户进行相关性测量;接着,将节点的相关性融入到用户相关性度量计算中;最后,采用IMDB真实电影数据集进行实验,将所提方法和嵌入LDA主题模型的协同过滤推荐方法(ULR-CF)、基于元路径的相关性度量方法(PathSim)进行了对比分析。实验结果表明,所提方法能够克服数据稀疏性弊端,提高用户相关性度量的准确性。 展开更多
关键词 用户相关 异构信息网络 主题模型 元路径 度量
在线阅读 下载PDF
基于检索结果排序的伪相关反馈 被引量:1
19
作者 闫蓉 高光来 《计算机应用》 CSCD 北大核心 2016年第8期2099-2102,2143,共5页
针对传统伪相关反馈(PRF)算法扩展源质量不高使得检索效果不佳的问题,提出一种基于检索结果的排序模型(REM)。首先,该模型从初检结果中选择排名靠前的文档作为伪相关文档集;然后,以用户查询意图与伪相关文档集中各文档的相关度最大化、... 针对传统伪相关反馈(PRF)算法扩展源质量不高使得检索效果不佳的问题,提出一种基于检索结果的排序模型(REM)。首先,该模型从初检结果中选择排名靠前的文档作为伪相关文档集;然后,以用户查询意图与伪相关文档集中各文档的相关度最大化、并且各文档之间相似性最小化作为排序原则,将伪相关文档集中各文档进行重排序;最后,将排序后排名靠前的文档作为扩展源进行二次反馈。实验结果表明,与两种传统伪反馈方法相比,该排序模型能获得与用户查询意图相关的反馈文档,可有效地提高检索效果。 展开更多
关键词 相关反馈 潜在狄里克雷分配 主题模型 查询扩展
在线阅读 下载PDF
一种领域语料驱动的句子相关性计算方法研究
20
作者 李峰 黄金柱 +1 位作者 李舟军 杨伟铭 《计算机科学》 CSCD 北大核心 2016年第5期188-192,208,共6页
句子相关性计算在自然语言处理的多个实践应用中均具有十分重要的作用,如舆情监测、信息检索、统计机器翻译等。在明确相似性与相关性之间的关系之后,设计了一种基于领域语料驱动的句子相关性计算方法,该方法基于同一领域的语料构建一个... 句子相关性计算在自然语言处理的多个实践应用中均具有十分重要的作用,如舆情监测、信息检索、统计机器翻译等。在明确相似性与相关性之间的关系之后,设计了一种基于领域语料驱动的句子相关性计算方法,该方法基于同一领域的语料构建一个"句-段-篇"3层的领域语义空间,通过度量词语在各个层级间的共现概率、共现平均距离和句长等因子来测量词间的主题相关性。与基于字面特征、HowNet和同义词词林的方法进行了实验对比,结果表明该方法具有较好的实践应用价值。 展开更多
关键词 句子相关 语料驱动 主题相关 计算模型
在线阅读 下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部