期刊文献+
共找到24篇文章
< 1 2 >
每页显示 20 50 100
基于术语同义关系的文档相似度研究 被引量:3
1
作者 张锡忠 徐建民 《河北大学学报(自然科学版)》 CAS 北大核心 2017年第1期108-112,共5页
基于向量空间的文档相似度算法假设特征元素间关系为正交,当2篇文档采用了具有相近语义的不同术语描述时,该方法不能准确反映二者的相似性.针对这种情况,文章利用词语的同义关系,在给出术语与术语组相似度、术语组和术语组间相似度的概... 基于向量空间的文档相似度算法假设特征元素间关系为正交,当2篇文档采用了具有相近语义的不同术语描述时,该方法不能准确反映二者的相似性.针对这种情况,文章利用词语的同义关系,在给出术语与术语组相似度、术语组和术语组间相似度的概念及算法的基础上,给出一种基于词语相似关系的文档相似度计算方法.实验采用科技文献类文档和新闻报道类文档作为测试集合,比较新方法和向量空间算法的分类性能,结果显示新方法可提高文档分类的准确性. 展开更多
关键词 同义词 词语相似 文档相似度
在线阅读 下载PDF
面向云存储的基于全同态密码技术的文档相似度计算方法 被引量:2
2
作者 江小平 张巍 +2 位作者 李成华 周航 孙婧 《计算机工程与科学》 CSCD 北大核心 2017年第10期1807-1811,共5页
针对云存储服务中存在的用户隐私保护需求,提出了一种在密文状态下的文档相似度计算方法。数据拥有者将文档ID、加密后的文档密文以及文档simhash值的密文上传到云服务器中;云服务提供者进行待计算相似度文档的simhash密文值和数据拥有... 针对云存储服务中存在的用户隐私保护需求,提出了一种在密文状态下的文档相似度计算方法。数据拥有者将文档ID、加密后的文档密文以及文档simhash值的密文上传到云服务器中;云服务提供者进行待计算相似度文档的simhash密文值和数据拥有者文档simhash密文值的全同态加法运算,获得文档间汉明距离的密文;数据拥有者解密汉明距离密文获得文档相似度排序结果。云端在不获悉数据内容及其simhash明文的情况下完成数据对象相似度运算,保护了数据隐私。给出了该方法的详细过程及相关的实验数据,验证了该方法的可行性。 展开更多
关键词 云存储服务 全同态密码技术 文档相似度计算 simhash 隐私保护
在线阅读 下载PDF
基于共现词映射的中英韩跨语种文档相似度计算
3
作者 刘娇 崔荣一 赵亚慧 《中文信息学报》 CSCD 北大核心 2018年第3期55-63,共9页
该文采用中英韩跨语种文本数据研究不同语种文档间相似度的计算方法。首先,通过共现词映射将某语种空间中的文档向量表示成另一语种空间中的文档向量;其次,利用潜在语义分析补充了不同语言间一词多义现象造成的向量缺失;最后,在具有等... 该文采用中英韩跨语种文本数据研究不同语种文档间相似度的计算方法。首先,通过共现词映射将某语种空间中的文档向量表示成另一语种空间中的文档向量;其次,利用潜在语义分析补充了不同语言间一词多义现象造成的向量缺失;最后,在具有等价语义信息的同一语种空间中计算了两个文档之间的余弦相似度。该文工作避开了外部词典和知识库,利用中英韩三个语种的对齐语料库,建立了不同语种词汇间的对应关系。结果表明,共现词映射对计算不同语种文档之间的相似度具有较大影响,对同语义的不同语种文档(即译文)的检索准确率达到95%,验证了该方法的有效性。 展开更多
关键词 跨语种文档相似度 共现词 潜在语义分析
在线阅读 下载PDF
概念与文档的语义相似度计算 被引量:7
4
作者 宋玲 郭家义 +2 位作者 张冬梅 汤晓兵 高楠 《计算机工程与应用》 CSCD 北大核心 2008年第35期163-167,共5页
将本体作为背景知识引入到概念之间相似度和文档之间相似度的计算中。通过图模型表示本体中概念以及概念之间的语义关系,用来将一个概念和一个文档扩展为一个语义模糊集,并计算模糊集合之间的相似度。文档相似度的计算是在概念相似度计... 将本体作为背景知识引入到概念之间相似度和文档之间相似度的计算中。通过图模型表示本体中概念以及概念之间的语义关系,用来将一个概念和一个文档扩展为一个语义模糊集,并计算模糊集合之间的相似度。文档相似度的计算是在概念相似度计算的基础之上。在概念相似度的计算过程中引入了语义相似度矩阵以及基于共信息理论的模糊相似度方法。 展开更多
关键词 概念相似 文档相似度 本体 文档聚类
在线阅读 下载PDF
跨语言相似文档检索 被引量:4
5
作者 王洪俊 施水才 +1 位作者 俞士汶 肖诗斌 《中文信息学报》 CSCD 北大核心 2007年第1期30-37,共8页
检索一篇文档在其他语言中的译文对于双语平行语料库的建立是一件很有意义的工作。本文提出一种改进的跨语言相似文档检索算法,该算法使用双语词典或统计翻译模型作为双语知识库,查找两篇文档的共同翻译词对,把翻译词对的权重作为一种... 检索一篇文档在其他语言中的译文对于双语平行语料库的建立是一件很有意义的工作。本文提出一种改进的跨语言相似文档检索算法,该算法使用双语词典或统计翻译模型作为双语知识库,查找两篇文档的共同翻译词对,把翻译词对的权重作为一种特征来进行相似度计算,用Dice方法的改进算法计算双语文档的相似度。在实验中,统计检索文档的译文排在检索结果前N位的总次数来评价算法的性能,并使用了两个噪音数据集来评价算法的有效性。实验表明,在噪音数据干扰比较大的情况下,译文排在检索结果前5位的译文结果接近90%。实验证明,翻译词对的权重对于相似度计算有很大帮助,本算法可以有效地发现一种语言书写的文档在另一种语言中的译稿。 展开更多
关键词 计算机应用 中文信息处理 跨语言相似文档检索 文档相似度 双语文档对齐
在线阅读 下载PDF
一种潜在文档相似模型 被引量:1
6
作者 贾西平 刘海珠 《计算机工程》 CAS CSCD 北大核心 2009年第15期32-34,共3页
提出一种潜在文档相似模型(LDSM),把每对文档看作一个二分图,把文档的潜在主题看作二分图的顶点,用主题间的加权相似度为相应边赋权值,并用二分图的最佳匹配表示文档的相似度。实验结果表明,LDSM的平均查准率和平均查全率都优于用TextTi... 提出一种潜在文档相似模型(LDSM),把每对文档看作一个二分图,把文档的潜在主题看作二分图的顶点,用主题间的加权相似度为相应边赋权值,并用二分图的最佳匹配表示文档的相似度。实验结果表明,LDSM的平均查准率和平均查全率都优于用TextTiling和二分图最佳匹配方法构建的文档相似模型。 展开更多
关键词 主题 文档相似度 文档检索 信息检索
在线阅读 下载PDF
一种基于词共现的文档聚类算法 被引量:15
7
作者 常鹏 冯楠 马辉 《计算机工程》 CAS CSCD 2012年第2期213-214,220,共3页
为解决文本主题表达存在的信息缺失问题,提出一种基于词共现的文档聚类算法。利用文档集上的频繁共现词建立文档主题向量表示模型,将其应用于层次聚类算法中,并通过聚类熵寻找最优的层次划分,从而准确反映文档之间的主题相关关系。实验... 为解决文本主题表达存在的信息缺失问题,提出一种基于词共现的文档聚类算法。利用文档集上的频繁共现词建立文档主题向量表示模型,将其应用于层次聚类算法中,并通过聚类熵寻找最优的层次划分,从而准确反映文档之间的主题相关关系。实验结果表明,该算法所获得的结果优于其他基于短语的文档层次聚类算法。 展开更多
关键词 文档聚类 文档模型 词共现 文档相似度 聚类增益
在线阅读 下载PDF
基于词共现的文档表示模型 被引量:8
8
作者 常鹏 冯楠 《中文信息学报》 CSCD 北大核心 2012年第1期51-57,共7页
文档表示模型是文本自动处理的基础,是将非结构化的文本数据转化为结构化数据的有效手段。然而,目前通用的空间向量模型(Vector Space Model,VSM)是以单个的词汇为基础的文档表示模型,因其忽略了词间的关联关系,导致文本挖掘的准确率难... 文档表示模型是文本自动处理的基础,是将非结构化的文本数据转化为结构化数据的有效手段。然而,目前通用的空间向量模型(Vector Space Model,VSM)是以单个的词汇为基础的文档表示模型,因其忽略了词间的关联关系,导致文本挖掘的准确率难以得到很大的提升。该文以词共现分析为基础,讨论了文档主题与词的二阶关系之间的潜在联系,进而定义了词共现度及与文档主题相关度的量化计算方法,利用关联规则算法抽取出文档集上的词共现组合,提出了基于词共现组合的文档向量主题表示模型(Co-occurrence Term based Vector SpaceModel,CTVSM),定义了基于CTVSM的文档相似度。实验表明,CTVSM能够准确反映文档之间的相关关系,比经典的文档向量空间模型(Vector Space Model,VSM)具有更强的主题区分能力。 展开更多
关键词 文档建模 词共现 文档相似度 文本挖掘
在线阅读 下载PDF
基于关键词提取的娱乐新闻文档去重算法 被引量:3
9
作者 沙芸 张国英 孟凡亮 《广西师范大学学报(自然科学版)》 CAS 北大核心 2007年第2期30-33,共4页
去除内容相同或相近的新闻是提高搜索引擎的关键技术之一。提出一种基于关键词提取的新闻去重算法,通过以标题为种子点构建词汇链的方法,能够找到对主题贡献大的非高频词,从而抽取出完整文档关键词集合,该方法能够基于小规模语料库识别... 去除内容相同或相近的新闻是提高搜索引擎的关键技术之一。提出一种基于关键词提取的新闻去重算法,通过以标题为种子点构建词汇链的方法,能够找到对主题贡献大的非高频词,从而抽取出完整文档关键词集合,该方法能够基于小规模语料库识别新词;为了提高网页去重速度和质量,基于关键词建立去重倒排文档。实验结果显示,该方法与传统方法相比排斥错误率降低了5%,去重时间缩短了20%-30%。 展开更多
关键词 关键词提取 新词识别 文档相似度
在线阅读 下载PDF
基于Q/A与文档库的智能课程答疑系统 被引量:3
10
作者 叶忠杰 陈庆章 《计算机工程与设计》 CSCD 北大核心 2008年第10期2692-2694,共3页
评价智能答疑系统优劣的重要指标是准确率和召回率。系统结合Q/A库和文档库搜索技术的优势实现,利用成熟的Q/A技术回答常见问题,保证了系统的准确率和高效率。利用智能文档搜索技术解答非常见问题,提高了系统的召回率,又因为事先对文档... 评价智能答疑系统优劣的重要指标是准确率和召回率。系统结合Q/A库和文档库搜索技术的优势实现,利用成熟的Q/A技术回答常见问题,保证了系统的准确率和高效率。利用智能文档搜索技术解答非常见问题,提高了系统的召回率,又因为事先对文档作了预处理,使搜索效率明显提高。同时系统基于课程开发,关键词的词汇量少而精确,使得语义理解的处理得以简化。 展开更多
关键词 智能答疑 召回率 向量空间模型 文档预处理 文档相似度
在线阅读 下载PDF
基于词条之间关联关系的文档聚类 被引量:1
11
作者 任建华 沈炎彬 +1 位作者 孟祥福 王伟 《计算机工程与应用》 CSCD 北大核心 2016年第7期86-90,共5页
针对现有的空间向量模型在进行文档表示时忽略词条之间的语义关系的不足,提出了一种新的基于关联规则的文档向量表示方法。在广义空间向量模型中分析词条的频繁同现关系得到词条同现语义,根据关联规则分析词条之间的关联相关性,挖掘出... 针对现有的空间向量模型在进行文档表示时忽略词条之间的语义关系的不足,提出了一种新的基于关联规则的文档向量表示方法。在广义空间向量模型中分析词条的频繁同现关系得到词条同现语义,根据关联规则分析词条之间的关联相关性,挖掘出文档中词条之间的潜在关联语义关系,将词条同现语义和关联语义线性加权对文档进行表示。实验结果表明,与BOW模型和GVSM模型相比,采用关联规则文档向量表示的文档聚类结果更准确。 展开更多
关键词 文档聚类 关联关系 词条同现 文档相似度 潜在语义
在线阅读 下载PDF
基于词间语义相关度的搜索结果聚类算法 被引量:2
12
作者 沙芸 张国英 《郑州大学学报(理学版)》 CAS 北大核心 2009年第1期73-76,共4页
将查询结果根据内容进行聚类是提高搜索引擎服务质量的关键技术之一.搜索结果聚类时只能从文档标题和文档片段中抽取有限信息,传统聚类方法难以准确计算其相似度.提出了一种基于词间语义相关度的搜索结果聚类算法,该算法以词为聚类的核... 将查询结果根据内容进行聚类是提高搜索引擎服务质量的关键技术之一.搜索结果聚类时只能从文档标题和文档片段中抽取有限信息,传统聚类方法难以准确计算其相似度.提出了一种基于词间语义相关度的搜索结果聚类算法,该算法以词为聚类的核心,词所出现的文档为词的属性,根据词在搜索结果文档中共现的情况来划分类别.该方法可以充分利用词间的语义相关性,类别划分后即可确定类名.实验结果表明,对搜索结果聚类时与K-Means和STC算法相比,质量上有所提高. 展开更多
关键词 搜索结果聚类 词间语义相关 文档相似度
在线阅读 下载PDF
通过自聚类的软件说明文档来挖掘标注SaaS服务的标签
13
作者 秦丽 李兵 《小型微型计算机系统》 CSCD 北大核心 2013年第12期2686-2690,共5页
基于SaaS的在线服务数量日益宠大,使得如何有效的查找特定的服务成为突出问题.目前普遍采用用户自定义的服务标签来标识服务,并通过标签来搜索服务,但这些标签存在随意性,容易产生歧义.有鉴于此,本文提出一种从软件说明文档中挖掘用以... 基于SaaS的在线服务数量日益宠大,使得如何有效的查找特定的服务成为突出问题.目前普遍采用用户自定义的服务标签来标识服务,并通过标签来搜索服务,但这些标签存在随意性,容易产生歧义.有鉴于此,本文提出一种从软件说明文档中挖掘用以标注服务标签的方法,为了验证该方法,本文收集了多特软件平台上的软件说明文档,通过文本挖掘技术从中提取特征词汇,并对特征词汇进行相似度计算,利用特征词汇的相似度来计算软件说明文档之间的相似度,并以此来构建软件网络,其中节点为软件,边为软件间的相似关系,边上权值为相关说明文档之间的相似程度,再通过复杂网络社区发现算法对软件网络进行自动聚类,最后将聚类后的软件说明文档中的常用特征词汇进行统计,将之定义为该类别服务的推荐标签. 展开更多
关键词 服务标签 特征词 文档相似度 软件网络 社区发现
在线阅读 下载PDF
基于改进孪生网络结构的相似法律案例检索研究 被引量:8
14
作者 李兰君 周俊生 +1 位作者 顾颜慧 曲维光 《北京大学学报(自然科学版)》 EI CAS CSCD 北大核心 2019年第1期84-90,共7页
针对现有的基于孪生网络结构的文档相似度计算方法大多将整个文档看成模型的输入序列,易导致数据稀疏的问题,提出利用层级注意力机制来改进孪生网络结构中的文档表示。针对基于层级注意力机制的孪生网络计算模型在输入时有可能忽略文档... 针对现有的基于孪生网络结构的文档相似度计算方法大多将整个文档看成模型的输入序列,易导致数据稀疏的问题,提出利用层级注意力机制来改进孪生网络结构中的文档表示。针对基于层级注意力机制的孪生网络计算模型在输入时有可能忽略文档中重要句子的问题,进一步提出一种引入文档内容压缩的两步骤文档相似度计算方法。利用开发的法律案例文档相似度标注数据集进行实验,结果表明所提方法明显优于基于长短期记忆模型的孪生网络计算模型。 展开更多
关键词 文档相似度计算 孪生网络 注意力机制 文档内容压缩
在线阅读 下载PDF
融合主题模型及双语词向量的汉缅双语可比文档获取方法 被引量:2
15
作者 李训宇 毛存礼 +3 位作者 余正涛 高盛祥 王振晗 张亚飞 《中文信息学报》 CSCD 北大核心 2021年第1期88-95,共8页
缅甸语属于资源稀缺型语言,汉缅双语可比文档是获取平行句对的重要数据资源。该文提出了一种融合主题模型及双语词向量的汉缅双语可比文档获取方法,将跨语言文档相似度计算转化为跨语言主题相似度计算问题。首先,使用单语LDA主题模型分... 缅甸语属于资源稀缺型语言,汉缅双语可比文档是获取平行句对的重要数据资源。该文提出了一种融合主题模型及双语词向量的汉缅双语可比文档获取方法,将跨语言文档相似度计算转化为跨语言主题相似度计算问题。首先,使用单语LDA主题模型分别抽取汉语、缅甸语的主题,得到对应的主题分布表示;其次,将抽取到的汉缅主题词进行表征得到单语的主题词向量,利用汉缅双语词典将汉语、缅甸语单语主题词向量映射到共享的语义空间,得到汉缅双语主题词向量,最后通过计算汉语、缅甸语主题相似度获取汉缅双语可比文档。实验结果表明,该文提出的方法得到的F1值比基于双语词向量方法提升了5.6%。 展开更多
关键词 主题模型 双语词向量 文档相似度 汉语—缅甸语 双语可比文档
在线阅读 下载PDF
基于文档关系改进的向量空间模型 被引量:6
16
作者 何丹丹 吴树芳 徐建民 《河北大学学报(自然科学版)》 CAS 北大核心 2020年第3期322-327,共6页
由于用户查询信息不足而导致传统向量空间模型检索结果不够准确,针对此问题,提出了一种基于文档关系改进的向量空间模型.改进模型将初始检索结果中排名靠前的高相关文档组成基准集,通过计算初始检索结果集中每篇文档与基准集的相似度,... 由于用户查询信息不足而导致传统向量空间模型检索结果不够准确,针对此问题,提出了一种基于文档关系改进的向量空间模型.改进模型将初始检索结果中排名靠前的高相关文档组成基准集,通过计算初始检索结果集中每篇文档与基准集的相似度,来修正原模型中文档与查询的相似度,实现对检索结果的重排序,从而实现对向量空间模型的改进.实验结果表明:与传统向量空间模型相比,改进模型使得相关文档排名更合理,在保证召回率的条件下提高了准确率. 展开更多
关键词 文档关系 向量空间模型 文档相似度 信息检索
在线阅读 下载PDF
基于文档关系的扩展信念网络检索模型 被引量:3
17
作者 徐建民 何丹丹 吴树芳 《情报学报》 CSSCI CSCD 北大核心 2019年第11期1160-1165,共6页
合理利用文档关系可以提高模型的检索性能。针对基本信念网络检索模型未考虑文档关系的不足,通过在基本模型上增加一层文档节点,提出一种具有两层文档节点的扩展信念网络检索模型,给出了模型的拓扑结构和概率推导。在拓扑结构中,术语与... 合理利用文档关系可以提高模型的检索性能。针对基本信念网络检索模型未考虑文档关系的不足,通过在基本模型上增加一层文档节点,提出一种具有两层文档节点的扩展信念网络检索模型,给出了模型的拓扑结构和概率推导。在拓扑结构中,术语与查询的关系、术语与文档的关系和两层文档之间的关系都用弧来表示,其中文档关系依据文档相似度确定。在概率推导中,利用文档相似度及文档节点的父文档个数对原模型的概率推导做出修正,使得检索概率更为准确。实验采用折损累积增益值和查准率-查全率曲线来评价扩展模型的性能,结果表明,扩展模型使得相关文档排名更合理,并且在保证查全率的条件下提高了查准率。 展开更多
关键词 信念网络 文档关系 检索模型 文档相似度
在线阅读 下载PDF
基于文档实例映射的知识地图集成方法 被引量:1
18
作者 敬石开 刘继红 +1 位作者 鬲玲 李颖新 《计算机集成制造系统》 EI CSCD 北大核心 2015年第7期1702-1710,共9页
为了实现集成化知识地图间点对点的集成,提出基于文档实例映射的知识地图集成方法,在将产品研发知识地图分为概念地图、流程地图、专家地图的基础上,引入基于集成化研发知识地图的知识组织架构。采用文档实例映射方法计算节点间文档实... 为了实现集成化知识地图间点对点的集成,提出基于文档实例映射的知识地图集成方法,在将产品研发知识地图分为概念地图、流程地图、专家地图的基础上,引入基于集成化研发知识地图的知识组织架构。采用文档实例映射方法计算节点间文档实例集的相似度,并结合约束条件将相关节点连接,实现各知识节点上三类知识资源的整合。通过实例验证了该方法的可行性。 展开更多
关键词 产品研发 集成化研发知识地图 文档实例映射 文档实例集相似
在线阅读 下载PDF
基于领域本体的智能检索模型 被引量:11
19
作者 贾雪峰 王建新 +1 位作者 齐建东 朱礼军 《计算机工程》 CAS CSCD 北大核心 2010年第23期171-173,176,共4页
在传统检索模型的基础上,结合本体概念,提出一种基于领域本体的检索模型。该模型利用本体中语义概念关系及语义扩展机制对查询关键词进行概念映射及扩展,通过计算文档相似度返回检索结果,提高检索的查准率和查全率。
关键词 信息检索 本体 概念树 智能检索 文档相似度
在线阅读 下载PDF
基于语义分析的作者身份识别方法研究 被引量:26
20
作者 武晓春 黄萱菁 吴立德 《中文信息学报》 CSCD 北大核心 2006年第6期61-68,共8页
作者身份识别是一项应用广泛的研究,身份识别的关键问题是从作品中提取出代表语体风格的识别特征,并根据这些风格特征,评估作品与作品之间的风格相似度。传统的身份识别方法,主要考察作者遣词造句、段落组织等各种代表文体风格的特征,... 作者身份识别是一项应用广泛的研究,身份识别的关键问题是从作品中提取出代表语体风格的识别特征,并根据这些风格特征,评估作品与作品之间的风格相似度。传统的身份识别方法,主要考察作者遣词造句、段落组织等各种代表文体风格的特征,其中基于标点符号和最常见功能词频数的分析方法受到较为普遍的认同。本文依据文体学理论,利用HowNet知识库,提出一种新的基于词汇语义分析的相似度评估方法,有效利用了功能词以外的其他词汇,达到了较好的身份识别性能。 展开更多
关键词 计算机应用 中文信息处理 身份识别 语义分析 文档相似度
在线阅读 下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部