期刊文献+
共找到5篇文章
< 1 >
每页显示 20 50 100
一种基于Word2Vec的训练效果优化策略研究 被引量:20
1
作者 王飞 谭新 《计算机应用与软件》 北大核心 2018年第1期97-102,174,共7页
Word2Vec是谷歌在2013年开源的一款语言处理工具包,它能够在基于神经网络训练语言模型的同时将词表示成实数值向量,并根据向量空间余弦距离来寻找语义相似度高的词,训练效率较高。在应用Word2 Vec训练词向量的过程中,对其中可能影响Word... Word2Vec是谷歌在2013年开源的一款语言处理工具包,它能够在基于神经网络训练语言模型的同时将词表示成实数值向量,并根据向量空间余弦距离来寻找语义相似度高的词,训练效率较高。在应用Word2 Vec训练词向量的过程中,对其中可能影响Word2 Vec词向量训练的中文分词和算法选择环节进行试验,配合深入解析部分核心源代码,发现能使训练效果最优的策略,使得Word2Vec的性能获得一定的提升,为下一步的应用提供了更好的词向量。 展开更多
关键词 word2vec 词向量 语义相似度 算法
在线阅读 下载PDF
结合语义的特征权重计算方法研究 被引量:20
2
作者 任姚鹏 陈立潮 +1 位作者 张英俊 袁英 《计算机工程与设计》 CSCD 北大核心 2010年第10期2381-2383,2387,共4页
为进一步改善目前大多数基于向量空间模型(VSM)的文本聚类算法的效果,研究了文本聚类的基础和关键环节——文本间相似度的计算,其中一个重要步骤就是计算各文本中特征词的权重,该计算的合理性和有效性直接影响到文本相似度的准确性和聚... 为进一步改善目前大多数基于向量空间模型(VSM)的文本聚类算法的效果,研究了文本聚类的基础和关键环节——文本间相似度的计算,其中一个重要步骤就是计算各文本中特征词的权重,该计算的合理性和有效性直接影响到文本相似度的准确性和聚类的效果。传统的VSM特征权重计算方法——TF-IDF,没有考虑语义相似的词语在文本集中的分布情况,针对该问题,在基于"知网"的词语语义相似度分析基础上,提出了一种改进的TF-IDF权重计算方法。实验结果表明,该算法是有效可行的,且在一定程度上提高了文本聚类的查准率和查全率。 展开更多
关键词 文本聚类 向量空间模型 权重计算方法 词汇语义相似度 知网
在线阅读 下载PDF
用于信息检索的同义词自动识别及其进展 被引量:25
3
作者 陆勇 侯汉清 《南京农业大学学报(社会科学版)》 2004年第3期87-93,共7页
同义词识别在很多领域都有广泛的应用 ,例如信息检索、自动标引、后控制词表的编制、基于知识库的自动分类、基于实例的机器翻译等等 ,它是信息表示和信息检索领域急需解决的问题。目前 ,国外的同义词自动识别的方法主要包括 :基于词典... 同义词识别在很多领域都有广泛的应用 ,例如信息检索、自动标引、后控制词表的编制、基于知识库的自动分类、基于实例的机器翻译等等 ,它是信息表示和信息检索领域急需解决的问题。目前 ,国外的同义词自动识别的方法主要包括 :基于词典注释的同义词识别算法、基于大型语料库统计的方法和基于搜索引擎的方法。 展开更多
关键词 信息检索 自动标引 同义词识别 语料库
在线阅读 下载PDF
面向领域的语义搜索引擎的应用研究 被引量:5
4
作者 赵宏亮 杨鹤标 《计算机工程与设计》 CSCD 北大核心 2012年第5期1801-1805,共5页
针对基于关键字的搜索引擎缺乏语义的问题,提出了一种面向专业领域的语义搜索引擎模型。以领域本体形式化描述为基础,构建本体语义框架,进而给出语义搜索模型。在模型中,以概念、概念-实例以及关键字等3种扩展特征项作为基础,对查询扩... 针对基于关键字的搜索引擎缺乏语义的问题,提出了一种面向专业领域的语义搜索引擎模型。以领域本体形式化描述为基础,构建本体语义框架,进而给出语义搜索模型。在模型中,以概念、概念-实例以及关键字等3种扩展特征项作为基础,对查询扩展算法和文档语义标注算法进行了研究,并且构建了语义索引,通过引入向量空间模型判定扩展检索词与语义文档的相似度。实验结果表明,该模型较传统模型较大提高了检索的查准率和查全率。 展开更多
关键词 搜索引擎 语义索引 查询扩展 语义标注 领域本体
在线阅读 下载PDF
基于NLP技术的装备故障文本匹配算法研究 被引量:7
5
作者 祖月芳 凌海风 吕永顺 《兵器装备工程学报》 CSCD 北大核心 2021年第11期204-208,共5页
基于当前装备故障诊断的现状,依据在装备维修手册、装备履历书以及装备管理信息系统中存在大量的装备故障和维修经验等数据,结合装备故障文本的特点,提出了一种融合词性、语义及词序因子的故障文本相似度计算方法。该方法将装备故障文... 基于当前装备故障诊断的现状,依据在装备维修手册、装备履历书以及装备管理信息系统中存在大量的装备故障和维修经验等数据,结合装备故障文本的特点,提出了一种融合词性、语义及词序因子的故障文本相似度计算方法。该方法将装备故障文本中词汇的词性、语义及位置关系相联系,在余弦公式的基础上,通过文本中的词汇之间的相似度与词性权重的关联关系,改进相似度计算方法,并引入词序相似度进一步优化文本相似度。实验表明,所提出的方法较其他方法有更好的精确率和召回率,有效提高了装备故障文本的匹配效果。 展开更多
关键词 装备故障文本 词向量 词性 语义 词序相似度 文本相似度 匹配算法
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部