-
题名一种基于Word2Vec的训练效果优化策略研究
被引量:20
- 1
-
-
作者
王飞
谭新
-
机构
解放军外国语学院
[
-
出处
《计算机应用与软件》
北大核心
2018年第1期97-102,174,共7页
-
基金
国家自然科学基金项目(11590771)
-
文摘
Word2Vec是谷歌在2013年开源的一款语言处理工具包,它能够在基于神经网络训练语言模型的同时将词表示成实数值向量,并根据向量空间余弦距离来寻找语义相似度高的词,训练效率较高。在应用Word2 Vec训练词向量的过程中,对其中可能影响Word2 Vec词向量训练的中文分词和算法选择环节进行试验,配合深入解析部分核心源代码,发现能使训练效果最优的策略,使得Word2Vec的性能获得一定的提升,为下一步的应用提供了更好的词向量。
-
关键词
word2vec
词向量
语义相似度
算法
-
Keywords
word2vec word vector semantic similarity algorithm
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名结合语义的特征权重计算方法研究
被引量:20
- 2
-
-
作者
任姚鹏
陈立潮
张英俊
袁英
-
机构
太原科技大学计算机科学与技术学院
-
出处
《计算机工程与设计》
CSCD
北大核心
2010年第10期2381-2383,2387,共4页
-
基金
山西省自然科学基金项目(2009011022-1)
-
文摘
为进一步改善目前大多数基于向量空间模型(VSM)的文本聚类算法的效果,研究了文本聚类的基础和关键环节——文本间相似度的计算,其中一个重要步骤就是计算各文本中特征词的权重,该计算的合理性和有效性直接影响到文本相似度的准确性和聚类的效果。传统的VSM特征权重计算方法——TF-IDF,没有考虑语义相似的词语在文本集中的分布情况,针对该问题,在基于"知网"的词语语义相似度分析基础上,提出了一种改进的TF-IDF权重计算方法。实验结果表明,该算法是有效可行的,且在一定程度上提高了文本聚类的查准率和查全率。
-
关键词
文本聚类
向量空间模型
权重计算方法
词汇语义相似度
知网
-
Keywords
text clustering
vector space model
term weighting algorithm
semantic similarity of words
Hownet
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名用于信息检索的同义词自动识别及其进展
被引量:25
- 3
-
-
作者
陆勇
侯汉清
-
机构
南京农业大学信息科技学院
-
出处
《南京农业大学学报(社会科学版)》
2004年第3期87-93,共7页
-
文摘
同义词识别在很多领域都有广泛的应用 ,例如信息检索、自动标引、后控制词表的编制、基于知识库的自动分类、基于实例的机器翻译等等 ,它是信息表示和信息检索领域急需解决的问题。目前 ,国外的同义词自动识别的方法主要包括 :基于词典注释的同义词识别算法、基于大型语料库统计的方法和基于搜索引擎的方法。
-
关键词
信息检索
自动标引
同义词识别
语料库
-
Keywords
recognition of synonyms
semantic similarity
word similarity algorithm
vector space
co-occurrence analysis
-
分类号
G354
[文化科学—情报学]
-
-
题名面向领域的语义搜索引擎的应用研究
被引量:5
- 4
-
-
作者
赵宏亮
杨鹤标
-
机构
江苏大学计算机科学与通信工程学院
-
出处
《计算机工程与设计》
CSCD
北大核心
2012年第5期1801-1805,共5页
-
基金
国家自然科学基金项目(61005017)
-
文摘
针对基于关键字的搜索引擎缺乏语义的问题,提出了一种面向专业领域的语义搜索引擎模型。以领域本体形式化描述为基础,构建本体语义框架,进而给出语义搜索模型。在模型中,以概念、概念-实例以及关键字等3种扩展特征项作为基础,对查询扩展算法和文档语义标注算法进行了研究,并且构建了语义索引,通过引入向量空间模型判定扩展检索词与语义文档的相似度。实验结果表明,该模型较传统模型较大提高了检索的查准率和查全率。
-
关键词
搜索引擎
语义索引
查询扩展
语义标注
领域本体
-
Keywords
based search engines
a semantic search engine model is proposed.With the formal description of domain ontology
the ontology semantic frame is built
and the semantic search model is presented.In this model
concept
concept-instance and keyword are used as three feature items as the basis of the semantic query expansion algorithm and document annotation algorithm
and the semantic index is built.The similarity between expanded words and the semantic document is determined by vector space model.The experiment with data from an university news report shows that this model is of large improvement in precision and recall
compared with the traditional model. Key words:search engine
semantic indexing
query expanding
semantic annotation
domain ontology
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-
-
题名基于NLP技术的装备故障文本匹配算法研究
被引量:7
- 5
-
-
作者
祖月芳
凌海风
吕永顺
-
机构
陆军工程大学野战工程学院
-
出处
《兵器装备工程学报》
CSCD
北大核心
2021年第11期204-208,共5页
-
文摘
基于当前装备故障诊断的现状,依据在装备维修手册、装备履历书以及装备管理信息系统中存在大量的装备故障和维修经验等数据,结合装备故障文本的特点,提出了一种融合词性、语义及词序因子的故障文本相似度计算方法。该方法将装备故障文本中词汇的词性、语义及位置关系相联系,在余弦公式的基础上,通过文本中的词汇之间的相似度与词性权重的关联关系,改进相似度计算方法,并引入词序相似度进一步优化文本相似度。实验表明,所提出的方法较其他方法有更好的精确率和召回率,有效提高了装备故障文本的匹配效果。
-
关键词
装备故障文本
词向量
词性
语义
词序相似度
文本相似度
匹配算法
-
Keywords
equipment fault text
word vector
part of speech
semantics
word order similarity
text similarity
matching algorithm
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-