-
题名一种改进的GloVe词向量表示学习方法
被引量:6
- 1
-
-
作者
石隽锋
李济洪
王瑞波
-
机构
山西大学现代教育技术学院
-
出处
《中文信息学报》
CSCD
北大核心
2021年第4期16-22,共7页
-
基金
国家自然科学基金(61806115)。
-
文摘
GloVe模型是一种广泛使用的词向量表示学习的模型。许多研究发现,学习得到的词向量维数越大,性能越好;但维数越大,模型学习耗时越长。事实上,GloVe模型中,耗时主要表现在两方面,一是统计词对共现矩阵,二是训练学习词向量表示。该文在利用GloVe模型统计语料中词对共现时,基于对称或非对称窗口得到两个共现矩阵,然后分别学习得到较低维度的词向量表示,再拼接得到较高维度的词向量表示。从计算的复杂度来看,该文方法并不会产生多的计算量,但显然统计共现矩阵和训练学习可通过并行方式实现,能够显著提高计算效率。在使用大规模语料的实验中,以对称和非对称窗口分别统计得到共现矩阵,分别学习得到300维词向量表示,再使用拼接方式得到600维词向量表示。与GloVe模型对称和非对称的600维的词向量相比,在中文和英文的词语推断任务上,显著地提高了预测的准确率,在词语聚类任务上,有较好的聚类效果,验证了该文方法的有效性。
-
关键词
GloVe模型
拼接的词向量
词语推断任务
-
Keywords
GloVe model
concatenated word vector
word analogy task
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-