摘要
针对自然语言处理中的文本匹配问题,提出一种基于自学习文本近邻图框架的深度学习模型,以处理短文本匹配问题。文本近邻图可使用词嵌入将文本转换为向量形式,再通过构建文本相似度关系矩阵获得,可表达文本样本的近邻关系。现有方法通常构造静态的近邻图,这些方法一方面依赖先验知识,另一方面难以获得句子对的最优表示。因此,提出了利用孪生卷积神经网络学习更优的动态更新的近邻图。该模型在Quora数据集上的准确率和F1值分别是84. 15%和79. 88%,在MSRP数据集上的准确率和F1值分别是74. 55%和81. 63%。实验表明,提出模型能有效地提高文本识别和匹配的准确率。
For text matching problems in natural language processing,this paper proposed a deep learning model based on selfadaptive affinity graph learning framework for short text matching. The affinity graph can be converted into a vector form using word embedding,and then obtained by constructing a text similarity relationship matrix,which can express the neighbor relationship of the text sample. Current methods usually construct static affinity graphs,which rely on prior knowledge and hard to obtain the optimal representation of sentence pairs. Therefore,this paper proposed using the Siamese CNN to learn the affinity graph of better dynamic updates. The accuracy and F1 values of the model on the Quora dataset are 84. 15% and 79. 88%,and on the MSRP dataset are 74. 55% and 81. 63%. Experiments show that the proposed model can improve the accuracy of text recognition and matching effectively.
作者
付聪
李六武
杨振国
刘文印
Fu Cong;Li Liuwu;Yang Zhenguo;Liu Wenyin(School of Computer Science,Guangdong University of Technology,Guangzhou 510006,China)
出处
《计算机应用研究》
CSCD
北大核心
2020年第6期1697-1701,共5页
Application Research of Computers
基金
国家自然科学基金资助项目(61703109,91748107)
中国博士后科学基金资助项目(2018M643024)
广东省引进创新科研团队计划资助项目(2014ZT05G157)。
关键词
文本匹配
自学习近邻图
词嵌入
孪生卷积神经网络
text matching
self-adaptive affinity graph learning
word embedding
Siamese CNN
作者简介
付聪(1991-),女,山东济宁人,硕士,主要研究方向为自然语言处理、文本挖掘;李六武(1992-),男,广西梧州人,硕士,主要研究方向为计算机视觉、自然语言处理;杨振国(1988-),男,山东潍坊人,博士(后),主要研究方向为自然语言处理、文本挖掘、多媒体;刘文印(1966-),男,吉林榆树人,教授,硕/博导,主要研究方向为文本挖掘、区块链、网络身份安全等(liuwy@gdut.edu.cn).