基于HowNet义原和Word2vec词向量表示的多特征融合消歧方法被引量：7

Disambiguation method of multi-feature fusion based on HowNet sememe and Word2vec word embedding representation

在线阅读下载PDF

导出

摘要针对目前词向量表示低频词质量差,表示的语义信息容易混淆,以及现有的消歧模型对多义词不能准确区分等问题,提出一种基于词向量融合表示的多特征融合消歧方法。该方法将使用知网(HowNet)义原表示的词向量与Word2vec生成的词向量进行融合来补全词的多义信息以及提高低频词的表示质量。首先计算待消歧实体与候选实体的余弦相似度来获得二者的相似度;其次使用聚类算法和知网知识库来获取实体类别特征相似度;然后利用改进的潜在狄利克雷分布(LDA)主题模型来抽取主题关键词以计算实体主题特征相似度,最后通过加权融合以上三类特征相似度实现多义词词义消歧。在西藏畜牧业领域测试集上进行的实验结果表明,所提方法的准确率(90.1%)比典型的图模型消歧方法提高了7.6个百分点。 Aiming at the problems that the low-frequency words expressed by the existing word vectors are of poor quality,the semantic information expressed by them is easy to be confused,and the existing disambiguation models cannot distinguish polysemous words accurately,a multi-feature fusion disambiguation method based on word vector fusion was proposed.In the method,the word vectors expressed by HowNet sememes and the word vectors generated by Word2vec(Word to vector)were fused to complement the polysemous information of words and improve the expression quality of lowfrequency words.Firstly,the cosine similarity between the entity to be disambiguated and the candidate entity was calculated to obtain the similarity between them.After that,the clustering algorithm and HowNet knowledge base were used to obtain entity category feature similarity.Then,the improved Latent Dirichlet Allocation(LDA)topic model was used to extract the topic keywords to calculate the similarity of entity topic feature similarity.Finally,the word sense disambiguation of polysemous words was realized by weighted fusion of the above three types of feature similarities.Experimental results conducted on the test set of the Tibet animal husbandry field show that the accuracy of the proposed method(90.1%)is 7.6 percentage points higher than that of typical graph model disambiguation method.

作者王伟赵尔平崔志远孙浩 WANG Wei;ZHAO Erping;CUI Zhiyuan;SUN Hao(College of Information Engineering,Xizang Minzu University,Xianyang Shaanxi 712082,China)

机构地区西藏民族大学信息工程学院

出处《计算机应用》 CSCD 北大核心 2021年第8期2193-2198,共6页 journal of Computer Applications

基金国家自然科学基金资助项目(61762082) 西藏自治区科技计划项目(XZ202001ZY0055G)。

关键词消歧义原词向量融合特征融合多义词 disambiguation sememe word vector fusion feature fusion polysemy

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

作者简介王伟(1996-),男,江苏扬州人,硕士研究生,CCF会员,主要研究方向:自然语言处理、知识图谱;通信作者:赵尔平(1976-),男,陕西彬县人,副教授,硕士,CCF会员,主要研究方向:大数据、知识图谱,电子邮箱xdzep@163.com;崔志远(1997-),男,山东潍坊人,硕士研究生,CCF会员,主要研究方向:自然语言处理、知识图谱;孙浩(1995-),男,江苏徐州人,硕士研究生,CCF会员,主要研究方向:自然语言处理、知识图谱。

引文网络
相关文献

参考文献17

1王瑞,李弼程,杜文倩.基于上下文词向量和主题模型的实体消歧方法[J].中文信息学报,2019,33(11):46-56. 被引量：12
2马晓军,郭剑毅,王红斌,张志坤,线岩团,余正涛.融合词向量和主题模型的领域实体消歧[J].模式识别与人工智能,2017,30(12):1130-1137. 被引量：8
3杨陟卓.基于上下文翻译的有监督词义消歧研究[J].计算机科学,2017,44(4):252-255. 被引量：11
4王苗,杨鹏.一种改进的无监督网络图词义消歧方法研究[J].机床与液压,2017,45(18):130-135. 被引量：1
5陈洋,罗智勇.一种基于Hownet的词向量表示方法[J].北京大学学报（自然科学版）,2019,55(1):22-28. 被引量：11
6范鹏程,沈英汉,许洪波,程学旗,廖华明.融合实体知识描述的实体联合消歧方法[J].中文信息学报,2020(7):42-49. 被引量：7
7李小涛,游树娟,陈维.一种基于词义向量模型的词语语义相似度算法[J].自动化学报,2020,46(8):1654-1669. 被引量：20
8张春祥,赵凌云,高雪瑶.结合词形词性和译文的汉语词义消歧[J].哈尔滨理工大学学报,2020,25(3):131-136. 被引量：2
9张雄,陈福才,黄瑞阳.基于融合特征相似度的实体消歧方法研究[J].计算机应用研究,2017,34(2):347-350. 被引量：7
10沈喆,王毅,姚毅凡,成颖.面向学术文献的作者名消歧方法研究综述[J].数据分析与知识发现,2020,4(8):15-27. 被引量：11

二级参考文献69

1余传明,钟韵辞,林奥琛,安璐.基于网络表示学习的作者重名消歧研究[J].数据分析与知识发现,2020,4(2):48-59. 被引量：11
2http://www.wikipedia.org/.
3S Auer, C Bizer,G Kobilarov, et al. Dbpedia: A Nu-cleus for Web of Open Data [ C]//Proceedings ofISWC, 2007:11-15.
4Marius Pasca. Outclassing Wikipedia in Open-domainInformation Extraction: Weakly-supervised Acquisi-tion of Attributes over Conceptual Hierarchies [C]//Proceedings of the 12th Conference of the EuropeanChapter of the ACL, 2009: 639-647.
5Simone Palo Ponzetto,Michael Strube. KnowledgeDerived from Wikipedia for Computing Semantic Relat-edness[J]. Journal of Artificial Inteeligence Research,2007: 181-212.
6Angela Fogarolli. Word Sense Disambiguation basedon Wikipedia link structure [C]//Proceedings of Inter-national Conference on Semantic Computing, 2009 : 77-82.
7P McNamee, H Simpson, H T Dang. Overview of theTAG 2009 Knowledge Base Population Track [C]//Proceedings of TAC,2009.
8X Han, J Zhao. Named Entity Disambiguation by Le-veraging Wikipedia Semantic Knowledge [ C]//Pro-ceedings of CIKM,2009 : 215-224.
9E Gabrilovich, S Markovitch. Computing SemanticRelatedness using Wikipedia-based Explicit SemanticAnalysis [ C]//Proceedings of IJCAI, 2007 : 1606-1611.
10David Milne, Ian H Witten. Learning to link withWikipedia [C]//Proceedings of CIKM 2008. USA:ACM, 2008:509-518.

共引文献122

1章乐,朱娅霖.自然语言中词汇的信息获取:改进的skip-gram模型[J].北京电子科技学院学报,2020(2):19-26. 被引量：1
2牛翊童.基于知识图谱的命名实体消歧方法研究[J].计算机产品与流通,2020,0(8):249-249. 被引量：2
3姜丽婷,古丽拉·阿东别克,马雅静.基于混合卷积网络的短文本实体消歧[J].中文信息学报,2021,35(11):101-108. 被引量：3
4林杰克.计算机网络信息安全与防护综述[J].新一代信息技术,2022,5(6):115-116.
5刘峤,钟云,李杨,刘瑶,秦志光.基于图的中文集成实体链接算法[J].计算机研究与发展,2016,53(2):270-283. 被引量：8
6刘峤,钟云,刘瑶,吴祖峰,秦志光.基于语义一致性的集成实体链接算法[J].计算机研究与发展,2016,53(8):1696-1708. 被引量：10
7高艳红,李爱萍,段利国.面向实体链接的多特征图模型实体消歧方法[J].计算机应用研究,2017,34(10):2909-2914. 被引量：12
8马晓军,郭剑毅,王红斌,张志坤,线岩团,余正涛.融合词向量和主题模型的领域实体消歧[J].模式识别与人工智能,2017,30(12):1130-1137. 被引量：8
9李国佳,赵莹地,郭鸿奇.一种基于多义词向量表示的词义消歧方法[J].智能计算机与应用,2018,8(4):52-56. 被引量：4
10陈帅帅,付鹏斌,杨慧荣.基于语义相似度的主观题自动阅卷系统设计[J].自动化与仪器仪表,2018,0(9):59-62.

同被引文献75

1付立华.大数据与司法社会治理:应用及其伦理[J].山东社会科学,2021(4):89-94. 被引量：19
2范鹏程,沈英汉,许洪波,程学旗,廖华明.融合实体知识描述的实体联合消歧方法[J].中文信息学报,2020(7):42-49. 被引量：7
3孙茂松,黄昌宁,方捷.汉语搭配定量分析初探[J].中国语文,1997(1):29-38. 被引量：56
4曲维光,陈小荷,吉根林.基于框架的词语搭配自动抽取方法[J].计算机工程,2004,30(23):22-24. 被引量：19
5全昌勤,何婷婷,姬东鸿,刘辉.从搭配知识获取最优种子的词义消歧方法[J].中文信息学报,2005,19(1):30-35. 被引量：13
6全昌勤,刘辉,何婷婷.基于统计模型的词语搭配自动获取方法的分析与比较[J].计算机应用研究,2005,22(9):55-57. 被引量：10
7卢志茂,刘挺,李生.统计词义消歧的研究进展[J].电子学报,2006,34(2):333-343. 被引量：28
8刘华.基于文本分类中特征提取的领域词语聚类[J].语言文字应用,2007(1):139-144. 被引量：23
9吴云芳,金澎,郭涛.基于词典属性特征的粗粒度词义消歧[J].中文信息学报,2007,21(2):3-8. 被引量：10
10程月.基于义类信息的动宾搭配的考察与实验[J].南京师范大学文学院学报,2007(4):182-185. 被引量：3

引证文献7

1腊志垚,钱育蓉,冷洪勇,顾天宇,张继元,李自臣.基于随机游走的图嵌入研究综述[J].计算机工程与应用,2022,58(13):1-13. 被引量：11
2高珊,何安娜,肖清泉.基于深度学习的司法判罚研究[J].电子设计工程,2022,30(17):23-27.
3吴靖.基于多源数据分析的区域划分形态识别与优化技术研究[J].电子设计工程,2023,31(14):57-61. 被引量：1
4刘斌,张倩,魏亚琴,崔学英,智红英.基于表达式的逐层聚合和动态选择的图到方程树模型[J].计算机应用,2023,43(8):2390-2395.
5杨泉.嵌入式词向量的实现原理研究[J].计算机与数字工程,2023,51(11):2602-2607.
6石水倩,金晶,沈耕宇,王宝佳,任妮.基于多元相似度融合的中文命名实体消歧方法[J].数据分析与知识发现,2024,8(2):56-64. 被引量：3
7闫亚亚,邢红兵.基于节点词全句共现的动态词义消歧研究[J].语言科学,2024,23(4):354-364.

二级引证文献15

1褚哲,张玲.基于知识图谱和图算法的党史研究[J].信息技术与信息化,2022(10):114-118. 被引量：2
2付子轩,周鹏,任海燕,商楚浩,罗静静,郭义,王西墨.基于知识图谱的中西医结合急腹症诊疗推理分析[J].中国实验方剂学杂志,2023,29(11):190-199. 被引量：11
3殷豪,李奕甸,谢智锋,于慧,张展,王懿华.混合图神经网络和门控循环网络的短期光伏功率预测[J].太阳能学报,2024,45(3):523-532. 被引量：5
4黄青.基于异构图嵌入的恶意软件检测[J].电子设计工程,2024,32(7):92-96.
5宋岍龙.基于SPEA-Ⅱ算法的网络多层次安全访问控制方法[J].计算机测量与控制,2024,32(6):173-179. 被引量：3
6阚德广,赵盘山.基于空间信息处理技术的多源城市规划数据融合与集成[J].智能城市,2024,10(7):78-80. 被引量：1
7袁立宁,唐雨霞,黄琬雁,罗恒雨,何佩遥.基于图分析算法的信用卡交易欺诈检测[J].现代信息科技,2024,8(15):138-141. 被引量：1
8张金营,王哲峰,谢华,么长英,闵艳丽,王新颖.基于知识图谱与大语言模型的电力行业知识检索分析系统研发与应用[J].中国电力,2024,57(12):198-205. 被引量：3
9朱峰冉,王慧颖,林晓丽,李全鑫,庞俊.结合多尺度注意力和动态构建的非均匀超图聚类模型[J].计算机工程与应用,2025,61(2):200-207. 被引量：1
10何佳怡,谢佳东,胡晨骏,胡孔法.基于图神经网络的中药聚类方法研究[J].世界科学技术-中医药现代化,2024,26(11):2988-2995.

1裴建荣.牦牛生态养殖与产业发展措施[J].兽医导刊,2021(12):245-245.
2醉翁之意不在酒[J].小学阅读指南（高年级版）,2021(7):33-33.
3张春来,马伟元.西藏畜牧兽医工作中动物检疫现状浅析[J].吉林畜牧兽医,2021,42(4):128-128. 被引量：4
4吴柯烨,闵超,孙建军,权昭瑄.面向特定科研任务的著者姓名消歧方法[J].情报学报,2021,40(7):734-744. 被引量：5
5昌宁,窦永香,徐薇.基于多源数据的科技文献作者同名消歧研究[J].情报科学,2021,39(6):108-116. 被引量：5
6方晓风.写在前面[J].装饰,2021(4):1-1.
7柏晓鹏.义类标注:必要性和可行性[J].语言学论丛,2020(1):116-134.
8何永秀,王美艳,郁晋雄,高效.基于电力用户特征和多属性效用的电价套餐混合优化选择研究[J].价格理论与实践,2020(12):44-48. 被引量：5
9谷宇峰,张道勇,鲍志东,郭海晓,周立明,任继红.利用GS-LightGBM机器学习模型识别致密砂岩地层岩性[J].地质科技通报,2021,40(4):224-234. 被引量：15
10钟裔灵,朵琳.融合用户评分和项目特征的相似推荐算法[J].软件,2021,42(5):74-77.

计算机应用

2021年第8期

浏览历史

内容加载中请稍等...

基于HowNet义原和Word2vec词向量表示的多特征融合消歧方法被引量：7

参考文献17

二级参考文献69

共引文献122

同被引文献75

引证文献7

二级引证文献15

相关作者

相关机构

相关主题

浏览历史

基于HowNet义原和Word2vec词向量表示的多特征融合消歧方法 被引量：7

参考文献17

二级参考文献69

共引文献122

同被引文献75

引证文献7

二级引证文献15

相关作者

相关机构

相关主题

浏览历史

基于HowNet义原和Word2vec词向量表示的多特征融合消歧方法被引量：7