基于统计语言模型改进的Word2Vec优化策略研究被引量：14

Word2Vec Optimization Strategy Based on an Improved Statistical Language Model

在线阅读下载PDF

导出

摘要该文从训练词向量的语言模型入手,研究了经典skip-gram、CBOW语言模型训练出的词向量的优缺点,引入TFIDF文本关键词计算法,提出了一种基于关键词改进的语言模型。研究发现,经典skip-gram、CBOW语言模型只考虑到词本身与其上下文的联系,而改进的语言模型通过文本关键词建立了词本身与整个文本之间的联系,在词向量训练结果的查准率和相似度方面,改进模型训练出的词向量较skip-gram、CBOW语言模型有一个小幅度的提升。通过基于维基百科1.5GB中文语料的词向量训练实验对比后发现,使用CBOW-TFIDF模型训练出的词向量在相似词测试任务中结果最佳;把改进的词向量应用到情感倾向性分析任务中,正向评价的精确率和F1值分别提高了4.79%、4.92%,因此基于统计语言模型改进的词向量,对于情感倾向性分析等以词向量为基础的应用研究工作有较为重要的实践意义。 This paper introduces the TFIDF method and proposes a keyword integrated language model for word embedding.Compared with the classic skip-gram and CBOW language models considering only the relationship between the word itself and its context,the proposed method establishes the connection between the word itself and the whole text.Trained on Wikipedia 1.5 GChinese corpus,the word embedding generated by CBOW-TFIDF achieves the best result in synonym test,and improves the accuracy and F-score of the positive evaluation by 4.79%and4.92%,respectively in the sentiment tendency analysis task.

作者张克君史泰猛李伟男钱榕 ZHANG Kejun;SHI Taimeng;LI Weinan;QIAN Rong(Beijing Electronic Science&Technology Institute,Beijing 100071,China;School of Computer Science and Technology,Xidian University,Xi'an,Shaanxi 710071,China)

机构地区北京电子科技学院西安电子科技大学计算机科学与技术学院

出处《中文信息学报》 CSCD 北大核心 2019年第7期11-19,共9页 Journal of Chinese Information Processing

基金国家重点研发计划(2018YFB1004101) 国家自然科学基金(61170037)

关键词词向量统计语言模型 TFIDF 文本关键词 CBOW-TFIDF word vector statistical language model TFIDF key words CBOW-TFIDF

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

作者简介张克君(1972—),博士,副教授,主要研究领域为数据挖掘、知识发现。E-mail:zkj@besti.edu.cn;李伟男(1994—),硕士研究生,主要研究领域为机器学习、数据挖掘。E-mail:568793056@qq.com;通信作者:史泰猛(1995—),硕士研究生,主要研究领域为机器学习、自然语言处理。E-mail:shitaimeng@163.com

引文网络
相关文献

参考文献6

1唐明,朱磊,邹显春.基于Word2Vec的一种文档向量表示[J].计算机科学,2016,43(6):214-217. 被引量：150
2熊富林,邓怡豪,唐晓晟.Word2vec的核心架构及其应用[J].南京师范大学学报（工程技术版）,2015,15(1):43-48. 被引量：70
3奚雪峰,周国栋.面向自然语言处理的深度学习研究[J].自动化学报,2016,42(10):1445-1465. 被引量：236
4李志宇,梁循,周小平.基于属性主题分割的评论短文本词向量构建优化算法[J].中文信息学报,2016,30(5):101-110. 被引量：6
5邢永康,马少平.统计语言模型综述[J].计算机科学,2003,30(9):22-26. 被引量：38
6王飞,谭新.一种基于Word2Vec的训练效果优化策略研究[J].计算机应用与软件,2018,35(1):97-102. 被引量：20

二级参考文献66

1Graff D. The 1998 broadcast news speech and language-model corpus. Slides from lecture at the 1997 DARPA Speech Recognition Workshop, Feb. 1997.
2Rosenfeld R. A maximum entropy approach to adaptive statistical language modeling. Computer Speech and Language, 1996, 10:187-228.
3Katz S M. Estimation of probabilities from sparse data for the language model component of speech recognizer. IEEE Transactions on Acoustics, Speech and Signal Processing, 1987, ASSP35:400-401.
4Jelinek F,Mercer R L. Interpolated estimation of Markov source parameters from sparse data. In:Proc. of the Workshop on Pattern Recognition in Practice, Amsterdam, The Netherlands: North-Holland, May 1980,381-397.
5Magerman D M. Natural Language Parrsing as Statistical Pattern Recognition:[PhD Thesis]. Stanford University, 1994.
6Bahl L R,Brown P F, De Souza P V, Mercer R L. A tree-based statistical language model for natural language speech recognition. IEEE Transactions on Acoustics, Speech, and Signal Processing. 1989, 37(7): 1001-1008.
7Rosenfeld R. Adaptive Statistical Language Modeling: A Maximum Entropy Approach: [PhD thesis]. Carnegie Mellon University, 1994- CMU Technical Report CMU-CS-94-138.
8Darroch J, RatclifI D. Generalized iterative scaling for log-linear models. The annals of Mathematical statistics 1972, 43: 1470-1480.
9Berger A L. Della Pietra S A, Della Pietra V J. A maximum entropy approach to natural language processing. Computational Linguistics 1996,22(1) : 39-71.
10RosenIeld R. Two decades oI Statistical Language Modeling: Where Do We Go From Here? Proceedings of the IEEE, 2000, 88(8).

共引文献500

1左旭.TED演讲中人际意义研究文献综述[J].英语广场（学术研究）,2020(36):71-73. 被引量：1
2叶佳鑫,熊回香,蒋武轩.一种融合患者咨询文本与决策机理的医生推荐算法[J].数据分析与知识发现,2020,4(2):153-164. 被引量：11
3王思丽,祝忠明.机构知识库相关性检索机制研究与试验[J].情报科学,2020,0(2):94-101. 被引量：1
4周俊,郑彭元,袁立存,戈为溪,梁静.基于改进CASREL的水稻施肥知识图谱信息抽取研究[J].农业机械学报,2022,53(11):314-322. 被引量：11
5冯建英,王博,吴丹丹,穆维松,田东.用户画像技术与其在农业领域应用研究进展[J].农业机械学报,2021,52(S01):385-395. 被引量：7
6高园,罗悦,陈菊,冯杰,彭安杰,刘思涵.基于人工神经网络技术构建中医思维模型的研究[J].辽宁中医杂志,2022,49(7):48-51.
7胡远洋.基于深度神经网络的电阻层析成像重建方法[J].电子测量技术,2023,46(5):78-82. 被引量：1
8罗枭.基于深度学习的自然语言处理研究综述[J].智能计算机与应用,2020(4):133-137. 被引量：16
9张逸,李渴,邵振国,罗海荣.基于标准文件的电能质量领域本体构建方法[J].电力系统自动化,2020,44(17):102-111. 被引量：7
10朱剑华,李莉,张秋实,李赫,李伟凡,徐健.长江航道信息智能推送服务方法研究[J].测绘地理信息,2022,47(5):110-113. 被引量：1

同被引文献96

1王伟斌,李敬华,于琦,王俊文,张润顺,黄燕,王映辉.基于古代医案的郁证用药规律分析[J].中国实验方剂学杂志,2020,0(5):162-167. 被引量：17
2吴欢,应俊,王逸飞,胡华宇,徐洪丽,郑一琼.乳腺癌病理文本的结构化信息提取[J].解放军医学院学报,2020,41(7):746-751. 被引量：11
3周丰,殷丽丽,沈琼,杨怀光.基于word2vec的瓶装水线上评论智能分析[J].包装工程,2022,43(S01):48-55. 被引量：1
4易高翔,魏利军,吴宗之,宋占兵,于立见.全国安全生产调查信息系统设计与实现[J].中国安全生产科学技术,2009,5(4):60-63. 被引量：3
5张志飞,苗夺谦.基于粗糙集的文本分类特征选择算法[J].智能系统学报,2009,4(5):453-457. 被引量：8
6金燕,陈玉.基于本体的标签控制方法研究[J].图书馆理论与实践,2010(7):26-29. 被引量：12
7赵妍妍,秦兵,刘挺.文本情感分析[J].软件学报,2010,21(8):1834-1848. 被引量：558
8周爱武,于亚飞.K-Means聚类算法的研究[J].计算机技术与发展,2011,21(2):62-65. 被引量：137
9达吾勒.阿布都哈依尔,海拉提.克孜尔别克.基于规则的哈萨克语词干提取算法的研究[J].新疆大学学报（自然科学版）,2011,28(2):238-241. 被引量：7
10王千,王成,冯振元,叶金凤.K-means聚类算法研究综述[J].电子设计工程,2012,20(7):21-24. 被引量：320

引证文献14

1孟秋晴,熊回香,童兆莉,叶佳鑫.基于在线问诊文本信息的医生标签自动生成研究[J].情报科学,2020,38(5):58-64. 被引量：10
2黄勃,陈欢,方志军,王明胜,刘文竹.基于微博的COVID-19热点话题分析[J].武汉大学学报（理学版）,2020,66(5):425-432. 被引量：7
3陈波,谢珺,苗夺谦,王雨竹,续欣莹.基于粗糙集和多通道词向量的中文文本情感特征分析[J].中文信息学报,2020,34(8):94-104. 被引量：4
4穆凯代姆罕·伊敏江,沙尔旦尔·帕尔哈提,艾斯卡尔·艾木都拉,米吉提·阿不里米提.维-哈-柯多语言词素切分集成环境研究[J].电视技术,2020,44(6):46-51. 被引量：1
5黎伟健,叶天宽,彭涛,胡莉琼,朱凯亮.研究客户声音反映问题溯源分析效率提升的新方法[J].科技传播,2020,12(24):163-166.
6吴德平,华钢.基于Word2Vec词嵌入和聚类模型的安全生产事故文本案例分类[J].计算机系统应用,2021,30(1):141-145. 被引量：7
7赵宇红,薛维佳.基于元路径加权融合的异构网络相似性度量[J].计算机工程与设计,2021,42(2):309-315. 被引量：2
8屈丹丹,杨涛,胡孔法.NLP在中医医案症状信息自动化抽取中的应用研究[J].软件导刊,2021,20(2):44-48. 被引量：6
9彭涛.基于深度学习的歌词和古诗自动生成系统设计[J].现代信息科技,2021,5(1):25-27. 被引量：1
10尤丛丛,高盛祥,余正涛,毛存礼,潘润海.基于同义词数据增强的汉越神经机器翻译方法[J].计算机工程与科学,2021,43(8):1497-1502. 被引量：13

二级引证文献59

1孔静静,于琦,李敬华,于彤,张竹绿,田野,祖雅琪.实体抽取综述及其在中医药领域的应用[J].世界科学技术-中医药现代化,2022,24(8):2957-2963. 被引量：9
2王信俊.电力通信标签自动生成软件的开发研究[J].信息通信,2020(12):178-181.
3李堂军,戴昕淼.基于LDA的招聘信息技能标签生成算法[J].软件导刊,2021,20(5):128-133. 被引量：1
4林小坚.面向微博网络舆情的热门话题检测系统框架研究[J].电子技术与软件工程,2021(10):163-164. 被引量：2
5权学烽,宋晓谕,王鹏龙,白光祖,王宝.基于多源数据的疫情下中美两国热点话题变化分析[J].科技传播,2021,13(15):6-13.
6李绍华,冯晶莹,张皓泓,马若驰.基于支持向量机的微博评论舆情分析[J].大学图书情报学刊,2021,39(5):110-116. 被引量：8
7吴德平,时翔,王晓东.基于BERT模型的安全生产事故多标签文本分类[J].武汉工程大学学报,2021,43(5):586-590. 被引量：7
8张曦月,胡瑾秋,张来斌,董绍华,徐康凯.基于CW-AGNES的油气储运企业事故风险因素文本泛化方法[J].油气储运,2021,40(11):1242-1249. 被引量：3
9李珊珊,刘丁宁,祁瑞华,于莹莹.基于文本挖掘的重大公共卫生事件网络舆情特征分析及治理探索[J].情报探索,2021(12):27-36. 被引量：3
10丁有伟,郭坤,胡孔法,戴彩艳.一种面向中医电子病历的实体抽取算法[J].软件导刊,2021,20(12):99-104. 被引量：1

1黄卉.加强言语回应提升幼师互动有效性[J].名师在线,2019,0(19):91-92.
2刘薇.空间向量应用例说[J].高中数理化,2018,0(23):6-7.
3马力,李沙沙.基于词向量的文本分类研究[J].计算机与数字工程,2019,47(2):281-284. 被引量：10
4申志莲.平面向量中几个概念的教学引入[J].数学教学,2019,0(5):39-42.
5徐炎,曹春萍.语义核SVM结合改进EMD跨越语义鸿沟[J].轻工学报,2019,34(3):77-83. 被引量：1
6袁野.百年前,有人用纸建起“维基百科”[J].党员生活（湖北）,2019,0(20):40-40.
7秦增平.三点共线的两种模式[J].中学生数学（高中版）,2019,0(5):6-7.
8郑飞北.教养方式与贫困儿童的抗逆力——兼论我国社会救助的转向[J].公共治理评论,2016(1):103-111.
9曹明宇,李青青,杨志豪,王磊,张音,林鸿飞,王健.基于知识图谱的原发性肝癌知识问答系统[J].中文信息学报,2019,33(6):88-93. 被引量：51
10陈洁,邵志清,张欢欢,费佳慧.基于并行混合神经网络模型的短文本情感分析[J].计算机应用,2019,39(8):2192-2197. 被引量：16

中文信息学报

2019年第7期

浏览历史

内容加载中请稍等...

基于统计语言模型改进的Word2Vec优化策略研究被引量：14

参考文献6

二级参考文献66

共引文献500

同被引文献96

引证文献14

二级引证文献59

相关作者

相关机构

相关主题

浏览历史

基于统计语言模型改进的Word2Vec优化策略研究 被引量：14

参考文献6

二级参考文献66

共引文献500

同被引文献96

引证文献14

二级引证文献59

相关作者

相关机构

相关主题

浏览历史

基于统计语言模型改进的Word2Vec优化策略研究被引量：14