基于深度学习的文本表示方法被引量：22

Text Representation Method Based on Deep Learning

导出

摘要【目的/意义】文本表示是自然语言处理的基础工作,是信息检索、文本分类、问答系统的关键问题。【方法/过程】论文介绍了传统的文本表示方法,按照文本不同的粒度,回顾了近五年国内外基于神经网络模型的词表示、句子表示、篇章(段落)表示的方法,并提出了未来的研究方向。【结果/结论】实验发现,通过在神经网络模型中融入更多的特征能得到更优的词向量,但词向量还缺乏统一的评价标准,句子向量表示通常根据具体NLP任务建模,不同结构的模型在特征表示、运算速度上各有优劣势,篇章表示通常使用层次组合模型。【Purpose/significance】Text representation is the basic work of natural language processing,the key task of information retrieval,text classification and question answering system.【Method/process】The paper introduces the traditional method of text representation,according to the different granularity of the text,the paper reviews the method of representation of word,sentence and document(paragraph)based on neural network in recent five years,and puts forward the future research direction.【Result/conclusion】The experiment found that incorporating more features into the neural network,a better word embedding can be obtained,but word embedding lacks the unified evaluation standard,the sentence vector representation usually according to the specific NLP task,the different structure model each has different advantage and disadvantage in the feature representation and the computing speed.And the document representation usually uses hierarchical model.

作者李枫林柯佳 LI Feng-lin;KE Jia(School of Information Management,Wuhan University,Wuhan 430072,China)

机构地区武汉大学信息管理学院

出处《情报科学》 CSSCI 北大核心 2019年第1期156-164,共9页 Information Science

关键词神经网络文本表示词向量 neural network text representation word embedding

分类号 G254.9 [文化科学—图书馆学]

作者简介李枫林,(1962),男,武汉人,教授,博士生导师,主要从事电子商务研究.

引文网络
相关文献

同被引文献300

1孔静静,于琦,李敬华,于彤,张竹绿,田野,祖雅琪.实体抽取综述及其在中医药领域的应用[J].世界科学技术-中医药现代化,2022,24(8):2957-2963. 被引量：9
2屈丹丹,杨涛,朱垚,胡孔法.基于字向量的BiGRU-CRF肺癌医案四诊信息实体抽取研究[J].世界科学技术-中医药现代化,2021,23(9):3118-3125. 被引量：10
3肖瑞,胡冯菊,裴卫.基于BiLSTM-CRF的中医文本命名实体识别[J].世界科学技术-中医药现代化,2020,22(7):2504-2510. 被引量：39
4刘河庆,梁玉成.政策内容再生产的影响机制——基于涉农政策文本的研究[J].社会学研究,2021(1):115-136. 被引量：62
5张政馗,庞为光,谢文静,吕鸣松,王义.面向实时应用的深度学习研究综述[J].软件学报,2020(9):2654-2677. 被引量：37
6徐通锵.“字本位”和语言研究[J].语言教学与研究,2005(6):1-11. 被引量：58
7李丽双,黄德根,陈春荣,杨元生.SVM与规则相结合的中文地名自动识别[J].中文信息学报,2006,20(5):51-57. 被引量：32
8戚敏.高校图书馆借阅数据的关联规则挖掘研究[J].广西工学院学报,2007,18(4):77-80. 被引量：14
9孙娟.ILASII系统中高校图书馆读者入馆和离馆数据的批处理[J].科技情报开发与经济,2008,18(12):1-3. 被引量：2
10曾润喜,徐晓林.网络舆情突发事件预警系统、指标与机制[J].情报杂志,2009,28(11):52-54. 被引量：188

引证文献22

1汤雁冰.氧化铜铁矿石中伴生金银的回收[J].有色矿山,2000,29(3):28-31. 被引量：2
2黄炜,黄建桥,李岳峰.基于BiLSTM-CRF的涉恐信息实体识别模型研究[J].情报杂志,2019,38(12):149-156. 被引量：25
3张海涛,宋拓,周红磊,张鑫蕊.基于谱聚类的虚拟健康社区知识聚合方法研究[J].图书情报工作,2020,64(8):134-140. 被引量：7
4陈星霖.国内基于深度学习的目标跟踪研究知识图谱分析[J].情报科学,2020,38(6):158-162. 被引量：2
5黄露,周恩国,李岱峰.融合特定任务信息注意力机制的文本表示学习模型[J].数据分析与知识发现,2020,4(9):111-122. 被引量：3
6高雅,冯爽.结合注意力机制的新闻文本情感分析算法[J].新型工业化,2020,10(7):15-18.
7高翔,张金登,许潇,冯剑红.基于LSTM-CRF的军事动向文本实体识别方法[J].指挥信息系统与技术,2020,11(6):91-95. 被引量：13
8卢昱波,刘德润,蔡奕超,杨庆雨,陈伟,刘太安.基于cw2vec与CNN-BiLSTM注意力模型的中文微博情感分类[J].软件导刊,2021,20(3):51-56. 被引量：3
9赵晶,陈宣雨,迟旭.基于文本分析的企业国际化测量方法及应用研究[J].中国软科学,2021(1):136-146. 被引量：9
10廖开际,黄琼影,席运江.在线医疗社区问答文本的知识图谱构建研究[J].情报科学,2021,39(3):51-59. 被引量：20

二级引证文献221

1丁萌潇.地方政府政务服务智慧化水平影响因素探究——基于TOE框架的组态分析[J].数字治理评论,2024(1):125-145. 被引量：1
2唐静,杨涛,朱垚,胡孔法.融合共现和语义信息的药对提取方法研究及应用[J].世界科学技术-中医药现代化,2024,26(1):88-98. 被引量：1
3冯建英,石岩,王博,穆维松.基于聚类分析的数据挖掘技术及其农业应用研究进展[J].农业机械学报,2022,53(S01):201-212. 被引量：20
4汪欣,张铭毅,刘亚萍.精准推荐技术的工作逻辑和前沿应用[J].传媒论坛,2022,5(16):16-18.
5朱薇,郭秋松,刘志强,陈怀杰.某低硫伴生金银褐铁矿预处理工艺的研究[J].稀有金属与硬质合金,2016,44(3):25-28. 被引量：1
6陈猛夫.基于迁移学习的暴恐图像自动识别[J].北京航空航天大学学报,2020,46(9):1677-1681. 被引量：4
7宫义山,段亚奇.基于不同模型的中文命名实体识别方法研究[J].长江信息通信,2021(1):84-86. 被引量：2
8胡昊天,王东波,邓三鸿,宋天睿,叶文豪.基于情报学招聘实体挖掘的情报学教育及人才培养分析[J].情报理论与实践,2021,44(1):8-17. 被引量：10
9胡吉明,郑翔,程齐凯,张岩.基于BiLSTM-CRF的政府微博舆论观点抽取与焦点呈现[J].情报理论与实践,2021,44(1):174-179. 被引量：14
10窦宇宸,胡勇.基于BERT的安全事件命名实体识别研究[J].信息安全研究,2021,7(3):242-249. 被引量：4

1冯国明,张晓冬,刘素辉.基于CapsNet的中文文本分类研究[J].数据分析与知识发现,2018,2(12):68-76. 被引量：15
2张文,冯洋,刘群.基于简单循环单元的深层神经网络机器翻译模型[J].中文信息学报,2018,32(10):36-44. 被引量：19
3刘晓彤,田大钢.融合深度学习与机器学习的在线评论情感分析[J].软件导刊,2019,18(2):1-4. 被引量：10
4陈永龙.计算机数据处理中影响运算速度的因素分析[J].科技资讯,2019,17(1):21-22. 被引量：1
5霍欢,王忠萌.基于深度层次特征的阅读理解模型[J].中文信息学报,2018,32(12):132-142. 被引量：1
6沈杰,瞿遂春,任福继,邱爱兵,徐杨.基于SGAN的中文问答生成研究[J].计算机应用与软件,2019,36(2):194-199. 被引量：5
7林原,李鲁莹,许侃,刘盛博.卓越大学联盟人文社会科学领域潜在合作机会发现研究[J].情报学报,2019,38(2):121-131.
8李键红,吴亚榕,吕巨建.基于自相似性与多任务高斯过程回归的单帧图像超分辨率重建[J].光学精密工程,2018,26(11):2814-2826. 被引量：9
9张文,李自强,杜宇航,杨叶.方法级别的细粒度软件缺陷定位方法[J].软件学报,2019,30(2):195-210. 被引量：10
10杨传龙,王金龙.基于NLP的企业供应关系自动抽取研究[J].计算机科学与应用,2018,8(12):1823-1832. 被引量：2

情报科学

2019年第1期

浏览历史

内容加载中请稍等...

基于深度学习的文本表示方法被引量：22

同被引文献300

引证文献22

二级引证文献221

相关作者

相关机构

相关主题

浏览历史

基于深度学习的文本表示方法 被引量：22

同被引文献300

引证文献22

二级引证文献221

相关作者

相关机构

相关主题

浏览历史

基于深度学习的文本表示方法被引量：22