中文命名实体识别模型对比分析被引量：11

Analysis and Comparison of Chinese Named Entity Recognition Model

在线阅读下载PDF

导出

摘要为了比较客观了解现有主要中文命名实体识别系统与开源系统的性能,基于字的双向长短时记忆循环神经网络(BiLSTM)接入条件随机场(CRF)的系统,利用微软亚洲研究院的MSRA数据集实现中文命名实体识别模型,然后使用MSRA测试数据对自建模型、哈工大的语言技术平台(LTP)和斯坦福大学CoreNLP自然语言处理工具进行对比测试与分析。实验表明:BiLSTM对地名实体的识别效果最佳,与地名和人名相比机构名识别效果与开源工具保持同等水平。实验在语料规模以及实验设计方面有提升空间。后续将实验模型作为重点,将特定领域实体与序列标注问题相结合进行开展研究。 In order to get a considerable understanding about the existing major Chinese named entity recognition models and the performance of open source systems,adopts char-based Bi-directional Long Short Term Memory with Conditional Random Field which uses the Microsoft Research Lab-Asia's MSRA dataset to implement the Chinese named entity recognition model,and also The MSRA test data is used to compare and test the self-built model,Harbin Institute of Technology's Language Technology Platform(LTP)and Stanford University CoreNLP natural language processing tools.Experiments show that BiLSTM has the best recognition effect on place name,compared with location names,person and organization name are sustaining the same level with the open source tools.The experiment has room for improvement in terms of size of corpus and experimental design.Subsequent focus on the experimental model,combining specific domain entities with sequence labeling issues to conduct research.

作者祖木然提古丽·库尔班艾山·吾买尔 Zumurantiguli Kuerban;Aishan Wumaier(School of Information Science and Engineering,Xinjiang University,Urumqi 830046;Xinjiang Laboratory of Multi-Language Information Technology,Urumqi 830046)

机构地区新疆大学信息科学与工程学院新疆多语种信息技术重点实验室

出处《现代计算机》 2019年第14期3-7,共5页 Modern Computer

基金国家自然科学基金(No.61662077、No.61262060)

关键词命名实体识别双向长短时记忆循环神经网络(BiLSTM) 语言技术平台(LTP) CoreNLP Named Entity Recognition BiLSTM(Bi-directional Long Short Term Memory) LTP(Language Technology Platform) CoreNLP

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

作者简介祖木然提古丽·库尔班(1992-),女,新疆阿克苏人,硕士,研究方向为自然语言处理与机器翻译;通信作者:艾山·吾买尔(1981-),男,新疆乌鲁木齐人,博士,副教授,研究方向为自然语言处理与机器翻译E-mail: hasan1479@xju.edu.cn.

引文网络
相关文献

参考文献4

1汤亚芬.先秦古汉语典籍中的人名自动识别研究[J].现代图书情报技术,2013(7):63-68. 被引量：17
2周俊生,戴新宇,尹存燕,陈家骏.基于层叠条件随机场模型的中文机构名自动识别[J].电子学报,2006,34(5):804-809. 被引量：114
3冯艳红,于红,孙庚,孙娟娟.基于BLSTM的命名实体识别方法[J].计算机科学,2018,45(2):261-268. 被引量：52
4李丽双,郭元凯.基于CNN-BLSTM-CRF模型的生物医学命名实体识别[J].中文信息学报,2018,32(1):116-122. 被引量：129

二级参考文献39

1刘群,张华平,俞鸿魁,程学旗.基于层叠隐马模型的汉语词法分析[J].计算机研究与发展,2004,41(8):1421-1429. 被引量：199
2毛婷婷,李丽双,黄德根.基于混合模型的中国人名自动识别[J].中文信息学报,2007,21(2):22-28. 被引量：10
3Wang Houfeng,Shi Wuguang.A simple rule-based approach to organization name recognition in chinese text[A].Proc of 5th CICLing[C].LNCS 3406,Heidelberg,German:Springer-Verlag,2005.769-772.
4Hongkui Yu,Huaping Zhang,Quan Liu.Recognition of Chinese organization name based role tagging[A].Proc of Advances in Computation of Oriental Languages[C].Beijing:Tsinghua University Press,2003.79-87.
5McCallum A,Freitag D,Pereira F.Maximum entropy Markov models for information extraction and segmentation[A].Proc of 17th ICML[C].Stanford,California,USA:Morgan Kaufmann,2000.591-598.
6John Lafferty,Andrew McCallum,Fernando Pereira.Conditional random fields:Probabilistic models for segmenting and labeling sequence data[A].Proc of the 18th ICML[C].San Francisco:Morgan Kaufmann,USA:2001.282-289.
7Andrew McCallum,Wei Li.Early results for named entity recognition with conditional random fields,feature induction and Web-enhanced lexicons[A].Proc of the 7th CoNLL[C].Edmonton,Canada:Morgan Kaufmann,2003.188-191.
8Thorsten Brants.Cascaded Markov models[A].Proc of EACL'99[C].Bergen,Norway:European Chapter of the Association for Computational Linguistics,1999.118-125.
9M Skounakis,M Craven,S Ray.Hierarchical hidden markov models for information extraction[A].Proc of the 18th International Joint Conference on Artificial Intelligence[C].Acapulco,Mexico:Morgan Kaufmann,2003.427-433.
10Eric Brill.Transformation based error driven learning and natural language processing:A case study in part of speech tagging[J].Computational Linguistics,1995,21(4):543-566.

共引文献297

1彭骁男,周兰江,张建安,周枫.融合多特征的老挝语人名地名命名实体识别[J].中国水运（下半月）,2020,20(3):74-77. 被引量：1
2张锦胜,林泽斐.数字人文视角下多日记人物关系联合挖掘及可视化研究——以西南联大相关日记为例[J].知识管理论坛,2023(3):171-182. 被引量：1
3步一,薛睿,孟凡,黄文彬.知识图谱的关键技术及其在情报学中的应用[J].情报学进展,2022(1):349-384. 被引量：1
4李春楠,王雷,孙媛媛,林鸿飞.基于BERT的盗窃罪法律文书命名实体识别方法[J].中文信息学报,2021,35(8):73-81. 被引量：27
5任明,许光,王文祥.家谱文本中实体关系提取方法研究[J].中文信息学报,2020(6):45-54. 被引量：8
6成于思,施云涛.融合词典特征的Bi-LSTM-WCRF中文人名识别[J].中文信息学报,2020(4):69-76. 被引量：7
7徐婧,刘纪平,王亮,王岩.融合注意力与词边界的防震减灾实体识别方法[J].测绘科学,2024,49(1):216-224.
8车海燕,孙吉贵,荆涛,白曦.一个基于本体主题的中文知识获取方法[J].计算机科学与探索,2007,1(2):206-215. 被引量：5
9常娥,侯汉清,曹玲.古籍自动校勘的研究和实现[J].中文信息学报,2007,21(2):83-88. 被引量：17
10周顺先,林亚平,王耀南,易叶青.基于二阶隐马尔可夫模型的文本信息抽取[J].电子学报,2007,35(11):2226-2231. 被引量：25

同被引文献162

1张海瑜,陈庆龙,张斯静,张子怡,杨帆,李鑫星.基于语义知识图谱的农业知识智能检索方法[J].农业机械学报,2021,52(S01):156-163. 被引量：17
2张明亮,陈雨.基于全卷积神经网络的语音增强算法[J].计算机应用研究,2020,37(S01):135-137. 被引量：9
3汪生,金志刚.基于模糊SVM模型的入侵检测分类算法[J].计算机应用研究,2020,37(2):501-504. 被引量：11
4姜吉发.一种事件信息抽取模式获取方法[J].计算机工程,2005,31(15):96-98. 被引量：27
5于满泉,骆卫华,许洪波,白硕.话题识别与跟踪中的层次化话题识别技术研究[J].计算机研究与发展,2006,43(3):489-495. 被引量：49
6钟娟,谢能付.基于Web的农业知识问答系统研究[J].农业网络信息,2007(7):21-22. 被引量：2
7黄都培.基于本体的法律信息语义检索[J].计算机工程与应用,2008,44(28):196-199. 被引量：10
8王宇,谭松波,廖祥文,曾依灵.基于扩展领域模型的有名属性抽取[J].计算机研究与发展,2010,47(9):1567-1573. 被引量：13
9刘鹏博,车海燕,陈伟.知识抽取技术综述[J].计算机应用研究,2010,27(9):3222-3226. 被引量：16
10许旭阳,韩永峰,宋文政.事件抽取技术的回顾与展望[J].信息工程大学学报,2011,12(1):113-118. 被引量：11

引证文献11

1依力达尔·依明.特定领域的命名实体识别方法的研究[J].电脑知识与技术,2020,16(8):208-210.
2胡甜甜,但雅波,胡杰,李想,李少波.基于注意力机制的Bi-LSTM结合CRF的新闻命名实体识别及其情感分类[J].计算机应用,2020,40(7):1879-1883. 被引量：14
3于浏洋,郭志刚,陈刚,席耀一.面向知识图谱构建的知识抽取技术综述[J].信息工程大学学报,2020,21(2):227-235. 被引量：31
4杨欣,严军,蒋道乾.电力客户自助查询系统智能IVR语音自动播报设计[J].信息技术,2022,46(1):114-118. 被引量：2
5彭玉芳,陈将浩.基于深度学习与需求规则融合的学术文献“目标数据”抽取模型构建与应用——以南海数字资源为例[J].情报科学,2022,40(1):141-147. 被引量：7
6冯俊辉,刘晨,郭浩然.基于模板和规则的声明式代码生成[J].数字技术与应用,2022,40(2):151-154.
7吴华瑞,郭威,邓颖,王郝日钦,韩笑,黄素芳.农业文本语义理解技术综述[J].农业机械学报,2022,53(5):1-16. 被引量：15
8张辉,付珺,崔涵祥,郑悦,孙竟华.基于置信区间的智能语音客服质检方法研究[J].信息技术,2023,47(3):75-79.
9刘蓉.面向高校学生职业规划的就业信息检索算法[J].信息技术,2023,47(5):32-35. 被引量：1
10罗夏.基于物联网技术的移动网络交互行为异常检测方法[J].重庆科技学院学报（自然科学版）,2023,25(5):40-44. 被引量：3

二级引证文献74

1余晓蕾,朱笛,王立昊,林军,向剑文.基于知识图谱的嵌入式操作系统测试用例复用推荐模型[J].武汉大学学报（理学版）,2023,69(2):187-194. 被引量：4
2高雅,冯爽.结合注意力机制的新闻文本情感分析算法[J].新型工业化,2020,10(7):15-18.
3宋蓓蓓.基于差分进化算法的网络多属性大数据聚类挖掘方法[J].宁夏师范学院学报,2021,42(1):91-97. 被引量：5
4王杰.基于时间序列的体育产业数据精准挖掘模型构建[J].赤峰学院学报（自然科学版）,2021,37(4):29-32. 被引量：1
5潘亚峰,朱俊虎,周天阳.APT攻击场景重构方法综述[J].信息工程大学学报,2021,22(1):55-60. 被引量：6
6耿骞,邓斯予,靳健.融合词语义表示和新词发现的领域本体演化——以产品评论数据为例[J].图书情报工作,2021,65(8):85-96. 被引量：5
7凯比努尔·赛地艾合买提.面向软件工程的知识图谱构建技术[J].信息技术与信息化,2021(9):134-136. 被引量：1
8杨大伟,周刚,卢记仓,宁原隆.基于知识表示学习的知识图谱补全研究综述[J].信息工程大学学报,2021,22(5):558-565. 被引量：11
9杨祎,崔其会,丁奕齐.面向电网设备故障报告的半监督命名实体识别方法[J].计算机应用,2021,41(S02):41-47. 被引量：9
10张吉祥,张祥森,武长旭,赵增顺.知识图谱构建技术综述[J].计算机工程,2022,48(3):23-37. 被引量：201

1吴一凡.新疆汉维微信公众平台语言使用分析[J].新媒体研究,2018,4(2):9-10.
2夏圆,张征.基于条件随机场的评价对象抽取[J].计算机系统应用,2017,26(11):254-259. 被引量：2
3张聪品,方滔,刘昱良.基于LSTM-CRF命名实体识别技术的研究与应用[J].计算机技术与发展,2019,29(2):106-108. 被引量：29
4虞金中,杨先凤,陈雁,李娟.基于混合模型的新闻事件要素提取方法[J].计算机系统应用,2018,27(12):169-174. 被引量：3
5彭嘉毅,方勇,黄诚,刘亮,姜政伟.基于深度主动学习的信息安全领域命名实体识别研究[J].四川大学学报（自然科学版）,2019,56(3):457-462. 被引量：26
6买合木提.买买提,王路路,吐尔根.依布拉音,艾山.吾买尔,卡哈尔江.阿比的热西提.基于条件随机场的维吾尔文机构名识别[J].计算机工程与设计,2019,40(1):273-278. 被引量：6
7严红,陈兴蜀,王文贤,王海舟,殷明勇.基于深度神经网络的法语命名实体识别模型[J].计算机应用,2019,39(5):1288-1292. 被引量：6
8陈路晗.谈债券市场对实体经济的支持[J].农银学刊,2018(4):53-58.
9林泽斐,欧石燕.多特征融合的中文命名实体链接方法研究[J].情报学报,2019,38(1):68-78. 被引量：7
10柏兵,侯霞,石松.基于CRF和BI-LSTM的命名实体识别方法[J].北京信息科技大学学报（自然科学版）,2018,33(6):27-33. 被引量：19

现代计算机

2019年第14期

浏览历史

内容加载中请稍等...

中文命名实体识别模型对比分析被引量：11

参考文献4

二级参考文献39

共引文献297

同被引文献162

引证文献11

二级引证文献74

相关作者

相关机构

相关主题

浏览历史

中文命名实体识别模型对比分析 被引量：11

参考文献4

二级参考文献39

共引文献297

同被引文献162

引证文献11

二级引证文献74

相关作者

相关机构

相关主题

浏览历史

中文命名实体识别模型对比分析被引量：11