基于RoBERTa-WWM-BiLSTM-CRF的中文电子病历命名实体识别研究被引量：33

Named Entity Recognition for Chinese EMR with Ro BERTa-WWM-BiLSTM-CRF

导出

摘要【目的】解决中文电子病历实体识别中存在的一词多义、词识别不全等问题。【方法】采用深度学习模型RoBERTa-WWM-BiLSTM-CRF,改善中文电子病历的命名实体识别的效果并用4组实验进行对比,分析不同模型对中文电子病历实体识别的效果的影响。【结果】所提模型的实体识别效果F1值达到了0.8908。【局限】使用的数据集规模较小,部分科室实体识别效果较一般,如呼吸科F1值仅为0.8111。【结论】通过实验表明RoBERTa-WWM-BiLSTM-CRF模型更适用于中文电子病历命名实体识别任务,有效解决了中文电子病历命名实体识别中存在的一词多义和词识别不全的问题。 [Objective]This study tries to address the issues of polysemy and incomplete words facing entity recognition for Chinese Electronic Medical Records(EMR).[Methods]We constructed a deep learning model RoBERTa-WWM-BiLSTM-CRF to improve the named entity recognition of Chinese EMR.We conducted four rounds of experiments to compare their impacts on entity recognition.[Results]The highest F1 value of the new model reached 0.8908.[Limitations]The experiment data set is small,and the entity recognition results of some departments was not very impressive.For example,the F1 value of respiratory department was only 0.8111.[Conclusions]The RoBERTa-WWM-BiLSTM-CRF model could effectively conduct named entity recognition for Chinese electronic medical records.

作者张芳丛秦秋莉姜勇庄润涛 Zhang Fangcong;Qin Qiuli;Jiang Yong;Zhuang Runtao(School of Economics and Management,Beijing Jiaotong University,Beijing 100044,China;National Clinical Medical Research Center for Nervous System Diseases,Beijing Tiantan Hospital Affiliated to Capital Medical University,Beijing 100050,China;Community Health Service Center,Beijing Jiaotong University,Beijing 100044,China)

机构地区北京交通大学经济管理学院首都医科大学附属北京天坛医院国家神经系统疾病临床医学研究中心北京交通大学社区卫生服务中心

出处《数据分析与知识发现》 CSSCI CSCD 北大核心 2022年第2期251-262,共12页 Data Analysis and Knowledge Discovery

关键词命名实体识别深度学习电子病历 Named Entity Recognition Deep Learning Electronic Medical Records

分类号 TP393 [自动化与计算机技术—计算机应用技术] G250 [文化科学—图书馆学]

作者简介通讯作者:秦秋莉,ORCID:0000-0002-3787-8488 ,E-mail:qlqin@bjtu.edu.cn。

引文网络
相关文献

参考文献6

1杨锦锋,于秋滨,关毅,蒋志鹏.电子病历命名实体识别和实体关系抽取研究综述[J].自动化学报,2014,40(8):1537-1562. 被引量：127
2李春颖,朱兰,郎景和,徐涛,史欣文.尿失禁诊断问卷简体中文版的信度和效度评价[J].中华妇产科杂志,2016,51(5):357-360. 被引量：18
3张帆,王敏.基于深度学习的医疗命名实体识别[J].计算技术与自动化,2017,36(1):123-127. 被引量：20
4羊艳玲,李燕,钟昕妤,徐丽娜.基于BiLSTM-CRF的中医医案命名实体识别[J].中医药信息,2021,38(11):15-21. 被引量：12
5马孟铖,杨晴雯,艾斯卡尔·艾木都拉,吐尔地·托合提.基于词向量和条件随机场的中文命名实体分类[J].计算机工程与设计,2020,41(9):2515-2522. 被引量：9
6柏兵,侯霞,石松.基于CRF和BI-LSTM的命名实体识别方法[J].北京信息科技大学学报（自然科学版）,2018,33(6):27-33. 被引量：17

二级参考文献173

1唐琳,郭崇慧,陈静锋.中文分词技术研究综述[J].数据分析与知识发现,2020,4(2):1-17. 被引量：50
2肖瑞,胡冯菊,裴卫.基于BiLSTM-CRF的中医文本命名实体识别[J].世界科学技术-中医药现代化,2020,22(7):2504-2510. 被引量：35
3文建国.尿动力学检查在女性尿失禁诊断中的应用[J].中华妇产科杂志,2004,39(10):717-720. 被引量：40
4车万翔,刘挺,李生.实体关系自动抽取[J].中文信息学报,2005,19(2):1-6. 被引量：121
5林东,邵军力.医学诊疗领域通用专家系统设计与实现[J].自动化学报,1995,21(3):380-382. 被引量：6
6中华人民共和国卫生部.电子病历基本规范(试行)[Online],available:http://www.gov.cn/zwgk/2010-03/04/content_1547432.htm,December27,2013.
7Wasserman R C. Electronic medical records (EMRs), epi- demiology, and epistemology: reflections on EMRs and fu- ture pediatric clinical research. Academic Pediatrics, 2011, 11(4): 280-287.
8Uzuner O, Mailoa J, Ryan R, Sibanda T. Semantic relations for problem-oriented medical records. Artificial Intelligence in Medicine, 2010, 50(2): 63-73.
9Demner-Fushman D, Chapman W W, McDonald C J. What can natural language processing do for clinical decision sup- port? Journal of Bioxnedical Informatics, 2009, 42(5): 760- 772.
10Eysenbach G. Recent advances: consumer health informat- ics. British Medical Journal, 2000, 320(7251): 1713-1716.

共引文献189

1彭骁男,周兰江,张建安,周枫.融合多特征的老挝语人名地名命名实体识别[J].中国水运（下半月）,2020,20(3):74-77. 被引量：1
2席新,李波,王骁勇,胡云苹.面向电子病历的医学术语规范化系统设计及实现[J].中国数字医学,2021,16(12):65-68. 被引量：8
3姜会珍,胡海洋,马琏,赵从朴,张锋,陈婕卿,曾可,王晓露,朱卫国.基于医患对话的病历自动生成技术研究[J].中国数字医学,2021,16(10):36-40. 被引量：4
4李灿,解丹.中医电子病历入院记录信息自动抽取方法研究[J].世界科学技术-中医药现代化,2023,25(5):1615-1622. 被引量：1
5孔静静,于琦,李敬华,于彤,张竹绿,田野,祖雅琪.实体抽取综述及其在中医药领域的应用[J].世界科学技术-中医药现代化,2022,24(8):2957-2963. 被引量：8
6邢毅雪,朱永华,高海燕,周金,张克.基于注意力机制的远程监督实体关系抽取[J].上海大学学报（自然科学版）,2021,27(5):983-992. 被引量：8
7刘新亮,张梦琪,谷情,任延昭,何东彬,高万林.基于BERT-CRF模型的生鲜蛋供应链命名实体识别[J].农业机械学报,2021,52(S01):519-525. 被引量：12
8昝红英,韩杨超,范亚鑫,牛承志,张坤丽,穗志方.中文症状知识库的建立与分析[J].中文信息学报,2020,34(4):30-37. 被引量：9
9吴欢,应俊,王逸飞,胡华宇,徐洪丽,郑一琼.乳腺癌病理文本的结构化信息提取[J].解放军医学院学报,2020,41(7):746-751. 被引量：11
10王卫红,冯倩,吕红燕,曹玉辉.基于Seq2Seq模型的命名实体识别方法[J].智能计算机与应用,2020(7):141-146.

同被引文献366

1徐冰,史新元,罗赣,林兆洲,孙飞,戴胜云,张志强,肖伟,乔延江.中药工业大数据关键技术与应用[J].中国中药杂志,2020,45(2):221-232. 被引量：36
2仲怿,茹晨雷,张伯礼,程翼宇.基于知识图谱的中药制药过程质量控制方法学研究[J].中国中药杂志,2019,44(24):5269-5276. 被引量：24
3王平,陈亮,胡磊.人工智能+结构化报告赋能冠脉CT血管成像临床一体化[J].中国数字医学,2021,16(11):50-54. 被引量：7
4赵奎,杜昕娉,高延军,马慧敏.融合文字与标签的电子病历命名实体识别[J].计算机系统应用,2022,31(10):375-381. 被引量：2
5马娜,张智雄,吴朋民.基于特征融合的术语型引用对象自动识别方法研究[J].数据分析与知识发现,2020,4(1):89-98. 被引量：10
6石燕,何黎,任秋静,刘露,温川飙,孙涛,罗悦.中医体质知识图谱分析——基于VOSviewer和CiteSpace的计量分析[J].世界科学技术-中医药现代化,2021,23(9):3415-3423. 被引量：20
7金连顺,张曈,何伟炎,唐丽娟,翁衡,陈祎琦,张忠德.基于知识图谱构建和定性访谈法探析张忠德教授辨治间质性肺病临床特征与方药规律[J].世界科学技术-中医药现代化,2021,23(8):2838-2848. 被引量：2
8李妮,关焕梅,杨飘,董文永.基于BERT-IDCNN-CRF的中文命名实体识别方法[J].山东大学学报（理学版）,2020,55(1):102-109. 被引量：63
9徐道柱,金澄,马超,焦洋洋,许剑.基于BERT-BiGRU-CRF与多头注意力机制的地理命名实体识别[J].网络安全与数据治理,2023,42(S01):169-173. 被引量：2
10刘新亮,张梦琪,谷情,任延昭,何东彬,高万林.基于BERT-CRF模型的生鲜蛋供应链命名实体识别[J].农业机械学报,2021,52(S01):519-525. 被引量：12

引证文献33

1姚元杰,龚毅光,刘佳,陈嫚丽.基于多粒度信息融合的气象知识命名实体识别[J].计算机与数字工程,2023,51(1):186-193.
2薛启隆,王鐾璇,苗坤宏,李小丁,于洋,李正.中药制药工艺知识库构建方法研究[J].中国中药杂志,2022,47(12):3402-3408. 被引量：12
3姚蕾,蒋明峰,方贤,魏波,李杨.结合部首特征和BERT-Transformer-CRF的中文电子病历实体识别方法研究[J].软件工程,2022,25(12):30-36. 被引量：2
4盛羽,胡慧荣,王聪聪,杨晟艺.医学影像诊断报告的结构化研究[J].数据分析与知识发现,2022,6(10):46-56. 被引量：4
5李达,许仁杰,刘智宇,赵晨,马洁,袁湘云.基于工业实时数采数据缺失值填充的研究及实现[J].电脑知识与技术,2022,18(32):55-57. 被引量：1
6万泽宇,龚庆悦,李铁军,王红云,鲍剑洋.基于自适应词嵌入RoBERTa-wwm的名中医临床病历命名实体识别研究[J].软件导刊,2022,21(12):58-62. 被引量：2
7王颖洁,张程烨,白凤波,汪祖民,季长清.中文命名实体识别研究综述[J].计算机科学与探索,2023,17(2):324-341. 被引量：34
8张猛.基于医疗BERT的电子病历命名实体识别[J].信息技术与信息化,2023(2):122-125.
9李嘉茜,张丽玮.面向专利文本的实体识别研究综述[J].信息系统工程,2023(2):120-122. 被引量：1
10段宇锋,贺国秀.面向中文医学文本命名实体识别的神经网络模块分解分析[J].数据分析与知识发现,2023,7(2):26-37. 被引量：5

二级引证文献106

1徐婧,刘纪平,王亮,王岩.融合注意力与词边界的防震减灾实体识别方法[J].测绘科学,2024,49(1):216-224.
2杨雷,韦韩,龚尚文,赵莺菲.基于LSTM的桥梁养护文本数据的命名实体识别方法[J].公路交通科技,2023,40(S02):187-192.
3高曼,李海燕.中医药信息学应用研究热点[J].首都医科大学学报,2022,43(4):592-599. 被引量：7
4刘亚东,严英杰,严波,陈思,姜骞,刘庆臻,江秀臣.电力装备内部状态反演重构研究框架与应用展望[J].高电压技术,2022,48(8):2883-2896. 被引量：13
5王青青,董能峰,杨怡,刘盼.基于图像处理和深度学习的中药材鉴别关键技术[J].自动化与仪器仪表,2023(1):30-35. 被引量：4
6苗坤宏,崔彭帝,薛启隆,于洋,李正.金银花颗粒在旋风分离器中的流场数值模拟分析[J].中草药,2023,54(4):1087-1097. 被引量：4
7薛启隆,苗坤宏,于洋,李正.基于深度强化学习的中药制药过程自主优化决策方法研究[J].中国中药杂志,2023,48(2):562-568. 被引量：3
8段宇锋,贺国秀.面向中文医学文本命名实体识别的神经网络模块分解分析[J].数据分析与知识发现,2023,7(2):26-37. 被引量：5
9唐雪芳,齐飞宇,王团结,梁子辰,乔延江,肖伟,徐冰.中药生产过程智能质量控制专利技术进展[J].中国中药杂志,2023,48(12):3190-3198. 被引量：14
10张传洋,郭宇,庞宇飞,于文倩.数智化医疗信息利用与服务模式框架构建[J].图书情报工作,2023,67(13):49-58. 被引量：16

1本刊编辑部.医学名词术语使用规范[J].军事医学,2022,46(1):80-80.
2张芳丛,秦秋莉,姜勇,庄润涛.基于RoBERTa-wwm动态融合模型的中文电子病历命名实体识别[J].数据分析与知识发现,2022,6(2):242-250. 被引量：28
3《中国社区医师》杂志编辑部.对医学名词规范使用的注意事项[J].中国社区医师,2022,38(9):110-110.
4马伟.原型范畴理论视域下阿拉伯语一词多义现象及教学路径研究[J].阿拉伯研究论丛,2021(2):147-165.

数据分析与知识发现

2022年第2期

浏览历史

内容加载中请稍等...

基于RoBERTa-WWM-BiLSTM-CRF的中文电子病历命名实体识别研究被引量：33

参考文献6

二级参考文献173

共引文献189

同被引文献366

引证文献33

二级引证文献106

相关作者

相关机构

相关主题

浏览历史

基于RoBERTa-WWM-BiLSTM-CRF的中文电子病历命名实体识别研究 被引量：33

参考文献6

二级参考文献173

共引文献189

同被引文献366

引证文献33

二级引证文献106

相关作者

相关机构

相关主题

浏览历史

基于RoBERTa-WWM-BiLSTM-CRF的中文电子病历命名实体识别研究被引量：33