基于BERT预训练模型的心血管疾病识别模型构建研究

A Study on Building a Cardiovascular Disease Recognition Model Based on the BERT Pretrained Model

在线阅读下载PDF

导出

摘要目的基于BERT预训练模型构建心血管疾病识别模型,探究自然语言处理技术在医学信息处理中的应用价值,为门诊智能分诊提供新的技术路径。方法采用双中心回顾性研究,采集皖南医学院第一、第二附属医院符合纳入标准的6200例患者的医疗数据。通过人工纠正填写错误、k-近邻算法填充缺失值、去除决定性诊断信息进行数据预处理。以BERT-base-Chinese预训练模型为基础,将文本、结构化数据按“标签+内容”拼接,完成编码处理后,基于分类任务需求对模型进行微调,并与轻量化生成式大语言模型的识别能力进行对比。结果微调后的BERT模型在心血管疾病识别任务中表现优异,准确率、精确率、召回率、F1值均为0.98,ROC曲线下面积趋近于1。轻量生成式大语言模型基于零样本学习的准确率仅为0.53。结论基于本地医疗数据微调的BERT模型能够准确识别心血管疾病,自然语言处理技术在心血管疾病识别中具有较大的应用潜力。 Objective A cardiovascular disease identification model was developed using the BERT pretrained model,with the aim of investigating the application value of natural language processing technology in medical information processing and providing a new technical approach for intelligent outpatient triage.Methods A double-center retrospective study was conducted to collect medical data from 6,200 patients who met the inclusion criteria at the First and Second Affiliated Hospitals of Wannan Medical College.Data preprocessing involved manual correction of filling errors,KNN imputation for missing values,and removal of definitive diagnostic information.Based on the BERT-base-Chinese pretrained model,text and structured data were concatenated in the format of“label+content”for encoding.Following this,model parameters were fine-tuned according to the requirements of the classification task,and the recognition capability was compared with that of a lightweight generative large language model(LLM).Results The fine-tuned BERT model exhibited exceptional performance in cardiovascular disease recognition tasks,achieving an accuracy,precision,recall,and F1-score of 0.98 each,with the area under the ROC curve(AUC)approaching 1.By contrast,the lightweight generative LLM achieved an accuracy of only 0.53 based on zero-shot learning.Conclusion The BERT model fine-tuned with local medical data demonstrates efficient and accurate capabilities in identifying cardiovascular diseases,highlighting the significant application potential of natural language processing technology in cardiovascular disease recognition.

作者干伟鹏王培培张明超葛涛杨凌飞叶明全 GAN Weipeng;WANG Peipei;ZHANG Mingchao;GE Tao;YANG Lingfei;YE Mingquan(Department of Cardiovascular Medicine,the Second Affiliated Hospital of Wannan Medical College,Wuhu 241001,Anhui,China)

机构地区皖南医学院第二附属医院皖南医学院皖南医学院第一附属医院

出处《中国卫生信息管理杂志》 2025年第4期625-632,共8页 Chinese Journal of Health Informatics and Management

基金教育部基金“健康医疗大数据驱动的心血管病风险评估与健康管理研究”(22YJAZH134) 安徽省高校哲学社会科学研究重点项目“基于急诊急救大数据的心血管疾病患者病情评估与预警研究”(2023AH051729) 芜湖市科技计划项目“评价数字化协同管理对冠心病患者康复疗效的影响:一项随机对照研究”(WHWJ2023y015) 皖南医学院中青年科研基金“数字化背景下冠心病院外协同管理模式研究”(WK2023ZQNS24)。

关键词自然语言处理心血管疾病分诊预测模型 natural language processing cardiovascular diseases triage predictive model

分类号 R197.323 [医药卫生—卫生事业管理]

作者简介干伟鹏(1997-),男,硕士,住院医师,高级人工智能应用工程师,研究方向:心血管内科诊疗、智能医学,E-mail:ganweipeng@wnmc.edu.cn;通信作者:叶明全(1973-),男,博士,副院长,教授,研究方向:智能医学工程、数据挖掘与健康医疗,E-mail:ymq@wnmc.edu.cn。

引文网络
相关文献

参考文献10

1卢晓玲,曲晓童,何传荣.门诊导诊护士感知压力、心理一致感调查及相关性分析[J].齐鲁护理杂志,2022,28(16):39-43. 被引量：6
2汪曾子,刘娅莉,邱增辉,蒋祎,戴骄阳,朱佳妮,蒲川.分级诊疗制度下重庆市患者就医行为及影响因素分析[J].中国医院管理,2020,40(11):28-32. 被引量：22
3武贝贝,郑若菲,陈谷兰.福州市急诊预检分诊护士对老年人非创伤性腹痛分诊能力现状的调查分析[J].循证护理,2024,10(19):3607-3610. 被引量：4
4白丽莉,阎虹,赵宁.“6S”管理联合服务流程优化在门诊分诊中的应用研究[J].循证护理,2024,10(21):3988-3990. 被引量：4
5朱读伟,姜梅英,胡少华,周娟婷,刘玉妮,朱宏梅,俞凤.基于结构-过程-结果三维质量评价模型急诊预检分诊质量评价指标体系的构建[J].护理学报,2023,30(9):69-74. 被引量：25
6唐彩云,王莎,郭美英,曹敦.基于流程再造理论的急诊科信息化分诊挂号流程设计与应用[J].中国护理管理,2024,24(8):1198-1204. 被引量：6
7王汉松,董斌,罗雯懿,袁加俊,傅丽娟,周敏,刘世建,赵列宾.医疗机器人在发热隔离门诊中的应用进展[J].中国卫生资源,2020,23(4):394-399. 被引量：10
8田怀谷,刘晓彩,汪文新,陈芸.差异化医保报销政策对患者就医行为引导作用研究[J].中国医院,2022,26(6):10-12. 被引量：20
9李立丰.公共卫生危机场域下“排队”功能的应然定位[J].北方法学,2023,17(1):64-75. 被引量：1
10王若佳,张璐,王继民.基于机器学习的在线问诊平台智能分诊研究[J].数据分析与知识发现,2019,3(9):88-97. 被引量：15

二级参考文献158

1齐艳红.关系平等主义及其困境——兼析分配平等与社会平等之辨[J].哲学研究,2021(2):30-37. 被引量：5
2汪毅霖,张宁.因不公而恶不均:责任视角下对不平等厌恶的实证社会选择分析[J].制度经济学研究,2019(4):1-33. 被引量：2
3谭翠华.风险评估联合6S管理在门诊护理安全管理中的应用效果[J].保健文汇,2021(1):120-121. 被引量：3
4俞丽霞.平等、运气与分配正义:论科克–肖·谭的全球制度性运气平等主义[J].国外社会科学前沿,2020,0(1):44-53. 被引量：1
5王宏秋,刘颖青,赵丽新.信息化助力急诊流程改善的设计与实践[J].中国护理管理,2020,0(2):259-261. 被引量：17
6金静芬.急诊预检分诊标准解读[J].中华急危重症护理杂志,2020,1(1):49-52. 被引量：36
7娄聪.优化门诊护理分诊流程对分诊准确率及患者满意度的影响[J].实用临床护理学电子杂志,2020(52):128-128. 被引量：3
8曹利琴,黄春华,马红丽.信息化支持下急诊预检分诊兼挂号新模式的应用效果分析[J].实用临床护理学电子杂志,2020(44):159-160. 被引量：1
9王建玲,宋艳霞.优化门诊护理分诊流程对分诊准确率及患者满意度的影响[J].世界最新医学信息文摘,2021(7):264-265. 被引量：3
10温晓莉.论知识经济社会微观公共权力的法律规制[J].法学,2001(12):11-16. 被引量：29

共引文献103

1张毓,陈丹,郭文琪,任银银.护理人员心理韧性、感知压力、共情疲劳现状及影响因素分析[J].心理月刊,2023(11):34-37. 被引量：6
2毛秋潭,张蕊,那军,张岩,李卓,徐健峰.兴隆台区各级医疗机构临床医生对双向转诊与分级诊疗新模式知信行调查[J].社区医学杂志,2021,19(24):1496-1500. 被引量：1
3孙莹,任亚晴,许金侠,吕晗.医疗电子信息化新技术在门诊的应用进展[J].数字医学与健康,2024,2(3):199-203.
4王思迪,胡广伟,杨巳煜,施云.基于文本分类的政府网站信箱自动转递方法研究[J].数据分析与知识发现,2020,4(6):51-59. 被引量：5
5徐军纪,刘伟.基于智能移动设备的学习平台设计与实现[J].机械设计与制造工程,2020,49(7):120-124. 被引量：1
6胡磊,肖明朝,秦涵书.新型冠状病毒肺炎咨询平台建设应用研究[J].重庆医科大学学报,2020,45(7):1070-1072. 被引量：1
7韩胜昔,李超红,袁骏毅,汪澜,沈颖洁.社区居民视角的肺癌医联体运行效果与需求分析[J].中国医院管理,2021,41(6):20-22. 被引量：1
8龙淑珍,薛丽平,彭熙,刘华英,檀倩影,熊章龙.广西乡镇卫生院常见病及常用临床操作技能调查与分析[J].右江医学,2021,49(7):534-540. 被引量：2
9李本,高寒,周文正,安璐,梁鑫.重庆偏远地区人表皮生长因子受体2阳性乳腺癌病人靶向治疗体验的质性研究[J].全科护理,2021,19(23):3251-3254. 被引量：1
10吴建,穆子涵,付晓丽,王留义,马征,赵要军,王莉,宗上纲,苗豫东.省直医院运营效率及其提升策略分析——以河南省为例[J].现代预防医学,2021,48(19):3560-3564. 被引量：8

1桂朋.医学信息计算机处理的数据规范化浅析[J].数字技术与应用,2025,43(6):205-207.
2关于投稿注册作者邮箱地址有效性的说明[J].金属热处理,2025,50(8):229-229.
3张晨,蔡若珺,丰晨.一种基于混合深度学习的电力异常检测模型[J].微型电脑应用,2025,41(6):208-211.
4马帅龙,乔壮,吴燕,曹世纪,仇海全.基于改进YOLOv8模型的鱼类疾病识别方法[J].萍乡学院学报,2025,42(3):74-81.
5龙绘娟,王燕,覃泽义,陈娴,李乔桥.全自动生化分析仪检测甘胆酸与胆汁酸在慢性肝病中的诊断价值分析[J].实验室检测,2025,3(16):161-163.
6张雪,李金升.供应商填写《中小企业声明函》易犯的十类错误[J].招标采购管理,2025(8):71-74.
7郭亚彤,胡静怡,雷旭.高密度静息态EEG数据的开放获取:现状、挑战与展望[J].心理科学进展,2025,33(9):1575-1591.
8尹招.三级公立医院绩效考核中对于住院病案首页质控效果的评价[J].漫科学(新健康),2025(9):145-147.
9刘明,闫伟,齐向华,滕晶.“系统辨证脉学”在治未病中的作用探析[J].山东中医药大学学报,2025,49(5):568-572.
10濮雅娟,陈小涵,杜俏俏,应曜宇.病案首页预审核系统对歧义组病案的管理实践[J].江苏卫生事业管理,2025,36(7):967-971.

中国卫生信息管理杂志

2025年第4期

浏览历史

内容加载中请稍等...

基于BERT预训练模型的心血管疾病识别模型构建研究

参考文献10

二级参考文献158

共引文献103

相关作者

相关机构

相关主题

浏览历史