-
题名基于异构图表示的中医电子病历分类方法
被引量:2
- 1
-
-
作者
王楷天
叶青
程春雷
-
机构
江西中医药大学计算机学院
江西省中医人工智能重点研究室(江西中医药大学)
-
出处
《计算机应用》
CSCD
北大核心
2024年第2期411-417,共7页
-
基金
国家自然科学基金资助项目(82260988)
江西省自然科学基金资助项目(20224BAB206102)
江西省教育厅科学技术研究重点项目(GJJ201204)。
-
文摘
中医(TCM)电子病历由于结构复杂多样与诊疗术语不规范的特点导致数据挖掘难度大、利用率低、难以抽取到有效信息。针对上述问题,提出基于LERT(Linguistically-motivated bidirectional Encoder Representation from Transformer)预训练模型与图卷积网络(GCN)并用异构图表示的中医电子病历分类模型TCM-GCN,用于改善中医电子病历特征有效表征的提取与分类。首先,利用LERT层词嵌入的方式将病历转换为句向量融入异构图中,以补全图结构缺失的病历整体语义特征;随后,为了缓解中医电子病历结构特点对特征提取产生的负面影响,异构图将关键词加入节点,使用BM25与点间互信息(PMI)算法构建图中“病历-关键词”“关键词-关键词”的边以表达病历的特征;最后,TCM-GCN依靠LERT-BM25-PMI构建的异构图对病历之间的特征关系进行聚合与抽取,完成病历分类的任务。在中医电子病历数据集上的实验结果表明,相较于次优的LERT,TCM-GCN加权平均后的准确率、召回率、F1值分别提升了2.24%、2.38%、2.32%,验证了算法在捕捉病历间隐含特征与中医电子病历分类工作上的有效性。
-
关键词
异构图
图卷积网络
预训练模型
文本分类
自然语言处理
中医电子病历
-
Keywords
heterogeneous graph
Graph Convolutional Network(GCN)
pre-training model
text classification
Natural Language Processing(NLP)
Traditional Chinese Medicine(TCM)electronic medical record
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-