-
题名基于条件随机场的中医临床病历命名实体抽取
被引量:33
- 1
-
-
作者
刘凯
周雪忠
于剑
张润顺
-
机构
北京交通大学计算机与信息技术学院
北京交通大学交通数据分析与挖掘北京市重点实验室
中国中医科学院广安门医院
-
出处
《计算机工程》
CAS
CSCD
2014年第9期312-316,共5页
-
基金
国家自然科学基金资助项目(61105055
81230086)
+1 种基金
国家"863"计划基金资助项目(2012AA02A609)
中央高校基本科研业务费专项基金资助项目(K13JB00140)
-
文摘
中医临床病历是中医重要的科研数据资源,但目前临床病历仍以文本为主要表达形式,对病历数据深入分析的前提是进行结构化信息抽取,而命名实体抽取是其基础性步骤。针对中医临床病历的命名实体,如症状、疾病和诱因等的抽取问题,通过手工标注的413份病历数据(以中文字为特征)与4类特征模版,将条件随机场(CRF)、隐马尔科夫模型(HMM)和最大熵马尔科夫模型(MEMM)用于中医病历命名实体抽取的实验,并进行比较分析。结果表明,结合合适的特征模版,CRF命名实体抽取方法取得了较好的性能,F1值的症状达到0.80,疾病名称达到0.74,诱因0.74。与HMM和MEMM相比,CRF有最高的准确率和召回率,是一种较为适用的中医临床病历命名实体抽取方法。
-
关键词
中医临床病历
命名实体抽取
语料库标注系统
条件随机场
特征模板
-
Keywords
Traditional Chinese Medicine(TCM)medical records
named entity extraction
corpus annotation system
Conditional Random Field(CRF)
feature template
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-