-
题名中文医学细粒度知识表示体系与标注语料库构建
被引量:4
- 1
-
-
作者
杨洋
关毅
李雪
姜京池
史怀璋
柳曦光
-
机构
哈尔滨工业大学计算学部
哈尔滨医科大学附属第一医院神经外科
黑龙江省医院皮肤科
-
出处
《中文信息学报》
CSCD
北大核心
2023年第6期52-66,共15页
-
基金
国家自然科学基金(62006063)
黑龙江省博士后科学基金(LBH-Z20015)。
-
文摘
面向医学知识的细粒度、可共享性与高精准性的需求,该文提出了中文医学文本知识表示体系,融合了电子病历、医学书籍与专业医学网站文本三个数据来源的医疗知识。该体系包括9类医学实体、60类实体关系。基于此,开发了可操作性高的标注工具,并为每种来源提供了规范标注的医学文本数据,构建了涵盖范围广、一致性高的细粒度标注语料库。4名临床医生对《诊断学》书籍标注了6526个医学实体,4229条关系,标注一致性可达0.974。三个数据源融合后实体数量344475个,关系数量3196787条。该文综述了数据源融合的映射过程、标注细则,分析了各数据源的文本特点并总结标注模式,通过应用场景与文本特点表明医学书籍标注必要性。该文为中文医学语料库构建提供标注规范,并为中文医学实体识别与关系抽取提供语料支持。
-
关键词
细粒度标注规范
多源医疗文本
语义标注
语料库构建
-
Keywords
fine-grained annotation standard
multi-source medical text
semantic annotation
corpus construction
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-