-
题名基于多粒度字形增强的中文医学命名实体识别
被引量:4
- 1
-
-
作者
刘威
马磊
李凯
李蓉
-
机构
昆明理工大学信息工程与自动化学院
云南省第一人民医院信息科
云南省第一人民医院科研科
-
出处
《计算机工程》
CAS
CSCD
北大核心
2024年第2期337-344,共8页
-
基金
国家自然科学基金(62266025)
云南省重大科技专项计划项目(202202AD080004,202202AE090008)
云南省基础研究计划(昆医联合专项)(202201AY070001-258)。
-
文摘
中文医学命名实体识别(CMNER)旨在从中文非结构化医学文本中提取实体。现有的基于字符的CMNER模型没有从不同角度全面考虑汉字的特点,限制了其应用于CMNER的性能。基于此,提出基于多粒度字形增强的中文医学命名实体识别模型。对于输入的句子,结合汉字的字形空间结构和偏旁部首的表示,同时根据相应的领域词典来匹配字符的领域词信息,增强字符的语义和潜在边界信息,使模型获得更好的实体识别能力;通过门控机制整合领域词和汉字的字形多粒度特征,综合考虑汉字的领域信息和汉字底层信息,从而具有更好的感知医学实体的能力。在此基础上,将多粒度字形增强的字符表示输入到双向长短记忆和条件随机场层,分别进行上下文编码和标签解码。实验结果表明,本文模型较于最佳基线模型在IMCS21和CMeEE数据集上的F1值分别提升了1.04%和0.62%。此外,通过消融实验验证了该模型的每个组成部分的有效性,在识别中文医学命名实体时具有较好的识别性能。
-
关键词
命名实体识别
医学领域
字形结构
门控机制
领域词典
-
Keywords
named entity recognition
medical domain
glyph structure
gating mechanism
domain lexicon
-
分类号
TP18
[自动化与计算机技术—控制理论与控制工程]
-