-
题名基于预训练模型的医药说明书实体抽取方法研究
被引量:1
- 1
-
-
作者
陈仲永
黄雍圣
张旻
姜明
-
机构
浙江省药品信息宣传和发展服务中心
杭州电子科技大学计算机学院
-
出处
《计算机科学与探索》
CSCD
北大核心
2024年第7期1911-1922,共12页
-
基金
浙江省尖兵领雁计划项目(2023C01218)。
-
文摘
药品说明书医疗实体抽取可为用药信息智能检索及构建医疗知识图谱提供基础数据,具有重要研究意义与应用价值。针对治疗不同种类疾病的药品说明书中的医疗实体存在着较大的差异从而导致模型训练需要标注大量样本的问题,采用“大模型+小模型”的设计思路,提出了一种基于预训练模型的部分标签命名实体识别模型,先采用通过少量样本微调的预训练语言模型抽取药品说明书中的部分实体,再利用基于Transformer的部分标签模型进一步优化实体提取结果。部分标签模型采用平面格结构对输入文本、已识别出的部分实体及实体标签进行编码,使用Transformer提取特征表示,最后通过条件随机场(CRF)预测实体标签。为了减少训练模型的标注数据,利用标注样本实体掩盖策略,提出一种样本数据增广方法对部分标签模型进行训练。实验验证了“大模型+小模型”在医疗实体抽取的可行性,结果表明精确率(precision,P)、召回率(recall,R)和F1分数分别为85.0%、86.1%、85.6%,比其他学习方法更具优势。
-
关键词
命名实体识别
预训练模型
医疗实体抽取
TRANSFORMER
-
Keywords
named entity recognition(NER)
pre-trained models
medical entity extraction
Transformer
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-
-
题名融合双向GRU与注意力机制的医疗实体关系识别
被引量:14
- 2
-
-
作者
张志昌
周侗
张瑞芳
张敏钰
-
机构
西北师范大学计算机科学与工程学院
-
出处
《计算机工程》
CAS
CSCD
北大核心
2020年第6期296-302,共7页
-
基金
国家自然科学基金(61762081,61662067,61662068)
甘肃省重点研发计划项目(2017GS10781)。
-
文摘
传统的实体关系识别方法多数是以单个句子作为处理单元,难以解决训练语料中实体关系标签标注错误的问题,且没有充分利用包含实体信息的多个句子在分类实体关系时的相互增强作用。为此,提出一种双向门控循环单元(GRU)和双重注意力机制结合的中文电子病历医疗实体关系识别方法。构建BiGRU-Dual Attention模型,采用双向GRU学习字的上下文信息,以获取更细粒度的特征,通过引入字级注意力机制提高对关系识别起决定作用的字权重,同时利用句子级注意力机制从多个句子中获取可增强识别性能的特征,降低标注错误的句子对分类的影响。实验结果表明,与BiLSTM-Attention模型相比,该模型的F1值提高了3.97%,达到了82.17%。
-
关键词
中文电子病历
医疗实体关系抽取
双向门控循环单元
双重注意力机制
深度学习
-
Keywords
Chinese Electronic Medical Records(EMR)
medical entity relation extraction
bidirectional Gated Recurrent Unit(GRU)
dual attention mechanism
deep learning
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-