-
题名基于高置信度伪标签数据选择算法的临床事件抽取方法
被引量:1
- 1
-
-
作者
罗媛媛
杨春明
李波
张晖
赵旭剑
-
机构
成都东软学院计算机与软件学院
西南科技大学计算机科学与技术学院
西南科技大学数理学院
四川省大数据与智能系统工程技术研究中心
-
出处
《太原理工大学学报》
北大核心
2024年第1期204-213,共10页
-
基金
四川省科技厅重点研发项目(2021YFG0031)
四川省省级科研院所科技成果转化项目(22YSZH0021)。
-
文摘
【目的】事件抽取是构建高质量事件知识图谱的前提。临床事件抽取过程中事件元素存在依赖关系,现有方法无法准确识别事件元素并组合为事件,且现有临床事件标记数据较少,给事件抽取任务带来了极大的挑战。【方法】将临床事件抽取建模为实体识别模型,提出一种融合多特征的中文医学事件抽取方法:BERT-MCRF.该方法使用BERT构建模型的嵌入和特征提取部分,在CRF层加入多个字的滑动窗口特征,然后将BERT-MCRF作为半监督实验的基实验,提出一种高置信度伪标签数据选择算法作为筛选数据的条件,得到较高质量的300条数据与原始数据合并,最终构建了1700条语料,并重新训练模型。【结果】BERT-MCRF模型在3种属性实体上的整体F1值达到80.21%,比经典的BiLSTM-CRF模型提升15.11%;通过半监督思路重新训练的模型最终F1值达到81.56%,较原始BERT-MCRF提升了1.35%.
-
关键词
临床医学事件抽取
实体识别
多特征
半监督学习
高置信度伪标签选择算法
-
Keywords
clinical medical event extraction
entity recognition
multi-features
semi-super-vised learning
high-confidence pseudo-label selection algorithm
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-
-
题名基于多头注意力的中文电子病历命名实体识别
被引量:4
- 2
-
-
作者
肖丹
杨春明
张晖
赵旭剑
李波
-
机构
西南科技大学计算机科学与技术学院
四川省大数据与智能系统工程技术研究中心
西南科大成都天府新区创新研究院
-
出处
《计算机应用与软件》
北大核心
2024年第1期133-138,160,共7页
-
基金
教育部人文社科基金资助项目(17YJCZH260)
赛尔网络下一代互联网技术创新项目(NGII20180403)。
-
文摘
针对中文电子病历中复杂医疗实体的识别问题,提出一种联合特征与多头注意力相结合的实体识别方法。该方法使用字符、词性和词典组成的联合特征,利用BiLSTM和多头注意力分别提取句子的全局特征和局部特征,利用CRF结合所有特征完成实体标签的预测。实验结果表明,该方法F1值达89.16%,其中治疗和疾病两类实体分别达到94.76%和95.56%。
-
关键词
命名实体识别
中文电子病历
多头注意力
长短期记忆网络
条件随机场
-
Keywords
Named entity recognition
Chinese electronic medical records
Multi-head attention
Long short-term memory
Conditional random field
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名融合机器阅读理解的中文医学命名实体识别方法
被引量:2
- 3
-
-
作者
罗媛媛
杨春明
李波
张晖
赵旭剑
-
机构
西南科技大学计算机科学与技术学院
西南科技大学数理学院
四川省大数据与智能系统工程技术研究中心
-
出处
《计算机科学》
CSCD
北大核心
2023年第9期287-294,共8页
-
基金
四川省科技厅重点研发项目(2021YFG0031)
四川省省级科研院所科技成果转化项目(22YSZH0021)。
-
文摘
医学命名实体识别是自动构建大规模医学知识库的关键,但医学文本中存在实体嵌套现象,采用序列标注的方法不能识别出嵌套中的实体。文中提出了基于阅读理解框架的中文医学命名实体识别方法,该方法将嵌套命名实体识别问题建模为机器阅读理解问题,使用BERT建立阅读理解问题和医学文本之间的联系,并引入多头注意力机制强化问题和嵌套实体之间的语义联系,最后用两个分类器对实体开头和结尾位置进行预测。与目前5种主流方法相比,该方法取得了最优结果,综合F1值达到了67.65%;与经典的实体识别模型BiLSTM-CRF相比,F1值提升了7.17%,其中嵌套较多的临床表现实体提升16.81%。
-
关键词
命名实体识别
中文医学
嵌套实体
机器阅读理解
多头注意力机制
-
Keywords
Named entity recognition
Chinese medical
Nested entities
Machine reading comprehension
Multi-head attention mechanism
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-
-
题名知识扩充和增量修剪的领域自适应神经机器翻译
- 4
-
-
作者
陈洋
杨春明
张晖
王意
李波
-
机构
西南科技大学计算机科学与技术学院
四川省大数据与智能系统工程技术研究中心
-
出处
《中文信息学报》
CSCD
北大核心
2023年第6期96-103,共8页
-
基金
四川省科技厅重点研发项目(2021YFG0031)
四川省省级科研院所科技成果转化项目(22YSZH0021)。
-
文摘
领域自适应神经机器翻译是解决低资源翻译中领域语料稀少的一种方法。针对目前多模型集成方法中领域知识过拟合、领域适配缺乏自适应的问题,该文提出了一种基于知识扩充和增量修剪的多领域自适应方法(KAIP)。该方法首先利用知识隐藏策略生成目标领域的辅助语料库进行辅助任务学习,实现知识扩充;然后使用模型修剪策略构建通用领域参数,并结合辅助任务学习训练目标领域参数,在无需调整模型参数的情况下适应多个不同领域。在多个语种、多个领域语料上的实验结果表明,模型在单领域和多领域下的翻译质量均有显著提升。
-
关键词
神经机器翻译
知识扩充
模型剪枝
领域自适应
-
Keywords
neural machine translation
knowledge augmentation
model pruning
domain adaptation
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-