期刊文献+
共找到26篇文章
< 1 2 >
每页显示 20 50 100
融入拼音与词性特征的中文电子病历命名实体识别 被引量:4
1
作者 陆鑫涛 孙丽萍 +3 位作者 凌晨 童子龙 刘佳霖 汤其宇 《小型微型计算机系统》 北大核心 2025年第2期330-338,共9页
中文电子病历结构复杂,且相较英文具有更多的一字多音与一音多义现象,给命名实体识别任务带来了挑战.随着技术的成熟,当前主流的基于字形特征的命名实体识别方法难以获得较大提升,因此本文提出一种融入拼音与词性特征的中文电子病历命... 中文电子病历结构复杂,且相较英文具有更多的一字多音与一音多义现象,给命名实体识别任务带来了挑战.随着技术的成熟,当前主流的基于字形特征的命名实体识别方法难以获得较大提升,因此本文提出一种融入拼音与词性特征的中文电子病历命名实体识别方法,利用BERT预训练模型获取医学文本的动态向量表示,借助中文拼音特征对电子病历文本进行深度挖掘,并提取词性特征对拼音特征的不确定性加以约束.此外,对于这3种类型的特征,本文采用缩放点积注意力模块进行融合.在医疗领域数据集CCKS2018、CCKS2019,通用领域数据集Weibo上,F1值分别达到了98.66、87.25、73.41,相较基准模型BERT-BiLSTM-CRF分别提升了1.01、2.10、6.51.实验结果表明,与当前众多现有模型相比,本文方法展现出了更优越的性能,本研究为中文电子病历命名实体识别提供了新的思路. 展开更多
关键词 命名实体识别 中文电子病历 注意力机制 特征融合 数据挖掘
在线阅读 下载PDF
基于MacBERT与全局指针网络的中文电子病历命名实体识别
2
作者 吴天宇 郭冬冬 +2 位作者 李文桥 李子康 苗琳 《科学技术与工程》 北大核心 2025年第11期4656-4665,共10页
针对现有序列标注方法不能有效解决中文电子病历嵌套实体识别问题,提出一种基于MacBERT与全局指针网络的中文电子病历命名实体识别模型。首先通过MacBERT-large预训练模型将文本转换为结合语境信息的动态向量,然后使用FGM (fast gradien... 针对现有序列标注方法不能有效解决中文电子病历嵌套实体识别问题,提出一种基于MacBERT与全局指针网络的中文电子病历命名实体识别模型。首先通过MacBERT-large预训练模型将文本转换为结合语境信息的动态向量,然后使用FGM (fast gradient method)方法生成对抗样本添加至原有向量并一同输入BiLSTM (bi-directional long short-term memory)网络获取上下文特征,并通过引入注意力机制增强长距离语义特征获取,最后利用全局指针网络模型同时考虑头部和尾部的特征信息进行解码以获得更好的医学嵌套实体预测效果。实验结果表明,本文模型相较于识别效果较好的主流模型全局指针网络模型在CCKS2019以及两个版本的CMeEE中文电子病历数据集上F1分别提高了1.8%、1.37%、1.72%,证明了模型的有效性。 展开更多
关键词 命名实体识别 中文电子病历 全局指针网络 注意力机制
在线阅读 下载PDF
基于大小语言模型协同增强的中文电子病历依存句法分析
3
作者 许思遥 曾健骏 +2 位作者 张维彦 叶琪 朱焱 《计算机科学》 北大核心 2025年第2期253-260,共8页
依存句法分析是一项重要的自然语言处理任务,其目标是识别句子中词与词之间的依存关系。但在面向中文医疗电子病历的依存句法分析中,现有的研究存在以下问题:当出现缺省指示语法结构的成分和修饰成分位置多样的情况时,当前的通用解析器... 依存句法分析是一项重要的自然语言处理任务,其目标是识别句子中词与词之间的依存关系。但在面向中文医疗电子病历的依存句法分析中,现有的研究存在以下问题:当出现缺省指示语法结构的成分和修饰成分位置多样的情况时,当前的通用解析器无法准确分析。针对该问题,提出基于大小语言模型协同增强的中文电子病历依存句法分析方法。首先,分析中文电子病历的语言特征,提出通过成分补全指示医疗文本中的特殊语法结构。然后,利用通用解析器进行依存句法分析,对于解析后的语法图,利用大语言模型的先验语法知识进行自动修正。此外,所提方法将重点放在缩小医疗文本与通用文本之间的特征分布差异上,故不受医疗领域缺少标注数据的限制。针对中文电子病历的依存句法分析,标注了444条测试样本,并对所提方法进行验证。实验表明该方法能有效地对中文电子病历进行依存分析,基于少量标注语料,LAS指标可达92.42,UAS指标可达94.60,并且在不同科室的中文电子病历上也能够达到同样显著的效果。 展开更多
关键词 自然语言处理 依存句法分析 中文电子病历 大语言模型 协同增强
在线阅读 下载PDF
基于中文电子病历知识图谱的实体对齐研究 被引量:3
4
作者 李丽双 董姜媛 《中文信息学报》 CSCD 北大核心 2024年第8期103-111,共9页
医疗知识图谱中知识重叠和互补的现象普遍存在,利用实体对齐进行医疗知识图谱融合成为迫切需要。然而据作者调研,目前医疗领域中的实体对齐尚没有一个完整的处理方案。因此该文提出了一个规范的基于中文电子病历的医疗知识图谱实体对齐... 医疗知识图谱中知识重叠和互补的现象普遍存在,利用实体对齐进行医疗知识图谱融合成为迫切需要。然而据作者调研,目前医疗领域中的实体对齐尚没有一个完整的处理方案。因此该文提出了一个规范的基于中文电子病历的医疗知识图谱实体对齐流程,为医疗领域的实体对齐提供了一种可行的方案。同时针对基于中文电子病历医疗知识图谱之间结构异构性的特点,该文设计了一个双视角并行图神经网络(DuPNet)模型用于解决医疗领域实体对齐,并取得较好的效果。 展开更多
关键词 医疗知识图谱 中文电子病历 实体对齐 结构异构体 并行图神经网络
在线阅读 下载PDF
基于平行交互注意力网络的中文电子病历实体及关系联合抽取 被引量:3
5
作者 李丽双 王泽昊 +1 位作者 秦雪洋 袁光辉 《中文信息学报》 CSCD 北大核心 2024年第6期108-118,共11页
基于电子病历构建医学知识图谱对医疗技术的发展具有重要意义,实体和关系抽取是构建知识图谱的关键技术。该文针对目前实体关系联合抽取中存在的特征交互不充分的问题,提出了一种平行交互注意力网络(PIAN)以充分挖掘实体与关系的相关性... 基于电子病历构建医学知识图谱对医疗技术的发展具有重要意义,实体和关系抽取是构建知识图谱的关键技术。该文针对目前实体关系联合抽取中存在的特征交互不充分的问题,提出了一种平行交互注意力网络(PIAN)以充分挖掘实体与关系的相关性,在多个标准的医学和通用数据集上取得最优结果;当前中文医学实体及关系标注数据集较少,该文基于中文电子病历构建了实体和关系抽取数据集(CEMRIE),与医学专家共同制定了语料标注规范,并基于该文所提出的模型实验得出基准结果。 展开更多
关键词 实体关系联合抽取 双向特征交互模块 自注意力机制 中文电子病历 数据集标注与构建
在线阅读 下载PDF
中文电子病历信息提取方法研究综述 被引量:6
6
作者 吉旭瑞 魏德健 +2 位作者 张俊忠 张帅 曹慧 《计算机工程与科学》 CSCD 北大核心 2024年第2期325-337,共13页
电子病历里承载的大量医疗信息能够帮助医生更好地了解患者的情况,辅助医生进行临床诊断。作为中文电子病历信息提取的2大核心任务,命名实体识别和实体关系抽取的目标是识别出电子病历文本中的医学实体并提取出各个实体间的医学关系。首... 电子病历里承载的大量医疗信息能够帮助医生更好地了解患者的情况,辅助医生进行临床诊断。作为中文电子病历信息提取的2大核心任务,命名实体识别和实体关系抽取的目标是识别出电子病历文本中的医学实体并提取出各个实体间的医学关系。首先,系统阐述了中文电子病历的研究现状,指出命名实体识别和实体关系抽取2大任务在中文电子病历信息提取中所发挥的重要作用。随后,介绍了面向中文电子病历信息提取的命名实体识别和关系抽取算法的最新研究成果,并分析了每个阶段各个模型的优缺点。最后,讨论了中文电子病历现阶段所存在的问题并对未来的研究趋势进行展望。 展开更多
关键词 中文电子病历 命名实体识别 实体关系抽取 自然语言处理 深度学习
在线阅读 下载PDF
基于多头注意力的中文电子病历命名实体识别 被引量:5
7
作者 肖丹 杨春明 +2 位作者 张晖 赵旭剑 李波 《计算机应用与软件》 北大核心 2024年第1期133-138,160,共7页
针对中文电子病历中复杂医疗实体的识别问题,提出一种联合特征与多头注意力相结合的实体识别方法。该方法使用字符、词性和词典组成的联合特征,利用BiLSTM和多头注意力分别提取句子的全局特征和局部特征,利用CRF结合所有特征完成实体标... 针对中文电子病历中复杂医疗实体的识别问题,提出一种联合特征与多头注意力相结合的实体识别方法。该方法使用字符、词性和词典组成的联合特征,利用BiLSTM和多头注意力分别提取句子的全局特征和局部特征,利用CRF结合所有特征完成实体标签的预测。实验结果表明,该方法F1值达89.16%,其中治疗和疾病两类实体分别达到94.76%和95.56%。 展开更多
关键词 命名实体识别 中文电子病历 多头注意力 长短期记忆网络 条件随机场
在线阅读 下载PDF
中文电子病历命名实体和实体关系语料库构建 被引量:113
8
作者 杨锦锋 关毅 +4 位作者 何彬 曲春燕 于秋滨 刘雅欣 赵永杰 《软件学报》 EI CSCD 北大核心 2016年第11期2725-2746,共22页
电子病历是由医务人员撰写的面向患者个体描述医疗活动的记录,蕴含了大量的医疗知识和患者的健康信息.电子病历命名实体识别和实体关系抽取等信息抽取研究对于临床决策支持、循证医学实践和个性化医疗服务等具有重要意义,而电子病历命... 电子病历是由医务人员撰写的面向患者个体描述医疗活动的记录,蕴含了大量的医疗知识和患者的健康信息.电子病历命名实体识别和实体关系抽取等信息抽取研究对于临床决策支持、循证医学实践和个性化医疗服务等具有重要意义,而电子病历命名实体和实体关系标注语料库的构建是首当其冲的.在调研了国内外电子病历命名实体和实体关系标注语料库构建的基础上,结合中文电子病历的特点,提出适合中文电子病历的命名实体和实体关系的标注体系,在医生的指导和参与下,制定了命名实体和实体关系的详细标注规范,构建了标注体系完整、规模较大且一致性较高的标注语料库.语料库包含病历文本992份,命名实体标注一致性达到0.922,实体关系一致性达到0.895.为中文电子病历信息抽取后续研究打下了坚实的基础. 展开更多
关键词 中文电子病历 命名实体 实体关系 标注规范 标注语料构建
在线阅读 下载PDF
中文电子病历命名实体标注语料库构建 被引量:22
9
作者 曲春燕 关毅 +2 位作者 杨锦锋 赵永杰 刘雅欣 《高技术通讯》 CAS CSCD 北大核心 2015年第2期143-150,共8页
针对中文电子病历命名实体语料标注空白的现状,研究了中文电子病历命名实体标注语料库的构建。参考2010年美国国家集成生物与临床信息学研究中心(1282)给出的电子病历命名实体类型及修饰类型的定义,在专业医生的指导下制定了详尽的中文... 针对中文电子病历命名实体语料标注空白的现状,研究了中文电子病历命名实体标注语料库的构建。参考2010年美国国家集成生物与临床信息学研究中心(1282)给出的电子病历命名实体类型及修饰类型的定义,在专业医生的指导下制定了详尽的中文电子病历标注规范;通过对大量中文电子病历的分析,提出了一套完整的中文电子病历命名实体标注方案,而且采用预标注和正式标注的方法,建立了一定规模的中文电子病历命名实体标注语料库,其标注语料的一致性达到了92%以上。该工作对中文电子病历的命名实体识别及信息抽取研究提供了可靠的数据支持,对医疗知识挖掘也有重要意义。 展开更多
关键词 中文电子病历(CEMR) 命名实体 标注语料库 标注规范 标注一致性(IAA)
在线阅读 下载PDF
基于中文电子病历的心血管疾病风险因素标注体系及语料库构建 被引量:14
10
作者 苏嘉 何彬 +5 位作者 吴昊 杨锦锋 关毅 姜京池 王焕政 于秋滨 《自动化学报》 EI CSCD 北大核心 2019年第2期420-426,共7页
本文讨论了从中文电子病历中标注心血管疾病风险因素及其相关信息的问题,提出了适应中文电子病历内容特点的心血管疾病风险因素标注体系,构建了中文健康信息处理领域首份关于心血管疾病风险因素的标注语料库.
关键词 心血管疾病 中文电子病历 风险因素 语料标注 自然语言处理
在线阅读 下载PDF
结合注意力机制的BERT-BiGRU-CRF中文电子病历命名实体识别 被引量:18
11
作者 陈娜 孙艳秋 燕燕 《小型微型计算机系统》 CSCD 北大核心 2023年第8期1680-1685,共6页
为了改善中文电子病历命名实体识别模型的性能,本文提出了基于BERT、双向门控循环单元(Bidirectional Gate Recurrent Unit,BiGRU)与条件随机场CRF相结合的中文电子病历命名实体识别模型,并在此基础上引入了注意力机制.利用BERT(Bidirec... 为了改善中文电子病历命名实体识别模型的性能,本文提出了基于BERT、双向门控循环单元(Bidirectional Gate Recurrent Unit,BiGRU)与条件随机场CRF相结合的中文电子病历命名实体识别模型,并在此基础上引入了注意力机制.利用BERT(Bidirectional Encoder Representation from Transformers)预训练模型得到结合语境信息的动态字向量,通过双向门控循环单元(Bidirectional Gate Recurrent Unit,BiGRU)提取全局语义特征,利用注意力机制获得增强语义特征,最后通过CRF(Conditional Random Field)解码输出概率最大的全局最优标签序列.利用含有解剖部位、手术、疾病和诊断、药物、实验室检验、影像检查6类实体的CCKS19中文电子病历数据集训练模型.对比实验表明了本文提出的命名实体识别模型的有效性,本文模型在CCKS19数据集上获得了84.11%的F1值。 展开更多
关键词 中文电子病历 命名实体识别 BERT BiGRU 注意力机制
在线阅读 下载PDF
基于BERT的中文电子病历命名实体识别 被引量:15
12
作者 封红旗 孙杨 +1 位作者 杨森 李文杰 《计算机工程与设计》 北大核心 2023年第4期1220-1227,共8页
针对中文电子病历命名实体识别过程中实体特征利用率低,语义表示不充分等问题,提出一种基于BERT语言模型的命名实体识别方法。运用Char-CNN学习字符的多种特征,将特征加入BERT预训练生成的词向量中,获得融合领域信息和汉字特征的词向量... 针对中文电子病历命名实体识别过程中实体特征利用率低,语义表示不充分等问题,提出一种基于BERT语言模型的命名实体识别方法。运用Char-CNN学习字符的多种特征,将特征加入BERT预训练生成的词向量中,获得融合领域信息和汉字特征的词向量表示,将词向量输入迭代扩张卷积神经网络中进行特征抽取,引入注意力机制加强实体特征的关注度,通过CRF解码标注命名实体。实验结果表明,该方法在CCKS17中取得91.64%的F1值,识别性能优于现有方法。 展开更多
关键词 中文电子病历 命名实体识别 深度学习 语言模型 卷积神经网络 注意力机制 词向量
在线阅读 下载PDF
面向中文电子病历的词法语料标注研究 被引量:10
13
作者 蒋志鹏 赵芳芳 +1 位作者 关毅 杨锦锋 《高技术通讯》 CAS CSCD 北大核心 2014年第6期609-615,共7页
针对中文电子病历(CEMR)标注语料匮乏,目前面向中文电子病历的分词和词性标注研究仍处于空白阶段的实际情况,从中文电子病历语料的构建出发,提出了从数据预处理到语料标注的整体方案,获得了较高的标注一致性,为进行更大规模更高质量的... 针对中文电子病历(CEMR)标注语料匮乏,目前面向中文电子病历的分词和词性标注研究仍处于空白阶段的实际情况,从中文电子病历语料的构建出发,提出了从数据预处理到语料标注的整体方案,获得了较高的标注一致性,为进行更大规模更高质量的病历语料标注工作提供了指导。通过实验量化中文电子病历与开放领域语料、英文电子病历语料的词法统计差异,系统地分析了通用标注模型在中文电子病历中的错误分布,为进行适用于中文电子病历分析的自然语言处理(NLP)技术研究奠定了基础。 展开更多
关键词 中文电子病历(CEMR) 词性标注 标注一致性 语料差异 错误分析
在线阅读 下载PDF
面向中文电子病历的句法分析融合模型 被引量:5
14
作者 蒋志鹏 关毅 《自动化学报》 EI CSCD 北大核心 2019年第2期276-288,共13页
完全句法分析是自然语言处理(Natural language processing, NLP)中重要的结构化过程,由于中文电子病历(Chinese electronic medical record, CEMR)句法标注语料匮乏,目前还没有面向中文电子病历的完全句法分析研究.本文针对中文电子病... 完全句法分析是自然语言处理(Natural language processing, NLP)中重要的结构化过程,由于中文电子病历(Chinese electronic medical record, CEMR)句法标注语料匮乏,目前还没有面向中文电子病历的完全句法分析研究.本文针对中文电子病历模式化强的子语言特征,首次以树片段形式化中文电子病历复用的模式,提出了面向数据句法分析(Dataoriented parsing, DOP)和层次句法分析融合模型.在树片段抽取阶段,提出效率更高的标准树片段和局部树片段抽取算法,分别解决了标准树片段的重复比对问题,以及二次树核(Quadratic tree kernel, QTK)的效率低下问题,获得了标准树片段集和局部树片段集.基于上述两个树片段集,提出词汇和词性混合匹配策略和最大化树片段组合算法改进面向数据句法分析模型,缓解了无效树片段带来的噪声.实验结果表明,该融合模型能够有效改善中文电子病历句法分析效果,基于少量标注语料F1值能够达到目前最高的80.87%,并且在跨科室句法分析上超过Stanford parser和Berkeley parser 2%以上. 展开更多
关键词 中文电子病历 完全句法分析 面向数据句法分析 层次句法分析
在线阅读 下载PDF
基于预训练模型的中文电子病历实体识别 被引量:5
15
作者 李晓林 胡泽荣 《计算机工程与设计》 北大核心 2023年第2期535-540,共6页
为提升传统中文电子病历实体识别预训练模型的语义特征提取能力并增强中文隐含特征表示,提出基于改进预训练语言模型的医疗命名实体识别方法。提出动态词长的逆向最大匹配算法对病历文本进行标注歧义处理,在此基础上构建用户自定义医疗... 为提升传统中文电子病历实体识别预训练模型的语义特征提取能力并增强中文隐含特征表示,提出基于改进预训练语言模型的医疗命名实体识别方法。提出动态词长的逆向最大匹配算法对病历文本进行标注歧义处理,在此基础上构建用户自定义医疗实体字典辅助PKU分词,提高预训练模型掩码效果。输入向量层加入字向量,引入注意力机制学习字向量的全局语义特征。改进预训练模型mask策略和机制并去掉下一句预测,提升词向量语义表征能力。实验结果表明,该方法有效提高了医疗实体的识别效果,F1值达到90.57%。 展开更多
关键词 中文电子病历 命名实体识别 预训练模型 标注歧义 注意力机制 逆向最大匹配算法 医疗实体字典
在线阅读 下载PDF
基于笔画ELMo和多任务学习的中文电子病历命名实体识别研究 被引量:55
16
作者 罗凌 杨志豪 +2 位作者 宋雅文 李楠 林鸿飞 《计算机学报》 EI CSCD 北大核心 2020年第10期1943-1957,共15页
近年来,电子病历文本数据不断增长,这为医学研究提供了丰富的知识来源.结合领域需求,采用有效的文本挖掘技术从电子病历文本中自动快速、准确地获取医疗知识,将对医疗健康领域的研究产生极大的推动作用.中文临床电子病历命名实体识别作... 近年来,电子病历文本数据不断增长,这为医学研究提供了丰富的知识来源.结合领域需求,采用有效的文本挖掘技术从电子病历文本中自动快速、准确地获取医疗知识,将对医疗健康领域的研究产生极大的推动作用.中文临床电子病历命名实体识别作为中文医学信息抽取的基本任务,已经受到了广泛关注.目前大多数中文电子病历实体识别工作都是在传统通用的文本表示向量基础上,通过特征工程来提升模型在医疗领域上的性能,缺乏适合中文生物医学特定领域的预训练表示向量.此外,目前现存的中文电子病历标注数据十分稀缺,标注电子病历实体需要具备专业的医学背景知识,且耗时耗力.针对这些问题,本文提出了一种基于笔画ELMo和多任务学习的中文电子病历实体识别方法.首先以笔画序列为输入对ELMo表示学习方法进行改进,利用海量无标注的中文生物医学文本学习上下文相关且包含汉字内部结构信息的笔画ELMo向量,然后构建基于多任务学习的神经网络模型来充分利用现存数据提升模型性能.此外,本文还系统地比较了实体识别常用额外特征(包括词向量、词典和部首特征)以及主流神经网络模型(包括CNN、BiLSTM、CNN-CRF和BiLSTM-CRF模型)在中文电子病历实体识别任务上的性能.实验结果表明,在该任务上BiLSTM-CRF模型获得了比其它模型更好的结果,常用额外特征中词典特征最为有效.相比其它现存方法,本文提出的基于笔画ELMo和多任务学习的神经网络模型在CCKS17和CCKS18 CNER数据集上都获得了更好的结果,F值分别为91.75%和90.05%. 展开更多
关键词 笔画ELMo 多任务学习 神经网络 实体识别 中文电子病历
在线阅读 下载PDF
基于句子级Lattice-长短记忆神经网络的中文电子病历命名实体识别 被引量:13
17
作者 潘璀然 王青华 +3 位作者 汤步洲 姜磊 黄勋 王理 《第二军医大学学报》 CAS CSCD 北大核心 2019年第5期497-506,共10页
目的提出一种基于Re-entity新分词方法的条件随机场(CRF)模型,并与双向长短记忆神经网络(BiLSTM)-CRF和Lattice-长短记忆神经网络(LSTM)进行比较。方法比较了现有实体识别方法和模型后,针对2018年全国知识图谱与语义计算大会(CCKS2018)... 目的提出一种基于Re-entity新分词方法的条件随机场(CRF)模型,并与双向长短记忆神经网络(BiLSTM)-CRF和Lattice-长短记忆神经网络(LSTM)进行比较。方法比较了现有实体识别方法和模型后,针对2018年全国知识图谱与语义计算大会(CCKS2018)任务一“电子病历命名实体识别”,提出基于Re-entity的CRF、BiLSTM-CRF、Lattice-LSTM方法,并在不同语料库训练不同参数级别的字符向量集。分别将各方法引入神经网络模型中进行模型性能对比实验,最后分别基于句子级和篇级输入句长进行对比研究。结果CRF模型在最优特征工程的结果下引入Re-entity方法后性能得到提高,句子级的Lattice-LSTM模型在该任务上取得了89.75%的严格F1-measure,优于CCKS2018任务一的最高结果(89.25%)。结论基于Re-entity新分词方法的CRF模型可利用中文临床药物知识库有效提高电子病历中药物的识别率,Re-entity方法可改善数据预处理阶段分词导致的错误累加,Lattice结构可以更好地结合字符和词序列的潜在语义信息,同时句子级输入能有效提高神经网络模型的识别准确率。 展开更多
关键词 计算机化病案系统 中文电子病历 实体识别 条件随机场 双向长短记忆神经网络 点阵长短记忆神经网络
在线阅读 下载PDF
中文电子病历命名实体识别的研究与进展 被引量:23
18
作者 杜晋华 尹浩 冯嵩 《电子学报》 EI CAS CSCD 北大核心 2022年第12期3030-3053,共24页
海量电子病历(Electronic Medical Record,EMR)数据是支撑医疗智能化研究的重要原料,然而电子病历文本数据的半结构化甚至无结构化特点,造成后续对其分析利用的极大困难.虽然近年来基于深度学习的命名实体识别(Named Entity Recognition... 海量电子病历(Electronic Medical Record,EMR)数据是支撑医疗智能化研究的重要原料,然而电子病历文本数据的半结构化甚至无结构化特点,造成后续对其分析利用的极大困难.虽然近年来基于深度学习的命名实体识别(Named Entity Recognition,NER)成为对电子病历进行自动化信息抽取的核心技术,但鉴于中文电子病历(Chinese Electronic Medical Record,CEMR)具有包括病历文本的非规范性与专业性、医疗实体的独特性和标注语料的稀缺性在内的独特文本数据特征,该研究目前仍存在诸多挑战.本文对中文电子病历命名实体识别的研究与进展进行了综述,系统梳理了命名实体识别的概念、相关理论模型以及制约中文电子病历命名实体识别准确率和识别效率的主要原因;从技术发展角度详细分析了中文电子病历命名实体识别方法的变革历程;并对中文电子病历命名实体识别效果做了实验验证与深入分析,指出了现有模型的不足与改进方向.鉴于国内近年来与中文信息学处理相关的测评会议CCKS持续关注中文电子病历命名实体识别,本文特别对CCKS在该领域五年来的全部代表性测评论文做了纵横对比分析,并通过在主流模型上的深入实验与研究,为后续该领域的继续推进寻求了思路. 展开更多
关键词 中文电子病历 命名实体识别 深度学习 预训练模型 自然语言处理 医疗信息化
在线阅读 下载PDF
基于中文电子病历的跨科室组块分析 被引量:3
19
作者 戴雪 蒋志鹏 关毅 《计算机应用研究》 CSCD 北大核心 2017年第7期2084-2087,共4页
针对医疗领域的研究,发现了不同科室间电子病历存在着差异,但是新语料的标注成本又非常高。为了解决这一问题,利用迁移学习的方法在中文电子病历中进行跨科室组块分析的研究。在构建的中文电子病历中,对比了SSVM与CRF模型在词性标注和... 针对医疗领域的研究,发现了不同科室间电子病历存在着差异,但是新语料的标注成本又非常高。为了解决这一问题,利用迁移学习的方法在中文电子病历中进行跨科室组块分析的研究。在构建的中文电子病历中,对比了SSVM与CRF模型在词性标注和组块分析上的实验结果,发现SSVM模型的效果更好并选择该模型作为基本标注模型;此外,使用了改进的结构对应学习算法(SCL)进行组块分析,使得该算法能适用于SSVM模型进行领域适应。实验结果表明该算法有效地改善了序列标注任务中跨科室的领域适应性问题。 展开更多
关键词 中文电子病历 词性标注 组块分析 领域适应 结构化支持向量机
在线阅读 下载PDF
融合语义及边界信息的中文电子病历命名实体识别 被引量:9
20
作者 崔少国 陈俊桦 李晓虹 《电子科技大学学报》 EI CAS CSCD 北大核心 2022年第4期565-571,共7页
中文电子病历数据专业性强,语法结构复杂,用于自然语言处理(NLP)的命名实体识别(NER)难度大。为了从电子病历数据中精确识别出医疗实体,提出了一种融合语义及边界信息的命名实体识别算法。首先,利用卷积神经网络(CNN)结构提取汉字图形信... 中文电子病历数据专业性强,语法结构复杂,用于自然语言处理(NLP)的命名实体识别(NER)难度大。为了从电子病历数据中精确识别出医疗实体,提出了一种融合语义及边界信息的命名实体识别算法。首先,利用卷积神经网络(CNN)结构提取汉字图形信息,并与五笔特征拼接来丰富汉字的语义信息;然后,利用FLAT模型中的Lattice将医学词典作为字符潜在词组匹配文本信息;最后,将融入语义信息的Lattice模型用于中文电子病历命名实体识别。实验结果表明,该方法在Yidu-S4K数据集上的识别性能超过现有多种算法,且在Resume数据集上F1值可达到96.06%。 展开更多
关键词 中文电子病历 FLAT 医学字典 命名实体识别 自然语言处理
在线阅读 下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部