期刊文献+
共找到724篇文章
< 1 2 37 >
每页显示 20 50 100
基于CNN-BLSTM-CRF模型的生物医学命名实体识别 被引量:129
1
作者 李丽双 郭元凯 《中文信息学报》 CSCD 北大核心 2018年第1期116-122,共7页
命名实体识别是自然语言处理任务的重要步骤。近年来,不依赖人工特征的神经网络在新闻等通用领域命名实体识别方面表现出了很好的性能。然而在生物医学领域,许多实验表明基于领域知识的人工特征对于神经网络模型的结果影响很大。因此,... 命名实体识别是自然语言处理任务的重要步骤。近年来,不依赖人工特征的神经网络在新闻等通用领域命名实体识别方面表现出了很好的性能。然而在生物医学领域,许多实验表明基于领域知识的人工特征对于神经网络模型的结果影响很大。因此,如何在不依赖人工特征的情况下获得较好的生物医学命名实体识别性能是有待解决的问题。该文提出一种基于CNN-BLSTM-CRF的神经网络模型。首先利用卷积神经网络(CNN)训练出单词的具有形态特征的字符级向量,并从大规模背景语料训练中得到具有语义特征信息的词向量,然后将二者进行组合作为输入,再构建适合生物医学命名实体识别的BLSTM-CRF深层神经网络模型。实验结果表明,不依赖任何人工特征,该文方法在BiocreativeⅡGM和JNLPBA2004生物医学语料上都达到了目前最好的结果,F-值分别为89.09%和74.40%。 展开更多
关键词 生物医学命名实体识别 LSTM CNN
在线阅读 下载PDF
基于分类器串联融合的生物医学命名实体识别
2
作者 马瑞民 马民艳 王浩畅 《大庆石油学院学报》 CAS 北大核心 2011年第2期91-94,122,共4页
鉴于生物医学命名实体识别的多数模型使用单机器学习算法时识别效果不好,提出一种基于条件随机域(CRFs)与最大熵(Maxent)分类器融合的方法,利用基分类器之间的相关性和互补性,结合有效的特征集合,进行再学习,得到融合模型.实验表明,该... 鉴于生物医学命名实体识别的多数模型使用单机器学习算法时识别效果不好,提出一种基于条件随机域(CRFs)与最大熵(Maxent)分类器融合的方法,利用基分类器之间的相关性和互补性,结合有效的特征集合,进行再学习,得到融合模型.实验表明,该模型的识别性能与单一分类器和JNLPBA专题会议相关的系统比较,取得很好成绩,F测度达到70.7%,证明该融合方法有效. 展开更多
关键词 条件随机域 最大熵 分类器融合 特征提取 生物医学命名实体识别
在线阅读 下载PDF
结合CRF的边界组合生物医学命名实体识别 被引量:8
3
作者 扈应 陈艳平 +1 位作者 黄瑞章 秦永彬 《计算机应用研究》 CSCD 北大核心 2021年第7期2025-2031,共7页
许多的生物医学命名实体识别(Bio-NER)工作都集中于提取扁平化的实体,而忽略了嵌套实体和不连续实体。此外,大多数生物医学命名实体都未遵循统一的命名法,具有许多典型的领域特征,但其使用效率较低。为此提出一种结合CRF的边界组合命名... 许多的生物医学命名实体识别(Bio-NER)工作都集中于提取扁平化的实体,而忽略了嵌套实体和不连续实体。此外,大多数生物医学命名实体都未遵循统一的命名法,具有许多典型的领域特征,但其使用效率较低。为此提出一种结合CRF的边界组合命名实体识别方法,有效地利用了生物医学实体特征。该方法包括边界检测、边界组合和实体筛选三个步骤。首先使用神经网络模型和基于特征的CRF模型识别实体开始和结束边界,然后经过边界组合产生候选实体,最后使用多输入的卷积神经网络模型对候选实体进行筛选并分类。实验表明,该方法能够有效地识别生物医学文献中的嵌套和不连续实体,在GENIA数据集上达到81.89%的F值。 展开更多
关键词 生物医学命名实体识别 深度学习 条件随机场 信息抽取
在线阅读 下载PDF
基于词义增强的生物医学命名实体识别方法 被引量:4
4
作者 陈梦萱 陈艳平 +2 位作者 扈应 黄瑞章 秦永彬 《计算机工程》 CAS CSCD 北大核心 2023年第10期305-312,共8页
生物医学命名实体识别(BioNER)是生物医学文本挖掘的核心任务之一,能够为下游任务提供有力支撑。与通用领域相比,生物医学数据中存在更多的未登录词,现有BioNER方法通常将未登录词拆分为语素进行表示学习,这种方法缓解了未登录词表示信... 生物医学命名实体识别(BioNER)是生物医学文本挖掘的核心任务之一,能够为下游任务提供有力支撑。与通用领域相比,生物医学数据中存在更多的未登录词,现有BioNER方法通常将未登录词拆分为语素进行表示学习,这种方法缓解了未登录词表示信息不足的问题,但是破坏了单词的内部信息,对语素进行标签预测时容易出现标签不一致和跨实体标签问题。此外,将单词分割为语素导致句子长度变长,加重了训练中存在的梯度消失问题。提出一种通过BiLSTM-Biaffine结构进行词义增强的BioNER方法。通过BioBERT预训练模型获取语素表示信息,使用BiLSTM-Biaffine进行词义增强,在单词层面利用BiLSTM分别获取语素的前向和后向序列信息,采用Biaffine注意力机制增强其关联信息并重新融合为单词表示,最后通过BiLSTM-CRF模型获取输入句子的标签序列。实验结果表明,在数据集BC2GM、NCBI-Disease、BC5CDR-chem和JNLPBA上,该方法的F1值分别达到84.94%、89.07%、92.14%和74.57%,与主流序列标注模型MTM-CW、MT-BioNER等相比平均分别提高了2.99、1.84、3.09和1.03个百分点,验证了所提方法在BioNER任务中的有效性。 展开更多
关键词 生物医学命名实体识别 语素 词义增强 双向长短期记忆网络 注意力机制
在线阅读 下载PDF
生物医学命名实体识别的研究与进展 被引量:25
5
作者 郑强 刘齐军 +1 位作者 王正华 朱云平 《计算机应用研究》 CSCD 北大核心 2010年第3期811-815,832,共6页
为直接高效地获取文献中的知识,命名实体识别用来识别文本中具有特定意义的实体。这是应用文本挖掘技术自动获取知识的关键的第一步,因此受到日益广泛的关注。主要从评测方法、特征选择、机器学习方法和后期处理等方面介绍了近年来生物... 为直接高效地获取文献中的知识,命名实体识别用来识别文本中具有特定意义的实体。这是应用文本挖掘技术自动获取知识的关键的第一步,因此受到日益广泛的关注。主要从评测方法、特征选择、机器学习方法和后期处理等方面介绍了近年来生物医学命名实体识别方面的主要研究方法及成果,并对目前各方面存在的问题进行了分析和讨论,最后对该领域的研究前景进行了展望。 展开更多
关键词 命名实体识别 文本挖掘 特征选择 机器学习
在线阅读 下载PDF
面向生物医学命名实体识别的多Agent元学习框架 被引量:6
6
作者 王浩畅 李钰 赵铁军 《计算机学报》 EI CSCD 北大核心 2010年第7期1256-1262,共7页
生物医学命名实体识别是生物医学数据挖掘的基本任务.文中提出了一种将多Agent系统和元学习方法相结合的多Agent元学习框架,应用于生物医学命名实体识别.基层多个学习Agent分别识别不同类型的生物医学命名实体,并通过相关学习Agent之间... 生物医学命名实体识别是生物医学数据挖掘的基本任务.文中提出了一种将多Agent系统和元学习方法相结合的多Agent元学习框架,应用于生物医学命名实体识别.基层多个学习Agent分别识别不同类型的生物医学命名实体,并通过相关学习Agent之间的通信来交换有益信息以调节个体Agent的行为提高其学习性能,元层Agent综合决策基层学习Agent的学习结果以获得最终的识别结果.元层Agent和基层学习Agent通过局部特征选择法选择适合不同实体类别的敏感特征集合提高了总体识别性能尤其是小类别识别的性能.文中提出的方法有效改善了传统的单一学习模型和全局特征选择方法不能兼顾各类别命名实体识别性能的不足.实验结果表明,文中提出的全新方法在生物医学命名实体识别上取得了优越的性能,在JNLPBA2004测试语料上获得了77.5%的F测度值. 展开更多
关键词 命名实体识别 多Agent元学习框架 元层Agent 基层学习Agent 局部特征选择
在线阅读 下载PDF
基于字符级特征自适应的生物医学命名实体识别 被引量:5
7
作者 于祥钦 王香 +1 位作者 李智强 徐贤 《小型微型计算机系统》 CSCD 北大核心 2023年第9期1876-1883,共8页
生物医学领域新增实体数量和类型迅速增加,在预训练词表容量有限的情况下,字符嵌入可以在一定程度上解决未登录词问题,单一的字符级特征提取器所提取字符嵌入的潜在表征有一定局限性.针对此问题,提出一种字符级特征自适应融合的生物医... 生物医学领域新增实体数量和类型迅速增加,在预训练词表容量有限的情况下,字符嵌入可以在一定程度上解决未登录词问题,单一的字符级特征提取器所提取字符嵌入的潜在表征有一定局限性.针对此问题,提出一种字符级特征自适应融合的生物医学命名实体模型.首先利用卷积神经网络(CNN)和双向长短期记忆网络(BiLSTM)提取文本的字符向量,训练过程中动态计算文本单词两种字符向量的权重并进行拼接,使得模型在字符粒度上更加充分的利用信息,并加入词性信息和组块分析作为额外特征;将词向量、字符级特征和额外特征拼接后输入到BiLSTM-CRF神经网络模型进行训练.结果表明,所提模型在NCBI-disease和BiocreativeⅡGM语料库上平均F1值达到87.14%和81.04%,有效的提升了生物医学命名实体识别的效果. 展开更多
关键词 生物医学命名实体识别 双向长短期记忆网络 卷积神经网络 字符级特征 自适应
在线阅读 下载PDF
一种松耦合的生物医学命名实体识别算法 被引量:2
8
作者 胡俊锋 陈蓉 +2 位作者 陈源 陈浩 于中华 《计算机应用》 CSCD 北大核心 2007年第11期2866-2869,共4页
生物医学命名实体识别(Bio-NER)是生物医学文献挖掘利用的基础工作。针对目前Bio-NER存在的困难和问题,提出了松耦合的Bio-NER算法LCA,该算法利用启发规则过滤器、词性模板匹配及改良的隐马尔科夫模型(HMM)识别生物医学命名实体。在GENI... 生物医学命名实体识别(Bio-NER)是生物医学文献挖掘利用的基础工作。针对目前Bio-NER存在的困难和问题,提出了松耦合的Bio-NER算法LCA,该算法利用启发规则过滤器、词性模板匹配及改良的隐马尔科夫模型(HMM)识别生物医学命名实体。在GENIA corpus3.02语料库上进行的实验表明,LCA可以达到80%的准确率和89%的召回率,优于相关工作中的结果。 展开更多
关键词 生物医学命名实体 启发规则过滤器 词性模板匹配 词根匹配 隐马尔科夫模型 松耦合算法
在线阅读 下载PDF
BioTrHMM:基于迁移学习的生物医学命名实体识别算法 被引量:18
9
作者 高冰涛 张阳 刘斌 《计算机应用研究》 CSCD 北大核心 2019年第1期45-48,共4页
为了降低生物医学文本中命名实体识别对目标领域标注数据的需求,将生物医学文本中的命名实体识别问题转换为基于迁移学习的隐马尔可夫模型问题。对要进行命名实体识别的目标领域数据集无须进行大量数据标注,通过迁移学习的方法实现对目... 为了降低生物医学文本中命名实体识别对目标领域标注数据的需求,将生物医学文本中的命名实体识别问题转换为基于迁移学习的隐马尔可夫模型问题。对要进行命名实体识别的目标领域数据集无须进行大量数据标注,通过迁移学习的方法实现对目标领域的识别分类;以相关领域数据为辅助数据集,利用数据引力的方法评估辅助数据集的样本在目标领域学习中的贡献程度,在辅助数据集和目标领域数据集上计算权值进行迁移学习。基于权值学习模型,构建基于迁移学习的隐马尔可夫模型算法BioTrHMM。在GENIA语料库的数据集上的实验表明,BioTrHMM算法比传统的隐马尔可夫模型算法具有更好的性能,仅需要少量的目标领域标注数据即可具有较好的命名实体识别性能。 展开更多
关键词 迁移学习 隐马尔可夫模型 命名实体识别 文本挖掘
在线阅读 下载PDF
基于BERT和BiLSTM-CRF的生物医学命名实体识别 被引量:27
10
作者 许力 李建华 《计算机工程与科学》 CSCD 北大核心 2021年第10期1873-1879,共7页
在生物医学领域,以静态词向量表征语义的命名实体识别方法准确率不高。针对此问题,提出一种将预训练语言模型BERT和BiLSTM相结合应用于生物医学命名实体识别的模型。首先使用BERT进行语义提取生成动态词向量,并加入词性分析、组块分析... 在生物医学领域,以静态词向量表征语义的命名实体识别方法准确率不高。针对此问题,提出一种将预训练语言模型BERT和BiLSTM相结合应用于生物医学命名实体识别的模型。首先使用BERT进行语义提取生成动态词向量,并加入词性分析、组块分析特征提升模型精度;其次,将词向量送入BiLSTM模型进一步训练,以获取上下文特征;最后通过CRF进行序列解码,输出概率最大的结果。该模型在BC4CHEMD、BC5CDR-chem和NCBI-disease数据集上的平均F1值达到了89.45%。实验结果表明,提出的模型有效地提升了生物医学命名实体识别的准确率。 展开更多
关键词 生物医学 命名实体识别 预训练语言模型 词性分析 组块分析
在线阅读 下载PDF
基于结合多头注意力机制BiGRU网络的生物医学命名实体识别 被引量:10
11
作者 徐凯 王崎 +3 位作者 李振彰 康培培 谢峰 刘文印 《计算机应用与软件》 北大核心 2020年第5期151-155,232,共6页
生物医学命名实体识别(BNER)对促进医学信息学研究具有重要意义。针对现有方法识别精度和效率低,特别是不能很好识别组成复杂和罕见的生物医学名称问题,提出一种基于词典注意力双向门控循环单元神经网络和CRF(DABGC)BNER的方法。通过一... 生物医学命名实体识别(BNER)对促进医学信息学研究具有重要意义。针对现有方法识别精度和效率低,特别是不能很好识别组成复杂和罕见的生物医学名称问题,提出一种基于词典注意力双向门控循环单元神经网络和CRF(DABGC)BNER的方法。通过一种高效多模态匹配方法对生物医学词典进行高效匹配,使用双向GRU网络输出包含上下文信息的隐状态。引入多头注意力机制解析词之间的联系,通过权重的方式将词典匹配结果和注意力机制进行结合,融合CRF计算出最优标签序列。在NCBI疾病和BC5CDR化学数据集上,DABGC获得最高F1分数分别为0.868和0.921。 展开更多
关键词 命名实体识别 深度学习 医学词典
在线阅读 下载PDF
基于句法依存分析的图网络生物医学命名实体识别 被引量:3
12
作者 许力 李建华 《计算机应用》 CSCD 北大核心 2021年第2期357-362,共6页
现有的生物医学命名实体识别方法没有利用语料中的句法信息,准确率不高。针对这一问题,提出基于句法依存分析的图网络生物医学命名实体识别模型。首先利用卷积神经网络(CNN)生成字符向量并将其与词向量拼接,然后将其送入双向长短期记忆(... 现有的生物医学命名实体识别方法没有利用语料中的句法信息,准确率不高。针对这一问题,提出基于句法依存分析的图网络生物医学命名实体识别模型。首先利用卷积神经网络(CNN)生成字符向量并将其与词向量拼接,然后将其送入双向长短期记忆(BiLSTM)网络进行训练;其次以句子为单位对语料进行句法依存分析,并构建邻接矩阵;最后将BiLSTM的输出和通过句法依存分析构建的邻接矩阵送入图卷积网络(GCN)进行训练,并引入图注意力机制优化邻接节点的特征权重得到模型输出。所提模型在JNLPBA和NCBI-disease数据集上的F1值分别达到了76.91%和87.80%,相比基准模型分别提升了2.62和1.66个百分点。实验结果证明,提出的方法能有效提升模型在生物医学命名实体识别任务上的表现。 展开更多
关键词 生物医学 命名实体识别 双向长短期记忆网络 图卷积网络 句法依存分析 图注意力机制
在线阅读 下载PDF
基于全域信息融合和多维关系感知的命名实体识别模型 被引量:1
13
作者 胡婕 武帅星 +1 位作者 曹芝兰 张龑 《计算机应用》 北大核心 2025年第5期1511-1519,共9页
现有的基于双向长短时记忆(BiLSTM)网络的命名实体识别(NER)模型难以全面理解文本的整体语义以及捕捉复杂的实体关系。因此,提出一种基于全域信息融合和多维关系感知的NER模型。首先,通过BERT(Bidirectional Encoder Representations fr... 现有的基于双向长短时记忆(BiLSTM)网络的命名实体识别(NER)模型难以全面理解文本的整体语义以及捕捉复杂的实体关系。因此,提出一种基于全域信息融合和多维关系感知的NER模型。首先,通过BERT(Bidirectional Encoder Representations from Transformers)获取输入序列的向量表示,并结合BiLSTM进一步学习输入序列的上下文信息。其次,提出由梯度稳定层和特征融合模块组成的全域信息融合机制:前者使模型保持稳定的梯度传播并更新优化输入序列的表示,后者则融合BiLSTM的前后向表示获取更全面的特征表示。接着,构建多维关系感知结构学习不同子空间单词的关联性,以捕获文档中复杂的实体关系。此外,使用自适应焦点损失函数动态调整不同类别实体的权重,提高模型对少数类实体的识别性能。最后,在7个公开数据集上将所提模型和11个基线模型进行对比,实验结果表明所提模型的F1值均优于对比模型,可见该模型的综合性较优。 展开更多
关键词 命名实体识别 全域信息融合机制 梯度稳定层 多维关系感知 自适应焦点损失
在线阅读 下载PDF
FGITA:一种基于细粒度对齐的多模态命名实体识别框架
14
作者 吕学强 王涛 +3 位作者 游新冬 赵海兴 才藏太 陈玉忠 《小型微型计算机系统》 北大核心 2025年第4期769-775,共7页
命名实体识别任务旨在识别出非结构化文本中所包含的实体并将其分配给预定义的实体类别中.随着互联网和社交媒体的发展,文本信息往往伴随着图像等视觉模态信息出现,传统的命名实体识别方法在多模态信息中表现不佳.近年来,多模态命名实... 命名实体识别任务旨在识别出非结构化文本中所包含的实体并将其分配给预定义的实体类别中.随着互联网和社交媒体的发展,文本信息往往伴随着图像等视觉模态信息出现,传统的命名实体识别方法在多模态信息中表现不佳.近年来,多模态命名实体识别任务广受重视.然而,现有的多模态命名实体识别方法中,存在跨模态知识间的细粒度对齐不足问题,文本表征会融合语义不相关的图像信息,进而引入噪声.为了解决这些问题,提出了一种基于细粒度图文对齐的多模态命名实体识别方法(FGITA:A Multi-Modal NER Frame based on Fine-Grained Image-Text Alignment).首先,该方法通过目标检测、语义相似性判断等,确定更为细粒度的文本实体和图像子对象之间的语义相关性;其次,通过双线性注意力机制,计算出图像子对象与实体的相关性权重,并依据权重将子对象信息融入到实体表征中;最后,提出了一种跨模态对比学习方法,依据图像和实体之间的匹配程度,优化实体和图像在嵌入空间中的距离,借此帮助实体表征学习相关的图像信息.在两个公开数据集上的实验表明,FGITA优于5个主流多模态命名实体识别方法,验证了方法的有效性,同时验证了细粒度跨模态对齐在多模态命名实体识别任务中的重要性和优越性. 展开更多
关键词 多模态 命名实体识别 信息抽取 知识图谱 对比学习
在线阅读 下载PDF
基于模块交互和依存关系的生物医学事件检测
15
作者 张勇 左皓阳 +1 位作者 苏莹 周光有 《中文信息学报》 北大核心 2025年第6期119-126,共8页
该文提出一种基于模块交互和依存关系的生物医学事件检测模型。该模型在事件检测模块中融入了命名实体识别模块与图卷积策略,充分利用数据集中的标注信息和远距离依存关系来提高文本的语义表示。该模型同时构造了一个命名实体识别模块... 该文提出一种基于模块交互和依存关系的生物医学事件检测模型。该模型在事件检测模块中融入了命名实体识别模块与图卷积策略,充分利用数据集中的标注信息和远距离依存关系来提高文本的语义表示。该模型同时构造了一个命名实体识别模块和一个事件检测模块,并将命名实体识别模块中训练的语义特征拼接到事件检测模块,以增强事件检测的语义信息。同时,该模型还在事件检测模块中集成了基于门控机制的图卷积层,以利用依存句法信息来提高单词之间远距离依存关系的建模能力。在生物医学事件检测数据集上的实验结果显示,该模型的F_(1)值达到了81.63%,整体性能优于其他模型,显示了模块交互与图卷积策略在提升生物医学事件检测方面的有效性。 展开更多
关键词 生物医学事件检测 模块交互 命名实体识别 图卷积
在线阅读 下载PDF
层次融合多元知识的命名实体识别框架——HTLR
16
作者 吕学强 王涛 +1 位作者 游新冬 徐戈 《计算机应用》 北大核心 2025年第1期40-47,共8页
中文命名实体识别(NER)任务旨在抽取非结构化文本中包含的实体并给它们分配预定义的实体类别。针对大多数中文NER方法在上下文信息缺乏时的语义学习不足问题,提出一种层次融合多元知识的NER框架——HTLR(Chinese NER method based on Hi... 中文命名实体识别(NER)任务旨在抽取非结构化文本中包含的实体并给它们分配预定义的实体类别。针对大多数中文NER方法在上下文信息缺乏时的语义学习不足问题,提出一种层次融合多元知识的NER框架——HTLR(Chinese NER method based on Hierarchical Transformer fusing Lexicon and Radical),以通过分层次融合的多元知识来帮助模型学习更丰富、全面的上下文信息和语义信息。首先,通过发布的中文词汇表和词汇向量表识别语料中包含的潜在词汇并把它们向量化,同时通过优化后的位置编码建模词汇和相关字符的语义关系,以学习中文的词汇知识;其次,通过汉典网发布的基于汉字字形的编码将语料转换为相应的编码序列以代表字形信息,并提出RFECNN(Radical Feature Extraction-Convolutional Neural Network)模型来提取字形知识;最后,提出Hierarchical Transformer模型,其中由低层模块分别学习字符和词汇以及字符和字形的语义关系,并由高层模块进一步融合字符、词汇、字形等多元知识,从而帮助模型学习语义更丰富的字符表征。在Weibo、Resume、MSRA和OntoNotes4.0公开数据集进行了实验,与主流方法NFLAT(Non-Flat-LAttice Transformer for Chinese named entity recognition)的对比结果表明,所提方法的F1值在4个数据集上分别提升了9.43、0.75、1.76和6.45个百分点,达到最优水平。可见,多元语义知识、层次化融合、RFE-CNN结构和Hierarchical Transformer结构对学习丰富的语义知识及提高模型性能是有效的。 展开更多
关键词 命名实体识别 自然语言处理 知识图谱构建 词汇增强 字形增强
在线阅读 下载PDF
基于多特征融合的外来入侵植物细粒度命名实体识别
17
作者 尚俊平 程春畅 +3 位作者 卢洋 席磊 程金鹏 刘合兵 《农业工程学报》 北大核心 2025年第12期230-239,共10页
外来入侵植物命名实体识别是进一步挖掘入侵植物信息的关键步骤。为解决外来入侵植物领域命名实体识别存在训练数据稀缺、字符级向量表征单一、专业实体识别精度不足等问题,构建了一种基于多特征融合的外来入侵植物细粒度命名实体识别模... 外来入侵植物命名实体识别是进一步挖掘入侵植物信息的关键步骤。为解决外来入侵植物领域命名实体识别存在训练数据稀缺、字符级向量表征单一、专业实体识别精度不足等问题,构建了一种基于多特征融合的外来入侵植物细粒度命名实体识别模型(invasive alien plant fine-grained named entity recognition model based on multi-feature fusion,IAPMFF)。首先,采用RoBERTa(Robustly optimized BERT approach,RoBERTa)预训练模型为基础架构,通过构建领域专用词典并通过词汇特征向量融合,增强模型对低频词及专业术语的表征能力;其次,设计双通道特征提取层,利用双向长短时记忆网络(Bi-directional long-short term memory,BiLSTM)提取长序列语义特征,结合卷积残差结构(convolution residual structure,CRS)捕获更多细粒度特征;然后,设计分层特征融合机制,通过多头自注意力机制加权融合两种特征向量,构建多维度语义表征;最后,采用条件随机场(conditional random field,CRF)进行序列解码优化。基于专家知识,构建包含24类细粒度实体标签的外来入侵植物命名实体识别数据集。试验表明,IAP-MFF模型在外来入侵植物命名实体识别数据集上取得91.51%精确率、92.51%召回率和92.01%的F1值,较基线模型分别提升4.40、3.39、3.91个百分点,显著改善了小样本细粒度实体的识别效果。在Weibo、Resume公共数据集上F1值分别达到72.75%和97.15%,表明了模型的泛化性和优越性能。IAP-MFF模型通过融合包含领域知识在内的多种特征,有效提升实体识别精度与泛化能力,为外来入侵植物知识图谱构建奠定技术基础。 展开更多
关键词 命名实体识别 多特征融合 卷积残差结构 多头自注意力机制 外来入侵植物
在线阅读 下载PDF
基于SVM的生物医学命名实体的识别 被引量:18
18
作者 王浩畅 赵铁军 《哈尔滨工程大学学报》 EI CAS CSCD 北大核心 2006年第B07期570-574,共5页
命名实体识别是生物医学数据挖掘的基本任务.文章使用了基于支持向量机的方法对生物医学文本中的命名实体进行了识别,系统中结合了丰富的特征集,包括局部特征,全文特征和外部资源特征,对不同的特征和不同的特征组合对系统的贡献进... 命名实体识别是生物医学数据挖掘的基本任务.文章使用了基于支持向量机的方法对生物医学文本中的命名实体进行了识别,系统中结合了丰富的特征集,包括局部特征,全文特征和外部资源特征,对不同的特征和不同的特征组合对系统的贡献进行了评测和实验.为了进一步提高系统的性能,还引入了缩写词识别模块和过滤器模块.实验结果表明,该方法对生物医学文本中命名实体的识别取得到了较好的结果. 展开更多
关键词 命名实体识别 SVM 特征选择 缩写词
在线阅读 下载PDF
基于MVBCN-FLW的中文法律文书命名实体识别
19
作者 杨书新 刘天扬 黄伟东 《计算机工程与应用》 北大核心 2025年第2期219-226,共8页
中文法律文书命名实体识别是智慧司法的基础性任务。目前的中文法律文书命名实体识别研究中已经取得一些成果,但其中大部分方法依赖于已标注的法律语料而未有效利用未标注的法律语料,且不能深入获取法律文书的特征。针对上述问题,提出... 中文法律文书命名实体识别是智慧司法的基础性任务。目前的中文法律文书命名实体识别研究中已经取得一些成果,但其中大部分方法依赖于已标注的法律语料而未有效利用未标注的法律语料,且不能深入获取法律文书的特征。针对上述问题,提出一种中文法律文书命名实体识别框架。该框架使用基于双向编码器的转换器模型来学习中文法律文书的向量表示,并使用能够融合法律术语特征的双向长短时记忆网络语言模型来捕捉法律文书序列的上下文特征向量。该框架将中文法律文书的向量表示和上下文特征向量进行融合,融合后的特征向量被输入到一个由双向门控循环单元、自注意力机制和条件随机场组成的模块中进行训练。此外,为了使框架在缺少已标注的法律语料时也能得到更加充分的训练,使用未标注的法律语料进行自训练,生成新标注的法律语料并将其与初始标注的法律语料合并,通过进行迭代训练来提升框架性能。实验结果表明,该框架优于其他基于主流神经网络的命名实体识别模型。 展开更多
关键词 法律文书 实体命名识别 半监督学习
在线阅读 下载PDF
基于随机提示的中文法律领域命名实体识别
20
作者 周鹏 何军 《计算机工程与设计》 北大核心 2025年第4期1167-1173,共7页
为解决中文法律领域命名实体识别面临的数据集稀缺和通用命名实体识别模型未充分利用BERT文本推理能力的问题,提出一种基于随机提示的命名实体识别方法。设计专用于法律领域的实体类型信息融合层,通过随机融合多角度的实体类型解释信息... 为解决中文法律领域命名实体识别面临的数据集稀缺和通用命名实体识别模型未充分利用BERT文本推理能力的问题,提出一种基于随机提示的命名实体识别方法。设计专用于法律领域的实体类型信息融合层,通过随机融合多角度的实体类型解释信息,结合BERT和BiLSTM,学习文本中融合实体类型解释信息的上下文语义特征。将命名实体识别任务建模为序列标注任务,通过CRF获取序列的标签信息。实验结果表明,该方法在中文法律领域命名实体识别任务中取得了显著的性能提升,F1值达到93.06%。 展开更多
关键词 中文法律实体 深度学习 命名实体识别 随机提示 双向长短时记忆网络 序列标注 条件随机场
在线阅读 下载PDF
上一页 1 2 37 下一页 到第
使用帮助 返回顶部