期刊文献+
共找到146篇文章
< 1 2 8 >
每页显示 20 50 100
中文领域命名实体识别综述 被引量:51
1
作者 焦凯楠 李欣 朱容辰 《计算机工程与应用》 CSCD 北大核心 2021年第16期1-15,共15页
命名实体识别(Named Entity Recognition,NER)作为自然语言处理领域经典的研究主题,是智能问答、知识图谱等任务的基础技术。领域命名实体识别(Domain Named Entity Recognition,DNER)是面向特定领域的NER方案。在深度学习技术的推动下... 命名实体识别(Named Entity Recognition,NER)作为自然语言处理领域经典的研究主题,是智能问答、知识图谱等任务的基础技术。领域命名实体识别(Domain Named Entity Recognition,DNER)是面向特定领域的NER方案。在深度学习技术的推动下,中文DNER取得了突破性进展。概括了中文DNER的研究框架,从领域数据源的确定、领域实体类型及规范制定、领域数据集的标注规范、中文DNER评估指标四个角度对国内外已有研究成果进行了综合评述;总结了目前常见的中文DNER的技术框架,介绍了基于词典和规则的模式匹配方法、统计机器学习方法、基于深度学习的方法、多方融合的深度学习方法,并重点分析了基于词向量表征和深度学习的中文DNER方法;讨论了中文DNER的典型应用场景,对未来发展方向进行了展望。 展开更多
关键词 自然语言处理 中文领域命名实体识别 深度学习
在线阅读 下载PDF
基于随机提示的中文法律领域命名实体识别
2
作者 周鹏 何军 《计算机工程与设计》 北大核心 2025年第4期1167-1173,共7页
为解决中文法律领域命名实体识别面临的数据集稀缺和通用命名实体识别模型未充分利用BERT文本推理能力的问题,提出一种基于随机提示的命名实体识别方法。设计专用于法律领域的实体类型信息融合层,通过随机融合多角度的实体类型解释信息... 为解决中文法律领域命名实体识别面临的数据集稀缺和通用命名实体识别模型未充分利用BERT文本推理能力的问题,提出一种基于随机提示的命名实体识别方法。设计专用于法律领域的实体类型信息融合层,通过随机融合多角度的实体类型解释信息,结合BERT和BiLSTM,学习文本中融合实体类型解释信息的上下文语义特征。将命名实体识别任务建模为序列标注任务,通过CRF获取序列的标签信息。实验结果表明,该方法在中文法律领域命名实体识别任务中取得了显著的性能提升,F1值达到93.06%。 展开更多
关键词 中文法律实体 深度学习 命名实体识别 随机提示 双向长短时记忆网络 序列标注 条件随机场
在线阅读 下载PDF
面向中文小样本命名实体识别的BERT优化方法
3
作者 杨三和 赖沛超 +3 位作者 傅仰耿 王一蕾 叶飞扬 张林 《小型微型计算机系统》 北大核心 2025年第3期602-611,共10页
为解决中文小样本命名实体识别(NER)任务所面临的问题和挑战,提出了一种面向中文小样本NER的BERT优化方法,该方法包含两方面的优化:首先,针对训练样本数量不足限制了预训练语言模型BERT的语义感知能力的问题,提出了ProConBERT,一种基于... 为解决中文小样本命名实体识别(NER)任务所面临的问题和挑战,提出了一种面向中文小样本NER的BERT优化方法,该方法包含两方面的优化:首先,针对训练样本数量不足限制了预训练语言模型BERT的语义感知能力的问题,提出了ProConBERT,一种基于提示学习与对比学习的BERT预训练策略.在提示学习阶段,设计掩码填充模板来训练BERT预测出每个标记对应的中文标签词.在对比学习阶段,利用引导模板训练BERT学习每个标记和标签词之间的相似性与差异性.其次,针对中文缺乏明确的词边界所带来的复杂性和挑战性,修改BERT模型的第一层Transformer结构,并设计了一种带有混合权重引导器的特征融合模块,将词典信息集成到BERT底层中.最后,实验结果验证了所提方法在中文小样本NER任务中的有效性与优越性.该方法结合BERT和条件随机场(CRF)结构,在4个采样的中文NER数据集上取得了最好的性能.特别是在Weibo数据集的3个小样本场景下,模型的F 1值分别达到了63.78%、66.27%、70.90%,与其他方法相比,平均F 1值分别提高了16.28%、14.30%、11.20%.此外,将ProConBERT应用到多个基于BERT的中文NER模型中能进一步提升实体识别的性能. 展开更多
关键词 中文小样本命名实体识别 提示学习 对比学习 预训练 特征融合 BERT模型
在线阅读 下载PDF
基于数据增强和损失平衡的机电领域命名实体识别
4
作者 林娜 岳希 唐聃 《计算机工程与应用》 北大核心 2025年第7期222-232,共11页
机电领域命名实体识别是机电创新设计信息检索最基础的过程。目前命名实体识别任务的数据在机电领域较少,且大部分存在不平衡问题。通过构建机电领域命名实体识别数据集,根据数据集文本结构特点设计多维数据增强方法,并提出基于改进los... 机电领域命名实体识别是机电创新设计信息检索最基础的过程。目前命名实体识别任务的数据在机电领域较少,且大部分存在不平衡问题。通过构建机电领域命名实体识别数据集,根据数据集文本结构特点设计多维数据增强方法,并提出基于改进loss的命名实体识别模型BERT-BiGRU-CRF(BL)。对互联网机电领域文本语料进行爬取并进行标注构成机电领域命名实体识别数据集;根据不同方式对数据集的影响从同类实体替换、同义词替换、语料裁减和语料拼接四个方面进行多维数据增强后按一定比例进行数据扩充增加数据丰富度;针对数据集数据不平衡问题设计使用Weigh loss平衡focal loss与CRF loss权重的模型,该模型采用BERT进行词向量编码,利用BiGRU完成文本向量的特征提取,使用CRF进行标签约束与解码。经实验证明,多维数据增强方法对模型效果有显著提升,并且经过改进的模型在原始和增强后数据集上表现均为最优,F1值分别为78.23%和83.3%。 展开更多
关键词 机电领域 命名实体识别 数据增强 focal loss Weigh loss
在线阅读 下载PDF
基于领域知识图谱增强和Lattice-LSTM的中医药命名实体识别
5
作者 牛天星 郑小盈 +1 位作者 祝永新 汪辉 《计算机应用与软件》 北大核心 2025年第3期127-134,共8页
针对中医药领域命名实体识别任务中,现有的通过构造词典对实体识别模型进行增强的方法中存在的专业术语发现困难、构造词典效率低下和识别准确率不足等问题,提出一种基于领域知识图谱增强和Lattice-LSTM的领域命名实体识别模型。通过对... 针对中医药领域命名实体识别任务中,现有的通过构造词典对实体识别模型进行增强的方法中存在的专业术语发现困难、构造词典效率低下和识别准确率不足等问题,提出一种基于领域知识图谱增强和Lattice-LSTM的领域命名实体识别模型。通过对已经构建完成的领域图谱使用嵌入算法,将其快速高效地转化为领域词典,并使用融合多粒度词汇信息的Lattice-LSTM将词典中的专业词汇编码到模型的输入中去,从而提高了模型在领域实体识别任务上的效果。采用中医药数据集进行实验,结果表明,所提模型的F1值高于传统实体识别模型,验证了模型的有效性。 展开更多
关键词 领域知识图谱 中医药 命名实体识别 知识图谱嵌入
在线阅读 下载PDF
融入拼音与词性特征的中文电子病历命名实体识别 被引量:1
6
作者 陆鑫涛 孙丽萍 +3 位作者 凌晨 童子龙 刘佳霖 汤其宇 《小型微型计算机系统》 北大核心 2025年第2期330-338,共9页
中文电子病历结构复杂,且相较英文具有更多的一字多音与一音多义现象,给命名实体识别任务带来了挑战.随着技术的成熟,当前主流的基于字形特征的命名实体识别方法难以获得较大提升,因此本文提出一种融入拼音与词性特征的中文电子病历命... 中文电子病历结构复杂,且相较英文具有更多的一字多音与一音多义现象,给命名实体识别任务带来了挑战.随着技术的成熟,当前主流的基于字形特征的命名实体识别方法难以获得较大提升,因此本文提出一种融入拼音与词性特征的中文电子病历命名实体识别方法,利用BERT预训练模型获取医学文本的动态向量表示,借助中文拼音特征对电子病历文本进行深度挖掘,并提取词性特征对拼音特征的不确定性加以约束.此外,对于这3种类型的特征,本文采用缩放点积注意力模块进行融合.在医疗领域数据集CCKS2018、CCKS2019,通用领域数据集Weibo上,F1值分别达到了98.66、87.25、73.41,相较基准模型BERT-BiLSTM-CRF分别提升了1.01、2.10、6.51.实验结果表明,与当前众多现有模型相比,本文方法展现出了更优越的性能,本研究为中文电子病历命名实体识别提供了新的思路. 展开更多
关键词 命名实体识别 中文电子病历 注意力机制 特征融合 数据挖掘
在线阅读 下载PDF
基于MacBERT的融合依存句法信息和多视角词汇信息的中文命名实体识别方法
7
作者 李代成 李晗 +1 位作者 刘哲宇 龚诗恒 《计算机科学》 北大核心 2025年第S1期278-285,共8页
在实体类型开放和实体结构复杂的中文环境下,中文命名实体识别任务存在明显的实体边界判断错误和实体分类准确率低等问题。为了进一步改善上述问题,提出了一种以字符作为编码单位,并基于MacBERT预训练模型的中文命名实体识别模型——Mac... 在实体类型开放和实体结构复杂的中文环境下,中文命名实体识别任务存在明显的实体边界判断错误和实体分类准确率低等问题。为了进一步改善上述问题,提出了一种以字符作为编码单位,并基于MacBERT预训练模型的中文命名实体识别模型——MacBERT-SDI-ML。首先,为了提取更丰富的中文语义特征,提高实体识别的准确性,模型采用MacBERT作为嵌入层。其次,为了进一步增强实体表示的特征,提高实体分类的准确性,模型通过一个依存句法信息解析器(SDIP)对实体更丰富的依存信息进行更高效的提取,并将其融合到字符表示中。此外,考虑到字符在不同的词汇中可能处在不同的位置,模型设计了一种基于自注意力机制的面向多视角的词汇信息融合组件(MLIF),来进一步增强字符表示的边界特征,有助于提高对边界判断的能力。最后,分别在Weibo,OntoNotes和Resume数据集上对模型进行训练。实验表明,MacBERT-SDI-ML模型在3个数据集上的F1值分别达到72.97%,86.56%和98.45%。 展开更多
关键词 中文命名实体识别 MacBERT 词汇信息 依存信息 预训练模型 自注意力机制
在线阅读 下载PDF
基于双维信息与剪枝的中文猕猴桃文本命名实体识别方法
8
作者 齐梓均 牛当当 +3 位作者 吴华瑞 张礼麟 王仑峰 张宏鸣 《智慧农业(中英文)》 2025年第1期44-56,共13页
[目的/意义]中文猕猴桃文本在段落上下文主题与字符间的左右关系中,展现出垂直与水平双维度特性。若能充分利用中文猕猴桃文本的双维特性,将有助于进一步提升命名实体识别的识别效果。基于此,提出了一种基于双维信息与剪枝的命名实体识... [目的/意义]中文猕猴桃文本在段落上下文主题与字符间的左右关系中,展现出垂直与水平双维度特性。若能充分利用中文猕猴桃文本的双维特性,将有助于进一步提升命名实体识别的识别效果。基于此,提出了一种基于双维信息与剪枝的命名实体识别方法,命名为KIWI-Coord-Prune(kiwifruit-CoordKIWINER-PruneBiLSTM)。[方法]通过设计CoordKIWINER与PruneBi-LSTM两个模块,对中文猕猴桃文本中的双维信息进行精准处理。其中CoordKIWINER模块能够显著提升模型捕捉复杂和嵌套实体的能力,从而生成涵盖更多文本信息的加强字符矢量;PruneBi-LSTM模块在上一模块的基础上,加强了模型对重要特征的学习与识别能力,从而进一步提升了实体识别效果。[结果和讨论]在自建数据集KIWIPRO和四个公开数据集人民日报(People's Daily)、ClueNER、Boson,以及ResumeNER上进行试验,并与LSTM、Bi-LSTM、LR-CNN、Softlexicon-LSTM,以及KIWINER五个先进模型进行对比,本研究提出的方法在5个数据集上分别取得了较好的F1值,分别为89.55%、91.02%、83.50%、83.49%和95.81%。[结论]与现有方法相比,本研究提出的方法不仅能够有效提升中文猕猴桃领域文本的命名实体识别效果,且具有一定的泛化性,同时也能够为相关知识图谱和问答系统的构建等下游任务提供技术支持。 展开更多
关键词 中文命名实体识别 猕猴桃文本 自建数据集 多维度注意力机制 剪枝 深度学习 文本特征增强
在线阅读 下载PDF
基于MacBERT与全局指针网络的中文电子病历命名实体识别
9
作者 吴天宇 郭冬冬 +2 位作者 李文桥 李子康 苗琳 《科学技术与工程》 北大核心 2025年第11期4656-4665,共10页
针对现有序列标注方法不能有效解决中文电子病历嵌套实体识别问题,提出一种基于MacBERT与全局指针网络的中文电子病历命名实体识别模型。首先通过MacBERT-large预训练模型将文本转换为结合语境信息的动态向量,然后使用FGM (fast gradien... 针对现有序列标注方法不能有效解决中文电子病历嵌套实体识别问题,提出一种基于MacBERT与全局指针网络的中文电子病历命名实体识别模型。首先通过MacBERT-large预训练模型将文本转换为结合语境信息的动态向量,然后使用FGM (fast gradient method)方法生成对抗样本添加至原有向量并一同输入BiLSTM (bi-directional long short-term memory)网络获取上下文特征,并通过引入注意力机制增强长距离语义特征获取,最后利用全局指针网络模型同时考虑头部和尾部的特征信息进行解码以获得更好的医学嵌套实体预测效果。实验结果表明,本文模型相较于识别效果较好的主流模型全局指针网络模型在CCKS2019以及两个版本的CMeEE中文电子病历数据集上F1分别提高了1.8%、1.37%、1.72%,证明了模型的有效性。 展开更多
关键词 命名实体识别 中文电子病历 全局指针网络 注意力机制
在线阅读 下载PDF
基于多特征融合和注意力机制的中文命名实体识别
10
作者 陈奕全 吴晓鸰 +1 位作者 占文韬 HEO Hoon 《小型微型计算机系统》 北大核心 2025年第2期339-345,共7页
近年来,基于字符级嵌入的BERT模型和基于词融合的模型都在中文命名实体识别领域取得了较好的效果,但目前这些模型从字符序列中提取出的特征信息还不够充分,模型性能还有一定的提升空间.因此本文提出了一种用于中文命名实体识别的多特征... 近年来,基于字符级嵌入的BERT模型和基于词融合的模型都在中文命名实体识别领域取得了较好的效果,但目前这些模型从字符序列中提取出的特征信息还不够充分,模型性能还有一定的提升空间.因此本文提出了一种用于中文命名实体识别的多特征融合模型,首先将输入中文语句转换为字词对序列,通过RoBERTa-wwm预训练语言模型将字词对序列中的字符序列表征为字符向量,获得全局语义特征;然后把词序列转化为词向量,再将字符向量和词向量输入到基于双线性注意力机制的词汇适配器获得字词融合特征;同时将字符向量送入到双向长短时记忆网络(BiLSTM)获得包含字符方向信息的上下文特征;最后将词汇适配器的输出和BiLSTM的输出进行动态特征融合获得包含全局语义信息、词汇信息和方向信息的上下文特征,再通过CRF解码获得最优预测序列.在多个公共数据集的实验结果验证了该模型能提取到更充分的特征信息,提高了识别性能. 展开更多
关键词 中文命名实体识别 多特征融合 词融合 预训练模型
在线阅读 下载PDF
基于多头注意力机制字词联合的中文命名实体识别 被引量:2
11
作者 王进 王猛旗 +2 位作者 张昕跃 孙开伟 朴昌浩 《江苏大学学报(自然科学版)》 CAS 北大核心 2024年第1期77-84,共8页
针对现有基于字词联合的中文命名实体识别方法会引入冗余词汇干扰、模型网络结构复杂、难以迁移的问题,提出一种基于多头注意力机制字词联合的中文命名实体识别算法.算法采用多头注意力机制融合词汇边界信息,并通过分类融合BIE词集降低... 针对现有基于字词联合的中文命名实体识别方法会引入冗余词汇干扰、模型网络结构复杂、难以迁移的问题,提出一种基于多头注意力机制字词联合的中文命名实体识别算法.算法采用多头注意力机制融合词汇边界信息,并通过分类融合BIE词集降低冗余词汇干扰.建立了多头注意力字词联合模型,包含字词匹配、多头注意力、融合等模块.与现有中文命名实体识别方法相比,本算法避免了设计复杂的序列模型,方便与现有基于字的中文命名实体识别模型结合.采用召回率、精确率以及F 1值作为评价指标,通过消融试验验证模型各个部分的效果.结果表明,本算法在MSRA和Weibo数据集上F 1值分别提升0.28、0.69,在Resume数据集上精确率提升0.07. 展开更多
关键词 中文命名实体识别 词汇冗余 词汇边界信息 字词联合 多头注意力机制 BIE词集
在线阅读 下载PDF
融合知识的文博领域低资源命名实体识别方法研究 被引量:1
12
作者 李超 侯霞 乔秀明 《北京大学学报(自然科学版)》 EI CAS CSCD 北大核心 2024年第1期13-22,共10页
文物数据的实体嵌套问题明显,实体边界不唯一,且文博领域已标注数据极度缺乏,导致该领域命名实体识别性能较低。针对这些问题,构建一个可用于文物命名实体识别的数据集FewRlicsData,提出一种融合知识的文博领域低资源命名实体识别方法Re... 文物数据的实体嵌套问题明显,实体边界不唯一,且文博领域已标注数据极度缺乏,导致该领域命名实体识别性能较低。针对这些问题,构建一个可用于文物命名实体识别的数据集FewRlicsData,提出一种融合知识的文博领域低资源命名实体识别方法RelicsNER。该方法将类别描述信息的语义知识融入文物文本中,使用基于跨度的方式进行解码,用于改善实体嵌套问题,并采用边界平滑的方式缓解跨度识别模型的过度自信问题。与基线模型相比,该方法在FewRlicsData数据集上的F1值有所提升,在文博领域命名实体识别任务中取得较好的性能。在公开数据集OntoNotes 4.0上的实验结果证明该方法具有较好的泛化性,同时在数据集OntoNotes 4.0和MSRA上进行小规模数据实验,性能均高于基线模型,说明所提方法适用于低资源场景。 展开更多
关键词 文博领域 命名实体识别 知识融合 注意力机制
在线阅读 下载PDF
融合标签知识的中文医学命名实体识别 被引量:2
13
作者 尹宝生 周澎 《计算机科学》 CSCD 北大核心 2024年第S01期128-134,共7页
医学领域命名实体识别是信息抽取任务重要的研究内容之一,其训练数据主要来源于临床实验数据、健康档案、电子病历等非结构化文本,然而标注这些数据需要专业人员耗费大量人力、物力和时间资源。在缺乏大规模医学训练数据的情况下,医学... 医学领域命名实体识别是信息抽取任务重要的研究内容之一,其训练数据主要来源于临床实验数据、健康档案、电子病历等非结构化文本,然而标注这些数据需要专业人员耗费大量人力、物力和时间资源。在缺乏大规模医学训练数据的情况下,医学领域命名实体识别模型很容易出现识别错误的情况。为解决这一难题,文中提出了一种融合标签知识的中文医学命名实体识别方法,即通过专业领域词典获得文本标签的释义后,分别将文本、标签及标签释义编码,基于自适应融合机制进行融合,有效平衡特征提取模块和语义增强模块的信息流,从而提高模型性能。其核心思想在于医学实体标签是通过总结归纳大量医学数据得到的,而标签释义是对标签进行科学解释和说明的结果,模型融入这些蕴含了丰富的医学领域内的先验知识,可以使其更准确地理解实体在医学领域中的语义并提升其识别效果。实验结果表明,该方法在中文医学实体抽取数据集(CMeEE-V2)3个基线模型上分别取得了0.71%,0.53%和1.17%的提升,并且为小样本场景下的实体识别提供了一个有效的解决方案。 展开更多
关键词 中文医学命名实体识别 标签知识 先验知识 自适应融合机制 小样本
在线阅读 下载PDF
融合领域词典嵌入的航空不安全事件命名实体识别 被引量:3
14
作者 许雅玺 孟天宇 +1 位作者 王欣 刘炳南 《科学技术与工程》 北大核心 2024年第8期3284-3290,共7页
针对航空不安全事件领域命名实体识别任务,以航空安全信息周报为数据源,分析并构建航空不安全事件命名实体识别数据集和领域词典。为解决传统命名实体识别模型对于捕获领域实体边界性能较差的问题,基于BERT(bidirectional encoder repre... 针对航空不安全事件领域命名实体识别任务,以航空安全信息周报为数据源,分析并构建航空不安全事件命名实体识别数据集和领域词典。为解决传统命名实体识别模型对于捕获领域实体边界性能较差的问题,基于BERT(bidirectional encoder representations from transformers)预训练语言模型提出融合领域词典嵌入的领域语义信息增强的方法。在自建数据集上进行多次对比实验,结果表明:所提出的方法可以进一步提升实体边界的识别率,相较于传统的双向长短期记忆网络-条件随机场(bi-directional long short term memory-conditional random field,BiLSTM-CRF)命名实体识别模型,性能提升约5%。 展开更多
关键词 航空不安全事件 领域词典 命名实体识别 预训练语言模型
在线阅读 下载PDF
RIB-NER:基于跨度的中文命名实体识别模型 被引量:1
15
作者 田红鹏 吴璟玮 《计算机工程与科学》 CSCD 北大核心 2024年第7期1311-1320,共10页
命名实体识别是自然语言处理领域中诸多下游任务的重要基础。汉语作为重要的国际语言,在许多方面具有独特性。传统上,中文命名实体识别任务模型使用序列标记机制,该机制需要条件随机场捕获标签的依赖性,然而,这种方法容易出现标签的错... 命名实体识别是自然语言处理领域中诸多下游任务的重要基础。汉语作为重要的国际语言,在许多方面具有独特性。传统上,中文命名实体识别任务模型使用序列标记机制,该机制需要条件随机场捕获标签的依赖性,然而,这种方法容易出现标签的错误分类。针对这个问题,提出基于跨度的命名实体识别模型RIB-NER。首先,以RoBERTa-wwm-ext作为模型嵌入层,提供字符级嵌入,以获得更多的上下文语义信息和词汇信息。其次,利用IDCNN的并行卷积核来增强词之间的位置信息,从而使词与词之间联系更加紧密。同时,在模型中融合BiLSTM网络来获取上下文信息。最后,采用双仿射模型对句子中的开始标记和结束标记评分,使用这些标记探索跨度。在MSRA和Weibo 2个语料库上的实验结果表明,RIB-NER能够较为准确地识别实体边界,并分别获得了95.11%和73.94%的F1值。与传统深度学习相比,有更好的识别效果。 展开更多
关键词 中文命名实体识别 双仿射模型 迭代膨胀卷积神经网络 预训练模型 跨度
在线阅读 下载PDF
因果关系表示增强的跨领域命名实体识别
16
作者 刘小明 曹梦远 +2 位作者 杨关 刘杰 王杭 《计算机工程与应用》 CSCD 北大核心 2024年第18期176-188,共13页
跨领域命名实体识别在现实应用中,尤其在目标领域数据稀缺的小样本场景中具有重要价值。然而,现有方法主要是通过特征表示或模型参数共享实现的跨领域实体能力迁移,未充分考虑由于样本选择偏差而引起的虚假相关性问题。为了解决跨领域... 跨领域命名实体识别在现实应用中,尤其在目标领域数据稀缺的小样本场景中具有重要价值。然而,现有方法主要是通过特征表示或模型参数共享实现的跨领域实体能力迁移,未充分考虑由于样本选择偏差而引起的虚假相关性问题。为了解决跨领域中的虚假相关性问题,提出一种因果关系表示增强的跨领域命名实体识别模型,将源域的语义特征表示与目标域的语义特征表示进行融合,生成一种增强的上下文语义特征表示。通过结构因果模型捕捉增强后的特征变量与标签之间的因果关系。在目标域中应用因果干预和反事实推断策略,提取存在的直接因果效应,从而进一步缓解特征与标签之间的虚假相关性问题。该方法在公共数据集上进行了实验,实验结果得到了显著提高。 展开更多
关键词 领域命名实体识别 迁移学习 因果关系 结构因果模型 语义特征表示
在线阅读 下载PDF
基于汉字多模信息与象形视觉对齐增强的古籍文本命名实体识别研究
17
作者 郑旭辉 王昊 裘靖文 《情报学报》 北大核心 2025年第4期452-465,共14页
古籍的语义解析与人文计算是建设文化强国的重要组成部分,而古籍文本命名实体识别(named entity recognition,NER)是开展后续古籍知识发现与组织的前提和基础,设计一种适用于简体化文言文特性的命名实体识别模型具有重要的研究意义。汉... 古籍的语义解析与人文计算是建设文化强国的重要组成部分,而古籍文本命名实体识别(named entity recognition,NER)是开展后续古籍知识发现与组织的前提和基础,设计一种适用于简体化文言文特性的命名实体识别模型具有重要的研究意义。汉字本身具有大量象形特征的视觉信息与发音信息,这些更贴合汉字发展历史的知识能够为识别古籍中的实体提供更多的信息以提高模型性能。基于此,本文构建了基于多模态汉字象形表示的GMAE-NER(guwen multi-information alignment enhanced NER)模型,该模型创新性地提出了汉字象形层面里图像与笔画信息的多模态特征处理和对齐方法,实现了将BERT(bidirectional encoder representations from transformers)表征与汉字视觉信息、发音信息相融合,有效增强了古籍文本命名实体识别的效果。本文将模型在纪传体史书《后汉书》上进行了大量的实验与对比,发现相较于基线模型,GMAE-NER在各个类别实体识别的F1指标上均得到了1.32~15.00个百分点的提升,并且能更好地识别出古籍文本中重叠表述的实体,消融分析结果也充分证明了该模型中视觉编码、发音编码与特征融合模块的有效性。 展开更多
关键词 古籍文本 中文命名实体识别 汉字字形 汉字发音 跨模态交互融合
在线阅读 下载PDF
位置标签增强的中文医学命名实体级联识别
18
作者 王旭阳 赵丽婕 张继远 《计算机工程与应用》 CSCD 北大核心 2024年第2期121-128,共8页
针对一般领域的命名实体识别方法不能直接用于中文医学专业实体的识别,现有的相关研究只专注于英文文本和扁平结构的医学实体识别等问题,通过对专业领域实体识别方法的研究,结合中文医学实体的特点提出了一种面向中文医学实体的级联识... 针对一般领域的命名实体识别方法不能直接用于中文医学专业实体的识别,现有的相关研究只专注于英文文本和扁平结构的医学实体识别等问题,通过对专业领域实体识别方法的研究,结合中文医学实体的特点提出了一种面向中文医学实体的级联识别方法。将每个字符元素相对于实体的位置标签嵌入模型,并结合中文医学实体跨度内不同元素的重要程度进行实体的融合表示。通过序列标注方法检测字符的位置标签,利用字符的位置信息指导候选实体生成,并进行实体语义分类。模型在CMeEE和CCKS2018数据集以及中文糖尿病科研文献数据集上分别进行扁平实体、嵌套实体和不连续性长实体的识别实验。实验结果表明,该方法能够有效地识别中文医学文本中不同结构的实体。 展开更多
关键词 中文医学命名实体 位置标签嵌入 结合元素重要程度的实体融合表示 级联识别 线性结构
在线阅读 下载PDF
基于词汇增强和对抗训练的中文命名实体识别
19
作者 杨竣辉 刘保冰 《计算机工程与设计》 北大核心 2024年第12期3712-3718,共7页
针对现有的中文命名实体识别的方法获取中文词级别的特征信息效果不理想且模型易受噪音影响而存在不稳定的问题,提出一种基于词汇增强和对抗训练的中文命名实体识别方法。将输入文本通过词汇增强模块获取到词汇向量,将预训练模型得到的... 针对现有的中文命名实体识别的方法获取中文词级别的特征信息效果不理想且模型易受噪音影响而存在不稳定的问题,提出一种基于词汇增强和对抗训练的中文命名实体识别方法。将输入文本通过词汇增强模块获取到词汇向量,将预训练模型得到的字符级嵌入向量和词汇向量进行字词融合;使用字词融合的嵌入向量通过MOA方式生成对抗样本;使用BiGRU和CRF分别获取语义编码信息并进行解码得到预测结果。实验结果表明,该方法在中文命名实体识别数据集Resume和中药说明书上的F1值分别达到97.14%和73.65%,验证了该模型的有效性。 展开更多
关键词 中文命名实体识别 词汇增强 预训练模型 字词融合 对抗训练 双向门控循环单元 条件随机场
在线阅读 下载PDF
中文命名实体识别研究综述 被引量:26
20
作者 赵继贵 钱育蓉 +2 位作者 王魁 侯树祥 陈嘉颖 《计算机工程与应用》 CSCD 北大核心 2024年第1期15-27,共13页
命名实体识别(named entity recognition,NER)是自然语言处理中最基本的任务之一,其主要内容是识别自然语言文本中具有特定意义的实体类型和边界。然而,中文命名实体识别(Chinese named entity recognition,CNER)的数据样本存在词边界... 命名实体识别(named entity recognition,NER)是自然语言处理中最基本的任务之一,其主要内容是识别自然语言文本中具有特定意义的实体类型和边界。然而,中文命名实体识别(Chinese named entity recognition,CNER)的数据样本存在词边界模糊、语义多样化、形态特征模糊以及中文语料库内容较少等问题,导致中文命名实体识别性能难以大幅提升。介绍了CNER的数据集、标注方案和评价指标。按照CNER的研究进程,将CNER方法分为基于规则的方法、基于统计的方法和基于深度学习的方法三类,并对近五年来基于深度学习的CNER主要模型进行总结。探讨CNER的研究趋势,为新方法的提出和未来研究方向提供一定参考。 展开更多
关键词 自然语言处理 中文命名实体识别 深度学习 预训练模型 机器学习
在线阅读 下载PDF
上一页 1 2 8 下一页 到第
使用帮助 返回顶部