期刊文献+
共找到701篇文章
< 1 2 36 >
每页显示 20 50 100
基于全域信息融合和多维关系感知的命名实体识别模型 被引量:1
1
作者 胡婕 武帅星 +1 位作者 曹芝兰 张龑 《计算机应用》 北大核心 2025年第5期1511-1519,共9页
现有的基于双向长短时记忆(BiLSTM)网络的命名实体识别(NER)模型难以全面理解文本的整体语义以及捕捉复杂的实体关系。因此,提出一种基于全域信息融合和多维关系感知的NER模型。首先,通过BERT(Bidirectional Encoder Representations fr... 现有的基于双向长短时记忆(BiLSTM)网络的命名实体识别(NER)模型难以全面理解文本的整体语义以及捕捉复杂的实体关系。因此,提出一种基于全域信息融合和多维关系感知的NER模型。首先,通过BERT(Bidirectional Encoder Representations from Transformers)获取输入序列的向量表示,并结合BiLSTM进一步学习输入序列的上下文信息。其次,提出由梯度稳定层和特征融合模块组成的全域信息融合机制:前者使模型保持稳定的梯度传播并更新优化输入序列的表示,后者则融合BiLSTM的前后向表示获取更全面的特征表示。接着,构建多维关系感知结构学习不同子空间单词的关联性,以捕获文档中复杂的实体关系。此外,使用自适应焦点损失函数动态调整不同类别实体的权重,提高模型对少数类实体的识别性能。最后,在7个公开数据集上将所提模型和11个基线模型进行对比,实验结果表明所提模型的F1值均优于对比模型,可见该模型的综合性较优。 展开更多
关键词 命名实体识别 全域信息融合机制 梯度稳定层 多维关系感知 自适应焦点损失
在线阅读 下载PDF
FGITA:一种基于细粒度对齐的多模态命名实体识别框架
2
作者 吕学强 王涛 +3 位作者 游新冬 赵海兴 才藏太 陈玉忠 《小型微型计算机系统》 北大核心 2025年第4期769-775,共7页
命名实体识别任务旨在识别出非结构化文本中所包含的实体并将其分配给预定义的实体类别中.随着互联网和社交媒体的发展,文本信息往往伴随着图像等视觉模态信息出现,传统的命名实体识别方法在多模态信息中表现不佳.近年来,多模态命名实... 命名实体识别任务旨在识别出非结构化文本中所包含的实体并将其分配给预定义的实体类别中.随着互联网和社交媒体的发展,文本信息往往伴随着图像等视觉模态信息出现,传统的命名实体识别方法在多模态信息中表现不佳.近年来,多模态命名实体识别任务广受重视.然而,现有的多模态命名实体识别方法中,存在跨模态知识间的细粒度对齐不足问题,文本表征会融合语义不相关的图像信息,进而引入噪声.为了解决这些问题,提出了一种基于细粒度图文对齐的多模态命名实体识别方法(FGITA:A Multi-Modal NER Frame based on Fine-Grained Image-Text Alignment).首先,该方法通过目标检测、语义相似性判断等,确定更为细粒度的文本实体和图像子对象之间的语义相关性;其次,通过双线性注意力机制,计算出图像子对象与实体的相关性权重,并依据权重将子对象信息融入到实体表征中;最后,提出了一种跨模态对比学习方法,依据图像和实体之间的匹配程度,优化实体和图像在嵌入空间中的距离,借此帮助实体表征学习相关的图像信息.在两个公开数据集上的实验表明,FGITA优于5个主流多模态命名实体识别方法,验证了方法的有效性,同时验证了细粒度跨模态对齐在多模态命名实体识别任务中的重要性和优越性. 展开更多
关键词 多模态 命名实体识别 信息抽取 知识图谱 对比学习
在线阅读 下载PDF
层次融合多元知识的命名实体识别框架——HTLR
3
作者 吕学强 王涛 +1 位作者 游新冬 徐戈 《计算机应用》 北大核心 2025年第1期40-47,共8页
中文命名实体识别(NER)任务旨在抽取非结构化文本中包含的实体并给它们分配预定义的实体类别。针对大多数中文NER方法在上下文信息缺乏时的语义学习不足问题,提出一种层次融合多元知识的NER框架——HTLR(Chinese NER method based on Hi... 中文命名实体识别(NER)任务旨在抽取非结构化文本中包含的实体并给它们分配预定义的实体类别。针对大多数中文NER方法在上下文信息缺乏时的语义学习不足问题,提出一种层次融合多元知识的NER框架——HTLR(Chinese NER method based on Hierarchical Transformer fusing Lexicon and Radical),以通过分层次融合的多元知识来帮助模型学习更丰富、全面的上下文信息和语义信息。首先,通过发布的中文词汇表和词汇向量表识别语料中包含的潜在词汇并把它们向量化,同时通过优化后的位置编码建模词汇和相关字符的语义关系,以学习中文的词汇知识;其次,通过汉典网发布的基于汉字字形的编码将语料转换为相应的编码序列以代表字形信息,并提出RFECNN(Radical Feature Extraction-Convolutional Neural Network)模型来提取字形知识;最后,提出Hierarchical Transformer模型,其中由低层模块分别学习字符和词汇以及字符和字形的语义关系,并由高层模块进一步融合字符、词汇、字形等多元知识,从而帮助模型学习语义更丰富的字符表征。在Weibo、Resume、MSRA和OntoNotes4.0公开数据集进行了实验,与主流方法NFLAT(Non-Flat-LAttice Transformer for Chinese named entity recognition)的对比结果表明,所提方法的F1值在4个数据集上分别提升了9.43、0.75、1.76和6.45个百分点,达到最优水平。可见,多元语义知识、层次化融合、RFE-CNN结构和Hierarchical Transformer结构对学习丰富的语义知识及提高模型性能是有效的。 展开更多
关键词 命名实体识别 自然语言处理 知识图谱构建 词汇增强 字形增强
在线阅读 下载PDF
融合词汇增强和跨度方法的中医药命名实体识别
4
作者 叶青 赖煊 +1 位作者 程春雷 杨琴 《计算机工程与应用》 北大核心 2025年第17期222-231,共10页
中医药命名实体识别旨在从非结构化的中医药文本中识别出相应的实体及其类别,采用人工识别效率不高。然而,传统的中文命名实体识别模型缺少中医药文本中的特征信息且一般采用序列标注方式解码,无法解决中医药实体识别中突出存在的实体... 中医药命名实体识别旨在从非结构化的中医药文本中识别出相应的实体及其类别,采用人工识别效率不高。然而,传统的中文命名实体识别模型缺少中医药文本中的特征信息且一般采用序列标注方式解码,无法解决中医药实体识别中突出存在的实体边界识别模糊和实体嵌套性错误等问题。为解决上述问题,提出融合词汇增强与跨度方法的中医药命名实体识别模型TCM-NER来提升实体识别性能。根据词汇匹配获得文本中的词汇信息并利用相对位置构建中医药文本词格结构;通过特征提取模块分别提取字、词汇和相对位置编码向量;采用FLAT(flatlattice Transformer)模型进行特征整合,从而获得<字-词汇-跨度>混合特征,提高模型边界识别性能;将混合特征输入双仿射分类器预测实体及其类别。实验结果表明,TCM-NER模型在两个中医药数据集的Micro-F1值分别达到了70.53%和75.91%,证明了该模型在中医药实体识别中的实用价值。 展开更多
关键词 词汇增强 跨度方法 命名实体识别 中医药(TCM) 双仿射分类器
在线阅读 下载PDF
基于多特征融合的外来入侵植物细粒度命名实体识别
5
作者 尚俊平 程春畅 +3 位作者 卢洋 席磊 程金鹏 刘合兵 《农业工程学报》 北大核心 2025年第12期230-239,共10页
外来入侵植物命名实体识别是进一步挖掘入侵植物信息的关键步骤。为解决外来入侵植物领域命名实体识别存在训练数据稀缺、字符级向量表征单一、专业实体识别精度不足等问题,构建了一种基于多特征融合的外来入侵植物细粒度命名实体识别模... 外来入侵植物命名实体识别是进一步挖掘入侵植物信息的关键步骤。为解决外来入侵植物领域命名实体识别存在训练数据稀缺、字符级向量表征单一、专业实体识别精度不足等问题,构建了一种基于多特征融合的外来入侵植物细粒度命名实体识别模型(invasive alien plant fine-grained named entity recognition model based on multi-feature fusion,IAPMFF)。首先,采用RoBERTa(Robustly optimized BERT approach,RoBERTa)预训练模型为基础架构,通过构建领域专用词典并通过词汇特征向量融合,增强模型对低频词及专业术语的表征能力;其次,设计双通道特征提取层,利用双向长短时记忆网络(Bi-directional long-short term memory,BiLSTM)提取长序列语义特征,结合卷积残差结构(convolution residual structure,CRS)捕获更多细粒度特征;然后,设计分层特征融合机制,通过多头自注意力机制加权融合两种特征向量,构建多维度语义表征;最后,采用条件随机场(conditional random field,CRF)进行序列解码优化。基于专家知识,构建包含24类细粒度实体标签的外来入侵植物命名实体识别数据集。试验表明,IAP-MFF模型在外来入侵植物命名实体识别数据集上取得91.51%精确率、92.51%召回率和92.01%的F1值,较基线模型分别提升4.40、3.39、3.91个百分点,显著改善了小样本细粒度实体的识别效果。在Weibo、Resume公共数据集上F1值分别达到72.75%和97.15%,表明了模型的泛化性和优越性能。IAP-MFF模型通过融合包含领域知识在内的多种特征,有效提升实体识别精度与泛化能力,为外来入侵植物知识图谱构建奠定技术基础。 展开更多
关键词 命名实体识别 多特征融合 卷积残差结构 多头自注意力机制 外来入侵植物
在线阅读 下载PDF
基于MVBCN-FLW的中文法律文书命名实体识别
6
作者 杨书新 刘天扬 黄伟东 《计算机工程与应用》 北大核心 2025年第2期219-226,共8页
中文法律文书命名实体识别是智慧司法的基础性任务。目前的中文法律文书命名实体识别研究中已经取得一些成果,但其中大部分方法依赖于已标注的法律语料而未有效利用未标注的法律语料,且不能深入获取法律文书的特征。针对上述问题,提出... 中文法律文书命名实体识别是智慧司法的基础性任务。目前的中文法律文书命名实体识别研究中已经取得一些成果,但其中大部分方法依赖于已标注的法律语料而未有效利用未标注的法律语料,且不能深入获取法律文书的特征。针对上述问题,提出一种中文法律文书命名实体识别框架。该框架使用基于双向编码器的转换器模型来学习中文法律文书的向量表示,并使用能够融合法律术语特征的双向长短时记忆网络语言模型来捕捉法律文书序列的上下文特征向量。该框架将中文法律文书的向量表示和上下文特征向量进行融合,融合后的特征向量被输入到一个由双向门控循环单元、自注意力机制和条件随机场组成的模块中进行训练。此外,为了使框架在缺少已标注的法律语料时也能得到更加充分的训练,使用未标注的法律语料进行自训练,生成新标注的法律语料并将其与初始标注的法律语料合并,通过进行迭代训练来提升框架性能。实验结果表明,该框架优于其他基于主流神经网络的命名实体识别模型。 展开更多
关键词 法律文书 实体命名识别 半监督学习
在线阅读 下载PDF
基于随机提示的中文法律领域命名实体识别
7
作者 周鹏 何军 《计算机工程与设计》 北大核心 2025年第4期1167-1173,共7页
为解决中文法律领域命名实体识别面临的数据集稀缺和通用命名实体识别模型未充分利用BERT文本推理能力的问题,提出一种基于随机提示的命名实体识别方法。设计专用于法律领域的实体类型信息融合层,通过随机融合多角度的实体类型解释信息... 为解决中文法律领域命名实体识别面临的数据集稀缺和通用命名实体识别模型未充分利用BERT文本推理能力的问题,提出一种基于随机提示的命名实体识别方法。设计专用于法律领域的实体类型信息融合层,通过随机融合多角度的实体类型解释信息,结合BERT和BiLSTM,学习文本中融合实体类型解释信息的上下文语义特征。将命名实体识别任务建模为序列标注任务,通过CRF获取序列的标签信息。实验结果表明,该方法在中文法律领域命名实体识别任务中取得了显著的性能提升,F1值达到93.06%。 展开更多
关键词 中文法律实体 深度学习 命名实体识别 随机提示 双向长短时记忆网络 序列标注 条件随机场
在线阅读 下载PDF
融合位置和实体类别信息的中文命名实体识别
8
作者 杨竣辉 李苏晋 《计算机工程》 北大核心 2025年第3期113-121,共9页
词语作为一种上下文信息在中文命名实体识别(NER)任务中发挥着重要作用。以往基于字符的中文NER方法虽然在一定程度上取得了成功,但仍存在词语信息嵌入方式简单、特征捕捉方式单一,且忽视了潜在词的影响、未能充分利用词语信息的问题。... 词语作为一种上下文信息在中文命名实体识别(NER)任务中发挥着重要作用。以往基于字符的中文NER方法虽然在一定程度上取得了成功,但仍存在词语信息嵌入方式简单、特征捕捉方式单一,且忽视了潜在词的影响、未能充分利用词语信息的问题。针对上述问题,提出一种改进的中文NER方法。首先,通过基于全遮蔽技术的预训练模型RoBERTa-wwm将文本表示为字符级嵌入向量;其次,使用门控空洞卷积神经网络(DGCNN)模型进一步捕捉文本的特征信息;然后,在键值记忆网络(KV-MemNN)模型中采用位置实体类别组合机制(PECM)更有效地融合词语信息并缓解潜在词冲突所带来的影响;最后,利用条件随机场(CRF)模型对预测结果进行约束得到最佳标签序列。实验结果表明,该方法在Weibo、MSRA和Resume数据集上的F1值分别达到71.82%、95.00%和96.14%,相比于融合词语信息的FLAT模型分别提升了11.50、0.88、0.69百分点,同时在不同实体上的识别表现整体优于RoBERTa-wwm+CRF和Lattice LSTM模型。此外,通过预训练模型的对比和消融实验进一步证明了KV-MemNN和RoBERTa-wwm模型的有效性。 展开更多
关键词 命名实体识别 键值记忆网络 词语信息 位置信息 实体类别信息
在线阅读 下载PDF
基于预训练模型和双向二维卷积的命名实体识别算法
9
作者 林楠 刘志慧 杨聪 《计算机科学》 北大核心 2025年第S1期218-223,共6页
针对命名实体识别在处理嵌套结构时语义信息逐层减弱的问题,提出了一种基于预训练模型和双向二维卷积的命名实体识别算法BAM-TDNN。该算法首先通过四词嵌入策略即BERT、距离、局部和注意力嵌入,来提取语句中的不同层次语义特征,将多个... 针对命名实体识别在处理嵌套结构时语义信息逐层减弱的问题,提出了一种基于预训练模型和双向二维卷积的命名实体识别算法BAM-TDNN。该算法首先通过四词嵌入策略即BERT、距离、局部和注意力嵌入,来提取语句中的不同层次语义特征,将多个层次的语义特征转换为二维语义表示,以更好地捕捉嵌套结构之间的语义信息;其次,采用Bi-TDNN模型学习语句中实体的长距离语义依赖关系,扩展跨度表示的感受野,提取嵌套实体间更准确的语义信息,更好地理解嵌套实体之间的语义关联。通过在4个公共数据集上进行评估,实验结果表明,所提出的命名实体识别算法在多个实体识别数据集上均取得了良好的性能。BAM-TDNN在ACE2005数据集上的精确率、召回率和F1值分别为86.83%,87.93%和86.83%,在GENIA数据集上的精确率、召回率和F1值分别为86.52%,82.37%和84.36%,在CoNLL2003数据集上的精确率、召回率和F1值分别为92.24%,93.72%和91.97%等。 展开更多
关键词 命名实体识别 四词嵌入策略 BERT Bi-TDNN
在线阅读 下载PDF
一种图文协同层级融合的多模态命名实体识别方法
10
作者 冯广 刘天翔 +4 位作者 杨燕茹 郑润庭 钟婷 林健忠 黄荣灿 《计算机应用研究》 北大核心 2025年第8期2390-2397,共8页
多模态命名实体识别(MNER)旨在结合文本和图像等信息,提高命名实体识别的准确性。然而,现有方法因文本表达不规范以及图像特征提取聚焦于局部信息,导致图文语义特征利用不充分。针对该问题,提出了一种图文协同层级融合(VTCHF)的命名实... 多模态命名实体识别(MNER)旨在结合文本和图像等信息,提高命名实体识别的准确性。然而,现有方法因文本表达不规范以及图像特征提取聚焦于局部信息,导致图文语义特征利用不充分。针对该问题,提出了一种图文协同层级融合(VTCHF)的命名实体识别模型,不仅利用全局视觉特征来补充视觉语义,还通过协同自变分编码器充分利用图像与文本特征,协同生成包含视觉语境信息的特征,从而增补文本语义。随后,设计了层级融合模块,预融合图文特征及其语义特征,自适应增强图文语义粒度,缓解后续模态融合中的对齐偏差。在多个公开数据集上的实验结果表明,该模型显著提升了命名实体识别的准确率、召回率和F 1值,验证了其优越的性能。 展开更多
关键词 多模态命名实体识别 语义对齐偏差 语义增强 模态协同 注意力机制
在线阅读 下载PDF
南美白对虾养殖领域中文命名实体识别数据集构建
11
作者 彭小红 邓峰 余应淮 《计算机工程与应用》 北大核心 2025年第9期353-362,共10页
该研究致力于构建一个高质量的数据集,用于南美白对虾养殖领域的命名实体识别(named entity recognition,NER)任务,命名为VamNER。为确保数据集的多样性,从CNKI数据库中收集了近10年的高质量论文,并结合权威书籍进行语料构建。邀请专家... 该研究致力于构建一个高质量的数据集,用于南美白对虾养殖领域的命名实体识别(named entity recognition,NER)任务,命名为VamNER。为确保数据集的多样性,从CNKI数据库中收集了近10年的高质量论文,并结合权威书籍进行语料构建。邀请专家讨论实体类型,并经过专业培训的标注人员使用IOB2标注格式进行标注,标注过程分为预标注和正式标注两个阶段以提高效率。在预标注阶段,标注者间一致性(inter-annotation agreement,IAA)达到0.87,表明标注人员的一致性较高。最终,VamNER包含6115个句子,总字符数达384602,涵盖10个实体类型,共有12814个实体。研究通过与多个通用领域数据集和一个特定领域数据集进行比较,揭示了VamNER的独特特性。在实验中使用了预训练的基于变换器的双向编码器表示(bidirectional encoder representations from Transformers,BERT)模型、双向长短期记忆神经网络(bidirectional long short-term memory network,BiLSTM)和条件随机场模型(conditional random fields,CRF),最优模型在测试集上的F1值达到82.8%。VamNER成为首个专注于南美白对虾养殖领域的NER数据集,为中文特定领域NER研究提供了丰富资源,有望推动水产养殖领域NER研究的发展。 展开更多
关键词 命名实体识别 VamNER数据集 标注者间一致性(IAA) 基于变换器的双向编码器表示(BERT) 双向长短期记忆神经网络(BiLSTM) 条件随机场(CRF)
在线阅读 下载PDF
基于XLNet—BiLSTM—AFF—CRF的谷物收割机械维修知识命名实体识别
12
作者 李先旺 刘赛虎 +1 位作者 黄忠祥 章霞东 《中国农机化学报》 北大核心 2025年第2期319-325,352,共8页
针对谷物收割机械维修实体识别过程中存在上下文语义特征缺失、长距离依赖信息不充足、实体复杂度较高等问题,提出一种引入注意力机制特征融合的谷物收割机械维修知识命名实体识别模型XLNet—BiLSTM—AFF—CRF。该模型采用基于Transfor... 针对谷物收割机械维修实体识别过程中存在上下文语义特征缺失、长距离依赖信息不充足、实体复杂度较高等问题,提出一种引入注意力机制特征融合的谷物收割机械维修知识命名实体识别模型XLNet—BiLSTM—AFF—CRF。该模型采用基于Transformer—XL的广义自回归XLNet预训练模型作为嵌入层提取字向量;然后使用双向长短时记忆网络(BiLSTM)获取上下文语义特征;利用注意力特征融合AFF将XLNet层输出与BiLSTM层输出进行组合,增强序列的语义信息;最后输入条件随机场CRF模型学习标注约束规则生成全局最优序列。在创建的维修语料库上展开试验,结果表明:所提模型的精确率、召回率和F1值分别为98.4%、97.6%和97.9%,均高于对比模型,验证所提模型的有效性。 展开更多
关键词 谷物收割机械 维修 命名实体识别 注意力机制 广义自回归预训练语言模型(XLNet)
在线阅读 下载PDF
融合多阶段特征的中文命名实体识别模型
13
作者 杨先凤 范玥 +1 位作者 李自强 汤依磊 《计算机工程与设计》 北大核心 2025年第1期37-43,共7页
针对中文命名实体识别中未充分利用完整的文本表示和语句特征的问题,提出一种融合多阶段特征的中文命名实体识别模型(LM-CNER)。采用全局注意力机制文本融合字符级嵌入与其预训练词向量,同时获取字符级特征和单词级特征。采用翻转长短... 针对中文命名实体识别中未充分利用完整的文本表示和语句特征的问题,提出一种融合多阶段特征的中文命名实体识别模型(LM-CNER)。采用全局注意力机制文本融合字符级嵌入与其预训练词向量,同时获取字符级特征和单词级特征。采用翻转长短时记忆网络(Re-LSTM)进行上下文特征提取,采用多头自注意力机制进行句法分析,并将二者进行拼接。使用条件随机场作为解码器,得到命名实体识别结果。在微博和简历两个数据集上的实验结果表明,该模型能够获取更加准确的文本表示和语句特征,提升模型的实体识别效果。 展开更多
关键词 命名实体识别 翻转长短时记忆网络 注意力机制 编码器 预训练词向量 多阶段特征 条件随机场
在线阅读 下载PDF
基于多路局部特征整合的嵌套命名实体识别方法
14
作者 王进 蒋诗琪 《江苏大学学报(自然科学版)》 北大核心 2025年第4期431-437,共7页
为了解决嵌套命名实体识别中边界模糊和嵌套实体提取困难的问题,提出了基于多路局部特征整合的嵌套命名实体识别方法.新方法先采用双向长短时记忆网络拆解序列的正反向特征,然后按实体长度对嵌套命名实体识别任务进行拆分,使用不同大小... 为了解决嵌套命名实体识别中边界模糊和嵌套实体提取困难的问题,提出了基于多路局部特征整合的嵌套命名实体识别方法.新方法先采用双向长短时记忆网络拆解序列的正反向特征,然后按实体长度对嵌套命名实体识别任务进行拆分,使用不同大小的卷积网络对固定长度的局部信息进行整合,最后将正反向特征进行匹配得到预测结果.引入前置加权方法来解决多层模型中层间信息传递误差大的问题.将新方法与其他的嵌套命名实体识别方法在ACE2005和GENIA两个数据集上进行对比试验.结果表明:新方法在两个数据集上均表现出了更好的效果,比其他方法中最优的Dependency Parsing在ACE2005和GENIA数据集上F_(1)分数分别提升0.18和0.03百分点,新方法相比目前主流方法有一定的性能提升. 展开更多
关键词 自然语言处理 嵌套命名实体识别 深度学习 卷积神经网络 长短时记忆网络 特征融合 自适应学习
在线阅读 下载PDF
结合对抗训练和注意力机制的蔬菜种植领域命名实体识别 被引量:2
15
作者 胡乔 赵春江 +2 位作者 吴华瑞 缪祎晟 郭旺 《计算机工程与应用》 北大核心 2025年第9期343-352,共10页
针对复杂语境下的蔬菜种植领域命名实体识别任务中存在实体分布不均衡、实体边界不清晰和语义关联不足等问题,提出一种基于对抗训练和多头自注意力机制的蔬菜种植领域命名实体识别模型。以番茄为研究对象,采用ALBERT(a lite BERT)提取... 针对复杂语境下的蔬菜种植领域命名实体识别任务中存在实体分布不均衡、实体边界不清晰和语义关联不足等问题,提出一种基于对抗训练和多头自注意力机制的蔬菜种植领域命名实体识别模型。以番茄为研究对象,采用ALBERT(a lite BERT)提取语料动态词向量,结合对抗训练对词向量扰动生成对抗样本并集成为嵌入层输出,缓解农业数据不平衡问题;在特征提取层中通过引入多头自注意力机制对BiLSTM提取的序列特征进一步优化权重分布,更多关注边界信息,加强文本语义关联;最后采用条件随机场解码标注序列。在由8个类别和5542条标注样本构建的语料库Veg-Tomato上进行了实验。结果表明,该模型的精确率、召回率和F1值分别达89.26%、85.77%、87.48%,较最优基线模型提高了0.69、3.56、2.21个百分点,在小样本数据上仍能表现较高的识别精度,适用于蔬菜种植领域命名实体识别任务。 展开更多
关键词 蔬菜种植 命名实体识别 ALBERT 对抗训练 多头自注意力
在线阅读 下载PDF
面向中文小样本命名实体识别的BERT优化方法 被引量:1
16
作者 杨三和 赖沛超 +3 位作者 傅仰耿 王一蕾 叶飞扬 张林 《小型微型计算机系统》 北大核心 2025年第3期602-611,共10页
为解决中文小样本命名实体识别(NER)任务所面临的问题和挑战,提出了一种面向中文小样本NER的BERT优化方法,该方法包含两方面的优化:首先,针对训练样本数量不足限制了预训练语言模型BERT的语义感知能力的问题,提出了ProConBERT,一种基于... 为解决中文小样本命名实体识别(NER)任务所面临的问题和挑战,提出了一种面向中文小样本NER的BERT优化方法,该方法包含两方面的优化:首先,针对训练样本数量不足限制了预训练语言模型BERT的语义感知能力的问题,提出了ProConBERT,一种基于提示学习与对比学习的BERT预训练策略.在提示学习阶段,设计掩码填充模板来训练BERT预测出每个标记对应的中文标签词.在对比学习阶段,利用引导模板训练BERT学习每个标记和标签词之间的相似性与差异性.其次,针对中文缺乏明确的词边界所带来的复杂性和挑战性,修改BERT模型的第一层Transformer结构,并设计了一种带有混合权重引导器的特征融合模块,将词典信息集成到BERT底层中.最后,实验结果验证了所提方法在中文小样本NER任务中的有效性与优越性.该方法结合BERT和条件随机场(CRF)结构,在4个采样的中文NER数据集上取得了最好的性能.特别是在Weibo数据集的3个小样本场景下,模型的F 1值分别达到了63.78%、66.27%、70.90%,与其他方法相比,平均F 1值分别提高了16.28%、14.30%、11.20%.此外,将ProConBERT应用到多个基于BERT的中文NER模型中能进一步提升实体识别的性能. 展开更多
关键词 中文小样本命名实体识别 提示学习 对比学习 预训练 特征融合 BERT模型
在线阅读 下载PDF
中医文本命名实体识别研究综述 被引量:1
17
作者 时倩如 李贺 +2 位作者 于雯倩 沈旺 张承坤 《现代情报》 北大核心 2025年第2期4-16,共13页
[目的/意义]中医文本中包含了大量领域相关知识,可为准确诊断和有效的疾病防治提供指导。本文对中医文本命名实体识别(NER)研究进行系统性综述。[方法/过程]从中医文本的特征出发,探讨了中医文本NER在知识体系、语料构建和技术算法层次... [目的/意义]中医文本中包含了大量领域相关知识,可为准确诊断和有效的疾病防治提供指导。本文对中医文本命名实体识别(NER)研究进行系统性综述。[方法/过程]从中医文本的特征出发,探讨了中医文本NER在知识体系、语料构建和技术算法层次面临的挑战;梳理中医文本NER语料构建中可用的术语标准、实体类型和标注原则与方法;归纳中医文本NER技术的一般框架、常用方法和近期趋势,并总结评估指标。[结果/结论]建议未来研究可从以下方向开展:在语料层面制定标注规范并构建高质量数据集,在算法层面探索针对小样本问题的数据优化、针对复杂实体的识别模型和增强模型解释性,以提高中医NER的效果。 展开更多
关键词 命名实体识别 中医 深度学习 自然语言处理 综述
在线阅读 下载PDF
融合标签知识的中文医学命名实体识别 被引量:2
18
作者 尹宝生 周澎 《计算机科学》 CSCD 北大核心 2024年第S01期128-134,共7页
医学领域命名实体识别是信息抽取任务重要的研究内容之一,其训练数据主要来源于临床实验数据、健康档案、电子病历等非结构化文本,然而标注这些数据需要专业人员耗费大量人力、物力和时间资源。在缺乏大规模医学训练数据的情况下,医学... 医学领域命名实体识别是信息抽取任务重要的研究内容之一,其训练数据主要来源于临床实验数据、健康档案、电子病历等非结构化文本,然而标注这些数据需要专业人员耗费大量人力、物力和时间资源。在缺乏大规模医学训练数据的情况下,医学领域命名实体识别模型很容易出现识别错误的情况。为解决这一难题,文中提出了一种融合标签知识的中文医学命名实体识别方法,即通过专业领域词典获得文本标签的释义后,分别将文本、标签及标签释义编码,基于自适应融合机制进行融合,有效平衡特征提取模块和语义增强模块的信息流,从而提高模型性能。其核心思想在于医学实体标签是通过总结归纳大量医学数据得到的,而标签释义是对标签进行科学解释和说明的结果,模型融入这些蕴含了丰富的医学领域内的先验知识,可以使其更准确地理解实体在医学领域中的语义并提升其识别效果。实验结果表明,该方法在中文医学实体抽取数据集(CMeEE-V2)3个基线模型上分别取得了0.71%,0.53%和1.17%的提升,并且为小样本场景下的实体识别提供了一个有效的解决方案。 展开更多
关键词 中文医学命名实体识别 标签知识 先验知识 自适应融合机制 小样本
在线阅读 下载PDF
结合位置感知的命名实体识别方法
19
作者 王纪恬 陈艳平 +2 位作者 黄蓉 黄瑞章 秦永彬 《广西科学》 北大核心 2025年第1期96-105,共10页
命名实体识别(Named Entity Recognition,NER)的性能影响自然语言处理中诸多下游任务。跨度分类是命名实体识别常用的方法,由于其需要枚举每一个跨度,因此存在高复杂度和大量负实例问题。此外,对每个跨度的独立预测不仅忽略了词与词之... 命名实体识别(Named Entity Recognition,NER)的性能影响自然语言处理中诸多下游任务。跨度分类是命名实体识别常用的方法,由于其需要枚举每一个跨度,因此存在高复杂度和大量负实例问题。此外,对每个跨度的独立预测不仅忽略了词与词之间的依赖关系和位置信息,而且导致模型获取的语义信息较为单一,从而忽略了全局信息。针对上述问题,本文提出结合位置感知的命名实体识别方法。具体来说,首先使用位置编码增强词与词之间的位置特征,序列融合了绝对位置信息和相对位置信息,从而得到关注语序的语义信息,预测可能的实体边界;然后对候选实体边界进行匹配组合并过滤生成带有标签信息的候选实体实例;最后使用具有局部信息感知的标签注意力机制和多层感知机联合判断候选实体的标签。实验结果表明,本文提出模型在ACE2005、GENIA和CoNLL-2003数据集上的F 1分数分别达到90.02%、81.33%和94.52%,该结果充分验证了所提模型在不同数据集上的有效性,进一步证明了其在命名实体识别任务中的优越性能。 展开更多
关键词 命名实体识别 嵌套命名实体识别 边界检测 位置编码 神经网络
在线阅读 下载PDF
基于命名实体识别的大规模物联网二进制组件识别
20
作者 张立孝 马垚 +2 位作者 杨玉丽 于丹 陈永乐 《计算机应用》 北大核心 2025年第7期2288-2295,共8页
物联网(IoT)设备厂商在固件开发中通常会大量复用基于开源代码编译而成的开源组件,每个固件通常由上百个这样的组件构成。如果这些组件未能及时更新,未打上安全补丁的开源组件可能会携带着漏洞集成到固件中,进而给IoT设备埋下安全隐患... 物联网(IoT)设备厂商在固件开发中通常会大量复用基于开源代码编译而成的开源组件,每个固件通常由上百个这样的组件构成。如果这些组件未能及时更新,未打上安全补丁的开源组件可能会携带着漏洞集成到固件中,进而给IoT设备埋下安全隐患。因此,识别IoT固件中的二进制组件对于确保IoT设备的安全性至关重要。针对现有方法难以大规模识别二进制组件的问题,提出一种基于命名实体识别(NER)的大规模IoT二进制组件识别方法。首先,通过固件解压提取固件内部的二进制组件;然后,通过可读字符串提取和组件执行这两个方式获取组件的语义信息;最后,利用RoBERTa-BiLSTM-CRF的NER模型识别组件名和版本号。在12个流行的IoT生产商发布的6 575个固件上的实验结果表明,所提方法获得了87.67%的F1值,可成功识别163个二进制组件。可见,该方法有效扩大了IoT固件中二进制组件的识别范围,有助于从软件供应链的角度保障固件安全。 展开更多
关键词 物联网 软件供应链 组件识别 固件安全 命名实体识别
在线阅读 下载PDF
上一页 1 2 36 下一页 到第
使用帮助 返回顶部