期刊文献+
共找到229篇文章
< 1 2 12 >
每页显示 20 50 100
无人机故障诊断NER数据集构建及模型应用
1
作者 贾龙飞 李志农 +1 位作者 王奉涛 李喆 《兵器装备工程学报》 北大核心 2025年第8期45-52,共8页
针对无人机故障诊断领域缺乏专用NER数据集的现状,提出构建该垂直领域NER数据集及其命名实体识别模型的方案。依据无人机故障诊断领域文本数据的特点,创建了包含5677个领域专用名词的词典辅助分词操作,并采用中文标签进行标注。通过机... 针对无人机故障诊断领域缺乏专用NER数据集的现状,提出构建该垂直领域NER数据集及其命名实体识别模型的方案。依据无人机故障诊断领域文本数据的特点,创建了包含5677个领域专用名词的词典辅助分词操作,并采用中文标签进行标注。通过机器标注人工校对与人工标注相结合的方式,成功构建出包含235045个字符及38421个实体的无人机故障诊断领域命名实体识别数据集,命名为UFDNER。结合预训练语言模型BERT与BiLSTM-CRF方法训练得到基于该数据集的命名实体识别模型,该模型在测试集上的F1值达到87.84%,为该领域故障信息识别及知识图谱构建提供强有力的工具模型。UFDNER作为无人机故障诊断领域NER数据集,为该领域NER研究提供丰富可靠的数据集支撑,填补了无人机故障诊断领域NER数据集空白。 展开更多
关键词 无人机故障诊断 ner数据集 命名实体识别 预训练模型 BiLSTM-CRF
在线阅读 下载PDF
一种集成NER的文本分类特征选择方法 被引量:3
2
作者 施德明 林洋港 陈恩红 《计算机工程与科学》 CSCD 2007年第11期152-156,共5页
文本分类是将自由文本自动划分到若干预先定义类别的方法,在信息检索等领域有很重要的作用。其中,如何选择有效的文本特征是影响文本分类器分类性能的一个重要步骤。很多应用中需要处理的文本信息包含了很多的命名实体,如某个行业的名人... 文本分类是将自由文本自动划分到若干预先定义类别的方法,在信息检索等领域有很重要的作用。其中,如何选择有效的文本特征是影响文本分类器分类性能的一个重要步骤。很多应用中需要处理的文本信息包含了很多的命名实体,如某个行业的名人,往往能够在很大程度上影响着文本所属的类别。然而,现阶段的文本特征方法都只利用关键词的统计意义,而没有考虑关键词作为命名实体所含有的分类特征。针对这一问题,本文提出了一种将命名实体识别方法NER集成到文本分类特征选择中的方法,在保留关键词统计特征之外,还保留了单词作为命名实体的分类特征。实验结果表明,相对于其他特征选择方法而言,本文提出的方法在一定程度上提高了文本分类的分类准确率。 展开更多
关键词 命名实体识别 命名实体 特征选择 文本分类 隐马尔可夫模型
在线阅读 下载PDF
基于BERT多知识图融合嵌入的中文NER模型 被引量:3
3
作者 张凤荔 黄鑫 +2 位作者 王瑞锦 周志远 韩英军 《电子科技大学学报》 EI CAS CSCD 北大核心 2023年第3期390-397,共8页
针对目前特定领域知识图谱构建效率低、领域已有知识图谱利用率不足、传统模型提取领域语义专业性强实体困难的问题,提出了基于BERT多知识图融合嵌入的中文NER模型(BERT-FKG),实现了对多个知识图通过融合语义进行实体间属性共享,丰富了... 针对目前特定领域知识图谱构建效率低、领域已有知识图谱利用率不足、传统模型提取领域语义专业性强实体困难的问题,提出了基于BERT多知识图融合嵌入的中文NER模型(BERT-FKG),实现了对多个知识图通过融合语义进行实体间属性共享,丰富了句子嵌入的知识。该模型在开放域和医疗领域的中文NER任务中,表现出了更好的性能。实验结果表明,多个领域知识图通过计算语义相似度进行相似实体的属性共享,能够使模型吸纳更多的领域知识,提高在NER任务中的准确率。 展开更多
关键词 BERT 中文命名实体识别 医疗领域 多知识图融合嵌入
在线阅读 下载PDF
FCG-NNER:一种融合字形信息的中文嵌套命名实体识别方法 被引量:4
4
作者 陈鹏 马洪彬 +2 位作者 周佳伦 李琳宇 余肖生 《重庆理工大学学报(自然科学)》 CAS 北大核心 2023年第12期222-231,共10页
基于跨度的模型是嵌套命名实体识别的主要方法,其核心是将实体识别问题转化为跨度分类问题。而在中文数据集中,由于中文单词不具有明显的分割符号,导致语义和边界信息不明确,进而造成中文嵌套命名实体识别效果不佳。为了解决这一问题,... 基于跨度的模型是嵌套命名实体识别的主要方法,其核心是将实体识别问题转化为跨度分类问题。而在中文数据集中,由于中文单词不具有明显的分割符号,导致语义和边界信息不明确,进而造成中文嵌套命名实体识别效果不佳。为了解决这一问题,提出了融合字形信息的基于跨度的中文嵌套命名实体识别算法——FCG-NNER,首先通过卷积神经网络获取汉字的字形信息,其次通过交叉Biaffine双仿射解码层实现原文信息与字形信息融合,然后通过对角融合CNN层获取不同跨度之间的局部相互作用,最后将交叉Biaffine双仿射解码层的输出与对角融合CNN层的输出相加后输入到全连接层中,得到最终的预测结果。采用2个具有代表性的中文嵌套NER数据集(CMeEE和CLUENER2020)用于实验验证。结果显示,FCG-NNER在CMeEE数据集中的精度为65.02%,召回率为67.93%,F1值达到0.664 4;在CLUENER2020数据集中的精度为79.45%,召回率为82.33%,F1值达到0.808 6,证明FCG-NNER算法的性能明显超过2个数据集的基线。 展开更多
关键词 中文嵌套命名实体识别 字形特征 跨度分类 特征融合
在线阅读 下载PDF
RIB-NER:基于跨度的中文命名实体识别模型 被引量:1
5
作者 田红鹏 吴璟玮 《计算机工程与科学》 CSCD 北大核心 2024年第7期1311-1320,共10页
命名实体识别是自然语言处理领域中诸多下游任务的重要基础。汉语作为重要的国际语言,在许多方面具有独特性。传统上,中文命名实体识别任务模型使用序列标记机制,该机制需要条件随机场捕获标签的依赖性,然而,这种方法容易出现标签的错... 命名实体识别是自然语言处理领域中诸多下游任务的重要基础。汉语作为重要的国际语言,在许多方面具有独特性。传统上,中文命名实体识别任务模型使用序列标记机制,该机制需要条件随机场捕获标签的依赖性,然而,这种方法容易出现标签的错误分类。针对这个问题,提出基于跨度的命名实体识别模型RIB-NER。首先,以RoBERTa-wwm-ext作为模型嵌入层,提供字符级嵌入,以获得更多的上下文语义信息和词汇信息。其次,利用IDCNN的并行卷积核来增强词之间的位置信息,从而使词与词之间联系更加紧密。同时,在模型中融合BiLSTM网络来获取上下文信息。最后,采用双仿射模型对句子中的开始标记和结束标记评分,使用这些标记探索跨度。在MSRA和Weibo 2个语料库上的实验结果表明,RIB-NER能够较为准确地识别实体边界,并分别获得了95.11%和73.94%的F1值。与传统深度学习相比,有更好的识别效果。 展开更多
关键词 中文命名实体识别 双仿射模型 迭代膨胀卷积神经网络 预训练模型 跨度
在线阅读 下载PDF
基于BERT-TENER的服装质量抽检通告命名实体识别
6
作者 陈进东 胡超 +1 位作者 郝凌霄 曹丽娜 《科学技术与工程》 北大核心 2024年第34期14754-14764,共11页
识别服装质量抽检通告中的实体信息,对于评估不同区域的服装质量状况以及制定宏观政策具有重要意义。针对质量抽检通告命名实体识别存在的长文本序列信息丢失、小类样本特征学习不全等问题,以注意力机制为核心,提出了基于BERT(bidirecti... 识别服装质量抽检通告中的实体信息,对于评估不同区域的服装质量状况以及制定宏观政策具有重要意义。针对质量抽检通告命名实体识别存在的长文本序列信息丢失、小类样本特征学习不全等问题,以注意力机制为核心,提出了基于BERT(bidirectional encoder representations from transformers)和TENER(transformer encoder for NER)模型的领域命名实体识别模型。BERT-TENER模型通过预训练模型BERT获得字符的动态字向量;将字向量输入TENER模块中,基于注意力机制使得同样的字符拥有不同的学习过程,基于改进的Transformer模型进一步捕捉字符与字符之间的距离和方向信息,增强模型对不同长度、小类别文本内容的理解,并采用条件随机场模型获得每个字符对应的实体标签。在领域数据集上,BERT-TENER模型针对服装抽检领域的实体识别F_1达到92.45%,相较传统方法有效提升了命名实体识别率,并且在长文本以及非均衡的实体类别中也表现出较好的性能。 展开更多
关键词 命名实体识别 服装质量抽检通告 BERT(Bidirectional encoder representations from transformers) TEner(transformer encoder for ner)
在线阅读 下载PDF
基于全域信息融合和多维关系感知的命名实体识别模型 被引量:1
7
作者 胡婕 武帅星 +1 位作者 曹芝兰 张龑 《计算机应用》 北大核心 2025年第5期1511-1519,共9页
现有的基于双向长短时记忆(BiLSTM)网络的命名实体识别(NER)模型难以全面理解文本的整体语义以及捕捉复杂的实体关系。因此,提出一种基于全域信息融合和多维关系感知的NER模型。首先,通过BERT(Bidirectional Encoder Representations fr... 现有的基于双向长短时记忆(BiLSTM)网络的命名实体识别(NER)模型难以全面理解文本的整体语义以及捕捉复杂的实体关系。因此,提出一种基于全域信息融合和多维关系感知的NER模型。首先,通过BERT(Bidirectional Encoder Representations from Transformers)获取输入序列的向量表示,并结合BiLSTM进一步学习输入序列的上下文信息。其次,提出由梯度稳定层和特征融合模块组成的全域信息融合机制:前者使模型保持稳定的梯度传播并更新优化输入序列的表示,后者则融合BiLSTM的前后向表示获取更全面的特征表示。接着,构建多维关系感知结构学习不同子空间单词的关联性,以捕获文档中复杂的实体关系。此外,使用自适应焦点损失函数动态调整不同类别实体的权重,提高模型对少数类实体的识别性能。最后,在7个公开数据集上将所提模型和11个基线模型进行对比,实验结果表明所提模型的F1值均优于对比模型,可见该模型的综合性较优。 展开更多
关键词 命名实体识别 全域信息融合机制 梯度稳定层 多维关系感知 自适应焦点损失
在线阅读 下载PDF
PCB工艺FMEA领域知识图谱构建与应用 被引量:1
8
作者 叶进 林琦越 +2 位作者 唐欣 王秋祥 胡宁 《计算机工程与应用》 北大核心 2025年第11期227-237,共11页
随着电子产品的快速发展,产业链厂商对印制电路板(PCB)的失效模式和影响分析(FMEA)提出了更高水平要求,传统的FMEA分析方法已经不能满足复杂电子产品的需求。为此提出了一套PCB工艺FMEA知识图谱构建与应用框架,实现端到端的FMEA分析新... 随着电子产品的快速发展,产业链厂商对印制电路板(PCB)的失效模式和影响分析(FMEA)提出了更高水平要求,传统的FMEA分析方法已经不能满足复杂电子产品的需求。为此提出了一套PCB工艺FMEA知识图谱构建与应用框架,实现端到端的FMEA分析新模式。在图谱构建过程中,针对大量实体为复杂句子的特点,训练了一个加入PCB与FMEA特征词典的FLEBERT NER模型,实现对失效数据的实体识别,实验对比证明效果良好;对识别的实体采用Sentence-BERT结合FLEBERT预训练模型进行实体对齐,提升知识的质量;通过Neo4j进行知识存储完成知识图谱构建。基于已构建的知识图谱,搭建了FMEA知识图谱平台,初步实现了知识探索、知识问答和知识推荐的应用,展示了知识图谱技术在PCB工艺FMEA分析领域具备良好的应用前景。 展开更多
关键词 知识图谱 印制电路板(PCB) 失效模式和影响分析(FMEA) 命名实体识别(ner) BERT
在线阅读 下载PDF
融合位置和实体类别信息的中文命名实体识别 被引量:1
9
作者 杨竣辉 李苏晋 《计算机工程》 北大核心 2025年第3期113-121,共9页
词语作为一种上下文信息在中文命名实体识别(NER)任务中发挥着重要作用。以往基于字符的中文NER方法虽然在一定程度上取得了成功,但仍存在词语信息嵌入方式简单、特征捕捉方式单一,且忽视了潜在词的影响、未能充分利用词语信息的问题。... 词语作为一种上下文信息在中文命名实体识别(NER)任务中发挥着重要作用。以往基于字符的中文NER方法虽然在一定程度上取得了成功,但仍存在词语信息嵌入方式简单、特征捕捉方式单一,且忽视了潜在词的影响、未能充分利用词语信息的问题。针对上述问题,提出一种改进的中文NER方法。首先,通过基于全遮蔽技术的预训练模型RoBERTa-wwm将文本表示为字符级嵌入向量;其次,使用门控空洞卷积神经网络(DGCNN)模型进一步捕捉文本的特征信息;然后,在键值记忆网络(KV-MemNN)模型中采用位置实体类别组合机制(PECM)更有效地融合词语信息并缓解潜在词冲突所带来的影响;最后,利用条件随机场(CRF)模型对预测结果进行约束得到最佳标签序列。实验结果表明,该方法在Weibo、MSRA和Resume数据集上的F1值分别达到71.82%、95.00%和96.14%,相比于融合词语信息的FLAT模型分别提升了11.50、0.88、0.69百分点,同时在不同实体上的识别表现整体优于RoBERTa-wwm+CRF和Lattice LSTM模型。此外,通过预训练模型的对比和消融实验进一步证明了KV-MemNN和RoBERTa-wwm模型的有效性。 展开更多
关键词 命名实体识别 键值记忆网络 词语信息 位置信息 实体类别信息
在线阅读 下载PDF
层次融合多元知识的命名实体识别框架——HTLR
10
作者 吕学强 王涛 +1 位作者 游新冬 徐戈 《计算机应用》 北大核心 2025年第1期40-47,共8页
中文命名实体识别(NER)任务旨在抽取非结构化文本中包含的实体并给它们分配预定义的实体类别。针对大多数中文NER方法在上下文信息缺乏时的语义学习不足问题,提出一种层次融合多元知识的NER框架——HTLR(Chinese NER method based on Hi... 中文命名实体识别(NER)任务旨在抽取非结构化文本中包含的实体并给它们分配预定义的实体类别。针对大多数中文NER方法在上下文信息缺乏时的语义学习不足问题,提出一种层次融合多元知识的NER框架——HTLR(Chinese NER method based on Hierarchical Transformer fusing Lexicon and Radical),以通过分层次融合的多元知识来帮助模型学习更丰富、全面的上下文信息和语义信息。首先,通过发布的中文词汇表和词汇向量表识别语料中包含的潜在词汇并把它们向量化,同时通过优化后的位置编码建模词汇和相关字符的语义关系,以学习中文的词汇知识;其次,通过汉典网发布的基于汉字字形的编码将语料转换为相应的编码序列以代表字形信息,并提出RFECNN(Radical Feature Extraction-Convolutional Neural Network)模型来提取字形知识;最后,提出Hierarchical Transformer模型,其中由低层模块分别学习字符和词汇以及字符和字形的语义关系,并由高层模块进一步融合字符、词汇、字形等多元知识,从而帮助模型学习语义更丰富的字符表征。在Weibo、Resume、MSRA和OntoNotes4.0公开数据集进行了实验,与主流方法NFLAT(Non-Flat-LAttice Transformer for Chinese named entity recognition)的对比结果表明,所提方法的F1值在4个数据集上分别提升了9.43、0.75、1.76和6.45个百分点,达到最优水平。可见,多元语义知识、层次化融合、RFE-CNN结构和Hierarchical Transformer结构对学习丰富的语义知识及提高模型性能是有效的。 展开更多
关键词 命名实体识别 自然语言处理 知识图谱构建 词汇增强 字形增强
在线阅读 下载PDF
融合词汇增强和跨度方法的中医药命名实体识别
11
作者 叶青 赖煊 +1 位作者 程春雷 杨琴 《计算机工程与应用》 北大核心 2025年第17期222-231,共10页
中医药命名实体识别旨在从非结构化的中医药文本中识别出相应的实体及其类别,采用人工识别效率不高。然而,传统的中文命名实体识别模型缺少中医药文本中的特征信息且一般采用序列标注方式解码,无法解决中医药实体识别中突出存在的实体... 中医药命名实体识别旨在从非结构化的中医药文本中识别出相应的实体及其类别,采用人工识别效率不高。然而,传统的中文命名实体识别模型缺少中医药文本中的特征信息且一般采用序列标注方式解码,无法解决中医药实体识别中突出存在的实体边界识别模糊和实体嵌套性错误等问题。为解决上述问题,提出融合词汇增强与跨度方法的中医药命名实体识别模型TCM-NER来提升实体识别性能。根据词汇匹配获得文本中的词汇信息并利用相对位置构建中医药文本词格结构;通过特征提取模块分别提取字、词汇和相对位置编码向量;采用FLAT(flatlattice Transformer)模型进行特征整合,从而获得<字-词汇-跨度>混合特征,提高模型边界识别性能;将混合特征输入双仿射分类器预测实体及其类别。实验结果表明,TCM-NER模型在两个中医药数据集的Micro-F1值分别达到了70.53%和75.91%,证明了该模型在中医药实体识别中的实用价值。 展开更多
关键词 词汇增强 跨度方法 命名实体识别 中医药(TCM) 双仿射分类器
在线阅读 下载PDF
基于随机提示的中文法律领域命名实体识别
12
作者 周鹏 何军 《计算机工程与设计》 北大核心 2025年第4期1167-1173,共7页
为解决中文法律领域命名实体识别面临的数据集稀缺和通用命名实体识别模型未充分利用BERT文本推理能力的问题,提出一种基于随机提示的命名实体识别方法。设计专用于法律领域的实体类型信息融合层,通过随机融合多角度的实体类型解释信息... 为解决中文法律领域命名实体识别面临的数据集稀缺和通用命名实体识别模型未充分利用BERT文本推理能力的问题,提出一种基于随机提示的命名实体识别方法。设计专用于法律领域的实体类型信息融合层,通过随机融合多角度的实体类型解释信息,结合BERT和BiLSTM,学习文本中融合实体类型解释信息的上下文语义特征。将命名实体识别任务建模为序列标注任务,通过CRF获取序列的标签信息。实验结果表明,该方法在中文法律领域命名实体识别任务中取得了显著的性能提升,F1值达到93.06%。 展开更多
关键词 中文法律实体 深度学习 命名实体识别 随机提示 双向长短时记忆网络 序列标注 条件随机场
在线阅读 下载PDF
中医文本命名实体识别研究综述 被引量:2
13
作者 时倩如 李贺 +2 位作者 于雯倩 沈旺 张承坤 《现代情报》 北大核心 2025年第2期4-16,共13页
[目的/意义]中医文本中包含了大量领域相关知识,可为准确诊断和有效的疾病防治提供指导。本文对中医文本命名实体识别(NER)研究进行系统性综述。[方法/过程]从中医文本的特征出发,探讨了中医文本NER在知识体系、语料构建和技术算法层次... [目的/意义]中医文本中包含了大量领域相关知识,可为准确诊断和有效的疾病防治提供指导。本文对中医文本命名实体识别(NER)研究进行系统性综述。[方法/过程]从中医文本的特征出发,探讨了中医文本NER在知识体系、语料构建和技术算法层次面临的挑战;梳理中医文本NER语料构建中可用的术语标准、实体类型和标注原则与方法;归纳中医文本NER技术的一般框架、常用方法和近期趋势,并总结评估指标。[结果/结论]建议未来研究可从以下方向开展:在语料层面制定标注规范并构建高质量数据集,在算法层面探索针对小样本问题的数据优化、针对复杂实体的识别模型和增强模型解释性,以提高中医NER的效果。 展开更多
关键词 命名实体识别 中医 深度学习 自然语言处理 综述
在线阅读 下载PDF
面向中文小样本命名实体识别的BERT优化方法 被引量:1
14
作者 杨三和 赖沛超 +3 位作者 傅仰耿 王一蕾 叶飞扬 张林 《小型微型计算机系统》 北大核心 2025年第3期602-611,共10页
为解决中文小样本命名实体识别(NER)任务所面临的问题和挑战,提出了一种面向中文小样本NER的BERT优化方法,该方法包含两方面的优化:首先,针对训练样本数量不足限制了预训练语言模型BERT的语义感知能力的问题,提出了ProConBERT,一种基于... 为解决中文小样本命名实体识别(NER)任务所面临的问题和挑战,提出了一种面向中文小样本NER的BERT优化方法,该方法包含两方面的优化:首先,针对训练样本数量不足限制了预训练语言模型BERT的语义感知能力的问题,提出了ProConBERT,一种基于提示学习与对比学习的BERT预训练策略.在提示学习阶段,设计掩码填充模板来训练BERT预测出每个标记对应的中文标签词.在对比学习阶段,利用引导模板训练BERT学习每个标记和标签词之间的相似性与差异性.其次,针对中文缺乏明确的词边界所带来的复杂性和挑战性,修改BERT模型的第一层Transformer结构,并设计了一种带有混合权重引导器的特征融合模块,将词典信息集成到BERT底层中.最后,实验结果验证了所提方法在中文小样本NER任务中的有效性与优越性.该方法结合BERT和条件随机场(CRF)结构,在4个采样的中文NER数据集上取得了最好的性能.特别是在Weibo数据集的3个小样本场景下,模型的F 1值分别达到了63.78%、66.27%、70.90%,与其他方法相比,平均F 1值分别提高了16.28%、14.30%、11.20%.此外,将ProConBERT应用到多个基于BERT的中文NER模型中能进一步提升实体识别的性能. 展开更多
关键词 中文小样本命名实体识别 提示学习 对比学习 预训练 特征融合 BERT模型
在线阅读 下载PDF
基于领域知识图谱增强和Lattice-LSTM的中医药命名实体识别 被引量:1
15
作者 牛天星 郑小盈 +1 位作者 祝永新 汪辉 《计算机应用与软件》 北大核心 2025年第3期127-134,共8页
针对中医药领域命名实体识别任务中,现有的通过构造词典对实体识别模型进行增强的方法中存在的专业术语发现困难、构造词典效率低下和识别准确率不足等问题,提出一种基于领域知识图谱增强和Lattice-LSTM的领域命名实体识别模型。通过对... 针对中医药领域命名实体识别任务中,现有的通过构造词典对实体识别模型进行增强的方法中存在的专业术语发现困难、构造词典效率低下和识别准确率不足等问题,提出一种基于领域知识图谱增强和Lattice-LSTM的领域命名实体识别模型。通过对已经构建完成的领域图谱使用嵌入算法,将其快速高效地转化为领域词典,并使用融合多粒度词汇信息的Lattice-LSTM将词典中的专业词汇编码到模型的输入中去,从而提高了模型在领域实体识别任务上的效果。采用中医药数据集进行实验,结果表明,所提模型的F1值高于传统实体识别模型,验证了模型的有效性。 展开更多
关键词 领域知识图谱 中医药 命名实体识别 知识图谱嵌入
在线阅读 下载PDF
基于命名实体识别的大规模物联网二进制组件识别
16
作者 张立孝 马垚 +2 位作者 杨玉丽 于丹 陈永乐 《计算机应用》 北大核心 2025年第7期2288-2295,共8页
物联网(IoT)设备厂商在固件开发中通常会大量复用基于开源代码编译而成的开源组件,每个固件通常由上百个这样的组件构成。如果这些组件未能及时更新,未打上安全补丁的开源组件可能会携带着漏洞集成到固件中,进而给IoT设备埋下安全隐患... 物联网(IoT)设备厂商在固件开发中通常会大量复用基于开源代码编译而成的开源组件,每个固件通常由上百个这样的组件构成。如果这些组件未能及时更新,未打上安全补丁的开源组件可能会携带着漏洞集成到固件中,进而给IoT设备埋下安全隐患。因此,识别IoT固件中的二进制组件对于确保IoT设备的安全性至关重要。针对现有方法难以大规模识别二进制组件的问题,提出一种基于命名实体识别(NER)的大规模IoT二进制组件识别方法。首先,通过固件解压提取固件内部的二进制组件;然后,通过可读字符串提取和组件执行这两个方式获取组件的语义信息;最后,利用RoBERTa-BiLSTM-CRF的NER模型识别组件名和版本号。在12个流行的IoT生产商发布的6 575个固件上的实验结果表明,所提方法获得了87.67%的F1值,可成功识别163个二进制组件。可见,该方法有效扩大了IoT固件中二进制组件的识别范围,有助于从软件供应链的角度保障固件安全。 展开更多
关键词 物联网 软件供应链 组件识别 固件安全 命名实体识别
在线阅读 下载PDF
结合实体边界偏移的序列标注优化方法
17
作者 余婧 陈艳平 +2 位作者 扈应 黄瑞章 秦永彬 《计算机应用》 北大核心 2025年第8期2522-2529,共8页
针对序列标注模型在命名实体识别(NER)任务中出现的识别的实体边界与真实的实体边界之间存在位置偏差的问题,提出一种结合实体边界偏移的序列标注优化方法。首先,引入边界偏移量的概念量化每个词与实体边界之间的位置关系,计算每个词与... 针对序列标注模型在命名实体识别(NER)任务中出现的识别的实体边界与真实的实体边界之间存在位置偏差的问题,提出一种结合实体边界偏移的序列标注优化方法。首先,引入边界偏移量的概念量化每个词与实体边界之间的位置关系,计算每个词与最近实体边界的相对偏移量,再利用这些偏移量生成实体边界的候选跨度;其次,利用交并比(IoU)作为筛选标准过滤低质量的候选跨度,以保留最有可能代表实体边界的候选跨度;最后,通过边界调整模块,根据候选跨度更新标签序列中实体边界的位置,从而优化整个标签序列的实体边界,并提升实体识别的性能。实验结果表明,所提方法在数据集CLUENER2020、Resume-zh和MSRA上的F1值分别达到了80.48%、96.42%和94.80%,验证了该方法对NER任务的有效性。 展开更多
关键词 命名实体识别 序列标注 边界偏移 交并比 边界调整
在线阅读 下载PDF
基于双维信息与剪枝的中文猕猴桃文本命名实体识别方法 被引量:1
18
作者 齐梓均 牛当当 +3 位作者 吴华瑞 张礼麟 王仑峰 张宏鸣 《智慧农业(中英文)》 2025年第1期44-56,共13页
[目的/意义]中文猕猴桃文本在段落上下文主题与字符间的左右关系中,展现出垂直与水平双维度特性。若能充分利用中文猕猴桃文本的双维特性,将有助于进一步提升命名实体识别的识别效果。基于此,提出了一种基于双维信息与剪枝的命名实体识... [目的/意义]中文猕猴桃文本在段落上下文主题与字符间的左右关系中,展现出垂直与水平双维度特性。若能充分利用中文猕猴桃文本的双维特性,将有助于进一步提升命名实体识别的识别效果。基于此,提出了一种基于双维信息与剪枝的命名实体识别方法,命名为KIWI-Coord-Prune(kiwifruit-CoordKIWINER-PruneBiLSTM)。[方法]通过设计CoordKIWINER与PruneBi-LSTM两个模块,对中文猕猴桃文本中的双维信息进行精准处理。其中CoordKIWINER模块能够显著提升模型捕捉复杂和嵌套实体的能力,从而生成涵盖更多文本信息的加强字符矢量;PruneBi-LSTM模块在上一模块的基础上,加强了模型对重要特征的学习与识别能力,从而进一步提升了实体识别效果。[结果和讨论]在自建数据集KIWIPRO和四个公开数据集人民日报(People's Daily)、ClueNER、Boson,以及ResumeNER上进行试验,并与LSTM、Bi-LSTM、LR-CNN、Softlexicon-LSTM,以及KIWINER五个先进模型进行对比,本研究提出的方法在5个数据集上分别取得了较好的F1值,分别为89.55%、91.02%、83.50%、83.49%和95.81%。[结论]与现有方法相比,本研究提出的方法不仅能够有效提升中文猕猴桃领域文本的命名实体识别效果,且具有一定的泛化性,同时也能够为相关知识图谱和问答系统的构建等下游任务提供技术支持。 展开更多
关键词 中文命名实体识别 猕猴桃文本 自建数据集 多维度注意力机制 剪枝 深度学习 文本特征增强
在线阅读 下载PDF
联合边界生成的多目标学习的嵌套命名实体识别
19
作者 徐章杰 陈艳平 +2 位作者 扈应 黄瑞章 秦永彬 《计算机应用》 北大核心 2025年第7期2229-2236,共8页
命名实体识别(NER)旨在从非结构化文本中识别预定义的实体类型。基于跨度的NER方法通过枚举所有可能的跨度进行分类,然而文本中相邻的跨度共享上下文语义,会导致跨度之间的边界语义信息模糊,从而使模型难以获取跨度间的依赖信息。针对... 命名实体识别(NER)旨在从非结构化文本中识别预定义的实体类型。基于跨度的NER方法通过枚举所有可能的跨度进行分类,然而文本中相邻的跨度共享上下文语义,会导致跨度之间的边界语义信息模糊,从而使模型难以获取跨度间的依赖信息。针对跨度间边界语义信息模糊的问题,提出一种联合边界生成的多目标学习NER模型。该模型通过联合NER任务和边界生成任务,以多目标学习的方式进行共同训练。其中:使用边界生成任务作为辅助任务引导模型网络关注跨度的边界信息,以增强跨度的边界语义,进而提升NER的性能。在ACE2004、ACE2005和GENIA数据集上进行测试,所提模型的F1值分别达到了87.83%、86.90%和81.65%,实验结果充分验证了该模型在不同数据集上的有效性,也进一步验证了该模型在命名实体识别任务中的优越性能。 展开更多
关键词 命名实体识别 跨度分类 多目标学习 边界生成 神经网络
在线阅读 下载PDF
结合边界信息的对比学习嵌套命名实体识别
20
作者 范锦涛 陈艳平 +1 位作者 杨采薇 林川 《计算机应用》 北大核心 2025年第10期3111-3120,共10页
现有对比学习(CL)方法在嵌套命名实体识别(NER)任务中存在以下2个主要缺点:1)枚举生成的候选实体作为对比学习的对象,缺失上下文语义依赖和边界信息;2)产生不必要的噪声和无效信息,增加模型的计算负担且弱化了对比学习的性能,提出一个... 现有对比学习(CL)方法在嵌套命名实体识别(NER)任务中存在以下2个主要缺点:1)枚举生成的候选实体作为对比学习的对象,缺失上下文语义依赖和边界信息;2)产生不必要的噪声和无效信息,增加模型的计算负担且弱化了对比学习的性能,提出一个两阶段命名实体识别框架。在第一阶段,通过边界识别模型生成候选实体边界,并通过边界集成模块生成候选实体,减少不必要的负候选实体的生成;同时,在候选实体两侧插入注意力线索,生成对应的候选实体文本,使得模型能够感知上下文语义和边界信息。在第二阶段,提出一个双编码框架用于识别实体,通过对比学习将候选实体文本和实体类型注释映射到相同向量表征空间中,对比的对象不再是候选实体,而是带有注意力线索的句子。此外,设计带有标签语义的分类参数矩阵,丰富模型对候选实体的理解能力。实验结果表明,与Binder方法相比,所提方法在GENIA、ACE2005和ACE2004这3个嵌套数据集上的F1值分别提升了1.22、3.42和2.31个百分点,验证了所提方法对嵌套NER任务的有效性。 展开更多
关键词 对比学习 边界信息 双编码器 标签语义 嵌套命名实体识别
在线阅读 下载PDF
上一页 1 2 12 下一页 到第
使用帮助 返回顶部