期刊文献+
共找到153篇文章
< 1 2 8 >
每页显示 20 50 100
无人机故障诊断NER数据集构建及模型应用
1
作者 贾龙飞 李志农 +1 位作者 王奉涛 李喆 《兵器装备工程学报》 北大核心 2025年第8期45-52,共8页
针对无人机故障诊断领域缺乏专用NER数据集的现状,提出构建该垂直领域NER数据集及其命名实体识别模型的方案。依据无人机故障诊断领域文本数据的特点,创建了包含5677个领域专用名词的词典辅助分词操作,并采用中文标签进行标注。通过机... 针对无人机故障诊断领域缺乏专用NER数据集的现状,提出构建该垂直领域NER数据集及其命名实体识别模型的方案。依据无人机故障诊断领域文本数据的特点,创建了包含5677个领域专用名词的词典辅助分词操作,并采用中文标签进行标注。通过机器标注人工校对与人工标注相结合的方式,成功构建出包含235045个字符及38421个实体的无人机故障诊断领域命名实体识别数据集,命名为UFDNER。结合预训练语言模型BERT与BiLSTM-CRF方法训练得到基于该数据集的命名实体识别模型,该模型在测试集上的F1值达到87.84%,为该领域故障信息识别及知识图谱构建提供强有力的工具模型。UFDNER作为无人机故障诊断领域NER数据集,为该领域NER研究提供丰富可靠的数据集支撑,填补了无人机故障诊断领域NER数据集空白。 展开更多
关键词 无人机故障诊断 ner数据集 命名实体识别 预训练模型 BiLSTM-CRF
在线阅读 下载PDF
基于BERT-TENER的服装质量抽检通告命名实体识别
2
作者 陈进东 胡超 +1 位作者 郝凌霄 曹丽娜 《科学技术与工程》 北大核心 2024年第34期14754-14764,共11页
识别服装质量抽检通告中的实体信息,对于评估不同区域的服装质量状况以及制定宏观政策具有重要意义。针对质量抽检通告命名实体识别存在的长文本序列信息丢失、小类样本特征学习不全等问题,以注意力机制为核心,提出了基于BERT(bidirecti... 识别服装质量抽检通告中的实体信息,对于评估不同区域的服装质量状况以及制定宏观政策具有重要意义。针对质量抽检通告命名实体识别存在的长文本序列信息丢失、小类样本特征学习不全等问题,以注意力机制为核心,提出了基于BERT(bidirectional encoder representations from transformers)和TENER(transformer encoder for NER)模型的领域命名实体识别模型。BERT-TENER模型通过预训练模型BERT获得字符的动态字向量;将字向量输入TENER模块中,基于注意力机制使得同样的字符拥有不同的学习过程,基于改进的Transformer模型进一步捕捉字符与字符之间的距离和方向信息,增强模型对不同长度、小类别文本内容的理解,并采用条件随机场模型获得每个字符对应的实体标签。在领域数据集上,BERT-TENER模型针对服装抽检领域的实体识别F_1达到92.45%,相较传统方法有效提升了命名实体识别率,并且在长文本以及非均衡的实体类别中也表现出较好的性能。 展开更多
关键词 命名实体识别 服装质量抽检通告 BERT(Bidirectional encoder representations from transformers) TEner(transformer encoder for ner)
在线阅读 下载PDF
PCB工艺FMEA领域知识图谱构建与应用 被引量:1
3
作者 叶进 林琦越 +2 位作者 唐欣 王秋祥 胡宁 《计算机工程与应用》 北大核心 2025年第11期227-237,共11页
随着电子产品的快速发展,产业链厂商对印制电路板(PCB)的失效模式和影响分析(FMEA)提出了更高水平要求,传统的FMEA分析方法已经不能满足复杂电子产品的需求。为此提出了一套PCB工艺FMEA知识图谱构建与应用框架,实现端到端的FMEA分析新... 随着电子产品的快速发展,产业链厂商对印制电路板(PCB)的失效模式和影响分析(FMEA)提出了更高水平要求,传统的FMEA分析方法已经不能满足复杂电子产品的需求。为此提出了一套PCB工艺FMEA知识图谱构建与应用框架,实现端到端的FMEA分析新模式。在图谱构建过程中,针对大量实体为复杂句子的特点,训练了一个加入PCB与FMEA特征词典的FLEBERT NER模型,实现对失效数据的实体识别,实验对比证明效果良好;对识别的实体采用Sentence-BERT结合FLEBERT预训练模型进行实体对齐,提升知识的质量;通过Neo4j进行知识存储完成知识图谱构建。基于已构建的知识图谱,搭建了FMEA知识图谱平台,初步实现了知识探索、知识问答和知识推荐的应用,展示了知识图谱技术在PCB工艺FMEA分析领域具备良好的应用前景。 展开更多
关键词 知识图谱 印制电路板(PCB) 失效模式和影响分析(FMEA) 命名实体识别(ner) BERT
在线阅读 下载PDF
基于全域信息融合和多维关系感知的命名实体识别模型 被引量:1
4
作者 胡婕 武帅星 +1 位作者 曹芝兰 张龑 《计算机应用》 北大核心 2025年第5期1511-1519,共9页
现有的基于双向长短时记忆(BiLSTM)网络的命名实体识别(NER)模型难以全面理解文本的整体语义以及捕捉复杂的实体关系。因此,提出一种基于全域信息融合和多维关系感知的NER模型。首先,通过BERT(Bidirectional Encoder Representations fr... 现有的基于双向长短时记忆(BiLSTM)网络的命名实体识别(NER)模型难以全面理解文本的整体语义以及捕捉复杂的实体关系。因此,提出一种基于全域信息融合和多维关系感知的NER模型。首先,通过BERT(Bidirectional Encoder Representations from Transformers)获取输入序列的向量表示,并结合BiLSTM进一步学习输入序列的上下文信息。其次,提出由梯度稳定层和特征融合模块组成的全域信息融合机制:前者使模型保持稳定的梯度传播并更新优化输入序列的表示,后者则融合BiLSTM的前后向表示获取更全面的特征表示。接着,构建多维关系感知结构学习不同子空间单词的关联性,以捕获文档中复杂的实体关系。此外,使用自适应焦点损失函数动态调整不同类别实体的权重,提高模型对少数类实体的识别性能。最后,在7个公开数据集上将所提模型和11个基线模型进行对比,实验结果表明所提模型的F1值均优于对比模型,可见该模型的综合性较优。 展开更多
关键词 命名实体识别 全域信息融合机制 梯度稳定层 多维关系感知 自适应焦点损失
在线阅读 下载PDF
融合位置和实体类别信息的中文命名实体识别 被引量:1
5
作者 杨竣辉 李苏晋 《计算机工程》 北大核心 2025年第3期113-121,共9页
词语作为一种上下文信息在中文命名实体识别(NER)任务中发挥着重要作用。以往基于字符的中文NER方法虽然在一定程度上取得了成功,但仍存在词语信息嵌入方式简单、特征捕捉方式单一,且忽视了潜在词的影响、未能充分利用词语信息的问题。... 词语作为一种上下文信息在中文命名实体识别(NER)任务中发挥着重要作用。以往基于字符的中文NER方法虽然在一定程度上取得了成功,但仍存在词语信息嵌入方式简单、特征捕捉方式单一,且忽视了潜在词的影响、未能充分利用词语信息的问题。针对上述问题,提出一种改进的中文NER方法。首先,通过基于全遮蔽技术的预训练模型RoBERTa-wwm将文本表示为字符级嵌入向量;其次,使用门控空洞卷积神经网络(DGCNN)模型进一步捕捉文本的特征信息;然后,在键值记忆网络(KV-MemNN)模型中采用位置实体类别组合机制(PECM)更有效地融合词语信息并缓解潜在词冲突所带来的影响;最后,利用条件随机场(CRF)模型对预测结果进行约束得到最佳标签序列。实验结果表明,该方法在Weibo、MSRA和Resume数据集上的F1值分别达到71.82%、95.00%和96.14%,相比于融合词语信息的FLAT模型分别提升了11.50、0.88、0.69百分点,同时在不同实体上的识别表现整体优于RoBERTa-wwm+CRF和Lattice LSTM模型。此外,通过预训练模型的对比和消融实验进一步证明了KV-MemNN和RoBERTa-wwm模型的有效性。 展开更多
关键词 命名实体识别 键值记忆网络 词语信息 位置信息 实体类别信息
在线阅读 下载PDF
层次融合多元知识的命名实体识别框架——HTLR
6
作者 吕学强 王涛 +1 位作者 游新冬 徐戈 《计算机应用》 北大核心 2025年第1期40-47,共8页
中文命名实体识别(NER)任务旨在抽取非结构化文本中包含的实体并给它们分配预定义的实体类别。针对大多数中文NER方法在上下文信息缺乏时的语义学习不足问题,提出一种层次融合多元知识的NER框架——HTLR(Chinese NER method based on Hi... 中文命名实体识别(NER)任务旨在抽取非结构化文本中包含的实体并给它们分配预定义的实体类别。针对大多数中文NER方法在上下文信息缺乏时的语义学习不足问题,提出一种层次融合多元知识的NER框架——HTLR(Chinese NER method based on Hierarchical Transformer fusing Lexicon and Radical),以通过分层次融合的多元知识来帮助模型学习更丰富、全面的上下文信息和语义信息。首先,通过发布的中文词汇表和词汇向量表识别语料中包含的潜在词汇并把它们向量化,同时通过优化后的位置编码建模词汇和相关字符的语义关系,以学习中文的词汇知识;其次,通过汉典网发布的基于汉字字形的编码将语料转换为相应的编码序列以代表字形信息,并提出RFECNN(Radical Feature Extraction-Convolutional Neural Network)模型来提取字形知识;最后,提出Hierarchical Transformer模型,其中由低层模块分别学习字符和词汇以及字符和字形的语义关系,并由高层模块进一步融合字符、词汇、字形等多元知识,从而帮助模型学习语义更丰富的字符表征。在Weibo、Resume、MSRA和OntoNotes4.0公开数据集进行了实验,与主流方法NFLAT(Non-Flat-LAttice Transformer for Chinese named entity recognition)的对比结果表明,所提方法的F1值在4个数据集上分别提升了9.43、0.75、1.76和6.45个百分点,达到最优水平。可见,多元语义知识、层次化融合、RFE-CNN结构和Hierarchical Transformer结构对学习丰富的语义知识及提高模型性能是有效的。 展开更多
关键词 命名实体识别 自然语言处理 知识图谱构建 词汇增强 字形增强
在线阅读 下载PDF
甘蓝型油菜NER游离小孢子培养能力研究 被引量:7
7
作者 李浩杰 蒲晓斌 +5 位作者 张锦芳 张德发 夏凊 石化娟 蒋俊 蒋梁材 《西南农业学报》 CSCD 北大核心 2009年第6期1518-1521,共4页
本试验对甘蓝型油菜新胞质不育恢复系(NER)进行游离小孢子培养,对小孢子培养的影响因素作了初步研究,结果表明:不同遗传背景下的甘蓝型油菜NEA不育胞质恢复系(NER)胚产量差异显著,印表明在相同的试验条件下基因型的差异是造成... 本试验对甘蓝型油菜新胞质不育恢复系(NER)进行游离小孢子培养,对小孢子培养的影响因素作了初步研究,结果表明:不同遗传背景下的甘蓝型油菜NEA不育胞质恢复系(NER)胚产量差异显著,印表明在相同的试验条件下基因型的差异是造成胚产量差异的重要原因。提高小孢子胚发生能力试验表明:在诱导培养基上添加适当的6.BA和NAA有利于小孢子胚的发生;固液双层培养优于液体单层培养;在诱导培养基中添加秋永仙碱加倍处理小孢子胚产量与对照差异不明显。在诱导直接成苗前对予叶型胚进行12h/12h弱光照1—2d、在生根培养基中添加一定浓度的NAA等处理能提高小孢子胚成苗率。建立了一套新胞质不育材料的小孢子培养优化体系。本文还讨论了提高小孢子胚发生能力的一些有效措施。 展开更多
关键词 甘蓝型油菜 ner 游离小孢子培养 技术体系
在线阅读 下载PDF
基于命名实体识别的大规模物联网二进制组件识别
8
作者 张立孝 马垚 +2 位作者 杨玉丽 于丹 陈永乐 《计算机应用》 北大核心 2025年第7期2288-2295,共8页
物联网(IoT)设备厂商在固件开发中通常会大量复用基于开源代码编译而成的开源组件,每个固件通常由上百个这样的组件构成。如果这些组件未能及时更新,未打上安全补丁的开源组件可能会携带着漏洞集成到固件中,进而给IoT设备埋下安全隐患... 物联网(IoT)设备厂商在固件开发中通常会大量复用基于开源代码编译而成的开源组件,每个固件通常由上百个这样的组件构成。如果这些组件未能及时更新,未打上安全补丁的开源组件可能会携带着漏洞集成到固件中,进而给IoT设备埋下安全隐患。因此,识别IoT固件中的二进制组件对于确保IoT设备的安全性至关重要。针对现有方法难以大规模识别二进制组件的问题,提出一种基于命名实体识别(NER)的大规模IoT二进制组件识别方法。首先,通过固件解压提取固件内部的二进制组件;然后,通过可读字符串提取和组件执行这两个方式获取组件的语义信息;最后,利用RoBERTa-BiLSTM-CRF的NER模型识别组件名和版本号。在12个流行的IoT生产商发布的6 575个固件上的实验结果表明,所提方法获得了87.67%的F1值,可成功识别163个二进制组件。可见,该方法有效扩大了IoT固件中二进制组件的识别范围,有助于从软件供应链的角度保障固件安全。 展开更多
关键词 物联网 软件供应链 组件识别 固件安全 命名实体识别
在线阅读 下载PDF
结合实体边界偏移的序列标注优化方法
9
作者 余婧 陈艳平 +2 位作者 扈应 黄瑞章 秦永彬 《计算机应用》 北大核心 2025年第8期2522-2529,共8页
针对序列标注模型在命名实体识别(NER)任务中出现的识别的实体边界与真实的实体边界之间存在位置偏差的问题,提出一种结合实体边界偏移的序列标注优化方法。首先,引入边界偏移量的概念量化每个词与实体边界之间的位置关系,计算每个词与... 针对序列标注模型在命名实体识别(NER)任务中出现的识别的实体边界与真实的实体边界之间存在位置偏差的问题,提出一种结合实体边界偏移的序列标注优化方法。首先,引入边界偏移量的概念量化每个词与实体边界之间的位置关系,计算每个词与最近实体边界的相对偏移量,再利用这些偏移量生成实体边界的候选跨度;其次,利用交并比(IoU)作为筛选标准过滤低质量的候选跨度,以保留最有可能代表实体边界的候选跨度;最后,通过边界调整模块,根据候选跨度更新标签序列中实体边界的位置,从而优化整个标签序列的实体边界,并提升实体识别的性能。实验结果表明,所提方法在数据集CLUENER2020、Resume-zh和MSRA上的F1值分别达到了80.48%、96.42%和94.80%,验证了该方法对NER任务的有效性。 展开更多
关键词 命名实体识别 序列标注 边界偏移 交并比 边界调整
在线阅读 下载PDF
联合边界生成的多目标学习的嵌套命名实体识别
10
作者 徐章杰 陈艳平 +2 位作者 扈应 黄瑞章 秦永彬 《计算机应用》 北大核心 2025年第7期2229-2236,共8页
命名实体识别(NER)旨在从非结构化文本中识别预定义的实体类型。基于跨度的NER方法通过枚举所有可能的跨度进行分类,然而文本中相邻的跨度共享上下文语义,会导致跨度之间的边界语义信息模糊,从而使模型难以获取跨度间的依赖信息。针对... 命名实体识别(NER)旨在从非结构化文本中识别预定义的实体类型。基于跨度的NER方法通过枚举所有可能的跨度进行分类,然而文本中相邻的跨度共享上下文语义,会导致跨度之间的边界语义信息模糊,从而使模型难以获取跨度间的依赖信息。针对跨度间边界语义信息模糊的问题,提出一种联合边界生成的多目标学习NER模型。该模型通过联合NER任务和边界生成任务,以多目标学习的方式进行共同训练。其中:使用边界生成任务作为辅助任务引导模型网络关注跨度的边界信息,以增强跨度的边界语义,进而提升NER的性能。在ACE2004、ACE2005和GENIA数据集上进行测试,所提模型的F1值分别达到了87.83%、86.90%和81.65%,实验结果充分验证了该模型在不同数据集上的有效性,也进一步验证了该模型在命名实体识别任务中的优越性能。 展开更多
关键词 命名实体识别 跨度分类 多目标学习 边界生成 神经网络
在线阅读 下载PDF
结合边界信息的对比学习嵌套命名实体识别
11
作者 范锦涛 陈艳平 +1 位作者 杨采薇 林川 《计算机应用》 北大核心 2025年第10期3111-3120,共10页
现有对比学习(CL)方法在嵌套命名实体识别(NER)任务中存在以下2个主要缺点:1)枚举生成的候选实体作为对比学习的对象,缺失上下文语义依赖和边界信息;2)产生不必要的噪声和无效信息,增加模型的计算负担且弱化了对比学习的性能,提出一个... 现有对比学习(CL)方法在嵌套命名实体识别(NER)任务中存在以下2个主要缺点:1)枚举生成的候选实体作为对比学习的对象,缺失上下文语义依赖和边界信息;2)产生不必要的噪声和无效信息,增加模型的计算负担且弱化了对比学习的性能,提出一个两阶段命名实体识别框架。在第一阶段,通过边界识别模型生成候选实体边界,并通过边界集成模块生成候选实体,减少不必要的负候选实体的生成;同时,在候选实体两侧插入注意力线索,生成对应的候选实体文本,使得模型能够感知上下文语义和边界信息。在第二阶段,提出一个双编码框架用于识别实体,通过对比学习将候选实体文本和实体类型注释映射到相同向量表征空间中,对比的对象不再是候选实体,而是带有注意力线索的句子。此外,设计带有标签语义的分类参数矩阵,丰富模型对候选实体的理解能力。实验结果表明,与Binder方法相比,所提方法在GENIA、ACE2005和ACE2004这3个嵌套数据集上的F1值分别提升了1.22、3.42和2.31个百分点,验证了所提方法对嵌套NER任务的有效性。 展开更多
关键词 对比学习 边界信息 双编码器 标签语义 嵌套命名实体识别
在线阅读 下载PDF
低资源场景下的命名实体识别研究综述
12
作者 钱丽萍 崔雨婷 +2 位作者 廉露 陈艳鹏 黄楠楠 《计算机工程与应用》 北大核心 2025年第18期1-23,共23页
命名实体识别是信息抽取的关键任务之一,旨在从非结构化文本中识别出特定的实体及其类型。现有的基于机器学习和深度学习的方法通常需要大量标注数据,而实际应用中获取这些数据往往受到资源、时间和成本的限制。因此,低资源场景下的命... 命名实体识别是信息抽取的关键任务之一,旨在从非结构化文本中识别出特定的实体及其类型。现有的基于机器学习和深度学习的方法通常需要大量标注数据,而实际应用中获取这些数据往往受到资源、时间和成本的限制。因此,低资源场景下的命名实体识别问题已经成为一个亟待解决的挑战。系统总结并分析了现有学术成果,明确了相关任务定义,并将其在低资源场景下划分为三类;接着深入探讨了五种主要技术路径:迁移学习、数据增强、提示学习、对比学习、元学习,分析了它们的局限性及未来改进方向;介绍了相关数据集和评价指标,并总结分析了典型技术方法的实验结果。最后,从整体上分析了当前低资源命名实体识别面临的挑战及未来研究趋势。 展开更多
关键词 命名实体识别(ner) 低资源场景 深度学习 自然语言处理
在线阅读 下载PDF
一种集成NER的文本分类特征选择方法 被引量:3
13
作者 施德明 林洋港 陈恩红 《计算机工程与科学》 CSCD 2007年第11期152-156,共5页
文本分类是将自由文本自动划分到若干预先定义类别的方法,在信息检索等领域有很重要的作用。其中,如何选择有效的文本特征是影响文本分类器分类性能的一个重要步骤。很多应用中需要处理的文本信息包含了很多的命名实体,如某个行业的名人... 文本分类是将自由文本自动划分到若干预先定义类别的方法,在信息检索等领域有很重要的作用。其中,如何选择有效的文本特征是影响文本分类器分类性能的一个重要步骤。很多应用中需要处理的文本信息包含了很多的命名实体,如某个行业的名人,往往能够在很大程度上影响着文本所属的类别。然而,现阶段的文本特征方法都只利用关键词的统计意义,而没有考虑关键词作为命名实体所含有的分类特征。针对这一问题,本文提出了一种将命名实体识别方法NER集成到文本分类特征选择中的方法,在保留关键词统计特征之外,还保留了单词作为命名实体的分类特征。实验结果表明,相对于其他特征选择方法而言,本文提出的方法在一定程度上提高了文本分类的分类准确率。 展开更多
关键词 命名实体识别 命名实体 特征选择 文本分类 隐马尔可夫模型
在线阅读 下载PDF
基于字符表示学习与时序边界扩散的网络安全实体识别方法
14
作者 胡泽 李文君 杨宏宇 《电子与信息学报》 北大核心 2025年第5期1554-1568,共15页
网络安全实体识别作为威胁信息抽取、构建知识图谱的基础,对于发现和应对网络威胁具有至关重要的作用。该文针对当前主流的命名实体识别方法在网络安全领域泛化能力欠佳、难以清晰判断网络安全实体边界的问题,提出一种基于字符表示学习... 网络安全实体识别作为威胁信息抽取、构建知识图谱的基础,对于发现和应对网络威胁具有至关重要的作用。该文针对当前主流的命名实体识别方法在网络安全领域泛化能力欠佳、难以清晰判断网络安全实体边界的问题,提出一种基于字符表示学习与时序边界扩散的网络安全实体识别方法。该方法首先将命名实体识别任务分解为实体边界检测与实体分类两个子任务,分别进行处理;其次,对于实体边界检测任务,使用基于问答的方法将预定义的问题与数据进行编码,采用膨胀卷积残差字符网络进行数据的字符级特征提取,并使用时序边界扩散网络判断实体边界;然后,对于实体分类任务,同样使用问答方法,并独立训练分类器进行实体类型判断;最后将实体边界检测任务的结果输入实体分类任务判断实体的类型。为验证方法有效性,在网络威胁情报数据集DNRTI上进行测试。实验结果表明,边界检测效率的提升能够有效增强命名实体识别的性能。该方法在网络安全实体识别任务中不仅资源开销较小,且对比近年提出的基线方法性能有所提升,其中较最近两年的方法在F1分数上提升了0.40%~1.65%。 展开更多
关键词 命名实体识别 网络安全 边界检测 深度学习 自然语言处理
在线阅读 下载PDF
基于多粒度渐进式融合的多模态命名实体识别方法
15
作者 应旭剑 朱艳辉 +2 位作者 陈豪 满芳滕 张志轩 《计算机应用研究》 北大核心 2025年第10期3027-3033,共7页
为解决现有多模态命名实体识别方法中存在的细粒度语义缺失和多模态语义表征不一致等问题,提出了一种基于多粒度渐进式融合的多模态命名实体识别方法。首先,设计了动态门控过滤机制,通过跨模态动态权重筛选与文本特征相关的视觉区域特征... 为解决现有多模态命名实体识别方法中存在的细粒度语义缺失和多模态语义表征不一致等问题,提出了一种基于多粒度渐进式融合的多模态命名实体识别方法。首先,设计了动态门控过滤机制,通过跨模态动态权重筛选与文本特征相关的视觉区域特征,并引入跨模态对齐与对抗扰动机制,增强文本特征与视觉全局特征的一致性和泛化能力;其次,设计了一种多层次渐进式融合网络,通过融合不同层次的特征向量,采用多级融合策略,并联融合文本级、文本-区域图像级、文本-全局图像级三个层级特征,成功构建一个噪声抑制与语义增强并行的多粒度表征学习体系。在Twitter-2015和Twitter-2017基准数据集上进行大量实验显示,该方法与其他的多模态命名实体识别方法相比,平均F 1值分别提升0.89%和1.08%,表明该模型在命名实体识别任务中的有效性。 展开更多
关键词 多模态命名实体识别 多模态融合 多粒度 渐进式融合 命名实体识别
在线阅读 下载PDF
基于大语言模型的中文开放领域实体关系抽取策略
16
作者 龚永罡 陈舒汉 +3 位作者 廉小亲 李乾生 莫鸿铭 刘宏宇 《计算机应用》 北大核心 2025年第10期3121-3130,共10页
大语言模型(LLM)在中文开放领域的实体关系抽取(ERE)任务中存在抽取性能不稳定的问题,对某些特定领域文本和标注类别的识别精准率较低。因此,提出一种基于LLM的中文开放领域实体关系抽取策略——基于LLM多级对话策略(MLDS-LLM)。该策略... 大语言模型(LLM)在中文开放领域的实体关系抽取(ERE)任务中存在抽取性能不稳定的问题,对某些特定领域文本和标注类别的识别精准率较低。因此,提出一种基于LLM的中文开放领域实体关系抽取策略——基于LLM多级对话策略(MLDS-LLM)。该策略利用LLM优秀的语义理解和迁移学习能力,通过多轮不同任务的对话实现实体关系抽取。首先,基于开放领域文本结构化逻辑和思维链(CoT)机制,使用LLM生成结构化摘要,避免模型产生关系、事实幻觉和无法兼顾后文信息的问题;其次,通过文本简化策略并引入可替换词表,减少上下文窗口的限制;最后,基于结构化摘要和简化文本构建多级提示模板,使用LLaMA-2-70B模型探究参数temperature对实体关系抽取的影响。测试了LLaMA-2-70B在使用所提策略前后进行实体关系抽取的精准率、召回率、调和平均值(F1)和精确匹配(EM)值。实验结果表明,在CL-NE-DS、DiaKG和CCKS2021等5个不同领域的中文数据集上,所提策略提升了LLM在命名实体识别(NER)和关系抽取(RE)上的性能。特别是在专业性强且模型零样本测试结果不佳的DiaKG和IEPA数据集上,在应用所提策略后,相较于少样本提示测试,在NER上模型的精准率分别提升了9.3和6.7个百分点,EM值提升了2.7和2.2个百分点;在RE上模型的精准率分别提升了12.2和16.0个百分点,F1值分别提升了10.7和10.0个百分点。实验结果验证了所提策略能有效提升LLM实体关系抽取的效果并解决模型性能不稳定的问题。 展开更多
关键词 大语言模型 中文开放领域 命名实体识别 关系抽取 提示学习
在线阅读 下载PDF
基于差分边界增强的风电装备嵌套命名实体识别模型
17
作者 任登燃 王淑营 《计算机应用》 北大核心 2025年第9期2798-2805,共8页
针对风电装备领域中实体的高度嵌套性和长文本的特性,提出一种基于差分边界增强的嵌套命名实体识别模型(DBE-NER)。首先,通过语义编码器模块获取融合实体头尾词、实体类型和相对距离的特征表示,从而提升模型对嵌套语义特征的捕捉能力;其... 针对风电装备领域中实体的高度嵌套性和长文本的特性,提出一种基于差分边界增强的嵌套命名实体识别模型(DBE-NER)。首先,通过语义编码器模块获取融合实体头尾词、实体类型和相对距离的特征表示,从而提升模型对嵌套语义特征的捕捉能力;其次,设计一种高效的差分语义编码模块解决嵌套实体边界的模糊问题;再次,使用分组空洞注意力网络(GDAN)提高模型在长文本实体、嵌套实体和嵌套边界的识别效果;最后,将特征分数矩阵输入跨度解码器中以得到实体位置和类别。实验结果表明,与DiFiNet(Differentiation and Filtration Network)和CNN-NER(Convolutional Neural Network for Named Entity Recognition)模型相比,DBE-NER的F1分数在人工标注的某大型风电能源企业故障数据集WPEF上分别提升了0.92%和1.07%,并且在多种公开数据集上的F1分数均有所提高。 展开更多
关键词 风电能源装备 命名实体识别 差分语义编码 多头双仿射编码 跨度 CBAM
在线阅读 下载PDF
基于LRO Diviner数据的月球虹湾地区表面亮温时空分布
18
作者 马明 陈圣波 +2 位作者 李健 于岩 肖扬 《红外与毫米波学报》 SCIE EI CAS CSCD 北大核心 2017年第5期628-635,640,共9页
Diviner在7年多的运行时间内,共获得了超过3.3×1011个辐射亮度测量值.这些数据除了具有的推扫性、条带性和少量的"坏点线"与"故障"等特征外,在一个月球日内呈现白天正午前后和整个夜晚亮温值变化幅度相对均匀... Diviner在7年多的运行时间内,共获得了超过3.3×1011个辐射亮度测量值.这些数据除了具有的推扫性、条带性和少量的"坏点线"与"故障"等特征外,在一个月球日内呈现白天正午前后和整个夜晚亮温值变化幅度相对均匀,上下午尤其是日出和日落前后亮温值变化剧烈的规律.利用昼夜分段亮温拟合模型,结合数值模拟、奇异值剔除、分段拟合和纬向校正等方法获得了虹湾地区6个时刻的高分辨率和高覆盖度的亮温分布.结果表明,白天的亮温与太阳辐射通量值计算的温度值相接近,敏感于地形起伏、物质混合和通道光度计特性等因素,最高和最低亮温分别出现在朝向赤道方向的山坡和落差最大的撞击坑中心位置;夜晚的亮温敏感于视场内物质的热物理属性差异,变化幅度由上半夜的相对剧烈逐渐过渡到下半夜的趋于均匀.文章揭示了月表热能量交换规律,解释了复杂和异常月表热红外环境的本质,提供了一个关于无大气星体的风化层如何存储热红外辐射能量以及与空间环境进行能量交换的新视角. 展开更多
关键词 热红外 亮温 时空分布 虹湾 Diviner
在线阅读 下载PDF
基于分解式模糊跨度的小样本命名实体识别
19
作者 曾碧卿 钟广彬 温志庆 《计算机应用》 北大核心 2025年第5期1504-1510,共7页
小样本命名实体识别(few-shot NER)旨在基于少量标记数据识别文本中的实体跨度和类型。近年来,基于跨度的度量学习虽然取得了不错的效果,但仍然存在2个问题:一是少量的候选跨度可能导致原型偏离群组的中心;二是与类别无关的跨度检测器... 小样本命名实体识别(few-shot NER)旨在基于少量标记数据识别文本中的实体跨度和类型。近年来,基于跨度的度量学习虽然取得了不错的效果,但仍然存在2个问题:一是少量的候选跨度可能导致原型偏离群组的中心;二是与类别无关的跨度检测器可能会产生一些非实体跨度。为了解决以上问题,提出一种用于few-shot NER的融合模糊跨度的分解式模型DFSM(Decomposed Fuzzy Span Model)。在跨度检测阶段,为学习明确的实体边界信息且不受标记级别的标签依赖影响,DFSM采用全局边界矩阵检测候选跨度;而在跨度分类阶段,为增加可训练的每种实体类型的候选跨度数量,提出一种模糊跨度策略,以调整候选跨度的边界范围。同时,设计一种原型对比学习以优化基于跨度的语义表示空间。此外,为消除非实体噪声数据的干扰,引入原型边界学习以扩大非实体跨度与原型的距离。在Few-NERD和CrossNER数据集上的实验结果显示:与基线模型TadNER相比,在Few-NERD Inter设置中,DFSM的平均F1值提升了8.52个百分点,尤其是在Inter 10 way 5~10-shot设置中,DFSM的平均F1值提升了10.39个百分点,这表明DFSM对于细粒度实体类型具有更强的识别能力;与基线模型DecomMeta相比,在CrossNER 1-shot和5-shot设置中,DFSM的平均F1值分别提升了3.32和1.09个百分点,这表明DFSM在跨领域低资源场景下具有良好的泛化能力。 展开更多
关键词 命名实体识别 小样本学习 原型网络 全局边界矩阵 模糊跨度
在线阅读 下载PDF
基于数据增强和残差网络的敏感信息命名实体识别
20
作者 李莉 宋涵 +1 位作者 刘培鹤 陈汉林 《计算机应用》 北大核心 2025年第9期2790-2797,共8页
敏感信息命名实体识别(NER)是隐私保护的关键技术之一。然而,现有的NER方法在敏感信息领域的相关数据集稀缺,且传统技术存在准确率低、可移植性差等问题。为解决这些问题,首先,从互联网中爬取并人工标注含有敏感信息的文本语料,以构建... 敏感信息命名实体识别(NER)是隐私保护的关键技术之一。然而,现有的NER方法在敏感信息领域的相关数据集稀缺,且传统技术存在准确率低、可移植性差等问题。为解决这些问题,首先,从互联网中爬取并人工标注含有敏感信息的文本语料,以构建敏感信息NER数据集SenResume;其次,提出一种基于实体掩码的数据增强模型E-MLM(Entity-based Masked Language Modeling),通过整词掩码技术生成新的数据样本,并扩充数据集以提升数据多样性;再次,提出RoBERTa-ResBiLSTM-CRF模型,该模型结合RoBERTa-WWM(Robustly optimized Bidirectional Encoder Representations from Transformers approach with Whole Word Masking)提取上下文特征以生成高质量的词向量编码,并利用残差双向长短期记忆(ResBiLSTM)增强文本特征;最后,通过多层残差网络提高训练效率和模型稳定性,并通过条件随机场(CRF)进行全局解码以提升序列标注的准确性。实验结果表明,E-MLM对数据集质量有显著的提升,并且提出的NER模型在原始和1倍扩充后的数据集上表现均为最优,F1分数分别为96.16%和97.84%。可见,E-MLM与残差网络的引入有利于提升敏感信息NER的准确度。 展开更多
关键词 敏感信息 数据集构建 数据增强 BERT 命名实体识别
在线阅读 下载PDF
上一页 1 2 8 下一页 到第
使用帮助 返回顶部