期刊文献+
共找到6篇文章
< 1 >
每页显示 20 50 100
基于Transformer和关键词信息聚合的电力科研成果命名实体识别 被引量:1
1
作者 徐晓轶 毛艳芳 吕晓祥 《计算机应用》 CSCD 北大核心 2024年第S2期66-71,共6页
在电力领域科研活动中产生的科研成果,如论文与专利,蕴含丰富的信息,然而对于电力文本的命名实体识别(NER)研究较少。因此,构建了一个能够有效识别中文电力文本中命名实体的模型,并验证了它的性能和有效性。首先,爬取电力文献关键词后... 在电力领域科研活动中产生的科研成果,如论文与专利,蕴含丰富的信息,然而对于电力文本的命名实体识别(NER)研究较少。因此,构建了一个能够有效识别中文电力文本中命名实体的模型,并验证了它的性能和有效性。首先,爬取电力文献关键词后对它们进行预处理和整理,并构建电力领域的命名实体词库;其次,结合分词技术,对获取的电力领域文献摘要进行命名实体标注,并生成电力领域的命名实体标注语料数据。为了增强模型的表示能力和语义理解能力,在BiLSTM-CRF模型中引入了Transformer编码器机制。为了提升模型在电力垂直领域的适应性,构建了电力科研关键词与字之间的知识图谱,并基于该图谱得到了融合邻居信息的每个字的邻域矩阵,之后得到了融合关键词与字的知识图谱实体的邻居信息向量。通过构建双分支的词嵌入向量输入层,能够获得包含上下文信息和综合关键词邻居信息的词嵌入向量。实验结果表明,所提模型在电力领域表现出良好的识别效果。 展开更多
关键词 知识抽取 电力工程 TRANSforMER 多头注意力机制 命名实体识别
在线阅读 下载PDF
基于差分边界增强的风电装备嵌套命名实体识别模型
2
作者 任登燃 王淑营 《计算机应用》 北大核心 2025年第9期2798-2805,共8页
针对风电装备领域中实体的高度嵌套性和长文本的特性,提出一种基于差分边界增强的嵌套命名实体识别模型(DBE-NER)。首先,通过语义编码器模块获取融合实体头尾词、实体类型和相对距离的特征表示,从而提升模型对嵌套语义特征的捕捉能力;其... 针对风电装备领域中实体的高度嵌套性和长文本的特性,提出一种基于差分边界增强的嵌套命名实体识别模型(DBE-NER)。首先,通过语义编码器模块获取融合实体头尾词、实体类型和相对距离的特征表示,从而提升模型对嵌套语义特征的捕捉能力;其次,设计一种高效的差分语义编码模块解决嵌套实体边界的模糊问题;再次,使用分组空洞注意力网络(GDAN)提高模型在长文本实体、嵌套实体和嵌套边界的识别效果;最后,将特征分数矩阵输入跨度解码器中以得到实体位置和类别。实验结果表明,与DiFiNet(Differentiation and Filtration Network)和CNN-NER(Convolutional Neural Network for Named Entity Recognition)模型相比,DBE-NER的F1分数在人工标注的某大型风电能源企业故障数据集WPEF上分别提升了0.92%和1.07%,并且在多种公开数据集上的F1分数均有所提高。 展开更多
关键词 风电能源装备 命名实体识别 差分语义编码 多头双仿射编码 跨度 CBAM
在线阅读 下载PDF
基于字词融合与对抗训练的行业人物实体识别 被引量:5
3
作者 朱红 牛浩然 朱彤 《计算机工程》 CAS CSCD 北大核心 2023年第5期56-62,共7页
行业人物命名实体识别旨在从行业人物语料中抽取出有效的实体信息,是深度挖掘行业人物信息资源的基础性和关键性任务。由于主流的命名实体识别模型未充分利用词信息特征,导致在对具有特色的行业人物实体进行识别时语义、实体边界识别不... 行业人物命名实体识别旨在从行业人物语料中抽取出有效的实体信息,是深度挖掘行业人物信息资源的基础性和关键性任务。由于主流的命名实体识别模型未充分利用词信息特征,导致在对具有特色的行业人物实体进行识别时语义、实体边界识别不准确。提出一种基于字词融合与对抗训练的行业人物实体识别模型。利用RoBERTa-wwm-ext预训练模型提取句子的字特征,并融合词典构造出句子的词特征。在字词融合的向量表示上添加扰动生成对抗样本,将融合向量表示与对抗样本作为训练数据输入双向长短期记忆神经网络(BiLSTM)学习上下文信息,并通过条件随机场(CRF)推理最优的序列标注结果。根据行业人物文本特点设计命名实体标注方案,构建数据集进行实验验证。实验结果表明,该模型在测试集上的精确率、召回率、F1值分别达到92.94%、94.35%、93.64%,相较于BERT-BiLSTM-CRF模型分别提升3.68、1.24、2.39个百分点。 展开更多
关键词 命名实体识别 行业人物 字词融合 对抗训练 预训练模型
在线阅读 下载PDF
面向电力低资源领域的无监督命名实体识别方法 被引量:5
4
作者 刘荫 张凯 +1 位作者 王惠剑 杨冠群 《中文信息学报》 CSCD 北大核心 2022年第6期69-79,共11页
该文提出了一种在低资源条件下,只利用无标注文档资源进行电力领域命名实体识别的无监督方法。该方法收集电力领域相关语料,利用串频统计技术更新电力领域词典,同时根据结构化电力数据解析出实体词及其类型,并通过表示学习获得每种实体... 该文提出了一种在低资源条件下,只利用无标注文档资源进行电力领域命名实体识别的无监督方法。该方法收集电力领域相关语料,利用串频统计技术更新电力领域词典,同时根据结构化电力数据解析出实体词及其类型,并通过表示学习获得每种实体类型的代表词表示。同时利用BERT全词遮盖技术对文本中的词语进行预测,计算文本词语和实体类型代表词之间的语义相似度,进而完成命名实体识别及类型判断。实验表明,该方法对数据条件要求低,具有很强的实用性,且易于复用到其他领域。 展开更多
关键词 命名实体识别 无监督方法 电力领域 BERT全词遮盖
在线阅读 下载PDF
基于文本特征增强的电力命名实体识别 被引量:7
5
作者 刘文松 胡竹青 +3 位作者 张锦辉 刘雪菁 林峰 俞俊 《电力系统自动化》 EI CSCD 北大核心 2022年第21期134-142,共9页
针对电力领域语料规模小、实体嵌套、实体缩写等特点,提出基于文本特征增强的实体识别方法。首先,通过预设词库和低粒度分词的方式,在合理利用中文单词蕴含的语义信息的同时,降低分词传递误差的影响。其次,设计词级双向门控循环单元学... 针对电力领域语料规模小、实体嵌套、实体缩写等特点,提出基于文本特征增强的实体识别方法。首先,通过预设词库和低粒度分词的方式,在合理利用中文单词蕴含的语义信息的同时,降低分词传递误差的影响。其次,设计词级双向门控循环单元学习中文单词构造特征,融合词性和词长特征后,与单词向量拼接成为单词增强向量。然后,基于双向门控循环单元-注意力机制-条件随机场完成实体识别模型的构建和训练。在此基础上,采用电力领域语料库进行验证,F1分数为87.02%,证实了电力命名实体识别效果。 展开更多
关键词 电力实体识别 低粒度分词 单词构造特征 词级双向门控循环单元
在线阅读 下载PDF
面向电网设备故障报告的半监督命名实体识别方法 被引量:9
6
作者 杨祎 崔其会 丁奕齐 《计算机应用》 CSCD 北大核心 2021年第S02期41-47,共7页
针对电网领域命名实体识别(NER)对人工标注的依赖问题,提出了一种面向电网设备故障报告的半监督命名实体识别方法 Semi-supervised PGTBC。首先使用基于多头自注意力机制的深度自注意力网络进行特征抽取,然后结合双向长短记忆神经网络(B... 针对电网领域命名实体识别(NER)对人工标注的依赖问题,提出了一种面向电网设备故障报告的半监督命名实体识别方法 Semi-supervised PGTBC。首先使用基于多头自注意力机制的深度自注意力网络进行特征抽取,然后结合双向长短记忆神经网络(BiLSTM)和条件随机场模型(CRF)建立电网领域命名实体识别模型,最后基于半监督思想,引入基于深度自注意力网络的实体类别综合描述相似度计算,结合PGTBC的置信度作为半监督阈值筛选依据,减少对电网设备故障报告实体标注的依赖。数据集使用来源于1 256篇的电网故障报告的10 301条标注样本数和30 829条无标注样本数。在有标注电网领域数据上的实验结果表明,基于PGTBC模型的预测F1为96.43%,相对于传统的BiLSTM-CRF模型提高了7.09个百分点。在无标注样本上,半监督方法 Semi-supervised PGTBC取得了93.16%的F1,相对半监督CRF模型的F1提高了23.4个百分点,并对无标注样本进行了自动标注,识别出1 661条新实体,有效减少电网设备故障报告命名实体任务对人工标注的依赖。 展开更多
关键词 命名实体识别 电网设备 半监督学习 多头自注意力机制 深度自注意力网络 双向长短记忆神经网络
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部