期刊文献+
共找到18篇文章
< 1 >
每页显示 20 50 100
基于BERT的农作物命名实体识别模型研究 被引量:2
1
作者 沈子雷 杜永强 《计算机应用与软件》 北大核心 2024年第6期223-229,共7页
随着数字农业的快速发展,农作物命名实体识别作为农业领域知识图谱构建的基础,成为一种高效率的农作物研究领域识别方法。由于农作物实体识别呈现结构复杂、实体指称不一致、干扰因素多等特征,严重制约了农作物领域实体识别的性能,提出... 随着数字农业的快速发展,农作物命名实体识别作为农业领域知识图谱构建的基础,成为一种高效率的农作物研究领域识别方法。由于农作物实体识别呈现结构复杂、实体指称不一致、干扰因素多等特征,严重制约了农作物领域实体识别的性能,提出一种基于预训练语言模型的实体识别模型,使用BERT为文本中词进行编码、采用双向LSTM(Long-Short Term Memory)获取句子中关键词的上下文,采用CRFs(Conditional Random Fields)捕获词之间的依赖关系,并结合所构建的农作物命名实体识别数据集进行验证。实验证明该模型能够有效对农作物实体进行识别,且性能优于当前已有的实体识别模型。 展开更多
关键词 命名实体识别 bert训练语言模型 双向LSTM 农作物
在线阅读 下载PDF
基于对span的预判断和多轮分类的实体关系抽取 被引量:1
2
作者 佟缘 姚念民 《计算机工程与科学》 CSCD 北大核心 2024年第5期916-928,共13页
针对自然语言处理领域中的实体识别和关系抽取任务,提出一种对词元序列(Token Sequence,又称span)进行预测的模型Smrc。模型整体上利用BERT预训练模型作为编码器,另外包含实体预判断(Pej)、实体多轮分类(Emr)和关系多轮分类(Rmr)3个模块... 针对自然语言处理领域中的实体识别和关系抽取任务,提出一种对词元序列(Token Sequence,又称span)进行预测的模型Smrc。模型整体上利用BERT预训练模型作为编码器,另外包含实体预判断(Pej)、实体多轮分类(Emr)和关系多轮分类(Rmr)3个模块。Smrc模型通过Pej模块的初步判断及Emr模块的多轮实体分类来进行实体识别,再利用Rmr模块的多轮关系分类来判断实体对间的关系,进而完成关系抽取任务。在CoNLL04、SciERC和ADE 3个实验数据集上,Smrc模型的实体识别F1值分别达到89.67%,70.62%和89.56%,关系抽取F1值分别达到73.11%,51.03%和79.89%,相较之前在3个数据集上的最佳模型Spert,Smrc模型凭借实体预判断和实体及关系多轮分类,在2个子任务上其F1值分别提高了0.73%,0.29%,0.61%及1.64%,0.19%,1.05%,表明了该模型的有效性及其优势。 展开更多
关键词 对span的判断 实体关系抽取 bert预训练模型 多轮实体分类 多轮关系分类
在线阅读 下载PDF
基于BERT字向量和TextCNN的农业问句分类模型分析 被引量:14
3
作者 鲍彤 罗瑞 +2 位作者 郭婷 贵淑婷 任妮 《南方农业学报》 CAS CSCD 北大核心 2022年第7期2068-2076,共9页
【目的】研究不同词向量和深度学习模型组合对农业问句分类结果的影响,为构建农业智能问答系统提供技术支撑。【方法】通过爬虫获取农业种植网等网站的问答数据,选择20000条问句进行人工标注,构建农业问句分类语料库。采用BERT对农业问... 【目的】研究不同词向量和深度学习模型组合对农业问句分类结果的影响,为构建农业智能问答系统提供技术支撑。【方法】通过爬虫获取农业种植网等网站的问答数据,选择20000条问句进行人工标注,构建农业问句分类语料库。采用BERT对农业问句进行字符编码,利用文本卷积神经网络(TextCNN)提取问句高维度特征对农业问句进行分类。【结果】在词向量对比实验中,BERT字向量与TextCNN结合时农业问句分类F1值达93.32%,相比Word2vec字向量提高2.1%。在深度学习模型的分类精度对比方面,TextCNN与Word2vec和BERT字向量结合的F1值分别达91.22%和93.32%,均优于其他模型。在农业问句的细分试验中,BERT-TextCNN在栽培技术、田间管理、土肥水管理和其他4个类别中分类F1值分别为86.06%、90.56%、95.04%和85.55%,均优于其他深度学习模型。超参数设置方面,BERT-TextCNN农业问句分类模型卷积核大小设为[3,4,5]、学习率设为5e-5、迭代次数设为5时效果最优,该模型在数据样本不均衡的情况下,对于农业问句的平均分类准确率依然能达93.00%以上,可满足农业智能问答系统的问句分类需求。【建议】通过阿里NLP等开源平台提升数据标注质量;在分类过程中补充词频和文档特征,提高模型分类精度;农业相关政府职能部门加强合作,积极探索农业技术数字化推广和服务新模式。 展开更多
关键词 农业问句 智能问答系统 问句分类 训练语言模型(bert) 文本卷积神经网络
在线阅读 下载PDF
基于BERT和TextCNN的智能制造成熟度评估方法 被引量:5
4
作者 张淦 袁堂晓 +1 位作者 汪惠芬 柳林燕 《计算机集成制造系统》 EI CSCD 北大核心 2024年第3期852-863,共12页
随着智能制造2025目标的临近,企业为了解自身能力水平纷纷加入到智能制造成熟度评估的行列中。然而,由于智能制造成熟度评估标准的复杂性,企业缺乏其对行业水平的了解,导致企业贸然申请,浪费自身时间的同时又占用大量评估资源。鉴于此,... 随着智能制造2025目标的临近,企业为了解自身能力水平纷纷加入到智能制造成熟度评估的行列中。然而,由于智能制造成熟度评估标准的复杂性,企业缺乏其对行业水平的了解,导致企业贸然申请,浪费自身时间的同时又占用大量评估资源。鉴于此,设计了一种新的评估流程,采用文本处理算法对整个评估过程进行了重构,通过利用国标文件中智能制造成熟度评估标准,将其作为训练集,采用基于预训练语言模型与文本神经网络(BERT+TextCNN)相结合的智能评估算法代替人工评估。在真实的企业智能制造数据集上的验证表明,当BERT+TextCNN评估模型在卷积核为[2,3,4]、迭代次数为6次、学习率为3e-5时,对智能制造成熟度进行评估,准确率达到85.32%。这表明所设计的评估方法能够较准确地帮助企业完成智能制造成熟度自评估,有助于企业了解自身智能制造能力水平,制定正确的发展方向。 展开更多
关键词 智能制造成熟度模型 bert训练语言模型 文本卷积神经网络 评估过程重构
在线阅读 下载PDF
融合BTM和BERT的短文本分类方法 被引量:9
5
作者 付文杰 杨迪 +1 位作者 马红明 吴迪 《计算机工程与设计》 北大核心 2022年第12期3421-3427,共7页
为充分提取短文本语义信息,提高短文本分类精度,提出一种融合BTM和BERT的短文本分类方法BTM&BERT。综合考虑文本主题特征信息和全局语义信息,利用BTM(biterm topic model)和BERT(bidirectional encoder representations from transf... 为充分提取短文本语义信息,提高短文本分类精度,提出一种融合BTM和BERT的短文本分类方法BTM&BERT。综合考虑文本主题特征信息和全局语义信息,利用BTM(biterm topic model)和BERT(bidirectional encoder representations from transformers)完成短文本特征向量构建,实现语义增强,将融合主题特征信息和上下文语义信息的特征向量经全连接和Softmax分类器,获得短文本分类结果。实验结果表明,在真实电力工单短文本数据集上,BTM&BERT较BTM、BTM&Word2Vec、BTM&Doc2Vec和BERT方法具有较好的分类精度和语义表示能力。 展开更多
关键词 短文本分类 词对主题模型 bert预训练模型 特征向量拼接 电力工单
在线阅读 下载PDF
基于BERT-RCNN的中文违规评论识别研究 被引量:6
6
作者 吴浩 潘善亮 《中文信息学报》 CSCD 北大核心 2022年第1期92-103,共12页
以网络暴力为主的恶意攻击行为已经导致多起恶性事件发生,违规评论问题引起了社会广泛关注。当前违规评论检测手段主要是依靠敏感词屏蔽的方式,这种方式无法有效识别不含低俗用语的恶意评论。该文通过爬虫及人工标注的方式建立一个中文... 以网络暴力为主的恶意攻击行为已经导致多起恶性事件发生,违规评论问题引起了社会广泛关注。当前违规评论检测手段主要是依靠敏感词屏蔽的方式,这种方式无法有效识别不含低俗用语的恶意评论。该文通过爬虫及人工标注的方式建立一个中文违规评论数据集,采用BERT预训练模型进行词嵌入操作,以保留文本隐含的语义信息。在BERT基础上再利用结合注意力机制的RCNN进一步提取评论的上下文特征,并加入多任务学习联合训练提升模型分类精度及泛化能力。该模型不再完全依赖敏感词库。实验结果表明,该文提出的模型相比传统模型可以更好地理解语义信息,利于发现潜在恶意。该文模型在识别中文违规评论数据集时精确率达到了94.24%,比传统TextRNN高8.42%,比结合注意力机制的TextRNN高6.92%。 展开更多
关键词 违规评论识别 迁移学习 bert预训练模型
在线阅读 下载PDF
基于Bert和卷积神经网络的人物关系抽取研究 被引量:6
7
作者 杜慧祥 杨文忠 +2 位作者 石义乐 柴亚闯 王丽花 《东北师大学报(自然科学版)》 北大核心 2021年第3期49-55,共7页
通过构造人物关系数据集,将人物关系定义为14类,提出了基于Bert-BiGRU-CNN的人物关系抽取网络模型.该模型首先通过Bert预训练模型获取上下文语义信息的词向量,利用双向门限循环单元网络(BiGRU)进一步获取相关的文本特征,然后加入卷积神... 通过构造人物关系数据集,将人物关系定义为14类,提出了基于Bert-BiGRU-CNN的人物关系抽取网络模型.该模型首先通过Bert预训练模型获取上下文语义信息的词向量,利用双向门限循环单元网络(BiGRU)进一步获取相关的文本特征,然后加入卷积神经网络(CNN)获取局部文本特征,最后通过全连接层加Softmax分类器进行关系分类.在构造的人物关系数据集中进行了实验,结果表明,本文模型相较于其他4种模型进一步提高了人物关系抽取的精确率和召回率. 展开更多
关键词 人物关系 bert预训练模型 双向门限循环单元 卷积神经网络
在线阅读 下载PDF
基于BERT的电机领域中文命名实体识别方法 被引量:18
8
作者 顾亦然 霍建霖 +2 位作者 杨海根 卢逸飞 郭玉雯 《计算机工程》 CAS CSCD 北大核心 2021年第8期78-83,92,共7页
针对电机领域实体识别精度较低的问题,提出一种融合BERT预训练语言模型的中文命名实体识别方法。利用BERT预训练语言模型增强字的语义表示并按照上下文特征动态生成字向量,将字向量序列输入双向长短期记忆神经网络进行双向编码,同时通... 针对电机领域实体识别精度较低的问题,提出一种融合BERT预训练语言模型的中文命名实体识别方法。利用BERT预训练语言模型增强字的语义表示并按照上下文特征动态生成字向量,将字向量序列输入双向长短期记忆神经网络进行双向编码,同时通过条件随机场算法标注出实体识别结果。根据电机文本特点对自建数据集进行标注,并将电机领域实体划分为实物、特性描述、问题/故障、方法/技术等4个类别。实验结果表明,与基于Bi LSTM-CRF、Bi LSTM-CNN和Bi GRU的实体识别方法相比,该方法具有更高的准确率、召回率和F1值,并且有效解决了电机领域命名实体识别任务中标注数据不足及实体边界模糊的问题。 展开更多
关键词 命名实体识别 bert训练语言模型 电机领域 深度学习 迁移学习
在线阅读 下载PDF
基于Stacking-Bert集成学习的中文短文本分类算法 被引量:12
9
作者 郑承宇 王新 +2 位作者 王婷 尹甜甜 邓亚萍 《科学技术与工程》 北大核心 2022年第10期4033-4038,共6页
由于word2vec、Glove等静态词向量表示方法存在无法完整表示文本语义等问题,且当前主流神经网络模型在做文本分类问题时,其预测效果往往依赖于具体问题,场景适应性差,泛化能力弱。针对上述问题,提出一种多基模型框架(Stacking-Bert)的... 由于word2vec、Glove等静态词向量表示方法存在无法完整表示文本语义等问题,且当前主流神经网络模型在做文本分类问题时,其预测效果往往依赖于具体问题,场景适应性差,泛化能力弱。针对上述问题,提出一种多基模型框架(Stacking-Bert)的中文短文本分类方法。模型采用BERT预训练语言模型进行文本字向量表示,输出文本的深度特征信息向量,并利用TextCNN、DPCNN、TextRNN、TextRCNN等神经网络模型构建异质多基分类器,通过Stacking集成学习获取文本向量的不同特征信息表达,以提高模型的泛化能力,最后利用支持向量机(support vector machine,SVM)作为元分类器模型进行训练和预测。与word2vec-CNN、word2vec-BiLSTM、BERT-TexCNN、BERT-DPCNN、BERT-RNN、BERT-RCNN等文本分类算法在网络公开的三个中文数据集上进行对比实验,结果表明,Stacking-Bert集成学习模型的准确率、精确率、召回率和F_(1)均为最高,能有效提升中文短文本的分类性能。 展开更多
关键词 多基模型框架 bert训练语言模型 Stacking集成学习 短文本分类
在线阅读 下载PDF
结合混合特征提取与深度学习的长文本语义相似度计算 被引量:1
10
作者 徐捷 邵玉斌 +2 位作者 杜庆治 龙华 马迪南 《计算机工程与科学》 CSCD 北大核心 2024年第8期1513-1520,共8页
文本语义相似度计算是自然语言处理中一项非常重要的任务,但是目前对于文本语义相似度的研究多集中在短文本领域,而不是长文本。相较于短文本,长文本语义信息丰富,但同时语义信息容易分散。针对长文本语义信息分散的问题,提出一种特征... 文本语义相似度计算是自然语言处理中一项非常重要的任务,但是目前对于文本语义相似度的研究多集中在短文本领域,而不是长文本。相较于短文本,长文本语义信息丰富,但同时语义信息容易分散。针对长文本语义信息分散的问题,提出一种特征提取模型,提取出长文本的主要语义信息;对提取的语义信息使用滑窗重叠的方法输入BERT预训练模型得到文本向量表示;然后,通过双向长短期记忆网络建模长文本的前后语义联系,将其映射到语义空间内;再通过线性层增加模型表示能力;最后,通过相似语义向量内积最大化和交叉熵损失函数进行微调。实验结果表明,该模型在CNSE和CNSS数据集上F1分数分别为0.84和0.91,性能优于基线模型。 展开更多
关键词 长文本语义相似度 特征提取 bert预训练模型 语义空间
在线阅读 下载PDF
BEML:一种面向商品隐空间表征的混合学习分析范式
11
作者 郑骐健 刘峰 《计算机科学》 CSCD 北大核心 2024年第S02期556-561,共6页
随着互联网经济时代的到来,电子商务平台的高效管理日益受到学术界和工业界的广泛关注,其中,商品分类的精度与自动化水平直接影响着用户体验及运营效率的优化。鉴于此,本研究围绕商品信息的隐空间表征进行深入探讨,提出了一种面向商品... 随着互联网经济时代的到来,电子商务平台的高效管理日益受到学术界和工业界的广泛关注,其中,商品分类的精度与自动化水平直接影响着用户体验及运营效率的优化。鉴于此,本研究围绕商品信息的隐空间表征进行深入探讨,提出了一种面向商品隐空间表征的混合学习分析范式BEML。该框架融合了先进的双向编码器表示(BERT)技术与传统机器学习方法,旨在通过对商品信息隐空间的细致解析,显著提升商品分类的自动化处理效率及准确性。与现行主流的深度学习和机器学习算法进行对比分析的实验结果表明,BEML框架针对本次亚马逊在线分析数据集的最佳分类效果F1指标的宏平均达到了85.79%,微平均达到了84.73%,均超过了目前最佳F1指标83.3%,实现了新的SOTA。该框架不仅在理论上具有创新性,其在电子商务领域的信息管理和自动化处理实践中亦具有重要的应用价值,为科技商学领域提供了一种高效且可靠的混合学习分析范式。 展开更多
关键词 隐空间表征 bert预训练模型 自动商品分类 智能化商品分类 科技商学
在线阅读 下载PDF
结合句法结构和语义信息的方面情感三元组抽取
12
作者 石恽本 苟刚 《计算机工程与设计》 北大核心 2024年第8期2468-2474,共7页
为解决先前方面情感三元组抽取方法中忽略句法结构和语义信息的问题,提出一种结合句法结构和语义信息的抽取模型。使用BERT预训练模型编码输入语句,同时编码句法结构特征。通过注意力层学习词对间的语义信息。将句法结构特征和语义信息... 为解决先前方面情感三元组抽取方法中忽略句法结构和语义信息的问题,提出一种结合句法结构和语义信息的抽取模型。使用BERT预训练模型编码输入语句,同时编码句法结构特征。通过注意力层学习词对间的语义信息。将句法结构特征和语义信息输入图卷积网络,增强对单词间句法结构的学习。通过网格解码生成情感三元组。在lap14、res14、res15、res16数据集上的实验结果表明,该模型在精确率、召回率和F1值上相较其它基线模型有显著提升,有效提升方面情感三元组抽取效果。 展开更多
关键词 方面情感三元组 句法结构 语义信息 bert预训练模型 注意力 图卷积网络 网格
在线阅读 下载PDF
融合领域知识图谱的跨境民族文化分类 被引量:2
13
作者 毛存礼 王斌 +3 位作者 雷雄丽 满志博 王红斌 张亚飞 《小型微型计算机系统》 CSCD 北大核心 2022年第5期943-949,共7页
跨境民族是指居住地“跨越”了国境线,但又保留了原来共同的某些民族特色,彼此有着同一民族的认同感的民族,对于跨境民族文化中涉及到的文本分类问题可以看作领域文本细分类任务,但是,目前面临类别标签歧义的问题.为此提出一种融合领域... 跨境民族是指居住地“跨越”了国境线,但又保留了原来共同的某些民族特色,彼此有着同一民族的认同感的民族,对于跨境民族文化中涉及到的文本分类问题可以看作领域文本细分类任务,但是,目前面临类别标签歧义的问题.为此提出一种融合领域知识图谱的跨境民族文化分类方法.首先把知识图谱中的知识三元组通过TransE模型表示为实体语义向量,并且把实体语义向量与BERT预训练模型得到文本中的词语向量相融合得到增强后的文本语义表达,输入到BiGRU神经网络中进行深层语义特征提取;然后通过构建注意力权重矩阵,对特征进行权重分配,以此来提升特征的质量,最终完成跨境民族文化分类模型的训练.实验结果表明,提出的方法在跨境民族文化文本数据集上的F1值为89.6%,精确率和召回率分别为88.2%和90.1%. 展开更多
关键词 知识表示 BiGRU 向量融合 TransE bert预训练模型 跨境民族文化分类
在线阅读 下载PDF
汉译藏传佛教典籍中的神灵命名实体识别方法研究 被引量:1
14
作者 郭晓然 王维兰 罗平 《高原科学研究》 CSCD 2020年第4期87-94,共8页
命名实体识别是自然语言处理中的一项基础性关键任务。针对汉译藏传佛教典籍中各种神灵名称难以识别的问题,提出一种基于BERT预训练语言模型、双向长短时记忆网络(BiLSTM)和条件随机场(CRF)的多神经网络融合方法BERT-BiLSTM-CRF-a。该... 命名实体识别是自然语言处理中的一项基础性关键任务。针对汉译藏传佛教典籍中各种神灵名称难以识别的问题,提出一种基于BERT预训练语言模型、双向长短时记忆网络(BiLSTM)和条件随机场(CRF)的多神经网络融合方法BERT-BiLSTM-CRF-a。该方法使用BERT代替浅层网络训练字向量,充分表征字的多义性;引入注意力机制的权重思想将BiLSTM层的前向和后向隐层向量加权后再拼接,进一步提高了上下文特征的有效利用率;最后使用CRF模型输出序列上的最优标注结果。实验表明,该方法在测试集上准确率达95.2%,较传统的BiLSTM-CRF模型提升7.6%,召回率也高出8.7%,因此能够应用于汉译藏传佛教典籍中神灵名称识别任务。 展开更多
关键词 藏传佛教神灵 命名实体识别 bert预训练模型 注意力机制
在线阅读 下载PDF
基于双特征嵌套注意力的方面词情感分析算法 被引量:7
15
作者 肖宇晗 林慧苹 +1 位作者 汪权彬 谭营 《智能系统学报》 CSCD 北大核心 2021年第1期142-151,共10页
针对目前方面词情感分析方法忽视了以方面词为核心的局部特征的重要性,并难以有效减小情感干扰项的负面噪声的问题,本文提出了一种带有基于变换器的双向编码器表示技术(bi-directional encoder representations from transformers,BERT... 针对目前方面词情感分析方法忽视了以方面词为核心的局部特征的重要性,并难以有效减小情感干扰项的负面噪声的问题,本文提出了一种带有基于变换器的双向编码器表示技术(bi-directional encoder representations from transformers,BERT)加持的双特征嵌套注意力模型(dual features attention-over-attention with BERT,DFAOA-BERT),首次将AOA(attention-over-attention)与BERT预训练模型结合,并设计了全局与局部特征提取器,能够充分捕捉方面词和语境的有效语义关联。实验结果表明:DFAOA-BERT在SemEval 2014任务4中的餐馆评论、笔记本评论和ACL-14 Twitter社交评论这3个公开数据集上均表现优异,而子模块的有效性实验,也充分证明了DFAOA-BERT各个部分的设计合理性。 展开更多
关键词 情感分析 方面词 嵌套注意力 bert预训练模型 全局特征 局部特征 深度学习 机器学习
在线阅读 下载PDF
一种融合关键词的生成式摘要方法 被引量:5
16
作者 李伯涵 李红莲 《计算机应用研究》 CSCD 北大核心 2021年第11期3289-3292,3358,共5页
针对生成式文本摘要中模型对文本语义了解不够充分以及生成摘要缺乏关键信息的问题,提出一种融合关键词的中文摘要生成模型KBPM(Key-BERT-Pen model)。首先使用TextRank方法将文本中关键词抽取出来,然后将抽取出的关键词与原文一起经过B... 针对生成式文本摘要中模型对文本语义了解不够充分以及生成摘要缺乏关键信息的问题,提出一种融合关键词的中文摘要生成模型KBPM(Key-BERT-Pen model)。首先使用TextRank方法将文本中关键词抽取出来,然后将抽取出的关键词与原文一起经过BERT预训练模型得到更加精确的上下文表示,最终将得到的词向量输入到带有双重注意力机制的指针模型中,指针模型从词汇表或原文中取出词汇来生成最终的摘要。实验结果表明,KBPM模型能够生成可读性更好、ROUGE分数更高的文本摘要。通过对比分析也验证了KBPM模型有效解决了生成摘要中缺乏关键信息的问题。 展开更多
关键词 文本摘要 bert预训练模型 主题关键词 双重注意力机制 指针模型
在线阅读 下载PDF
面向招标物料的命名实体识别研究及应用 被引量:1
17
作者 米健霞 谢红薇 《计算机工程与应用》 CSCD 北大核心 2023年第2期314-320,共7页
招标领域中各单位对物料数据的书写方法各不相同,通过对物料数据的实体识别能够实现对物料数据的标准化,为后续的物料查询及分析提供基础。传统的物料命名实体识别方法存在分词不准确,无法有效地处理一词多义,没有考虑中文特有的字形特... 招标领域中各单位对物料数据的书写方法各不相同,通过对物料数据的实体识别能够实现对物料数据的标准化,为后续的物料查询及分析提供基础。传统的物料命名实体识别方法存在分词不准确,无法有效地处理一词多义,没有考虑中文特有的字形特征等问题,从而影响识别效果。针对上述问题,提出了一种CB-BiLSTM-CRF模型,采用卷积神经网络对汉字的五笔编码进行提取,与BERT所获得的字符特征相结合,以增强不同语境中的语法和语义信息的表征能力,通过BiLSTM模型对组合特征进行深层次提取处理,CRF模型获得最优序列结果。实验结果表明,该模型在收集到的招标领域中物料数据的F1值达到95.82%,优于其他常用模型。同时,在此基础上搭建了“智能物料”在线识别网页平台,用户可以快速在大量数据中提取到有效信息。 展开更多
关键词 命名实体识别 招标物料识别 bert预训练模型 双向长短期记忆网络 条件随机场
在线阅读 下载PDF
面向地质领域的实体关系联合抽取研究 被引量:2
18
作者 吴雪莹 段友祥 +2 位作者 昌伦杰 李世银 孙歧峰 《计算机工程》 CAS CSCD 北大核心 2023年第3期121-127,共7页
构建地质领域的知识图谱有助于便捷高效地共享和应用多源地质知识,而地质关系三元组抽取对地质领域知识图谱构建具有重要意义。针对现有实体关系联合抽取模型无法有效识别重叠三元组的问题,考虑地质领域专业知识的特殊性,基于预训练语... 构建地质领域的知识图谱有助于便捷高效地共享和应用多源地质知识,而地质关系三元组抽取对地质领域知识图谱构建具有重要意义。针对现有实体关系联合抽取模型无法有效识别重叠三元组的问题,考虑地质领域专业知识的特殊性,基于预训练语言模型BERT建立一种用于地质领域关系三元组抽取的层级标注模型HtERT。采用中文预训练语言模型BERT-wwm替代原始的BERT模型作为底层编码器,以提高模型对中文的编码能力。在实体识别阶段,引入关于实体起始位置的嵌入表示来限制实体的抽取长度,从而提升实体识别的准确度。引入全局上下文信息和BiLSTM网络使得模型抽取到的特征能更精确地表示地质样本信息,增强模型对地质关系三元组以及重叠三元组的抽取能力。在地质领域数据集上的实验结果表明,HtERT模型相比于PCNN、BiLSTM、PCNN+ATT、CASREL等基线模型具有明显优势,精确率、召回率以及F1值分别平均提升15.24、10.96和13.20个百分点,验证了该模型在地质领域实体关系联合抽取任务中的有效性。 展开更多
关键词 实体关系抽取 联合抽取 重叠三元组 地质领域 训练模型bert
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部