期刊文献+
共找到126篇文章
< 1 2 7 >
每页显示 20 50 100
融合BERT BiLSTM CRF的城市内涝灾害风险要素识别方法研究 被引量:1
1
作者 张乐 张海龙 +1 位作者 李锋 吴敏 《安全与环境学报》 北大核心 2025年第8期3176-3188,共13页
为了实现在城市内涝舆情信息中快速、精准地识别相关风险要素,首先基于新浪微博平台,对用户评论信息及媒体发布信息进行采集、整理及标注,构建了城市内涝灾害事件语料数据集。进而针对城市内涝舆情信息格式不统一、语义复杂且风险要素... 为了实现在城市内涝舆情信息中快速、精准地识别相关风险要素,首先基于新浪微博平台,对用户评论信息及媒体发布信息进行采集、整理及标注,构建了城市内涝灾害事件语料数据集。进而针对城市内涝舆情信息格式不统一、语义复杂且风险要素识别的专业性、精准度要求较高等问题,结合自然灾害系统理论的风险要素框架,提出了一种基于双向编码器表征法-双向长短期记忆-条件随机场(Bidirectional Encoder Representations from Transformers-Bidirectional Long Short-Term Memory-Conditional Random Field,BERT-BiLSTM-CRF)的识别方法,并开展了一系列模型验证试验。对比试验结果表明,该模型在准确率、召回率、F_(1)三项指标上均有较好表现,其中准确率为84.62%,召回率为86.19%,F_(1)为85.35%,优于其他对比模型。消融试验结果表明,BERT预训练模型对于该模型性能有着更为显著的影响。综合上述试验结果,可以验证该模型能够有效识别城市内涝舆情信息中的各类风险要素,进而为城市内涝灾害风险管控的数智化转型提供研究依据。 展开更多
关键词 公共安全 城市内涝 双向编码器表征法 双向长短期记忆网络 条件随机场 舆情信息 风险要素识别
在线阅读 下载PDF
基于BERT和Bi-LSTM的题目难度预测:知识点标签增强模型
2
作者 叶航 柴春来 +2 位作者 张思赟 陈东烁 吴霁航 《计算机应用》 北大核心 2025年第S1期37-42,共6页
目前在高校C语言编程课程中,使用客观评价的题目难度考验学生的学习情况是非常重要的手段。目前大部分难度评估方法都针对特有科目和特有题型,而对中文编程题目的难度评估存在不足。因此,提出一种融合题目文本和知识点标签的基于BERT(Bi... 目前在高校C语言编程课程中,使用客观评价的题目难度考验学生的学习情况是非常重要的手段。目前大部分难度评估方法都针对特有科目和特有题型,而对中文编程题目的难度评估存在不足。因此,提出一种融合题目文本和知识点标签的基于BERT(Bidirectional Encoder Representations from Transformers)和双向长短时记忆(Bi-LSTM)模型的C语言题目难度预测模型FTKB-BiLSTM(Fusion of Title and Knowledge based on BERT and Bi-LSTM)。首先,利用BERT的中文预训练模型获得题目文本和知识点的词向量;其次,融合模块将融合后的信息通过BERT处理得到文本的信息表示,并输入Bi-LSTM模型中学习其中的序列信息,提取更丰富的特征;最后,把经Bi-LSTM模型得到的特征表示通过全连接层并经过Softmax函数处理得到题目难度分类结果。在Leetcode中文数据集和ZjgsuOJ平台数据集上的实验结果表明,相较于XLNet等主流的深度学习模型,所提模型的准确率更优,具有较强的分类能力。 展开更多
关键词 自然语言处理 深度学习 题目难度预测 bert 预训练模型
在线阅读 下载PDF
基于IWOA-BERT的磨煤机故障预警
3
作者 段明达 张胜 《振动与冲击》 北大核心 2025年第11期288-294,共7页
实现磨煤机的故障预警技术可以降低事故发生率,针对其运行中随机扰动多,且故障早期阶段不易判断的特点,提出了一种基于改进鲸鱼算法优化BERT(bidirectional encoder representations from transformers)模型的故障预警方法。首先,通过... 实现磨煤机的故障预警技术可以降低事故发生率,针对其运行中随机扰动多,且故障早期阶段不易判断的特点,提出了一种基于改进鲸鱼算法优化BERT(bidirectional encoder representations from transformers)模型的故障预警方法。首先,通过改进传统鲸鱼算法的收敛因子和引入高斯变异算子来增强算法的寻优能力;其次,选取与磨煤机故障相关的特征参数作为建模变量,利用改进鲸鱼算法优化BERT模型的超参数,建立故障预警模型;然后,计算正常状态数据中每个滑动窗口的相似度均值,选取最小值乘以阈值系数确定预警阈值;最后,根据专家系统推理预警时刻的故障类型并给出检修指导。将所提方法应用于某350 MW机组磨煤机的运行中,结果表明模型的预测准确率高,且能提前24 s给出预警信息,为工程应用提供了参考。 展开更多
关键词 磨煤机 故障预警 bert算法 改进鲸鱼优化算法(IWOA) 专家系统
在线阅读 下载PDF
基于BERT-BiLSTM-CRF的工业控制协议逆向工程
4
作者 连莲 李素敏 +1 位作者 宗学军 何戡 《沈阳工业大学学报》 北大核心 2025年第5期609-616,共8页
【目的】工业控制协议解析是工业互联网安全中的关键环节,但传统方法存在普适性差和准确率低的问题,导致协议解析效率低下,难以满足实际工业场景中对高精度和高适应性解析的需求。【方法】提出一种基于深度学习模型的工业控制协议逆向... 【目的】工业控制协议解析是工业互联网安全中的关键环节,但传统方法存在普适性差和准确率低的问题,导致协议解析效率低下,难以满足实际工业场景中对高精度和高适应性解析的需求。【方法】提出一种基于深度学习模型的工业控制协议逆向解析方法,通过结合BERT预训练模型、双向长短期记忆网络(BiLSTM)和条件随机场(CRF),提升协议解析的普适性和准确率,为工业控制系统的安全分析和漏洞挖掘提供技术支持。首先,利用BERT预训练模型对工业控制协议数据进行动态词向量编码,将协议数据转化为高维向量,以捕捉协议数据的语义信息。BERT预训练模型通过其强大的上下文理解能力,能够有效处理复杂且多样的协议数据。其次,采用双向长短期记忆网络对协议数据之间的关系以及协议数据与标签数据之间的关联性进行建模。双向长短期记忆网络能够捕获协议数据中的长距离依赖关系,从而更好地理解协议的结构和语义。最后,引入条件随机场作为约束条件,对工业控制协议的格式和语义进行最优预测。条件随机场通过引入标签之间的转移概率,进一步提高了预测的准确性和一致性。通过BERT预训练模型、双向长短期记忆网络和条件随机场的结合,实现了对工业控制协议的格式提取和语义分析。此外,本文方法还针对大规模协议数据进行了优化,确保其在处理复杂工业场景时的高效性和稳定性。【结果】针对三种典型工业控制协议展开实验,结果表明本文方法在格式提取和语义分析上的精度均超过96%,较传统方法有所提升,在不同协议上均表现出高适应性和准确性,能够有效识别字段边界与语义信息。【结论】本文方法显著提升了工业控制协议解析的普适性和准确率,为工业控制系统的安全分析提供了可靠的技术支持。未来将进一步优化模型,拓展应用场景,提升方法的实用性。 展开更多
关键词 工业控制协议 协议逆向工程 bert预训练模型 双向长短期记忆网络 条件随机场 词向量 格式提取 语义分析
在线阅读 下载PDF
基于BERT与生成对抗的民航陆空通话意图挖掘 被引量:3
5
作者 马兰 孟诗君 吴志军 《系统工程与电子技术》 EI CSCD 北大核心 2024年第2期740-750,共11页
针对民航陆空通话领域语料难以获取、实体分布不均,以及意图信息提取中实体规范不足且准确率有待提升等问题,为了更好地提取陆空通话意图信息,提出一种融合本体的基于双向转换编码器(bidirectional encoder representations from transf... 针对民航陆空通话领域语料难以获取、实体分布不均,以及意图信息提取中实体规范不足且准确率有待提升等问题,为了更好地提取陆空通话意图信息,提出一种融合本体的基于双向转换编码器(bidirectional encoder representations from transformers,BERT)与生成对抗网络(generative adversarial network,GAN)的陆空通话意图信息挖掘方法,并引入航班池信息对提取的部分信息进行校验修正,形成空中交通管制(air traffic control,ATC)系统可理解的结构化信息。首先,使用改进的GAN模型进行陆空通话智能文本生成,可有效进行数据增强,平衡各类实体信息分布并扩充数据集;然后,根据欧洲单一天空空中交通管理项目定义的本体规则进行意图的分类与标注;之后,通过BERT预训练模型生成字向量并解决一词多义问题,利用双向长短时记忆(bidirectional long short-term memory,BiLSTM)网络双向编码提取上下句语义特征,同时将该语义特征送入条件随机场(conditional random field,CRF)模型进行推理预测,学习标签的依赖关系并加以约束,以获取全局最优结果;最后,根据编辑距离(edit distance,ED)算法进行意图信息合理性校验与修正。对比实验结果表明,所提方法的宏平均F_(1)值达到了98.75%,在民航陆空通话数据集上的意图挖掘性能优于其他主流模型,为其加入数字化进程奠定了基础。 展开更多
关键词 民航陆空通话 信息提取 生成对抗网络 本体 双向转换编码器
在线阅读 下载PDF
利用BERT和覆盖率机制改进的HiNT文本检索模型 被引量:4
6
作者 邸剑 刘骏华 曹锦纲 《智能系统学报》 CSCD 北大核心 2024年第3期719-727,共9页
为有效提升文本语义检索的准确度,本文针对当前文本检索模型衡量查询和文档的相关性时不能很好地解决文本歧义和一词多义等问题,提出一种基于改进的分层神经匹配模型(hierarchical neural matching model,HiNT)。该模型先对文档的各个... 为有效提升文本语义检索的准确度,本文针对当前文本检索模型衡量查询和文档的相关性时不能很好地解决文本歧义和一词多义等问题,提出一种基于改进的分层神经匹配模型(hierarchical neural matching model,HiNT)。该模型先对文档的各个段提取关键主题词,然后用基于变换器的双向编码器(bidirectional encoder representations from transformers,BERT)模型将其编码为多个稠密的语义向量,再利用引入覆盖率机制的局部匹配层进行处理,使模型可以根据文档的局部段级别粒度和全局文档级别粒度进行相关性计算,提高检索的准确率。本文提出的模型在MS MARCO和webtext2019zh数据集上与多个检索模型进行对比,取得了最优结果,验证了本文提出模型的有效性。 展开更多
关键词 基于变换器的双向编码器 分层神经匹配模型 覆盖率机制 文本检索 语义表示 特征提取 自然语言处理 相似度 多粒度
在线阅读 下载PDF
融合汉字输入法的BERT与BLCG的长文本分类研究 被引量:3
7
作者 杨文涛 雷雨琦 +1 位作者 李星月 郑天成 《计算机工程与应用》 CSCD 北大核心 2024年第9期196-202,共7页
现有的中文长文本分类模型中,没有考虑汉字读音、笔画等特征信息,因此不能充分表示中文语义;同时,长文本中常常包含大量与目标主题无关的信息,甚至部分文本与其他主题相关,导致模型误判。为此,提出了一种融合汉字输入法的BERT(BERT fuse... 现有的中文长文本分类模型中,没有考虑汉字读音、笔画等特征信息,因此不能充分表示中文语义;同时,长文本中常常包含大量与目标主题无关的信息,甚至部分文本与其他主题相关,导致模型误判。为此,提出了一种融合汉字输入法的BERT(BERT fused Chinese input methods,CIMBERT)、带有门控机制的长短期记忆卷积网络(BiLSTM fused CNN with gating mechanism,BLCG)相结合的文本分类方法。该方法使用BERT模型进行文本的向量表示,在BERT模型的输入向量中,采用了拼音和五笔两种常用的汉字输入法,增强了汉字的语义信息。建立了BLCG模型进行文本特征提取,该模型使用双向长短期记忆网络(BiLSTM)进行全局特征提取、卷积神经网络(CNN)进行局部特征提取,并通过门控机制(gating mechanism)动态融合全局特征和局部特征,解决了部分文本与目标主题无关导致模型误判的问题。在THUCNews数据集与Sogou语料库上对该方法进行了验证,其准确率为97.63%、95.43%,F1-score为97.68%、95.49%,优于其他文本分类模型。 展开更多
关键词 长文本分类 bert模型 卷积神经网络 长短期记忆网络 门控机制
在线阅读 下载PDF
融合BERT和双向长短时记忆网络的中文反讽识别研究 被引量:1
8
作者 王旭阳 戚楠 魏申酉 《计算机工程与应用》 CSCD 北大核心 2024年第20期153-159,共7页
用户对微博热点话题进行评论时会使用反语、讽刺的修辞手法,其本身带有一定的情感倾向会对情感分析结果造成一定影响。因此该文主要针对中文微博评论进行反讽识别,构建了一个包含反语、讽刺和非反讽的三分类数据集,提出一个基于BERT和... 用户对微博热点话题进行评论时会使用反语、讽刺的修辞手法,其本身带有一定的情感倾向会对情感分析结果造成一定影响。因此该文主要针对中文微博评论进行反讽识别,构建了一个包含反语、讽刺和非反讽的三分类数据集,提出一个基于BERT和双向长短时记忆网络(BiLSTM)的模型BERT_BiLSTM。该模型通过BERT生成含有上下文信息的动态字向量,输入BiLSTM提取文本的深层反讽特征,在全连接层传入softmax对文本进行反讽识别。实验结果表示,在二分类和三分类数据集上,提出的BERT_BiLSTM模型与现有主流模型相比准确率和F1值均有明显提高。 展开更多
关键词 反讽识别 bert 特征提取 双向长短时记忆网络(BiLSTM)
在线阅读 下载PDF
BTM-BERT模型在民航机务维修安全隐患自动分类中的应用
9
作者 陈芳 张亚博 《安全与环境学报》 CAS CSCD 北大核心 2024年第11期4366-4373,共8页
为界定民航机务维修安全隐患类别,实现安全隐患数据的自动分类,首先,利用构建的机务维修停用词库对安全隐患记录语料进行预处理。其次,运用词对主题模型(Biterm Topic Model,BTM)提取主题和关键词,确定了“员工未按规定对工作现场进行... 为界定民航机务维修安全隐患类别,实现安全隐患数据的自动分类,首先,利用构建的机务维修停用词库对安全隐患记录语料进行预处理。其次,运用词对主题模型(Biterm Topic Model,BTM)提取主题和关键词,确定了“员工未按规定对工作现场进行监管”等12类安全隐患。最后,根据BTM主题模型标注的数据集对算法进行微调,构建了基于变换器的双向编码(Bidirectional Encoder Representations from Transformers,BERT)算法的机务维修安全隐患记录自动分类模型,并与传统的分类算法进行对比。结果表明:所构建的模型可以实现民航机务维修安全隐患自动分类,其效果远高于传统机器学习支持向量机算法的效果,构建的分类模型的精确率、召回率和F 1较文本卷积神经网络算法分别提升了0.12、0.14和0.14,总体准确率达到了93%。 展开更多
关键词 安全工程 机务维修 词对主题模型(BTM) 基于变换器的双向编码(bert) 安全隐患 文本分类
在线阅读 下载PDF
知识增强的BERT短文本分类算法 被引量:3
10
作者 傅薛林 金红 +2 位作者 郑玮浩 张奕 陶小梅 《计算机工程与设计》 北大核心 2024年第7期2027-2033,共7页
为解决短文本信息不全且缺乏领域知识导致关键信息难以充分挖掘而造成的深度学习模型分类性能不足等问题,提出一种知识增强的双向编码器表示转换器(BERT)短文本分类算法(KE-BERT)。提出一种建模短文本与领域知识的方法,通过知识图谱进... 为解决短文本信息不全且缺乏领域知识导致关键信息难以充分挖掘而造成的深度学习模型分类性能不足等问题,提出一种知识增强的双向编码器表示转换器(BERT)短文本分类算法(KE-BERT)。提出一种建模短文本与领域知识的方法,通过知识图谱进行领域知识的引入;提出一种知识适配器,通过知识适配器在BERT的各个编码层之间进行知识增强。通过在公开的短文本数据集上,将KE-BERT与其它深度学习模型相比较,该模型的F1均值和准确率均值达到93.46%和91.26%,结果表明了所提模型性能表现良好。 展开更多
关键词 短文本分类 深度学习 双向编码器表示转换器 知识图谱 领域知识 知识适配器 知识增强
在线阅读 下载PDF
基于MacBERT与对抗训练的机器阅读理解模型 被引量:1
11
作者 周昭辰 方清茂 +2 位作者 吴晓红 胡平 何小海 《计算机工程》 CAS CSCD 北大核心 2024年第5期41-50,共10页
机器阅读理解旨在让机器像人类一样理解自然语言文本,并据此进行问答任务。近年来,随着深度学习和大规模数据集的发展,机器阅读理解引起了广泛关注,但是在实际应用中输入的问题通常包含各种噪声和干扰,这些噪声和干扰会影响模型的预测... 机器阅读理解旨在让机器像人类一样理解自然语言文本,并据此进行问答任务。近年来,随着深度学习和大规模数据集的发展,机器阅读理解引起了广泛关注,但是在实际应用中输入的问题通常包含各种噪声和干扰,这些噪声和干扰会影响模型的预测结果。为了提高模型的泛化能力和鲁棒性,提出一种基于掩码校正的来自Transformer的双向编码器表示(Mac BERT)与对抗训练(AT)的机器阅读理解模型。首先利用Mac BERT对输入的问题和文本进行词嵌入转化为向量表示;然后根据原始样本反向传播的梯度变化在原始词向量上添加微小扰动生成对抗样本;最后将原始样本和对抗样本输入双向长短期记忆(Bi LSTM)网络进一步提取文本的上下文特征,输出预测答案。实验结果表明,该模型在简体中文数据集CMRC2018上的F1值和精准匹配(EM)值分别较基线模型提高了1.39和3.85个百分点,在繁体中文数据集DRCD上的F1值和EM值分别较基线模型提高了1.22和1.71个百分点,在英文数据集SQu ADv1.1上的F1值和EM值分别较基线模型提高了2.86和1.85个百分点,优于已有的大部分机器阅读理解模型,并且在真实问答结果上与基线模型进行对比,结果验证了该模型具有更强的鲁棒性和泛化能力,在输入的问题存在噪声的情况下性能更好。 展开更多
关键词 机器阅读理解 对抗训练 预训练模型 掩码校正的来自transformer的双向编码器表示 双向长短期记忆网络
在线阅读 下载PDF
基于BERT的多模型融合的Web攻击检测方法 被引量:1
12
作者 袁平宇 邱林 《计算机工程》 CAS CSCD 北大核心 2024年第11期197-206,共10页
传统Web攻击检测方法准确率不高,不能有效防范Web攻击。针对该问题,提出一种基于变换器的双向编码器表示(BERT)的预训练模型、文本卷积神经网络(TextCNN)和双向长短期记忆网络(BiLSTM)多模型融合的Web攻击检测方法。先将HTTP请求进行预... 传统Web攻击检测方法准确率不高,不能有效防范Web攻击。针对该问题,提出一种基于变换器的双向编码器表示(BERT)的预训练模型、文本卷积神经网络(TextCNN)和双向长短期记忆网络(BiLSTM)多模型融合的Web攻击检测方法。先将HTTP请求进行预处理,再通过BERT进行训练得到具备上下文依赖的特征向量,并用TextCNN模型进一步提取其中的高阶语义特征,作为BiLSTM的输入,最后利用Softmax函数进行分类检测。在HTTP CSIC 2010和恶意URL检测两个数据集上对所提方法进行验证,结果表明,与支持向量机(SVM)、逻辑回归(LR)等传统的机器学习方法和现有较新的方法相比,基于BERT的多模型融合的Web攻击检测方法在准确率、精确率、召回率和F1值指标上均表现更优(准确率和F1值的最优值都在99%以上),能准确检测Web攻击。 展开更多
关键词 Web攻击检测 基于变换器的双向编码器表示 多模型融合 HTTP请求 文本卷积神经网络 双向长短期记忆网络
在线阅读 下载PDF
基于BERT-BiLSTM-CRF的隧道施工安全领域命名实体识别 被引量:3
13
作者 张念 周彩凤 +3 位作者 万飞 刘非 王耀耀 徐栋梁 《中国安全科学学报》 CSCD 北大核心 2024年第12期56-63,共8页
为解决隧道施工安全领域传统命名实体识别(NER)方法存在的实体边界模糊、小样本学习困难、特征信息提取不够全面准确等问题,提出一种基于变换器的双向编码器表征(BERT)-双向长短时记忆(BiLSTM)网络-条件随机场(CRF)模型的隧道施工事故... 为解决隧道施工安全领域传统命名实体识别(NER)方法存在的实体边界模糊、小样本学习困难、特征信息提取不够全面准确等问题,提出一种基于变换器的双向编码器表征(BERT)-双向长短时记忆(BiLSTM)网络-条件随机场(CRF)模型的隧道施工事故文本实体识别方法。首先,利用BERT模型将隧道施工事故文本编码得到蕴含语义特征的词向量;然后,将BERT模型训练后输出的词向量输入BiLSTM模型进一步获取隧道施工事故文本的上下文特征并进行标签概率预测;最后,利用CRF层的标注规则的约束,修正BiLSTM模型的输出结果,得到最大概率序列标注结果,从而实现对隧道施工事故文本标签的智能分类。将该模型与其他4种常用的传统NER模型在隧道施工安全事故语料数据集上进行对比试验,试验结果表明:BERT-BiLSTM-CRF模型的识别准确率、召回率和F 1值分别达到88%、89%和88%,实体识别效果优于其他基准模型。利用所建立的NER模型识别实际隧道施工事故文本中的实体,验证了其在隧道施工安全领域中的应用效果。 展开更多
关键词 变换器的双向编码器表征(bert) 双向长短时记忆(BiLSTM)网络 条件随机场(CRF) 隧道施工 安全领域 命名实体识别(NER) 深度学习
在线阅读 下载PDF
基于BERT-GAT表示学习的问答社区最佳回答者推荐
14
作者 夏文宗 赵海燕 +1 位作者 曹健 陈庆奎 《小型微型计算机系统》 CSCD 北大核心 2024年第7期1656-1662,共7页
在问答社区中,每天都会出现大量新的问题,为新问题推荐合适的回答者有助于加快问题的解决并促进社区发展.然而,目前最佳回答者推荐大多基于用户历史回复记录或文本匹配进行推荐,而用户是否回答某一问题与多方因素有关,特别是问题与用户... 在问答社区中,每天都会出现大量新的问题,为新问题推荐合适的回答者有助于加快问题的解决并促进社区发展.然而,目前最佳回答者推荐大多基于用户历史回复记录或文本匹配进行推荐,而用户是否回答某一问题与多方因素有关,特别是问题与用户擅长的知识领域是否匹配有关.因此,本文根据用户回答文本构建的社区知识语料库并对BERT模型进行微调,结合用户社区行为记录和回答赞同数等辅助信息,基于LightGBM模型进行最佳回答者的推荐.在实验中,利用Precision、MRR和Hit指标分析预测结果,结果表明,本文提出基于BERT-GAT表示学习的LightGBM最佳回答者推荐模型在StackExchange三个流行社区中均取得了较好的性能. 展开更多
关键词 问答社区 图注意力网络 bert 评论网络 Light GBM
在线阅读 下载PDF
基于BERT-TENER的服装质量抽检通告命名实体识别
15
作者 陈进东 胡超 +1 位作者 郝凌霄 曹丽娜 《科学技术与工程》 北大核心 2024年第34期14754-14764,共11页
识别服装质量抽检通告中的实体信息,对于评估不同区域的服装质量状况以及制定宏观政策具有重要意义。针对质量抽检通告命名实体识别存在的长文本序列信息丢失、小类样本特征学习不全等问题,以注意力机制为核心,提出了基于BERT(bidirecti... 识别服装质量抽检通告中的实体信息,对于评估不同区域的服装质量状况以及制定宏观政策具有重要意义。针对质量抽检通告命名实体识别存在的长文本序列信息丢失、小类样本特征学习不全等问题,以注意力机制为核心,提出了基于BERT(bidirectional encoder representations from transformers)和TENER(transformer encoder for NER)模型的领域命名实体识别模型。BERT-TENER模型通过预训练模型BERT获得字符的动态字向量;将字向量输入TENER模块中,基于注意力机制使得同样的字符拥有不同的学习过程,基于改进的Transformer模型进一步捕捉字符与字符之间的距离和方向信息,增强模型对不同长度、小类别文本内容的理解,并采用条件随机场模型获得每个字符对应的实体标签。在领域数据集上,BERT-TENER模型针对服装抽检领域的实体识别F_1达到92.45%,相较传统方法有效提升了命名实体识别率,并且在长文本以及非均衡的实体类别中也表现出较好的性能。 展开更多
关键词 命名实体识别 服装质量抽检通告 bert(bidirectional encoder representations from transformers) TENER(transformer encoder for NER)
在线阅读 下载PDF
空管不正常事件风险信息抽取与识别方法研究 被引量:1
16
作者 王洁宁 王帅翔 孙禾 《安全与环境学报》 北大核心 2025年第4期1444-1454,共11页
目前,空管各类安全管理信息化平台积累了大量非结构化文本数据,但未得到充分利用,为了挖掘空管不正常事件中潜藏的风险,研究利用收集的四千余条空管站不正常事件数据和自构建的4836个空管领域专业术语词,提出了一个基于空管专业信息词... 目前,空管各类安全管理信息化平台积累了大量非结构化文本数据,但未得到充分利用,为了挖掘空管不正常事件中潜藏的风险,研究利用收集的四千余条空管站不正常事件数据和自构建的4836个空管领域专业术语词,提出了一个基于空管专业信息词抽取的双向编码器表征法和双向长短时记忆网络的深度学习模型(Bidirectional Encoder Representations from Transformers-Bidirectional Long Short-Term Memory,BERT-BiLSTM)。该模型通过对不正常事件文本进行信息抽取,过滤其中无用信息,并将双向编码器表征法(Bidirectional Encoder Representations from Transformers,BERT)模型输出的特征向量序列作为双向长短时记忆网络(Bidirectional Long Short-Term Memory,BiLSTM)的输入序列,以对空管不正常事件文本风险识别任务进行对比试验。试验结果显示,在风险识别试验中,基于空管专业信息词抽取的BERT-BiLSTM模型相比于通用领域的BERT模型,风险识别准确率提升了3百分点。可以看出该模型有效提升了空管安全信息处理能力,能够有效识别空管部门日常运行中出现的不正常事件所带来的风险,同时可以为空管安全领域信息挖掘相关任务提供基础参考。 展开更多
关键词 安全工程 双向编码器表征法 双向长短时记忆网络 空管不正常事件 风险识别
在线阅读 下载PDF
南美白对虾养殖领域中文命名实体识别数据集构建
17
作者 彭小红 邓峰 余应淮 《计算机工程与应用》 北大核心 2025年第9期353-362,共10页
该研究致力于构建一个高质量的数据集,用于南美白对虾养殖领域的命名实体识别(named entity recognition,NER)任务,命名为VamNER。为确保数据集的多样性,从CNKI数据库中收集了近10年的高质量论文,并结合权威书籍进行语料构建。邀请专家... 该研究致力于构建一个高质量的数据集,用于南美白对虾养殖领域的命名实体识别(named entity recognition,NER)任务,命名为VamNER。为确保数据集的多样性,从CNKI数据库中收集了近10年的高质量论文,并结合权威书籍进行语料构建。邀请专家讨论实体类型,并经过专业培训的标注人员使用IOB2标注格式进行标注,标注过程分为预标注和正式标注两个阶段以提高效率。在预标注阶段,标注者间一致性(inter-annotation agreement,IAA)达到0.87,表明标注人员的一致性较高。最终,VamNER包含6115个句子,总字符数达384602,涵盖10个实体类型,共有12814个实体。研究通过与多个通用领域数据集和一个特定领域数据集进行比较,揭示了VamNER的独特特性。在实验中使用了预训练的基于变换器的双向编码器表示(bidirectional encoder representations from Transformers,BERT)模型、双向长短期记忆神经网络(bidirectional long short-term memory network,BiLSTM)和条件随机场模型(conditional random fields,CRF),最优模型在测试集上的F1值达到82.8%。VamNER成为首个专注于南美白对虾养殖领域的NER数据集,为中文特定领域NER研究提供了丰富资源,有望推动水产养殖领域NER研究的发展。 展开更多
关键词 命名实体识别 VamNER数据集 标注者间一致性(IAA) 基于变换器的双向编码器表示(bert) 双向长短期记忆神经网络(BiLSTM) 条件随机场(CRF)
在线阅读 下载PDF
基于BERT的心血管医疗指南实体关系抽取方法 被引量:19
18
作者 武小平 张强 +1 位作者 赵芳 焦琳 《计算机应用》 CSCD 北大核心 2021年第1期145-149,共5页
实体关系抽取是医疗领域知识问答、知识图谱构建及信息抽取的重要基础环节之一。针对在心血管专病知识图谱构建的过程中尚无公开数据集可用的情况,收集了心血管疾病领域的医疗指南并进行相应的实体和关系类别的专业标注,构建了心血管专... 实体关系抽取是医疗领域知识问答、知识图谱构建及信息抽取的重要基础环节之一。针对在心血管专病知识图谱构建的过程中尚无公开数据集可用的情况,收集了心血管疾病领域的医疗指南并进行相应的实体和关系类别的专业标注,构建了心血管专病知识图谱实体关系抽取的专业数据集。基于该数据集,首先提出双向变形编码器卷积神经网络(BERT-CNN)模型以实现中文语料中的关系抽取,然后根据中文语义中主要以词而不是字为基本单位的特性,提出了改进的基于全词掩模的双向变形编码器卷积神经网络(BERT(wwm)-CNN)模型用于提升在中文语料中关系抽取的性能。实验结果表明,改进的BERT(wwm)-CNN在所构建的关系抽取数据集上准确率达到0.85,召回率达到0.80,F1值达到0.83,优于对比的基于双向变形编码器长短期记忆网络(BERT-LSTM)模型和BERT-CNN模型,验证了改进网络模型的优势。 展开更多
关键词 实体关系抽取 心血管疾病 双向变形编码器网络 卷积神经网络 知识图谱
在线阅读 下载PDF
融合BERT与标签语义注意力的文本多标签分类方法 被引量:18
19
作者 吕学强 彭郴 +2 位作者 张乐 董志安 游新冬 《计算机应用》 CSCD 北大核心 2022年第1期57-63,共7页
多标签文本分类(MLTC)是自然语言处理(NLP)领域的重要子课题之一。针对多个标签之间存在复杂关联性的问题,提出了一种融合BERT与标签语义注意力的MLTC方法TLA-BERT。首先,通过对自编码预训练模型进行微调,从而学习输入文本的上下文向量... 多标签文本分类(MLTC)是自然语言处理(NLP)领域的重要子课题之一。针对多个标签之间存在复杂关联性的问题,提出了一种融合BERT与标签语义注意力的MLTC方法TLA-BERT。首先,通过对自编码预训练模型进行微调,从而学习输入文本的上下文向量表示;然后,使用长短期记忆(LSTM)神经网络将标签进行单独编码;最后,利用注意力机制显性突出文本对每个标签的贡献,以预测多标签序列。实验结果表明,与基于序列生成模型(SGM)算法相比,所提出的方法在AAPD与RCV1-v2公开数据集上,F1值分别提高了2.8个百分点与1.5个百分点。 展开更多
关键词 多标签分类 bert 标签语义信息 双向长短期记忆神经网络 注意力机制
在线阅读 下载PDF
基于BERT的水稻表型知识图谱实体关系抽取研究 被引量:23
20
作者 袁培森 李润隆 +1 位作者 王翀 徐焕良 《农业机械学报》 EI CAS CSCD 北大核心 2021年第5期151-158,共8页
针对水稻表型知识图谱中的实体关系抽取问题,根据植物本体论提出了一种对水稻的基因、环境、表型等表型组学实体进行关系分类的方法。首先,获取水稻表型组学数据,并进行标注和分类;随后,提取关系数据集中的词向量、位置向量及句子向量,... 针对水稻表型知识图谱中的实体关系抽取问题,根据植物本体论提出了一种对水稻的基因、环境、表型等表型组学实体进行关系分类的方法。首先,获取水稻表型组学数据,并进行标注和分类;随后,提取关系数据集中的词向量、位置向量及句子向量,基于双向转换编码表示模型(BERT)构建水稻表型组学关系抽取模型;最后,将BERT模型与卷积神经网络模型、分段卷积网络模型进行结果比较。结果表明,在3种关系抽取模型中,BERT模型表现更佳,精度达95.11%、F1值为95.85%。 展开更多
关键词 水稻表型 知识图谱 关系抽取 双向转换编码表示模型
在线阅读 下载PDF
上一页 1 2 7 下一页 到第
使用帮助 返回顶部