期刊文献+
共找到10篇文章
< 1 >
每页显示 20 50 100
南美白对虾养殖领域中文命名实体识别数据集构建
1
作者 彭小红 邓峰 余应淮 《计算机工程与应用》 北大核心 2025年第9期353-362,共10页
该研究致力于构建一个高质量的数据集,用于南美白对虾养殖领域的命名实体识别(named entity recognition,NER)任务,命名为VamNER。为确保数据集的多样性,从CNKI数据库中收集了近10年的高质量论文,并结合权威书籍进行语料构建。邀请专家... 该研究致力于构建一个高质量的数据集,用于南美白对虾养殖领域的命名实体识别(named entity recognition,NER)任务,命名为VamNER。为确保数据集的多样性,从CNKI数据库中收集了近10年的高质量论文,并结合权威书籍进行语料构建。邀请专家讨论实体类型,并经过专业培训的标注人员使用IOB2标注格式进行标注,标注过程分为预标注和正式标注两个阶段以提高效率。在预标注阶段,标注者间一致性(inter-annotation agreement,IAA)达到0.87,表明标注人员的一致性较高。最终,VamNER包含6115个句子,总字符数达384602,涵盖10个实体类型,共有12814个实体。研究通过与多个通用领域数据集和一个特定领域数据集进行比较,揭示了VamNER的独特特性。在实验中使用了预训练的基于变换器的双向编码器表示(bidirectional encoder representations from Transformers,BERT)模型、双向长短期记忆神经网络(bidirectional long short-term memory network,BiLSTM)和条件随机场模型(conditional random fields,CRF),最优模型在测试集上的F1值达到82.8%。VamNER成为首个专注于南美白对虾养殖领域的NER数据集,为中文特定领域NER研究提供了丰富资源,有望推动水产养殖领域NER研究的发展。 展开更多
关键词 命名实体识别 VamNER数据集 标注者间一致性(IAA) 基于变换器的双向编码器表示(BERT) 双向长短期记忆神经网络(BiLSTM) 条件随机场(CRF)
在线阅读 下载PDF
基于用户数据特征深度挖掘的快速图书检索算法
2
作者 窦淑庆 刘思豆 《现代电子技术》 北大核心 2025年第14期137-142,共6页
针对传统图书推荐系统所得到的计算结果滞后于实时需求且准确性较低的缺陷,文中基于用户画像数据,提出一种快速图书检索算法。该算法在用户画像构建部分对静态属性抽取和动态标签行为进行建模。在图书特征提取模型中,使用BERT-Word2Vec... 针对传统图书推荐系统所得到的计算结果滞后于实时需求且准确性较低的缺陷,文中基于用户画像数据,提出一种快速图书检索算法。该算法在用户画像构建部分对静态属性抽取和动态标签行为进行建模。在图书特征提取模型中,使用BERT-Word2Vec作为基础框架进行多模态特征提取,并利用双塔深度匹配模型构建了用户MLP塔和图书改进CNN塔,对特征进行充分细致的多维分析。模型通过将实时反馈机制Kafka-Redis流处理算法与会话注意力加权融合,最终实现了场景化的推荐。实验测试结果显示,NDCG@10指标较最优基准提升了约21.0%,行为反馈延迟在峰值500 QPS流量下小于等于3.5 s。表明所提算法能够为知识服务场景提供兼具准确性、时效性与场景适应性的信息推荐解决方案。 展开更多
关键词 用户画像 双向编码器表示技术 双塔深度匹配模型 多层感知器 卷积神经网络 推荐算法
在线阅读 下载PDF
利用BERT和覆盖率机制改进的HiNT文本检索模型 被引量:4
3
作者 邸剑 刘骏华 曹锦纲 《智能系统学报》 CSCD 北大核心 2024年第3期719-727,共9页
为有效提升文本语义检索的准确度,本文针对当前文本检索模型衡量查询和文档的相关性时不能很好地解决文本歧义和一词多义等问题,提出一种基于改进的分层神经匹配模型(hierarchical neural matching model,HiNT)。该模型先对文档的各个... 为有效提升文本语义检索的准确度,本文针对当前文本检索模型衡量查询和文档的相关性时不能很好地解决文本歧义和一词多义等问题,提出一种基于改进的分层神经匹配模型(hierarchical neural matching model,HiNT)。该模型先对文档的各个段提取关键主题词,然后用基于变换器的双向编码器(bidirectional encoder representations from transformers,BERT)模型将其编码为多个稠密的语义向量,再利用引入覆盖率机制的局部匹配层进行处理,使模型可以根据文档的局部段级别粒度和全局文档级别粒度进行相关性计算,提高检索的准确率。本文提出的模型在MS MARCO和webtext2019zh数据集上与多个检索模型进行对比,取得了最优结果,验证了本文提出模型的有效性。 展开更多
关键词 基于变换器的双向编码器 分层神经匹配模型 覆盖率机制 文本检索 语义表示 特征提取 自然语言处理 相似度 多粒度
在线阅读 下载PDF
基于BERT的多模型融合的Web攻击检测方法 被引量:1
4
作者 袁平宇 邱林 《计算机工程》 CAS CSCD 北大核心 2024年第11期197-206,共10页
传统Web攻击检测方法准确率不高,不能有效防范Web攻击。针对该问题,提出一种基于变换器的双向编码器表示(BERT)的预训练模型、文本卷积神经网络(TextCNN)和双向长短期记忆网络(BiLSTM)多模型融合的Web攻击检测方法。先将HTTP请求进行预... 传统Web攻击检测方法准确率不高,不能有效防范Web攻击。针对该问题,提出一种基于变换器的双向编码器表示(BERT)的预训练模型、文本卷积神经网络(TextCNN)和双向长短期记忆网络(BiLSTM)多模型融合的Web攻击检测方法。先将HTTP请求进行预处理,再通过BERT进行训练得到具备上下文依赖的特征向量,并用TextCNN模型进一步提取其中的高阶语义特征,作为BiLSTM的输入,最后利用Softmax函数进行分类检测。在HTTP CSIC 2010和恶意URL检测两个数据集上对所提方法进行验证,结果表明,与支持向量机(SVM)、逻辑回归(LR)等传统的机器学习方法和现有较新的方法相比,基于BERT的多模型融合的Web攻击检测方法在准确率、精确率、召回率和F1值指标上均表现更优(准确率和F1值的最优值都在99%以上),能准确检测Web攻击。 展开更多
关键词 Web攻击检测 基于变换器的双向编码器表示 多模型融合 HTTP请求 文本卷积神经网络 双向长短期记忆网络
在线阅读 下载PDF
面向工业生产的中文Text-to-SQL模型 被引量:3
5
作者 吕剑清 王先兵 +2 位作者 陈刚 张华 王明刚 《计算机应用》 CSCD 北大核心 2022年第10期2996-3002,共7页
英文自然语言查询转SQL语句(Text-to-SQL)任务的模型迁移到中文工业Text-to-SQL任务时,由于工业数据集的可解释差且比较分散,会出现数据库的表名列名等信息与问句中关键信息的表示形式不一致以及问句中的列名隐含在语义中等问题导致模... 英文自然语言查询转SQL语句(Text-to-SQL)任务的模型迁移到中文工业Text-to-SQL任务时,由于工业数据集的可解释差且比较分散,会出现数据库的表名列名等信息与问句中关键信息的表示形式不一致以及问句中的列名隐含在语义中等问题导致模型精确匹配率变低。针对迁移过程中出现的问题,提出了对应的解决方法并构建修改后的模型。首先,在数据使用过程中融入工厂元数据信息以解决表示形式不一致以及列名隐含在语义中的问题;然后,根据中文语言表达方式的特性,使用基于相对位置的自注意力模型直接通过问句以及数据库模式信息识别出where子句的value值;最后,根据工业问句查询内容的特性,使用微调后的基于变换器的双向编码器表示技术(BERT)对问句进行分类以提高模型对SQL语句结构预测的准确率。构建了一个基于铝冶炼行业的工业数据集,并在该数据集上进行实验验证。结果表明所提模型在工业测试集上的精确匹配率为74.2%,对比英文数据集Spider上各阶段主流模型的效果后可以看出,所提模型能有效处理中文工业Text-to-SQL任务。 展开更多
关键词 中文Text-to-SQL任务 工业数据集 元数据 自注意力模型 基于变换器的双向编码器表示技术
在线阅读 下载PDF
融合多种类型语法信息的属性级情感分析模型 被引量:3
6
作者 肖泽管 陈清亮 《计算机科学与探索》 CSCD 北大核心 2022年第2期395-402,共8页
属性级情感分析(ABSA)的目标是识别出句子中属性的情感倾向。现有的方法大多使用注意力机制隐性地建模属性与上下文中情感表达的关系,而忽略了使用语法信息。一方面,属性的情感倾向与句子中的情感表达有紧密的联系,利用句子的句法结构... 属性级情感分析(ABSA)的目标是识别出句子中属性的情感倾向。现有的方法大多使用注意力机制隐性地建模属性与上下文中情感表达的关系,而忽略了使用语法信息。一方面,属性的情感倾向与句子中的情感表达有紧密的联系,利用句子的句法结构可以更直接地对两者建模;另一方面,由于现有的基准数据集较小,模型无法充分学习通用语法知识,这使得它们难以处理复杂的句型和情感表达。针对以上问题,提出一种利用多种类型语法信息的神经网络模型。该模型采用基于依存句法树的图卷积神经网络(GCN),并利用句法结构信息直接匹配属性与其对应情感表达,缓解冗余信息对分类的干扰。同时,使用预训练模型BERT具有多种类型的语法信息的中间层表示作为指导信息,给予模型更多的语法知识。每一层GCN的输入结合上一层GCN的输出和BERT中间层指导信息。最后将属性在最后一层GCN的表示作为特征进行情感倾向分类。通过在SemEval 2014 Task4 Restaurant、Laptop和Twitter数据集上的实验结果表明,提出模型的分类效果超越了很多基准模型。 展开更多
关键词 属性级 情感分析 基于变换器的双向编码器表示技术(BERT) 依存句法树 图卷积神经网络(GCN)
在线阅读 下载PDF
基于BERT和双通道注意力的文本情感分类模型 被引量:27
7
作者 谢润忠 李烨 《数据采集与处理》 CSCD 北大核心 2020年第4期642-652,共11页
对于句子级文本情感分析问题,目前的深度学习方法未能充分运用情感词、否定词、程度副词等情感语言资源。提出一种基于变换器的双向编码器表征技术(Bidirectional encoder representations from transformers,BERT)和双通道注意力的新... 对于句子级文本情感分析问题,目前的深度学习方法未能充分运用情感词、否定词、程度副词等情感语言资源。提出一种基于变换器的双向编码器表征技术(Bidirectional encoder representations from transformers,BERT)和双通道注意力的新模型。基于双向门控循环单元(BiGRU)神经网络的通道负责提取语义特征,而基于全连接神经网络的通道负责提取情感特征;同时,在两个通道中均引入注意力机制以更好地提取关键信息,并且均采用预训练模型BERT提供词向量,通过BERT依据上下文语境对词向量的动态调整,将真实情感语义嵌入到模型;最后,通过对双通道的语义特征与情感特征进行融合,获取最终语义表达。实验结果表明,相比其他词向量工具,BERT的特征提取能力更强,而情感信息通道和注意力机制增强了模型捕捉情感语义的能力,明显提升了情感分类性能,且在收敛速度和稳定性上更优。 展开更多
关键词 文本情感分析 深度学习 基于变换器的双向编码器表征技术 双通道 注意力 双向门控循环单元
在线阅读 下载PDF
基于BBCAL模型的法条自动推送方法 被引量:5
8
作者 张青 王肖霞 +1 位作者 孙豫峰 杨风暴 《计算机工程与设计》 北大核心 2022年第3期827-834,共8页
针对公益诉讼案件内容复杂难以理解,专业术语特征难以有效提取等问题,提出一种面向公益诉讼案件的法条自动推送模型。使用BERT模型获取案件词向量,引入BiLSTM模型挖掘词向量更深层次的含义,解决长期依赖问题,设计CNN不同的卷积核尺寸提... 针对公益诉讼案件内容复杂难以理解,专业术语特征难以有效提取等问题,提出一种面向公益诉讼案件的法条自动推送模型。使用BERT模型获取案件词向量,引入BiLSTM模型挖掘词向量更深层次的含义,解决长期依赖问题,设计CNN不同的卷积核尺寸提取不同粒度的专业术语特征信息,引入注意力机制,获取与当前任务最相关的特征。实验结果表明,在公益诉讼案件数据上,该方法的法条自动推送F1值为89.04%,相比传统的方法效果均有提高,验证了其可行性。 展开更多
关键词 公益诉讼案件 法条自动推送 基于变换器的双向编码器表征技术 卷积神经网络 注意力机制
在线阅读 下载PDF
基于BERT-CNN的Webshell流量检测系统设计与实现 被引量:7
9
作者 江魁 余志航 +1 位作者 陈小雷 李宇豪 《计算机应用》 CSCD 北大核心 2023年第S01期126-132,共7页
Webshell是一种网站后门程序,常被黑客用于入侵服务器后对服务器进行控制,给网站带来严重的安全隐患。针对以往基于流量的机器学习检测Webshell方法存在特征选择不全、向量化不准确、模型设计不合理导致的检测效果不佳问题,设计并实现... Webshell是一种网站后门程序,常被黑客用于入侵服务器后对服务器进行控制,给网站带来严重的安全隐患。针对以往基于流量的机器学习检测Webshell方法存在特征选择不全、向量化不准确、模型设计不合理导致的检测效果不佳问题,设计并实现了一种将基于变换器的双向编码器表示技术(BERT)与卷积神经网络(CNN)相结合的Webshell流量检测系统,通过分析超文本传输协议(HTTP)报文中各个字段信息,提取其中具有Webshell信息的特征字段,使用BERT模型对特征进行向量化编码,并结合一维CNN模型从不同空间维度检测特征建立分类模型,最后使用模型对流量数据进行检测调优。实验结果表明,与以往基于流量检测方法相比,该检测系统在准确率、召回率和F1值等性能指标上表现更好,分别达到99.84%、99.83%、99.84%。 展开更多
关键词 Webshell检测 深度学习 流量检测 基于变换器的双向编码器表示 卷积神经网络
在线阅读 下载PDF
融合BERT的多层次语义协同模型情感分析研究 被引量:16
10
作者 胡任远 刘建华 +2 位作者 卜冠南 张冬阳 罗逸轩 《计算机工程与应用》 CSCD 北大核心 2021年第13期176-184,共9页
由于基于变换器的双向编码器表征技术(Bidirectional Encoder Representations from Transformers,BERT)的提出,改变了传统神经网络解决句子级文本情感分析问题的方法。目前的深度学习模型BERT本身学习模式为无监督学习,其需要依赖后续... 由于基于变换器的双向编码器表征技术(Bidirectional Encoder Representations from Transformers,BERT)的提出,改变了传统神经网络解决句子级文本情感分析问题的方法。目前的深度学习模型BERT本身学习模式为无监督学习,其需要依赖后续任务补全推理和决策环节,故存在缺乏目标领域知识的问题。提出一种多层协同卷积神经网络模型(Multi-level Convolutional Neural Network,MCNN),该模型能学习到不同层次的情感特征来补充领域知识,并且使用BERT预训练模型提供词向量,通过BERT学习能力的动态调整将句子真实的情感倾向嵌入模型,最后将不同层次模型输出的特征信息同双向长短期记忆网络输出信息进行特征融合后计算出最终的文本情感性向。实验结果表明即使在不同语种的语料中,该模型对比传统神经网络和近期提出的基于BERT深度学习的模型,情感极性分类的能力有明显提升。 展开更多
关键词 深度学习 文本情感分析 基于变换器的双向编码器表征技术(BERT) 卷积神经网络(CNN) 协同结构
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部