期刊文献+
共找到27篇文章
< 1 2 >
每页显示 20 50 100
利用BERT和覆盖率机制改进的HiNT文本检索模型 被引量:2
1
作者 邸剑 刘骏华 曹锦纲 《智能系统学报》 CSCD 北大核心 2024年第3期719-727,共9页
为有效提升文本语义检索的准确度,本文针对当前文本检索模型衡量查询和文档的相关性时不能很好地解决文本歧义和一词多义等问题,提出一种基于改进的分层神经匹配模型(hierarchical neural matching model,HiNT)。该模型先对文档的各个... 为有效提升文本语义检索的准确度,本文针对当前文本检索模型衡量查询和文档的相关性时不能很好地解决文本歧义和一词多义等问题,提出一种基于改进的分层神经匹配模型(hierarchical neural matching model,HiNT)。该模型先对文档的各个段提取关键主题词,然后用基于变换器的双向编码器(bidirectional encoder representations from transformers,BERT)模型将其编码为多个稠密的语义向量,再利用引入覆盖率机制的局部匹配层进行处理,使模型可以根据文档的局部段级别粒度和全局文档级别粒度进行相关性计算,提高检索的准确率。本文提出的模型在MS MARCO和webtext2019zh数据集上与多个检索模型进行对比,取得了最优结果,验证了本文提出模型的有效性。 展开更多
关键词 基于变换器的双向编码器 分层神经匹配模型 覆盖率机制 文本检索 语义表示 特征提取 自然语言处理 相似度 多粒度
在线阅读 下载PDF
大语言模型驱动的立场感知事实核查 被引量:1
2
作者 姜雨杉 张仰森 《计算机应用》 CSCD 北大核心 2024年第10期3067-3073,共7页
为解决事实核查领域的证据立场不平衡和忽略立场信息的问题,提出一种大语言模型(LLM)驱动的立场感知事实核查(LLM-SA)方法。首先,使用LLM推理并生成一系列与原始声明立场不同的辩证声明,使事实核查任务能够获取不同立场的视角;其次,通... 为解决事实核查领域的证据立场不平衡和忽略立场信息的问题,提出一种大语言模型(LLM)驱动的立场感知事实核查(LLM-SA)方法。首先,使用LLM推理并生成一系列与原始声明立场不同的辩证声明,使事实核查任务能够获取不同立场的视角;其次,通过语义相似度计算衡量每个证据句子与原始声明及辩证声明之间的相关性,并从证据句子中分别选择与两者语义上最相近的k个句子,作为支持或反对原始声明的证据,从而获得代表不同立场的证据,有助于事实核查模型综合多角度的信息,更准确地评估声明的真实性;最后,引入BERT-StuSE(Bidirectional Encoder Representations from Transformers-based Stance-infused Semantic Encoding network)模型,利用多头注意力机制充分融合证据的语义和立场信息,并更全面、客观地判断声明和证据的关系。在CHEF数据集上的实验结果表明,与BERT方法相比,所提方法在测试集上的Micro F1值和Macro F1值分别提高了3.52、3.90个百分点,达到较好的水平。验证了所提方法的有效性,以及考虑不同立场的证据和充分利用证据的立场信息对事实核查的性能提升具有重要意义。 展开更多
关键词 事实核查 自然语言处理 语言模型 提示工程 立场感知 多头注意力机制
在线阅读 下载PDF
基于动态多头注意力机制的藏文语言模型 被引量:6
3
作者 张英 拥措 于韬 《计算机工程与设计》 北大核心 2023年第12期3707-3713,共7页
针对预训练过程中大规模训练语料句子长度跨度较大、特征数量不定的情况,提出一种基于动态多头注意力机制的藏文ALBERT语言模型。在训练过程中根据句子的词数动态获得注意力机制的头数,使语言模型可以捕获重要的特征信息,在藏文公开数据... 针对预训练过程中大规模训练语料句子长度跨度较大、特征数量不定的情况,提出一种基于动态多头注意力机制的藏文ALBERT语言模型。在训练过程中根据句子的词数动态获得注意力机制的头数,使语言模型可以捕获重要的特征信息,在藏文公开数据集TNCC上进行验证。实验结果表明,改进后的预训练模型能够动态学习句子中的重要特征,在目前的TNCC文本分类任务上F1值均取得最优,其长文本分类及短文本分类任务的Macro F1值分别为73.23%、64.47%。 展开更多
关键词 注意力机制 动态注意力头数 藏文 预训练语言模型 文本分类 卷积神经网络 自然语言处理
在线阅读 下载PDF
基于特征对齐融合的双波段图像描述生成方法
4
作者 顾梦瑶 蔺素珍 +1 位作者 晋赞霞 李烽源 《现代电子技术》 北大核心 2025年第7期65-71,共7页
为了获得更准确、全面的现场信息,采用红外和可见光同步成像探测复杂场景已成为常态,但现有图像描述研究仍集中于可见光图像,无法全面而准确地描述已探测到的场景信息。为此,文中提出一种基于特征对齐融合的可见光⁃红外双波段图像描述... 为了获得更准确、全面的现场信息,采用红外和可见光同步成像探测复杂场景已成为常态,但现有图像描述研究仍集中于可见光图像,无法全面而准确地描述已探测到的场景信息。为此,文中提出一种基于特征对齐融合的可见光⁃红外双波段图像描述生成方法。首先,利用Faster⁃RCNN分别提取可见光图像的区域特征和红外图像的网格特征;其次,以Transformer为基本架构,在可见光⁃红外图像对齐融合(VIIAF)编码器中引入位置信息做桥接,进行可见光⁃红外图像特征的对齐与融合;接着,将融合得到的视觉信息输入Transformer解码器中得到粗粒度文本的隐藏状态;最后将编码器输出的视觉信息、解码器得到的隐藏状态与经训练的Bert输出的语言信息输入所设计的自适应模块,使视觉信息和语言信息参与文本预测,实现文本由粗到细的图像描述。在可见光图像⁃红外图像描述数据集上进行的多组实验表明:所提方法不仅能够精确捕捉到可见光和红外图像间的互补信息,而且与使用Transformer的最优模型相比,其性能在BLEU⁃1、BLEU⁃2、BLEU⁃3、BLEU⁃4、METROR、ROUGE以及CIDEr指标上分别提高1.9%、2.1%、2.0%、1.8%、1.3%、1.4%、4.4%。 展开更多
关键词 图像描述 波段 特征对齐融合 注意力机制 TRANSFORMER 语言模型 Bert 自适应
在线阅读 下载PDF
自然语言处理中的预训练范式 被引量:20
5
作者 冯志伟 李颖 《外语研究》 CSSCI 北大核心 2021年第1期1-14,112,共15页
从2017年以来,自然语言处理中提出了“预训练+微调+师生学习”的新范式。这种新范式是自然语言处理的第四代范式,它代表着自然语言处理未来发展的方向。本文讨论自然语言处理中的这种新范式,分别介绍迁移学习、预训练、微调的原理和方法... 从2017年以来,自然语言处理中提出了“预训练+微调+师生学习”的新范式。这种新范式是自然语言处理的第四代范式,它代表着自然语言处理未来发展的方向。本文讨论自然语言处理中的这种新范式,分别介绍迁移学习、预训练、微调的原理和方法,并说明它们在Transformer、BERT、UniLM和Unicoder等模型中的应用。 展开更多
关键词 自然语言处理 范式 预训练模型 迁移学习 注意力机制 微调
在线阅读 下载PDF
基于语言和视觉融合Transformer的指代图像分割 被引量:2
6
作者 段勇 刘铁 《传感技术学报》 CAS CSCD 北大核心 2024年第7期1193-1201,共9页
针对指代图像分割任务中存在语言表达歧义、多模态特征对齐不充分、对图像整体理解不全面等问题,提出一种基于Transformer特征融合与对齐的多模态深度学习模型。该模型使用优化的Darknet53图像特征提取骨干网络,加强了对全局特征理解能... 针对指代图像分割任务中存在语言表达歧义、多模态特征对齐不充分、对图像整体理解不全面等问题,提出一种基于Transformer特征融合与对齐的多模态深度学习模型。该模型使用优化的Darknet53图像特征提取骨干网络,加强了对全局特征理解能力。使用了卷积神经网络结构、双向门控循环单元Bi-GRU结构和自注意力机制相互结合的语言特征提取结构,挖掘深层次语义特征,消除语言表达的歧义性。构建了基于Transformer的特征对齐结构,以提升模型的分割细节和分割精度。最后,采用平均的交并比mIoU和在不同阈值的识别精度作为模型评估指标,通过实验证明所提模型可以充分融合多模态的特征,理解多模态特征的深层语义信息,模型识别结果更加准确。 展开更多
关键词 深度学习 指代图像分割 自然语言处理 注意力机制 Transformer模型
在线阅读 下载PDF
面向双注意力网络的特定方面情感分析模型 被引量:19
7
作者 孙小婉 王英 +1 位作者 王鑫 孙玉东 《计算机研究与发展》 EI CSCD 北大核心 2019年第11期2384-2395,共12页
特定方面情感分析已经成为自然语言处理领域的研究热点,其通过学习文本上下文的信息判别文本中特定方面的情感极性,可以更加有效地帮助人们了解用户对不同方面的情感表达.当前,将注意力机制和神经网络相结合的模型在解决特定方面情感分... 特定方面情感分析已经成为自然语言处理领域的研究热点,其通过学习文本上下文的信息判别文本中特定方面的情感极性,可以更加有效地帮助人们了解用户对不同方面的情感表达.当前,将注意力机制和神经网络相结合的模型在解决特定方面情感分析任务时大多仅考虑单一层面的注意力信息,并且卷积神经网络无法获取全局结构信息、循环神经网络训练时间过长且单词间的依赖程度随着距离增加而逐渐减弱.针对上述问题,提出一种面向双注意力网络的特定方面情感分析(dual-attention networks for aspect-level sentiment analysis,DANSA)模型.首先,引入多头注意力机制,通过对输入进行多次不同的线性变换操作,获取更全面的注意力信息,同时,多头注意力机制可以实现并行化计算,保证了DANSA的训练速度.其次,DANSA引入自注意力机制,通过计算输入中每个单词与其他所有单词的注意力得分获取全局结构信息,并且单词间的依赖程度不会受到时间和句子长度的影响.最后,融合上下文自注意力信息与特定方面单词注意力信息,共同作为特定方面情感预测的依据,最终实现特定方面情感极性的预测.相比结合注意力机制的神经网络,DANSA弥补了注意力信息单一问题,不仅可以有效获取全局结构信息,还能够实现并行化计算,大大降低了训练时间.在SemEval2014数据集和Twitter数据集上进行实验,DANSA获得了更好的分类效果,进一步证明了DANSA的有效性. 展开更多
关键词 特定方面情感分析 自注意力机制 多头注意力机制 注意力网络 自然语言处理
在线阅读 下载PDF
一种注意力增强的自然语言推理模型 被引量:2
8
作者 李冠宇 张鹏飞 贾彩燕 《计算机工程》 CAS CSCD 北大核心 2020年第7期91-97,共7页
在自然语言处理任务中使用注意力机制可准确衡量单词重要度。为此,提出一种注意力增强的自然语言推理模型aESIM。将词注意力层以及自适应方向权重层添加到ESIM模型的双向LSTM网络中,从而更有效地学习单词与句子表示,同时提高前提与假设... 在自然语言处理任务中使用注意力机制可准确衡量单词重要度。为此,提出一种注意力增强的自然语言推理模型aESIM。将词注意力层以及自适应方向权重层添加到ESIM模型的双向LSTM网络中,从而更有效地学习单词与句子表示,同时提高前提与假设文本之间局部推理的建模效率。在SNLI、MultiNLI及Quora数据集上的实验结果表明,与ESIM、HBMP、SSE等模型相比,aESIM模型的准确率能够提升0.5%~1%。 展开更多
关键词 自然语言处理 自然语言推理 ESIM模型 注意力机制 向LSTM网络
在线阅读 下载PDF
基于TF-IDF和多头注意力Transformer模型的文本情感分析 被引量:14
9
作者 高佳希 黄海燕 《华东理工大学学报(自然科学版)》 CAS CSCD 北大核心 2024年第1期129-136,共8页
文本情感分析旨在对带有情感色彩的主观性文本进行分析、处理、归纳和推理,是自然语言处理中一项重要任务。针对现有的计算方法不能充分处理复杂度和混淆度较高的文本数据集的问题,提出了一种基于TF-IDF(Term Frequency-Inverse Documen... 文本情感分析旨在对带有情感色彩的主观性文本进行分析、处理、归纳和推理,是自然语言处理中一项重要任务。针对现有的计算方法不能充分处理复杂度和混淆度较高的文本数据集的问题,提出了一种基于TF-IDF(Term Frequency-Inverse Document Frequency)和多头注意力Transformer模型的文本情感分析模型。在文本预处理阶段,利用TF-IDF算法对影响文本情感倾向较大的词语进行初步筛选,舍去常见的停用词及其他文本所属邻域对文本情感倾向影响较小的专有名词。然后,利用多头注意力Transformer模型编码器进行特征提取,抓取文本内部重要的语义信息,提高模型对语义的分析和泛化能力。该模型在多领域、多类型评论语料库数据集上取得了98.17%的准确率。 展开更多
关键词 文本情感分析 自然语言处理 多头注意力机制 TF-IDF算法 Transformer模型
在线阅读 下载PDF
汉语后部失语患者语言障碍个案研究 被引量:4
10
作者 王小丽 崔刚 李玲 《中国康复医学杂志》 CAS CSCD 北大核心 2017年第4期402-408,418,共8页
目的:对病灶局限的汉语后部失语患者的语言受损和语言保留情况进行个案分析,验证语言处理的双机制假说,并为临床语言治疗提供相关神经语言学依据。方法:选取1例病灶局限的枕、顶、颞叶受损的后部失语患者,通过自然交谈和西部失语症量表... 目的:对病灶局限的汉语后部失语患者的语言受损和语言保留情况进行个案分析,验证语言处理的双机制假说,并为临床语言治疗提供相关神经语言学依据。方法:选取1例病灶局限的枕、顶、颞叶受损的后部失语患者,通过自然交谈和西部失语症量表检查(WAB)检测收集语料,并辅以图片命名及句子复述等任务,全面检测和分析汉语后部失语患者的语言障碍,重点关注其句法-词汇分离,以及与之相关的名—动分离现象。结果:颞叶受损患者词汇受损严重,句法保留相对较好;词汇理解较好,但是产出困难;词汇产出存在名动分离现象,呈现出名词特异性损伤的特点。结论:汉语后部失语患者句法保留较好、词汇受损严重,以及相关的名动分离的事实,一方面为语言处理的词汇—规则双机制假说提供有力证据,另一方面为汉语后部失语患者的语言有效康复方面提供神经语言学依据。 展开更多
关键词 后部失语 句法.词汇分离 名词-动词分离 语言处理的双机制模型 语言康复
在线阅读 下载PDF
对象层次上的XML数据绑定模型的研究 被引量:5
11
作者 李青山 陈平 《西安电子科技大学学报》 EI CAS CSCD 北大核心 2001年第6期768-771,共4页
基于互联网应用系统以合适和高效的方式操纵XML结构化数据非常重要 .通过对文档对象模型和XML简易访问接口两类应用程序接口特点的分析 ,建立了XML模式到类层次的影射关系 ,讨论了对象层次上的XML数据绑定模型 .数据绑定处理过程简洁而... 基于互联网应用系统以合适和高效的方式操纵XML结构化数据非常重要 .通过对文档对象模型和XML简易访问接口两类应用程序接口特点的分析 ,建立了XML模式到类层次的影射关系 ,讨论了对象层次上的XML数据绑定模型 .数据绑定处理过程简洁而快速 ,适用于服务器端的应用系统和处理效率要求很高的应用系统 .最后 。 展开更多
关键词 XML处理机制 XML模式 数据绑定模型 对象影射 XML语言
在线阅读 下载PDF
基于改进编解码器和情感词典的对话生成模型 被引量:2
12
作者 张顺香 李健 +2 位作者 朱广丽 李晓庆 魏苏波 《计算机工程与设计》 北大核心 2023年第2期570-575,共6页
针对现有对话模型生成的回复语句缺乏情感共鸣、拟人效果不够理想的问题,提出一种基于改进编解码器和情感词典的对话生成模型。利用AgSeq2Seq模型对语料库进行训练并构建高质量对话生成系统,结合情感词典识别输入语句的情绪特征并计算... 针对现有对话模型生成的回复语句缺乏情感共鸣、拟人效果不够理想的问题,提出一种基于改进编解码器和情感词典的对话生成模型。利用AgSeq2Seq模型对语料库进行训练并构建高质量对话生成系统,结合情感词典识别输入语句的情绪特征并计算回复语句的情感值,基于情绪对比机制根据不同的情感特征生成相应的拟人回复。实验结果表明,相对传统的对话生成模型,提出模型可以主动识别用户情绪,生成更加合乎逻辑、适应语境的回复,实现拟人程度更高的情感对话过程。 展开更多
关键词 自然语言处理 对话模型 文本生成 情感词典 深度学习 序列到序列 注意力机制
在线阅读 下载PDF
基于CNN-BLSTM的化妆品违法违规行为分类模型 被引量:1
13
作者 胡康 何思宇 +1 位作者 左敏 葛伟 《智能系统学报》 CSCD 北大核心 2021年第6期1151-1157,共7页
针对化妆品安全监管部门抽样检测所含违法违规行为自动识别且分类困难的问题,建立语义分类自动识别模型,辅助有关部门构建智能化管理体系,依靠数据实现科学决策及有效监管。本文分别使用中文词向量及字向量作为双路模型输入,采用CNN(con... 针对化妆品安全监管部门抽样检测所含违法违规行为自动识别且分类困难的问题,建立语义分类自动识别模型,辅助有关部门构建智能化管理体系,依靠数据实现科学决策及有效监管。本文分别使用中文词向量及字向量作为双路模型输入,采用CNN(convolutional neural network)网络模型训练字向量,BLSTM(bidirectional long short-term memory)网络模型训练词向量,并在BLSTM中引入位置注意力机制,构建基于CNNBLSTM的字词双维度化妆品违法违规行为分类模型。在染发类化妆品抽样检测数据集上进行的对比实验结果表明,CNN-BLSTM模型准确率比常用的几种深度神经网络模型均有明显提高,验证了其合理性和有效性。 展开更多
关键词 化妆品 维度模型 自然语言处理 位置感知 注意力机制 卷积神经网络 向长短时记忆网络
在线阅读 下载PDF
基于ProtBert预训练模型的HLA-Ⅰ和多肽的结合预测算法 被引量:1
14
作者 周丰丰 张亚琪 《吉林大学学报(理学版)》 CAS 北大核心 2023年第3期651-657,共7页
针对现有的第Ⅰ类HLA(HLA-Ⅰ)分子与多肽结合亲和力预测算法在特征构造时依赖传统序列评分函数的问题,为突破用经典机器学习算法构造氨基酸序列特征的局限性,提出一种基于蛋白质预训练模型ProtBert的HLA-Ⅰ与多肽的结合预测算法ProHLAⅠ... 针对现有的第Ⅰ类HLA(HLA-Ⅰ)分子与多肽结合亲和力预测算法在特征构造时依赖传统序列评分函数的问题,为突破用经典机器学习算法构造氨基酸序列特征的局限性,提出一种基于蛋白质预训练模型ProtBert的HLA-Ⅰ与多肽的结合预测算法ProHLAⅠ.该算法利用生命体语言与文本语言在组成上的共性,将氨基酸序列类比句子,通过整合ProtBert预训练模型、BiLSTM编码和注意力机制的网络结构优势,对HLA-Ⅰ序列和多肽序列进行特征提取,从而实现HLA-Ⅰ独立于位点的多肽结合预测.实验结果表明,该模型在两组独立测试集中均取得了最优性能. 展开更多
关键词 HLA-Ⅰ结合肽预测 自然语言处理 注意力机制 BERT模型 向长短期记忆模型(BiLSTM)
在线阅读 下载PDF
辅助判决的案情要素关联与证据提取
15
作者 刘衍伦 肖正 +2 位作者 聂振宇 乐雨泉 李肯立 《计算机科学》 北大核心 2025年第2期222-230,共9页
研究人员曾致力于通过案件匹配的方法找到相似的案件,但案件匹配的方法依赖于文本相似性,文本相似并不等同于案件相似;而且案件匹配的方法普遍缺乏解释性。为了克服案件匹配的缺点,定义了一个新问题,即案情要素关联与证据提取。该问题... 研究人员曾致力于通过案件匹配的方法找到相似的案件,但案件匹配的方法依赖于文本相似性,文本相似并不等同于案件相似;而且案件匹配的方法普遍缺乏解释性。为了克服案件匹配的缺点,定义了一个新问题,即案情要素关联与证据提取。该问题旨在基于案情要素而非文本相似性来预测关联结果,并提取关键事实细节作为证据以解释关联结果,这一新问题更符合法律从业者的实际需求。为了使所提出的模型在这一新问题上表现更好,引入了对比学习,以解决模型在获取文本表征时过度依赖案情要素直接表达的问题,从而使注意力权重均衡分布在相同案情要素的不同表达上,进而提升模型效果。在公开数据集和自建数据集上进行了实验。实验结果表明,与文本匹配模型相比,所提模型在accuracy和precision上均提高了约20%,在recall和F1上均提高了约30%。 展开更多
关键词 对比学习 案件关联 注意力机制 预训练语言模型 自然语言处理
在线阅读 下载PDF
基于ELMo和Transformer混合模型的情感分析 被引量:19
16
作者 赵亚欧 张家重 +1 位作者 李贻斌 王玉奎 《中文信息学报》 CSCD 北大核心 2021年第3期115-124,共10页
针对循环神经网络模型无法直接提取句子的双向语义特征,以及传统的词嵌入方法无法有效表示一词多义的问题,该文提出了基于ELMo和Transformer的混合模型用于情感分类。首先,该模型利用ELMo模型生成词向量。基于双向LSTM模型,ELMo能够在... 针对循环神经网络模型无法直接提取句子的双向语义特征,以及传统的词嵌入方法无法有效表示一词多义的问题,该文提出了基于ELMo和Transformer的混合模型用于情感分类。首先,该模型利用ELMo模型生成词向量。基于双向LSTM模型,ELMo能够在词向量中进一步融入词语所在句子的上下文特征,并能针对多义词的不同语义生成不同的语义向量。然后,将得到的ELMo词向量输入Transformer模型进行情感分类。为了实现分类,该文修改了Transformer的Encoder和Decoder结构。ELMo和Transformer的混合模型是循环神经网络和自注意力的组合,两种结构可从不同侧面提取句子的语义特征,得到的语义信息更加全面、丰富。实验结果表明,该方法与当前主流方法相比,在NLPCC2014 Task2数据集上分类正确率提高了3.52%;在酒店评论的4个子数据集上分类正确率分别提高了0.7%、2%、1.98%和1.36%。 展开更多
关键词 情感分析 ELMo模型 Transformer模型 多头自注意力机制 自然语言处理
在线阅读 下载PDF
基于双编码器结构的文本自动摘要研究 被引量:7
17
作者 冯读娟 杨璐 严建峰 《计算机工程》 CAS CSCD 北大核心 2020年第6期60-64,共5页
为了解决序列到序列模型中编码器不能充分编码源文本的问题,构建一种基于双编码器网络结构的CGAtten-GRU模型。2个编码器分别使用卷积神经网络和双向门控循环单元,源文本并行进入双编码器,结合2种编码网络结构的输出结果构建注意力机制... 为了解决序列到序列模型中编码器不能充分编码源文本的问题,构建一种基于双编码器网络结构的CGAtten-GRU模型。2个编码器分别使用卷积神经网络和双向门控循环单元,源文本并行进入双编码器,结合2种编码网络结构的输出结果构建注意力机制,解码器端使用GRU网络融合Copy机制和集束搜索方法,以提高解码的准确度。在大规模中文短文本摘要数据集LCSTS上的实验结果表明,与RNN context模型相比,该模型的Rouge-1、Rouge-2和Rouge-L分别提高0.1、0.059和0.046。 展开更多
关键词 自然语言处理 生成式摘要 卷积神经网络 门控循环单元 注意力机制 序列到序列模型 Copy机制
在线阅读 下载PDF
SemFA:基于语义特征与关联注意力的大规模多标签文本分类模型 被引量:4
18
作者 王振东 董开坤 +1 位作者 黄俊恒 王佰玲 《计算机科学》 CSCD 北大核心 2023年第12期270-278,共9页
大规模多标签文本分类(XMTC)是从一个庞大且复杂的标签集合中查找与文本样本最相关标签的一项具有挑战性的任务。目前,基于Transformer模型的深度学习方法在XMTC上取得了巨大的成功。然而,现有方法都没能充分利用Transformer模型的优势... 大规模多标签文本分类(XMTC)是从一个庞大且复杂的标签集合中查找与文本样本最相关标签的一项具有挑战性的任务。目前,基于Transformer模型的深度学习方法在XMTC上取得了巨大的成功。然而,现有方法都没能充分利用Transformer模型的优势,忽略了文本不同粒度下细微的局部语义信息,同时标签与文本之间的潜在关联尚未得到稳健的建立与利用。对此,提出了一种基于语义特征与关联注意力的大规模多标签文本分类模型SemFA(An Extreme Multi-Label Text Classification Model Based on Semantic Features and Association-Attention)。在SemFA中,首先拼接多层编码器顶层输出作为全局特征。其次,结合卷积神经网络从多层编码器浅层向量中获取局部特征。综合丰富的全局信息和不同粒度下细微的局部信息获得更丰富、更准确的语义特征。最后,通过关联注意力机制建立标签特征与文本特征之间的潜在关联,引入关联损失作为潜在关联不断优化模型。在Eurlex-4K和Wiki10-31K两个公开数据集上的实验结果表明,SemFA优于大多数现有的XMTC模型,能有效地融合语义特征与关联注意力,提升整体的分类性能。 展开更多
关键词 自然语言处理 大规模多标签文本分类 语义特征 预训练模型 注意力机制
在线阅读 下载PDF
基于先验MASK注意力机制的视频问答方案 被引量:2
19
作者 许振雷 董洪伟 《计算机工程》 CAS CSCD 北大核心 2021年第2期52-59,共8页
视频问答是深度学习领域的研究热点之一,广泛应用于安防和广告等系统中。在注意力机制框架下,建立先验MASK注意力机制模型,使用Faster R-CNN模型提取视频关键帧以及视频中的对象标签,将其与问题文本特征进行3种注意力加权,利用MASK屏蔽... 视频问答是深度学习领域的研究热点之一,广泛应用于安防和广告等系统中。在注意力机制框架下,建立先验MASK注意力机制模型,使用Faster R-CNN模型提取视频关键帧以及视频中的对象标签,将其与问题文本特征进行3种注意力加权,利用MASK屏蔽与问题无关的答案,从而增强模型的可解释性。实验结果表明,该模型在视频问答任务中的准确率达到61%,与VQA+、SA+等视频问答模型相比,其具有更快的预测速度以及更好的预测效果。 展开更多
关键词 视频问答 计算机视觉 自然语言处理 注意力机制 MASK模型
在线阅读 下载PDF
融合语义角色和自注意力机制的中文文本蕴含识别 被引量:9
20
作者 张志昌 曾扬扬 庞雅丽 《电子学报》 EI CAS CSCD 北大核心 2020年第11期2162-2169,共8页
文本蕴含识别旨在识别两个给定句子之间的逻辑关系.本文通过构造语义角色和自注意力机制融合模块,把句子的深层语义信息与Transformer模型的编码部分相结合,从而增强自注意力机制捕获句子语义的能力.针对中文文本蕴含识别在数据集上存... 文本蕴含识别旨在识别两个给定句子之间的逻辑关系.本文通过构造语义角色和自注意力机制融合模块,把句子的深层语义信息与Transformer模型的编码部分相结合,从而增强自注意力机制捕获句子语义的能力.针对中文文本蕴含识别在数据集上存在规模小和噪声大的问题,使用大规模预训练语言模型能够提升模型在小规模数据集上的识别性能.实验结果表明,提出的方法在第十七届中国计算语言学大会中文文本蕴含识别评测数据集CNLI上的准确率达到了80.28%. 展开更多
关键词 自然语言处理 文本蕴含 自注意力机制 语义角色标注 预训练语言模型
在线阅读 下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部