期刊文献+
共找到7篇文章
< 1 >
每页显示 20 50 100
基于片段抽取原型网络的古籍文本断句标点提示学习方法
1
作者 高颖杰 林民 +2 位作者 斯日古楞 李斌 张树钧 《计算机应用》 CSCD 北大核心 2024年第12期3815-3822,共8页
针对古籍信息处理中自动断句及标点任务依赖大规模标注语料的现象,在考虑高质量、大规模样本的训练成本昂贵且难以获取的背景下,提出一种基于片段抽取原型网络的古籍文本断句标点提示学习方法。首先,通过对支持集加入结构化提示信息形... 针对古籍信息处理中自动断句及标点任务依赖大规模标注语料的现象,在考虑高质量、大规模样本的训练成本昂贵且难以获取的背景下,提出一种基于片段抽取原型网络的古籍文本断句标点提示学习方法。首先,通过对支持集加入结构化提示信息形成有效的提示模板,从而提高模型的学习效率;其次,结合标点位置提取器和原型网络分类器,有效减少传统序列标注方法中的误判影响及非标点标签的干扰。实验结果表明,与Siku-BERT-BiGRU-CRF(Siku-Bidirectional Encoder Representation from Transformer-Bidirectional Gated Recurrent Unit-Conditional Random Field)方法相比,在《史记》数据集上所提方法的F1值提升了2.47个百分点。此外,在公开的多领域古籍数据集CCLUE上,所提方法的精确率和F1值分别达到了91.60%和93.12%,说明所提方法利用少量训练样本就能对多领域古籍进行有效的自动断句标点。因此,所提方法为多领域古籍文本的自动断句及标点任务的深入研究以及提高模型的学习效率提供了新的思路和方法。 展开更多
关键词 古籍智能整理 片段抽取原型网络 提示学习 自动断句标点 深度学习
在线阅读 下载PDF
片段抽取型机器阅读理解算法研究 被引量:4
2
作者 叶俊民 赵晓丽 +1 位作者 杜翔 姚贤坦 《计算机应用研究》 CSCD 北大核心 2021年第11期3268-3273,共6页
针对现有的机器阅读理解模型主要使用循环模型处理文本序列信息,这容易导致训练和预测速度慢且模型预测准确性不高等问题,提出了一种片段抽取型机器阅读理解算法QA-Reader。该算法利用大型预训练语言模型RoBERTa-www-ext获取问题和上下... 针对现有的机器阅读理解模型主要使用循环模型处理文本序列信息,这容易导致训练和预测速度慢且模型预测准确性不高等问题,提出了一种片段抽取型机器阅读理解算法QA-Reader。该算法利用大型预训练语言模型RoBERTa-www-ext获取问题和上下文的词嵌入表示;使用深度可分离卷积和多头自注意力机制进行编码;计算上下文和问题的双向注意力及上下文的自注意力,以融合上下文和问题之间的关联信息,拼接得到最终的语义表征;经过模型编码器预测得到答案,模型针对不可回答的问题计算了其不可回答的概率。在中文片段抽取型机器阅读理解数据集上进行了实验,结果表明QA-Reader模型与基线模型相比,其性能方面EM和F 1值分别提高了3.821%、2.740%,训练速度提高了0.089%。 展开更多
关键词 机器阅读理解 片段抽取型机器阅读理解 RoBERTa-www-ext 卷积神经网络 注意力机制
在线阅读 下载PDF
多层面语义结构增强的对话情感诱因片段抽取
3
作者 秦鸣飞 付国宏 《计算机科学》 CSCD 北大核心 2023年第12期236-245,共10页
对话情感诱因片段抽取旨在从对话历史中抽取出诱发目标情感表达的原因片段,在情感对话系统中起到枢纽的作用。然而,已有方法抽取出的诱因片段仍存在话轮定位错误、边界识别错误等亟待解决的问题。为此,提出了一种多层面语义结构增强的... 对话情感诱因片段抽取旨在从对话历史中抽取出诱发目标情感表达的原因片段,在情感对话系统中起到枢纽的作用。然而,已有方法抽取出的诱因片段仍存在话轮定位错误、边界识别错误等亟待解决的问题。为此,提出了一种多层面语义结构增强的对话情感诱因片段抽取方法。该方法基于篇章层面的指代结构,增强对诱因片段所处话轮的定位;基于句子层面的句法结构,增强对诱因片段边界的识别。首先,依据预处理后的语义结构及对话内容特征表示,使用图注意力网络分别在词符级别与话轮级别构图、建模对话,并通过双仿射机制促进两种级别构图的交互与融合,从而获得结构增强的语义综合表示;然后,使用线性层抽取诱因片段。在两个公开数据集上进行实验,结果表明,与基准模型相比,该模型的F1值和EM_(pos)值最高分别提升了2.42%和2.26%;同时,在F1_(pos)和EM_(pos)指标上的性能均优于其他基线模型,且该模型也能有效兼容话轮级别的对话情感诱因蕴含。 展开更多
关键词 自然语言处理 结构增强 对话情感 诱因片段抽取 图注意力网络
在线阅读 下载PDF
面向散文阅读理解简答题的多片段答案关键句抽取方法
4
作者 侯祺积 李旸 +2 位作者 王素格 何东欢 李书琪 《中文信息学报》 北大核心 2025年第6期67-76,共10页
机器阅读理解是自然语言处理领域中一个非常重要的研究方向,近年来发布了许多中文阅读理解任务的数据集,但散文数据集的构建工作还略显不足。该文从散文阅读理解简答题的角度,构建了散文阅读理解简答题答案关键句数据集。在散文阅读理... 机器阅读理解是自然语言处理领域中一个非常重要的研究方向,近年来发布了许多中文阅读理解任务的数据集,但散文数据集的构建工作还略显不足。该文从散文阅读理解简答题的角度,构建了散文阅读理解简答题答案关键句数据集。在散文阅读理解简答题中,散文文本较长,答案关键句分散在多个段落中,现有模型对长文本输入的底层设计存在局限性。为此,该文提出一种多片段答案关键句抽取方法。该方法融合词形匹配和词语语义相似度,构建了问题与句子的相似度计算模型;设计了分块处理策略,缓解了长文本输入信息缺失问题;构建了问题与文本的相关性判别模型,实现了多片段答案关键句抽取。在该文构建的数据集上与其他方法进行比较实验,实验结果表明,该方法性能优于其他对比方法。 展开更多
关键词 散文阅读理解 片段抽取 关键句抽取 文本分块 相关性得分
在线阅读 下载PDF
基于多任务联合学习的多片段机器阅读理解方法研究
5
作者 张虎 范越 李茹 《中文信息学报》 CSCD 北大核心 2024年第11期79-90,共12页
片段抽取式阅读理解是机器阅读理解任务中的一项重要研究内容,现有的相关研究主要关注单片段抽取,然而,实际应用中很多阅读理解问题的答案由文本的多处不连续片段组成,这使得多片段抽取式阅读理解研究受到越来越多的关注。已有的多片段... 片段抽取式阅读理解是机器阅读理解任务中的一项重要研究内容,现有的相关研究主要关注单片段抽取,然而,实际应用中很多阅读理解问题的答案由文本的多处不连续片段组成,这使得多片段抽取式阅读理解研究受到越来越多的关注。已有的多片段抽取式阅读理解研究大都采用序列标注的方法,该方法不能有效识别多片段问题类型,常常对不同类型的问题给出多个答案片段。为此,该文提出一种结合动态预测片段数量和序列标注的多任务联合学习方法。其中,动态预测片段数量能较为准确地识别出多片段问题类型;序列标注能够实现多个答案片段的有效定位。同时,为了进一步增强现有模型的泛化能力,该文在模型训练中构造了对抗训练和两阶段训练方式。在2021中国法律智能技术评测(Challenge of AI in Law 2021,CAIL2021)数据集和QUOREF数据集上的实验结果表明,该文提出的方法相比基线模型取得了更好的效果。 展开更多
关键词 机器阅读理解 片段抽取 自然语言理解 多任务联合学习
在线阅读 下载PDF
融合动态交互和对比学习的机器阅读理解模型
6
作者 方宇涵 杨凡 张庆 《计算机应用》 北大核心 2025年第S1期30-36,共7页
针对抽取式机器阅读理解(MRC)任务中存在的抽取位置偏差、答案冗余和预训练语言模型样本数据不足的问题,提出一种融合动态交互和对比学习的MRC模型。首先,将预训练模型的解码层改进为交互预测层,并引入动态自注意力和动态查询机制预测答... 针对抽取式机器阅读理解(MRC)任务中存在的抽取位置偏差、答案冗余和预训练语言模型样本数据不足的问题,提出一种融合动态交互和对比学习的MRC模型。首先,将预训练模型的解码层改进为交互预测层,并引入动态自注意力和动态查询机制预测答案;其次,通过TopK算法从预训练模型输出的语义向量中选择关键位置,并通过多头自注意力机制增强这些位置的特征;再次,基于增强后的语义向量与静态查询向量计算动态查询向量,并且输出答案预测向量;最后,在损失计算阶段,构建负样本来实现对比学习,并引入三元损失以避免过拟合。实验结果显示,在CMRC2018(Chinese Machine Reading Comprehension 2018)中文数据集上,与基线模型RoBERTa-wwm-ext-large(Robustly optimized Bidirectional Encoder Representations from Transformers approach with whole word masking extended large)相比,所提模型的F1值和EM(Exact Match)值分别提高了1.82和1.29个百分点;在SQuADv1.1(Stanford Question Answering Dataset version 1.1)英文数据集上,与基线模型RoBERTa(Robustly optimized Bidirectional Encoder Representations from Transformers approach)相比,所提模型的F1值和EM值分别提高了1.18和0.58个百分点。表明所提模型优于大多数现有的MRC模型,且所提模型具有有效性和泛化性,可完成更精准和更可靠的阅读理解任务。 展开更多
关键词 机器阅读理解 预训练模型 片段抽取 动态交互 三元损失
在线阅读 下载PDF
面向机器阅读理解的边界感知方法
7
作者 刘青 陈艳平 +2 位作者 邹安琪 黄瑞章 秦永彬 《计算机应用》 CSCD 北大核心 2024年第7期2004-2010,共7页
针对现有的基于预训练语言模型的答案获取方法存在预测边界不够准确的问题,提出一种面向片段抽取式机器阅读理解(MRC)的边界感知方法。首先,在问题输入阶段引入特殊字符标记问题边界,通过增强问题语义信息的方式实现对问题边界的感知;其... 针对现有的基于预训练语言模型的答案获取方法存在预测边界不够准确的问题,提出一种面向片段抽取式机器阅读理解(MRC)的边界感知方法。首先,在问题输入阶段引入特殊字符标记问题边界,通过增强问题语义信息的方式实现对问题边界的感知;其次,在答案预测阶段,构建答案边界回归器,实现感知的问题边界语义信息与输出的预测答案边界语义信息的语义交互;最后,通过交互后的语义信息进一步调整存在偏差的预测答案边界,实现对预测答案的校准。实验结果表明,与SpanBERT(Span-based Bidirectional Encoder Representation from Transformers)相比,该方法在公共数据集SQuAD(Stanford Question Answering Dataset)1.1上的F1值提升了0.2个百分点、精确匹配(EM)值提升了0.9个百分点;在HotpotQA(Hotpot Question Answering)数据集上的F1值和EM值都提升了0.7个百分点;在NewsQA(News Question Answering)数据集上的F1值提升了2.8个百分点、EM值提升了3.3个百分点。可见,该方法能有效增强对问题边界信息的感知并且实现对预测答案边界的校准,有利于更好地理解和分析文本数据,在智能问答、智能客服等领域的应用中提高系统的准确性。 展开更多
关键词 机器阅读理解 问题边界感知 答案边界回归 片段抽取
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部