期刊文献+
共找到107篇文章
< 1 2 6 >
每页显示 20 50 100
基于人名语义特征的藏文机器阅读理解数据构建方法
1
作者 杨毛加 柔特 +2 位作者 才智杰 班玛宝 色差甲 《中文信息学报》 北大核心 2025年第5期51-59,共9页
机器阅读理解作为自然语言处理领域的重要技术,旨在通过构建智能系统实现对文本的深度理解,从而自动提取关键信息并准确回答相关问题。藏文机器阅读理解研究目前尚处于初级阶段,仍缺乏大规模数据集。该文在分析英汉机器阅读理解的基础上... 机器阅读理解作为自然语言处理领域的重要技术,旨在通过构建智能系统实现对文本的深度理解,从而自动提取关键信息并准确回答相关问题。藏文机器阅读理解研究目前尚处于初级阶段,仍缺乏大规模数据集。该文在分析英汉机器阅读理解的基础上,结合藏文语言特性,研究了藏文机器阅读理解数据集的构建方法,并采用人工、半自动和自动构建策略构建了藏文机器阅读理解数据集,其中包含27982个篇章和201124个段落、问题和答案三元组。该文提出的三种构建方法可以有效构建较大规模的藏文机器阅读理解数据集,为藏文机器阅读理解和下游自然语言理解任务奠定了基础。 展开更多
关键词 机器阅读理解 自然语言处理 人名语义特征 数据集
在线阅读 下载PDF
基于机器阅读理解的中文事件论元抽取方法
2
作者 马文杰 吴家帆 +2 位作者 陶建华 杨国花 张大伟 《中文信息学报》 北大核心 2025年第5期102-109,共8页
事件抽取任务旨在从文本中抽取出事件信息,包含事件类型检测和事件论元抽取两个子任务。目前的中文事件论元抽取方法存在着如下问题:(1)两段式论元抽取方法中存在误差累积;(2)现有模型在嵌套实体以及多实体抽取场景上表现较差;(3)现有... 事件抽取任务旨在从文本中抽取出事件信息,包含事件类型检测和事件论元抽取两个子任务。目前的中文事件论元抽取方法存在着如下问题:(1)两段式论元抽取方法中存在误差累积;(2)现有模型在嵌套实体以及多实体抽取场景上表现较差;(3)现有方法主要聚焦于抽取预先定义的样本类型事件,且比较依赖训练数据,因此对于新的以及样本极少的事件类型抽取效果较差。针对上述问题,该文将中文事件论元抽取任务重构为机器阅读理解任务,有效地缓解了上述误差累积、嵌套实体、多论元实体抽取效率低的问题。实验证明,该种建模方式能够有效地利用预训练语言模型的优势及事件类型等先验信息,具有很好的泛化性能,并且能很好地推广到新事件类型的论元角色的识别中。 展开更多
关键词 事件论元抽取 机器阅读理解 预训练语言模型
在线阅读 下载PDF
融合动态交互和对比学习的机器阅读理解模型
3
作者 方宇涵 杨凡 张庆 《计算机应用》 北大核心 2025年第S1期30-36,共7页
针对抽取式机器阅读理解(MRC)任务中存在的抽取位置偏差、答案冗余和预训练语言模型样本数据不足的问题,提出一种融合动态交互和对比学习的MRC模型。首先,将预训练模型的解码层改进为交互预测层,并引入动态自注意力和动态查询机制预测答... 针对抽取式机器阅读理解(MRC)任务中存在的抽取位置偏差、答案冗余和预训练语言模型样本数据不足的问题,提出一种融合动态交互和对比学习的MRC模型。首先,将预训练模型的解码层改进为交互预测层,并引入动态自注意力和动态查询机制预测答案;其次,通过TopK算法从预训练模型输出的语义向量中选择关键位置,并通过多头自注意力机制增强这些位置的特征;再次,基于增强后的语义向量与静态查询向量计算动态查询向量,并且输出答案预测向量;最后,在损失计算阶段,构建负样本来实现对比学习,并引入三元损失以避免过拟合。实验结果显示,在CMRC2018(Chinese Machine Reading Comprehension 2018)中文数据集上,与基线模型RoBERTa-wwm-ext-large(Robustly optimized Bidirectional Encoder Representations from Transformers approach with whole word masking extended large)相比,所提模型的F1值和EM(Exact Match)值分别提高了1.82和1.29个百分点;在SQuADv1.1(Stanford Question Answering Dataset version 1.1)英文数据集上,与基线模型RoBERTa(Robustly optimized Bidirectional Encoder Representations from Transformers approach)相比,所提模型的F1值和EM值分别提高了1.18和0.58个百分点。表明所提模型优于大多数现有的MRC模型,且所提模型具有有效性和泛化性,可完成更精准和更可靠的阅读理解任务。 展开更多
关键词 机器阅读理解 预训练模型 片段抽取 动态交互 三元损失
在线阅读 下载PDF
基于ID-BOPM的中文成语机器阅读理解
4
作者 乔永禄 段利国 +2 位作者 张虎 李爱萍 郝晓燕 《中文信息学报》 北大核心 2025年第9期116-125,共10页
机器阅读理解要求机器根据给定的上下文回答问题,但中文成语特殊的结构对机器阅读理解提出了独特的挑战。以往的成语语义表示方法不能很好地获取到成语准确的语义表示,该文提出一种基于成语语义释义来构建辅助数据集帮助模型更好地理解... 机器阅读理解要求机器根据给定的上下文回答问题,但中文成语特殊的结构对机器阅读理解提出了独特的挑战。以往的成语语义表示方法不能很好地获取到成语准确的语义表示,该文提出一种基于成语语义释义来构建辅助数据集帮助模型更好地理解成语语义的方法,在此基础上,使用BERT作为预训练模型,结合双向匹配策略建模完形填空题型中填空部分和候选项之间的关系表征,然后再进一步获取其与文档的关系表征。该文模型ID-BOPM(Idiom Dictionary and Blank-Option-Passage Matching)在大规模中文成语完形填空数据集ChID上进行了实验。结果表明,该方法有助于模型更好地理解中文成语语义,取得较好的效果。 展开更多
关键词 机器阅读理解 中文成语语义表示 双向表示
在线阅读 下载PDF
面向机器阅读理解的高质量藏语数据集构建 被引量:4
5
作者 孙媛 刘思思 +2 位作者 陈超凡 旦正错 赵小兵 《中文信息学报》 CSCD 北大核心 2024年第3期56-64,共9页
机器阅读理解是通过算法让机器根据给定的上下文回答问题,从而测试机器理解自然语言的程度。其中,数据集的构建是机器阅读理解的主要任务之一。目前,相关算法模型在大多数流行的英语数据集上都取得了显著的成绩,甚至超过了人类表现。但... 机器阅读理解是通过算法让机器根据给定的上下文回答问题,从而测试机器理解自然语言的程度。其中,数据集的构建是机器阅读理解的主要任务之一。目前,相关算法模型在大多数流行的英语数据集上都取得了显著的成绩,甚至超过了人类表现。但对于低资源语言,由于缺乏相应的数据集,机器阅读理解研究尚处于起步阶段。该文以藏语为例,人工构建了藏语机器阅读理解数据集(TibetanQA),其中包含20000个问题答案对和1513篇文章。该数据集的文章均来自云藏网,涵盖了自然、文化和教育等12个领域,问题形式多样且具有一定的难度。另外,该数据集在文章收集、问题构建、答案验证、回答多样性和推理能力等方面,均采用严格的流程以确保数据的质量,同时采用基于语言特征消融输入的验证方法说明了数据集的质量。最后,该文初步探索了三种经典的英语阅读理解模型在TibetanQA数据集上的表现,其结果难以媲美人类,这表明藏语机器阅读理解任务还需要更进一步的探索。 展开更多
关键词 机器阅读理解 低资源语言 藏语 数据集
在线阅读 下载PDF
Ti-Reader:基于注意力机制的藏文机器阅读理解端到端网络模型 被引量:1
6
作者 孙媛 陈超凡 +1 位作者 刘思思 赵小兵 《中文信息学报》 CSCD 北大核心 2024年第2期61-69,共9页
机器阅读理解旨在教会机器去理解一篇文章并且回答与之相关的问题。为了解决低资源语言上机器阅读理解模型性能低的问题,该文提出了一种基于注意力机制的藏文机器阅读理解端到端网络模型Ti-Reader。首先,为了编码更细粒度的藏文文本信息... 机器阅读理解旨在教会机器去理解一篇文章并且回答与之相关的问题。为了解决低资源语言上机器阅读理解模型性能低的问题,该文提出了一种基于注意力机制的藏文机器阅读理解端到端网络模型Ti-Reader。首先,为了编码更细粒度的藏文文本信息,将音节和词相结合进行词表示,然后采用词级注意力机制去关注文本中的关键词,利用重读机制去捕捉文章和问题之间的语义信息,自注意力机制去匹配问题与答案的隐变量本身,为答案预测提供更多的线索。最后,实验结果表明,Ti-Reader模型提升了藏文机器阅读理解的性能,同时在英文数据集SQuAD上也有较好的表现。 展开更多
关键词 机器阅读理解 注意力机制 端到端网络 藏文
在线阅读 下载PDF
面向机器阅读理解的边界感知方法
7
作者 刘青 陈艳平 +2 位作者 邹安琪 黄瑞章 秦永彬 《计算机应用》 CSCD 北大核心 2024年第7期2004-2010,共7页
针对现有的基于预训练语言模型的答案获取方法存在预测边界不够准确的问题,提出一种面向片段抽取式机器阅读理解(MRC)的边界感知方法。首先,在问题输入阶段引入特殊字符标记问题边界,通过增强问题语义信息的方式实现对问题边界的感知;其... 针对现有的基于预训练语言模型的答案获取方法存在预测边界不够准确的问题,提出一种面向片段抽取式机器阅读理解(MRC)的边界感知方法。首先,在问题输入阶段引入特殊字符标记问题边界,通过增强问题语义信息的方式实现对问题边界的感知;其次,在答案预测阶段,构建答案边界回归器,实现感知的问题边界语义信息与输出的预测答案边界语义信息的语义交互;最后,通过交互后的语义信息进一步调整存在偏差的预测答案边界,实现对预测答案的校准。实验结果表明,与SpanBERT(Span-based Bidirectional Encoder Representation from Transformers)相比,该方法在公共数据集SQuAD(Stanford Question Answering Dataset)1.1上的F1值提升了0.2个百分点、精确匹配(EM)值提升了0.9个百分点;在HotpotQA(Hotpot Question Answering)数据集上的F1值和EM值都提升了0.7个百分点;在NewsQA(News Question Answering)数据集上的F1值提升了2.8个百分点、EM值提升了3.3个百分点。可见,该方法能有效增强对问题边界信息的感知并且实现对预测答案边界的校准,有利于更好地理解和分析文本数据,在智能问答、智能客服等领域的应用中提高系统的准确性。 展开更多
关键词 机器阅读理解 问题边界感知 答案边界回归 片段抽取
在线阅读 下载PDF
基于多任务联合学习的多片段机器阅读理解方法研究
8
作者 张虎 范越 李茹 《中文信息学报》 CSCD 北大核心 2024年第11期79-90,共12页
片段抽取式阅读理解是机器阅读理解任务中的一项重要研究内容,现有的相关研究主要关注单片段抽取,然而,实际应用中很多阅读理解问题的答案由文本的多处不连续片段组成,这使得多片段抽取式阅读理解研究受到越来越多的关注。已有的多片段... 片段抽取式阅读理解是机器阅读理解任务中的一项重要研究内容,现有的相关研究主要关注单片段抽取,然而,实际应用中很多阅读理解问题的答案由文本的多处不连续片段组成,这使得多片段抽取式阅读理解研究受到越来越多的关注。已有的多片段抽取式阅读理解研究大都采用序列标注的方法,该方法不能有效识别多片段问题类型,常常对不同类型的问题给出多个答案片段。为此,该文提出一种结合动态预测片段数量和序列标注的多任务联合学习方法。其中,动态预测片段数量能较为准确地识别出多片段问题类型;序列标注能够实现多个答案片段的有效定位。同时,为了进一步增强现有模型的泛化能力,该文在模型训练中构造了对抗训练和两阶段训练方式。在2021中国法律智能技术评测(Challenge of AI in Law 2021,CAIL2021)数据集和QUOREF数据集上的实验结果表明,该文提出的方法相比基线模型取得了更好的效果。 展开更多
关键词 机器阅读理解 多片段抽取 自然语言理解 多任务联合学习
在线阅读 下载PDF
基于MacBERT与对抗训练的机器阅读理解模型 被引量:1
9
作者 周昭辰 方清茂 +2 位作者 吴晓红 胡平 何小海 《计算机工程》 CAS CSCD 北大核心 2024年第5期41-50,共10页
机器阅读理解旨在让机器像人类一样理解自然语言文本,并据此进行问答任务。近年来,随着深度学习和大规模数据集的发展,机器阅读理解引起了广泛关注,但是在实际应用中输入的问题通常包含各种噪声和干扰,这些噪声和干扰会影响模型的预测... 机器阅读理解旨在让机器像人类一样理解自然语言文本,并据此进行问答任务。近年来,随着深度学习和大规模数据集的发展,机器阅读理解引起了广泛关注,但是在实际应用中输入的问题通常包含各种噪声和干扰,这些噪声和干扰会影响模型的预测结果。为了提高模型的泛化能力和鲁棒性,提出一种基于掩码校正的来自Transformer的双向编码器表示(Mac BERT)与对抗训练(AT)的机器阅读理解模型。首先利用Mac BERT对输入的问题和文本进行词嵌入转化为向量表示;然后根据原始样本反向传播的梯度变化在原始词向量上添加微小扰动生成对抗样本;最后将原始样本和对抗样本输入双向长短期记忆(Bi LSTM)网络进一步提取文本的上下文特征,输出预测答案。实验结果表明,该模型在简体中文数据集CMRC2018上的F1值和精准匹配(EM)值分别较基线模型提高了1.39和3.85个百分点,在繁体中文数据集DRCD上的F1值和EM值分别较基线模型提高了1.22和1.71个百分点,在英文数据集SQu ADv1.1上的F1值和EM值分别较基线模型提高了2.86和1.85个百分点,优于已有的大部分机器阅读理解模型,并且在真实问答结果上与基线模型进行对比,结果验证了该模型具有更强的鲁棒性和泛化能力,在输入的问题存在噪声的情况下性能更好。 展开更多
关键词 机器阅读理解 对抗训练 预训练模型 掩码校正的来自Transformer的双向编码器表示 双向长短期记忆网络
在线阅读 下载PDF
一种多任务联合训练的机器阅读理解模型 被引量:1
10
作者 王勇 陈秋怡 +1 位作者 苗夺谦 杨宁创 《小型微型计算机系统》 CSCD 北大核心 2024年第6期1398-1404,共7页
在机器阅读理解任务中,如何在包含不可回答问题的情况下提高答案的准确性是自然语言处理领域的一项重要挑战.虽然基于深度学习的机器阅读理解模型展现出很好的性能,但是这些模型仍然存在抽取特征冗余、语义信息不全面、问题分类任务和... 在机器阅读理解任务中,如何在包含不可回答问题的情况下提高答案的准确性是自然语言处理领域的一项重要挑战.虽然基于深度学习的机器阅读理解模型展现出很好的性能,但是这些模型仍然存在抽取特征冗余、语义信息不全面、问题分类任务和答案抽取任务耦合性不强的问题.为了解决以上问题,本文提出一种结合门控机制和多级残差结构的多任务联合训练模型GMRT(Gated Mechanism and Multi-level Residual Structure for Multi-task Joint Training),以提升机器阅读理解任务中答案预测的准确性.GMRT构建门控机制来筛选交互后的关联特征,从而控制信息的流动.采用多级残差结构分别连接注意力机制和门控机制,保证每个阶段都保留原始语义信息.同时,通过边缘损失函数对问题分类任务和答案抽取任务联合训练,确保预测答案过程中任务之间的强耦合性.在SQuAD2.0数据集上的实验结果表明,GMRT模型的EM值和F1值均优于对比模型. 展开更多
关键词 机器阅读理解 多任务联合训练 门控机制 多级残差结构
在线阅读 下载PDF
基于小句复合体的中文机器阅读理解研究 被引量:1
11
作者 王瑞琦 罗智勇 +2 位作者 刘祥 韩瑞昉 李舒馨 《中文信息学报》 CSCD 北大核心 2024年第3期130-140,共11页
机器阅读理解任务要求机器根据篇章文本回答相关问题。该文以抽取式机器阅读理解为例,重点考察当问题的线索要素与答案在篇章文本中跨越多个标点句时的阅读理解问题。该文将小句复合体结构自动分析任务与机器阅读理解任务融合,利用小句... 机器阅读理解任务要求机器根据篇章文本回答相关问题。该文以抽取式机器阅读理解为例,重点考察当问题的线索要素与答案在篇章文本中跨越多个标点句时的阅读理解问题。该文将小句复合体结构自动分析任务与机器阅读理解任务融合,利用小句复合体中跨标点句话头-话体共享关系,来降低机器阅读理解任务的难度;并设计与实现了基于小句复合体的机器阅读理解模型。实验结果表明,在问题线索要素与答案跨越多个标点句时,答案抽取的精确匹配率(EM)相对于基准模型提升了3.49%,模型整体的精确匹配率提升了3.26%。 展开更多
关键词 机器阅读理解 跨标点句问答 小句复合体
在线阅读 下载PDF
基于关系增强图卷积网络的机器阅读理解式事件检测
12
作者 纪婉婷 鲁闻一 +3 位作者 马宇航 丁琳琳 宋宝燕 张浩林 《计算机应用》 CSCD 北大核心 2024年第10期3288-3293,共6页
在面对具有复杂句法关系的长文本上下文时,现有机器阅读理解式事件检测模型难以挖掘关键词之间长距离依赖关系。针对上述问题,提出一种基于关系增强图卷积网络(REGCN)的机器阅读理解式事件检测模型(MRCREGCN)。首先,利用预训练语言模型... 在面对具有复杂句法关系的长文本上下文时,现有机器阅读理解式事件检测模型难以挖掘关键词之间长距离依赖关系。针对上述问题,提出一种基于关系增强图卷积网络(REGCN)的机器阅读理解式事件检测模型(MRCREGCN)。首先,利用预训练语言模型对问题和文本进行联合编码,得到融入先验信息的单词向量表示;其次,引入动态的关系增强标签信息,并利用REGCN深入学习单词之间的句法依存关系,增强模型对长文本句法结构的感知能力;最后,利用多分类器得到文本单词在所有事件类型下的概率分布。在ACE2005英文语料上的实验结果表明,所提模型在触发词分类上的F1分值相较于同类机器阅读理解模型EEQA(Event Extraction by Answering(almost)natural Questions)和最佳基线模型DEGREE(Data-Efficient GeneRation-based Event Extraction)分别提升了2.49%和1.23%,验证了MRC-REGCN具有更好的事件检测性能。 展开更多
关键词 机器阅读理解 事件检测 图卷积网络 句法依存关系 触发词分类
在线阅读 下载PDF
基于逻辑推理的机器阅读理解综述 被引量:2
13
作者 李晴 李艳玲 +2 位作者 董杰 葛凤培 林民 《计算机科学与探索》 CSCD 北大核心 2024年第8期1998-2013,共16页
机器阅读理解是自然语言处理领域中的核心任务之一,该任务目标是使机器能够理解自然语言文本,并正确回答关于文本内容的问题。随着自然语言处理相关方法和模型的发展,研究者们开始关注机器阅读理解中更具挑战性的推理型问题,这些问题通... 机器阅读理解是自然语言处理领域中的核心任务之一,该任务目标是使机器能够理解自然语言文本,并正确回答关于文本内容的问题。随着自然语言处理相关方法和模型的发展,研究者们开始关注机器阅读理解中更具挑战性的推理型问题,这些问题通常要求模型不仅理解文本中的浅层信息,还要能够在逻辑上进行思考和推理,以回答更加复杂的问题。对基于逻辑推理的机器阅读理解相关的最新成果进行全面的归纳。介绍基于逻辑推理的机器阅读理解任务。介绍该任务的相关方法,并根据侧重点的不同将这些方法分成四类:基于符号神经网络的方法、基于图神经网络的方法、基于预训练的方法和基于大模型的微调策略。重点描述四类方法的代表性工作。在LogiQA和ReClor两个逻辑推理主流数据集上探讨方法的优缺点,并总结基于逻辑推理的机器阅读理解任务的未来研究方向。 展开更多
关键词 机器阅读理解 逻辑推理 智能问答
在线阅读 下载PDF
基于阅读技巧识别和双通道融合机制的机器阅读理解方法
14
作者 彭伟 胡玥 +2 位作者 李运鹏 谢玉强 牛晨旭 《自动化学报》 EI CAS CSCD 北大核心 2024年第5期958-969,共12页
机器阅读理解任务旨在要求系统对给定文章进行理解,然后对给定问题进行回答.先前的工作重点聚焦在问题和文章间的交互信息,忽略了对问题进行更加细粒度的分析(如问题所考察的阅读技巧是什么?).受先前研究的启发,人类对于问题的理解是一... 机器阅读理解任务旨在要求系统对给定文章进行理解,然后对给定问题进行回答.先前的工作重点聚焦在问题和文章间的交互信息,忽略了对问题进行更加细粒度的分析(如问题所考察的阅读技巧是什么?).受先前研究的启发,人类对于问题的理解是一个多维度的过程.首先,人类需要理解问题的上下文信息;然后,针对不同类型问题,识别其需要使用的阅读技巧;最后,通过与文章交互回答出问题答案.针对这些问题,提出一种基于阅读技巧识别和双通道融合的机器阅读理解方法,对问题进行更加细致的分析,从而提高模型回答问题的准确性.阅读技巧识别器通过对比学习的方法,能够显式地捕获阅读技巧的语义信息.双通道融合机制将问题与文章的交互信息和阅读技巧的语义信息进行深层次的融合,从而达到辅助系统理解问题和文章的目的.为了验证该模型的效果,在FairytaleQA数据集上进行实验,实验结果表明,该方法实现了在机器阅读理解任务和阅读技巧识别任务上的最好效果. 展开更多
关键词 机器阅读理解 阅读技巧识别 对比学习 双通道融合机制
在线阅读 下载PDF
面向知识图谱的会话式机器阅读理解研究综述 被引量:1
15
作者 胡娟 奚雪峰 崔志明 《计算机工程与应用》 CSCD 北大核心 2024年第3期17-28,共12页
对话式机器阅读理解随着数据集的发展而发展,目的在于让机器在理解文章内容的基础上能够进行多轮对话。但现有的模型方法无法从对话历史中捕获到与当前问题最相关的历史信息,模型的推理能力较差,很难获取实体间的隐含信息。知识图谱应... 对话式机器阅读理解随着数据集的发展而发展,目的在于让机器在理解文章内容的基础上能够进行多轮对话。但现有的模型方法无法从对话历史中捕获到与当前问题最相关的历史信息,模型的推理能力较差,很难获取实体间的隐含信息。知识图谱应用于推理问答是当前的一大研究热点。知识图谱技术可以推断出实体间的隐含关系,应用于推理问答则能够提升模型的推理问答能力,提高预测的准确率。近年来,知识图谱推理技术的广泛应用,极大地推动了知识图谱推理问答的发展。对基于知识图谱的会话式机器阅读理解从三方面进行总结:介绍了会话式机器阅读理解领域的数据集以及当前的一些典型的模型方法,并对模型的性能和优缺点作了简要的分析与比较;介绍了知识图谱的定义、架构以及四大核心技术,并简要介绍了三大类知识图谱推理问答的模型方法;最后总结工作,并根据会话式机器阅读理解的数据集特点和知识图谱推理问答模型的缺点,对未来的研究重点进行展望。 展开更多
关键词 机器阅读理解 多轮对话 知识图谱 知识图谱推理问答
在线阅读 下载PDF
基于话头话体共享结构信息的机器阅读理解研究
16
作者 韩玉蛟 罗智勇 +2 位作者 张明明 赵志琳 张青 《中文信息学报》 CSCD 北大核心 2024年第5期32-40,共9页
机器阅读理解(Machine Reading Comprehension,MRC)任务旨在让机器回答给定上下文的问题来测试机器理解自然语言的能力。目前,基于大规模预训练语言模型的神经机器阅读理解模型已经取得重要进展,但在涉及答案要素、线索要素和问题要素... 机器阅读理解(Machine Reading Comprehension,MRC)任务旨在让机器回答给定上下文的问题来测试机器理解自然语言的能力。目前,基于大规模预训练语言模型的神经机器阅读理解模型已经取得重要进展,但在涉及答案要素、线索要素和问题要素跨标点句、远距离关联时,答案抽取的准确率还有待提升。该文通过篇章内话头话体结构分析,建立标点句间远距离关联关系,补全共享缺失成分,辅助机器阅读理解答案抽取;设计和实现融合话头话体结构信息的机器阅读理解模型,在公开数据集CMRC2018上的实验结果表明,模型的F 1值相对于基线模型提升2.4%,EM值提升6%。 展开更多
关键词 机器阅读理解 话头话体结构分析 注意力机制 预训练语言模型
在线阅读 下载PDF
面向机器阅读理解的医学域数据集MedicalQA
17
作者 马宁 吕文蓉 郭泽晨 《中国科学数据(中英文网络版)》 CSCD 2024年第1期356-365,共10页
机器阅读理解旨在利用算法让计算机理解段落语义并回答用户提出的问题,该任务所用数据集的质量可直接影响模型的实验结果。为丰富机器阅读理解的医学领域数据集,本文以爬虫和人工标注的方式构建了面向机器阅读理解的医学域数据集Medica... 机器阅读理解旨在利用算法让计算机理解段落语义并回答用户提出的问题,该任务所用数据集的质量可直接影响模型的实验结果。为丰富机器阅读理解的医学领域数据集,本文以爬虫和人工标注的方式构建了面向机器阅读理解的医学域数据集MedicalQA。本数据集以寻医问药网和39健康网两大医疗平台为主要数据来源,包含19502个段落、问题和答案,内容涉及内科、外科、妇产科等9大科室。数据集形式为excel文件,由5列组成,第一列为段落ID,第二列为段落所属科室,第三列为段落内容,第四列为问题,第五列为问题对应答案。本数据集的构建,有利于机器阅读理解模型的鲁棒性研究以及医学问答系统的构建,也能促进机器阅读理解领域的医学数据集共享。 展开更多
关键词 机器阅读理解 医学域 数据集
在线阅读 下载PDF
多跳机器阅读理解研究进展 被引量:4
18
作者 苏珂 黄瑞阳 +2 位作者 张建朋 余诗媛 胡楠 《计算机工程》 CAS CSCD 北大核心 2021年第9期1-17,共17页
与常规的单跳机器阅读理解相比,多跳机器阅读理解(MHMRC)需要在多个相关文档段落中进行多跳推理以实现对复杂问题的理解和回答,其更接近于人类的语言推理能力,具有广阔的应用前景但也极具挑战性。阐述MHMRC的研究背景,将现有方法根据适... 与常规的单跳机器阅读理解相比,多跳机器阅读理解(MHMRC)需要在多个相关文档段落中进行多跳推理以实现对复杂问题的理解和回答,其更接近于人类的语言推理能力,具有广阔的应用前景但也极具挑战性。阐述MHMRC的研究背景,将现有方法根据适用场景分为封闭集合问答和开放域问答两类,主要包括基于问题分解的方法、基于图神经网络的方法、改进检索的方法、基于推理路径的方法等,分别从模型架构、特点、优劣等方面进行分析。介绍用于多跳推理的非结构化文本数据集和评测指标,对比各模型的性能表现。在此基础上,分析目前MHMRC研究的热点与难点,指出未来发展方向。 展开更多
关键词 机器阅读理解 多跳机器阅读理解 问题分解 图神经网络 开放域问答
在线阅读 下载PDF
片段抽取型机器阅读理解算法研究 被引量:4
19
作者 叶俊民 赵晓丽 +1 位作者 杜翔 姚贤坦 《计算机应用研究》 CSCD 北大核心 2021年第11期3268-3273,共6页
针对现有的机器阅读理解模型主要使用循环模型处理文本序列信息,这容易导致训练和预测速度慢且模型预测准确性不高等问题,提出了一种片段抽取型机器阅读理解算法QA-Reader。该算法利用大型预训练语言模型RoBERTa-www-ext获取问题和上下... 针对现有的机器阅读理解模型主要使用循环模型处理文本序列信息,这容易导致训练和预测速度慢且模型预测准确性不高等问题,提出了一种片段抽取型机器阅读理解算法QA-Reader。该算法利用大型预训练语言模型RoBERTa-www-ext获取问题和上下文的词嵌入表示;使用深度可分离卷积和多头自注意力机制进行编码;计算上下文和问题的双向注意力及上下文的自注意力,以融合上下文和问题之间的关联信息,拼接得到最终的语义表征;经过模型编码器预测得到答案,模型针对不可回答的问题计算了其不可回答的概率。在中文片段抽取型机器阅读理解数据集上进行了实验,结果表明QA-Reader模型与基线模型相比,其性能方面EM和F 1值分别提高了3.821%、2.740%,训练速度提高了0.089%。 展开更多
关键词 机器阅读理解 片段抽取型机器阅读理解 RoBERTa-www-ext 卷积神经网络 注意力机制
在线阅读 下载PDF
机器阅读理解研究与进展
20
作者 王浩畅 闫凯峰 Marius Gabriel Petrescu 《计算机应用与软件》 北大核心 2023年第3期1-10,71,共11页
针对目前机器阅读理解的研究进展,对机器阅读理解的研究背景和国内外研究现状进行详细介绍,着重介绍国内外主流的大规模机器阅读理解数据集,以及在各个数据集上的评价指标。介绍神经机器阅读理解模型,并对向量化、编码、注意力机制、答... 针对目前机器阅读理解的研究进展,对机器阅读理解的研究背景和国内外研究现状进行详细介绍,着重介绍国内外主流的大规模机器阅读理解数据集,以及在各个数据集上的评价指标。介绍神经机器阅读理解模型,并对向量化、编码、注意力机制、答案预测模块做了详细的介绍。总结当前机器阅读理解所面临的问题,并展望未来的发展趋势。 展开更多
关键词 自然语言处理 机器阅读理解 深度神经网络 机器阅读理解数据集 注意力机制
在线阅读 下载PDF
上一页 1 2 6 下一页 到第
使用帮助 返回顶部