机器阅读理解要求机器根据给定的上下文回答问题,但中文成语特殊的结构对机器阅读理解提出了独特的挑战。以往的成语语义表示方法不能很好地获取到成语准确的语义表示,该文提出一种基于成语语义释义来构建辅助数据集帮助模型更好地理解...机器阅读理解要求机器根据给定的上下文回答问题,但中文成语特殊的结构对机器阅读理解提出了独特的挑战。以往的成语语义表示方法不能很好地获取到成语准确的语义表示,该文提出一种基于成语语义释义来构建辅助数据集帮助模型更好地理解成语语义的方法,在此基础上,使用BERT作为预训练模型,结合双向匹配策略建模完形填空题型中填空部分和候选项之间的关系表征,然后再进一步获取其与文档的关系表征。该文模型ID-BOPM(Idiom Dictionary and Blank-Option-Passage Matching)在大规模中文成语完形填空数据集ChID上进行了实验。结果表明,该方法有助于模型更好地理解中文成语语义,取得较好的效果。展开更多
片段抽取式阅读理解是机器阅读理解任务中的一项重要研究内容,现有的相关研究主要关注单片段抽取,然而,实际应用中很多阅读理解问题的答案由文本的多处不连续片段组成,这使得多片段抽取式阅读理解研究受到越来越多的关注。已有的多片段...片段抽取式阅读理解是机器阅读理解任务中的一项重要研究内容,现有的相关研究主要关注单片段抽取,然而,实际应用中很多阅读理解问题的答案由文本的多处不连续片段组成,这使得多片段抽取式阅读理解研究受到越来越多的关注。已有的多片段抽取式阅读理解研究大都采用序列标注的方法,该方法不能有效识别多片段问题类型,常常对不同类型的问题给出多个答案片段。为此,该文提出一种结合动态预测片段数量和序列标注的多任务联合学习方法。其中,动态预测片段数量能较为准确地识别出多片段问题类型;序列标注能够实现多个答案片段的有效定位。同时,为了进一步增强现有模型的泛化能力,该文在模型训练中构造了对抗训练和两阶段训练方式。在2021中国法律智能技术评测(Challenge of AI in Law 2021,CAIL2021)数据集和QUOREF数据集上的实验结果表明,该文提出的方法相比基线模型取得了更好的效果。展开更多
在机器阅读理解任务中,如何在包含不可回答问题的情况下提高答案的准确性是自然语言处理领域的一项重要挑战.虽然基于深度学习的机器阅读理解模型展现出很好的性能,但是这些模型仍然存在抽取特征冗余、语义信息不全面、问题分类任务和...在机器阅读理解任务中,如何在包含不可回答问题的情况下提高答案的准确性是自然语言处理领域的一项重要挑战.虽然基于深度学习的机器阅读理解模型展现出很好的性能,但是这些模型仍然存在抽取特征冗余、语义信息不全面、问题分类任务和答案抽取任务耦合性不强的问题.为了解决以上问题,本文提出一种结合门控机制和多级残差结构的多任务联合训练模型GMRT(Gated Mechanism and Multi-level Residual Structure for Multi-task Joint Training),以提升机器阅读理解任务中答案预测的准确性.GMRT构建门控机制来筛选交互后的关联特征,从而控制信息的流动.采用多级残差结构分别连接注意力机制和门控机制,保证每个阶段都保留原始语义信息.同时,通过边缘损失函数对问题分类任务和答案抽取任务联合训练,确保预测答案过程中任务之间的强耦合性.在SQuAD2.0数据集上的实验结果表明,GMRT模型的EM值和F1值均优于对比模型.展开更多
文摘机器阅读理解要求机器根据给定的上下文回答问题,但中文成语特殊的结构对机器阅读理解提出了独特的挑战。以往的成语语义表示方法不能很好地获取到成语准确的语义表示,该文提出一种基于成语语义释义来构建辅助数据集帮助模型更好地理解成语语义的方法,在此基础上,使用BERT作为预训练模型,结合双向匹配策略建模完形填空题型中填空部分和候选项之间的关系表征,然后再进一步获取其与文档的关系表征。该文模型ID-BOPM(Idiom Dictionary and Blank-Option-Passage Matching)在大规模中文成语完形填空数据集ChID上进行了实验。结果表明,该方法有助于模型更好地理解中文成语语义,取得较好的效果。
文摘片段抽取式阅读理解是机器阅读理解任务中的一项重要研究内容,现有的相关研究主要关注单片段抽取,然而,实际应用中很多阅读理解问题的答案由文本的多处不连续片段组成,这使得多片段抽取式阅读理解研究受到越来越多的关注。已有的多片段抽取式阅读理解研究大都采用序列标注的方法,该方法不能有效识别多片段问题类型,常常对不同类型的问题给出多个答案片段。为此,该文提出一种结合动态预测片段数量和序列标注的多任务联合学习方法。其中,动态预测片段数量能较为准确地识别出多片段问题类型;序列标注能够实现多个答案片段的有效定位。同时,为了进一步增强现有模型的泛化能力,该文在模型训练中构造了对抗训练和两阶段训练方式。在2021中国法律智能技术评测(Challenge of AI in Law 2021,CAIL2021)数据集和QUOREF数据集上的实验结果表明,该文提出的方法相比基线模型取得了更好的效果。
文摘在机器阅读理解任务中,如何在包含不可回答问题的情况下提高答案的准确性是自然语言处理领域的一项重要挑战.虽然基于深度学习的机器阅读理解模型展现出很好的性能,但是这些模型仍然存在抽取特征冗余、语义信息不全面、问题分类任务和答案抽取任务耦合性不强的问题.为了解决以上问题,本文提出一种结合门控机制和多级残差结构的多任务联合训练模型GMRT(Gated Mechanism and Multi-level Residual Structure for Multi-task Joint Training),以提升机器阅读理解任务中答案预测的准确性.GMRT构建门控机制来筛选交互后的关联特征,从而控制信息的流动.采用多级残差结构分别连接注意力机制和门控机制,保证每个阶段都保留原始语义信息.同时,通过边缘损失函数对问题分类任务和答案抽取任务联合训练,确保预测答案过程中任务之间的强耦合性.在SQuAD2.0数据集上的实验结果表明,GMRT模型的EM值和F1值均优于对比模型.