针对古籍信息处理中自动断句及标点任务依赖大规模标注语料的现象,在考虑高质量、大规模样本的训练成本昂贵且难以获取的背景下,提出一种基于片段抽取原型网络的古籍文本断句标点提示学习方法。首先,通过对支持集加入结构化提示信息形...针对古籍信息处理中自动断句及标点任务依赖大规模标注语料的现象,在考虑高质量、大规模样本的训练成本昂贵且难以获取的背景下,提出一种基于片段抽取原型网络的古籍文本断句标点提示学习方法。首先,通过对支持集加入结构化提示信息形成有效的提示模板,从而提高模型的学习效率;其次,结合标点位置提取器和原型网络分类器,有效减少传统序列标注方法中的误判影响及非标点标签的干扰。实验结果表明,与Siku-BERT-BiGRU-CRF(Siku-Bidirectional Encoder Representation from Transformer-Bidirectional Gated Recurrent Unit-Conditional Random Field)方法相比,在《史记》数据集上所提方法的F1值提升了2.47个百分点。此外,在公开的多领域古籍数据集CCLUE上,所提方法的精确率和F1值分别达到了91.60%和93.12%,说明所提方法利用少量训练样本就能对多领域古籍进行有效的自动断句标点。因此,所提方法为多领域古籍文本的自动断句及标点任务的深入研究以及提高模型的学习效率提供了新的思路和方法。展开更多
片段抽取式阅读理解是机器阅读理解任务中的一项重要研究内容,现有的相关研究主要关注单片段抽取,然而,实际应用中很多阅读理解问题的答案由文本的多处不连续片段组成,这使得多片段抽取式阅读理解研究受到越来越多的关注。已有的多片段...片段抽取式阅读理解是机器阅读理解任务中的一项重要研究内容,现有的相关研究主要关注单片段抽取,然而,实际应用中很多阅读理解问题的答案由文本的多处不连续片段组成,这使得多片段抽取式阅读理解研究受到越来越多的关注。已有的多片段抽取式阅读理解研究大都采用序列标注的方法,该方法不能有效识别多片段问题类型,常常对不同类型的问题给出多个答案片段。为此,该文提出一种结合动态预测片段数量和序列标注的多任务联合学习方法。其中,动态预测片段数量能较为准确地识别出多片段问题类型;序列标注能够实现多个答案片段的有效定位。同时,为了进一步增强现有模型的泛化能力,该文在模型训练中构造了对抗训练和两阶段训练方式。在2021中国法律智能技术评测(Challenge of AI in Law 2021,CAIL2021)数据集和QUOREF数据集上的实验结果表明,该文提出的方法相比基线模型取得了更好的效果。展开更多
文摘针对古籍信息处理中自动断句及标点任务依赖大规模标注语料的现象,在考虑高质量、大规模样本的训练成本昂贵且难以获取的背景下,提出一种基于片段抽取原型网络的古籍文本断句标点提示学习方法。首先,通过对支持集加入结构化提示信息形成有效的提示模板,从而提高模型的学习效率;其次,结合标点位置提取器和原型网络分类器,有效减少传统序列标注方法中的误判影响及非标点标签的干扰。实验结果表明,与Siku-BERT-BiGRU-CRF(Siku-Bidirectional Encoder Representation from Transformer-Bidirectional Gated Recurrent Unit-Conditional Random Field)方法相比,在《史记》数据集上所提方法的F1值提升了2.47个百分点。此外,在公开的多领域古籍数据集CCLUE上,所提方法的精确率和F1值分别达到了91.60%和93.12%,说明所提方法利用少量训练样本就能对多领域古籍进行有效的自动断句标点。因此,所提方法为多领域古籍文本的自动断句及标点任务的深入研究以及提高模型的学习效率提供了新的思路和方法。
文摘片段抽取式阅读理解是机器阅读理解任务中的一项重要研究内容,现有的相关研究主要关注单片段抽取,然而,实际应用中很多阅读理解问题的答案由文本的多处不连续片段组成,这使得多片段抽取式阅读理解研究受到越来越多的关注。已有的多片段抽取式阅读理解研究大都采用序列标注的方法,该方法不能有效识别多片段问题类型,常常对不同类型的问题给出多个答案片段。为此,该文提出一种结合动态预测片段数量和序列标注的多任务联合学习方法。其中,动态预测片段数量能较为准确地识别出多片段问题类型;序列标注能够实现多个答案片段的有效定位。同时,为了进一步增强现有模型的泛化能力,该文在模型训练中构造了对抗训练和两阶段训练方式。在2021中国法律智能技术评测(Challenge of AI in Law 2021,CAIL2021)数据集和QUOREF数据集上的实验结果表明,该文提出的方法相比基线模型取得了更好的效果。