-
题名面向散文阅读理解简答题的多片段答案关键句抽取方法
- 1
-
-
作者
侯祺积
李旸
王素格
何东欢
李书琪
-
机构
山西大学计算机与信息技术学院
山西财经大学金融学院
山西大学计算智能与中文信息处理教育部重点实验室
-
出处
《中文信息学报》
北大核心
2025年第6期67-76,共10页
-
基金
国家自然科学基金(62376143,62076158,62106130)
山西省自然科学基金(20210302124084)
山西省高等学校科技创新计划项目(2021L284)。
-
文摘
机器阅读理解是自然语言处理领域中一个非常重要的研究方向,近年来发布了许多中文阅读理解任务的数据集,但散文数据集的构建工作还略显不足。该文从散文阅读理解简答题的角度,构建了散文阅读理解简答题答案关键句数据集。在散文阅读理解简答题中,散文文本较长,答案关键句分散在多个段落中,现有模型对长文本输入的底层设计存在局限性。为此,该文提出一种多片段答案关键句抽取方法。该方法融合词形匹配和词语语义相似度,构建了问题与句子的相似度计算模型;设计了分块处理策略,缓解了长文本输入信息缺失问题;构建了问题与文本的相关性判别模型,实现了多片段答案关键句抽取。在该文构建的数据集上与其他方法进行比较实验,实验结果表明,该方法性能优于其他对比方法。
-
关键词
散文阅读理解
多片段抽取
关键句抽取
文本分块
相关性得分
-
Keywords
prose reading comprehension
multi-span extraction
key sentence extraction
text block
correlation score
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-