期刊文献+
共找到3篇文章
< 1 >
每页显示 20 50 100
中文小说短句序列文本复述数据集
1
作者 万福成 雷鑫鹏 +1 位作者 王双 魏斌 《中国科学数据(中英文网络版)》 2025年第3期535-543,共9页
文本复述是自然语言处理、自然语言生成重要的研究内容。目前基于神经网络的复述生成研究大部分以英语和日语为研究对象,由于汉语语料资源稀少,导致汉语复述研究滞后。针对这一问题,本研究采用基于北大释义库(PKU Paraphrase Bank)的中... 文本复述是自然语言处理、自然语言生成重要的研究内容。目前基于神经网络的复述生成研究大部分以英语和日语为研究对象,由于汉语语料资源稀少,导致汉语复述研究滞后。针对这一问题,本研究采用基于北大释义库(PKU Paraphrase Bank)的中文小说复述语料,通过人工挑选和数据预处理得到高质量的短句复述对。数据集包括34770句对,69540句短文本序列,大小为2.91 MB。通过使用LaserTagger复述生成模型与大规模的中文问题匹配语料库(A Largescale Chinese Question Matching Corpus,LCQCM)进行对比,显示本数据集质量更高。本数据集可应用于机器翻译,缓解语料稀疏问题,对自动问答领域问句进行改写和扩展,对信息检索领域检索词、句进行扩展和泛化等。 展开更多
关键词 文本复述 短句序列 复述生成 低资源
在线阅读 下载PDF
基于外部记忆单元和语义角色知识的文本复述判别模型 被引量:3
2
作者 李天时 李琦 +1 位作者 王文辉 常宝宝 《中文信息学报》 CSCD 北大核心 2017年第6期33-40,共8页
文本复述判别是一个重要的句子级语义理解应用。该文提出了一个轻量级的基于记忆单元的单层循环神经网络模型,并结合语义角色标注知识帮助进行英文文本复述判别。使用单层的循环网络模型减缓由于网络层数过多加重的梯度消失和梯度爆炸问... 文本复述判别是一个重要的句子级语义理解应用。该文提出了一个轻量级的基于记忆单元的单层循环神经网络模型,并结合语义角色标注知识帮助进行英文文本复述判别。使用单层的循环网络模型减缓由于网络层数过多加重的梯度消失和梯度爆炸问题,易于训练;并且利用外部记忆单元和语义角色知识帮助存储两句话中不同层级的语义联系。该文模型在英文评测语料Microsoft Research Paraphrase Corpus测试集上F值为84.3%。实验表明,语义角色标注知识确实可以帮助文本复述判别,并且轻量级模型达到了与同类多层次网络模型相近的效果。 展开更多
关键词 文本复述判别 语义角色 记忆单元 循环神经网络
在线阅读 下载PDF
基于预训练语言模型和标签指导的文本复述生成方法
3
作者 梁佳音 谢志鹏 《计算机科学》 CSCD 北大核心 2023年第8期150-156,共7页
文本复述生成是自然语言处理中一项重要且具有挑战性的任务。最近很多工作将句子不同粒度的句法结构信息用于指导复述生成过程,取得了一定的效果,然而这些方法大多比较复杂,迁移使用困难。另外,预训练语言模型因学习到大量语言知识而在... 文本复述生成是自然语言处理中一项重要且具有挑战性的任务。最近很多工作将句子不同粒度的句法结构信息用于指导复述生成过程,取得了一定的效果,然而这些方法大多比较复杂,迁移使用困难。另外,预训练语言模型因学习到大量语言知识而在各项自然语言处理任务中表现出了较好的性能,然而将其用在复述生成任务中的工作较少。针对这些问题,文中提出了基于预训练语言模型和标签指导的复述生成方法。该方法在复述任务上微调预训练语言模型以提升效果,同时用简单的标签插入方式为复述生成模型提供句法结构指导。实验结果表明,这种标签插入结合预训练语言模型的方法在ParaNMT和Quora数据集上的性能优于传统Seq2Seq方法,并且用该方法做数据增强能为下游任务带来效果提升。 展开更多
关键词 文本复述生成 预训练语言模型 数据增强
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部