-
题名PLSGA:阶段式长文本摘要生成方法
- 1
-
-
作者
方缙
李宝安
游新冬
吕学强
-
机构
北京信息科技大学计算机学院
北京信息科技大学网络文化与数字传播北京市重点实验室
-
出处
《计算机工程与应用》
北大核心
2025年第2期170-178,共9页
-
基金
国家自然科学基金(62171043)
北京市自然科学基金(4212020)
+2 种基金
国家语委重点项目(ZDI145-10)
国家语委一般项目(YB145-3)
北京市市教委科研计划项目(KM202111232001)。
-
文摘
针对现有方法在处理长文本时,存在冗余信息处理困难和无法筛选出最高质量摘要的问题,提出了一种阶段式长文本摘要生成方法(PLSGA)。将样本数据的文本和参考摘要分割,利用Sentence-BERT获取语义向量并进行相似度比对,从中抽取文本的关键信息;通过关键信息和非关键信息训练抽取模型,以尽可能地保留原文本的语义信息;将抽取的关键信息和参考摘要作为样本输入骨干模型BART进行生成模型训练;通过生成模型生成多条候选摘要,并使用无参考摘要评分模型筛选出质量最好的摘要。提出的阶段式长文本摘要生成方法在多个中文长文本数据集上进行实验,结果表明相对于目前主流的方法以及ChatGPT,其效果均有提升,具有领域优势,生成的摘要质量更好,更具可读性。
-
关键词
文本摘要
Sentence-BERT
关键信息
BART
无参考摘要评分模型
-
Keywords
text summarization
Sentence-BERT
key information
BART
no-reference summarization scoring model
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-
-
题名主题模型LDA的多文档自动文摘
被引量:24
- 2
-
-
作者
杨潇
马军
杨同峰
杜言琦
邵海敏
-
机构
山东经济学院信息管理学院
山东大学计算机科学与技术学院
-
出处
《智能系统学报》
2010年第2期169-176,共8页
-
基金
国家自然科学基金资助项目(60970047)
山东省自然科学基金资助项目(Y2008G19)
+1 种基金
山东省科技计划资助项目(2007GG10001002
2008GG10001026)
-
文摘
近年来使用概率主题模型表示多文档文摘问题受到研究者的关注.LDA(latent dirichlet allocation)是主题模型中具有代表性的概率生成性模型之一.提出了一种基于LDA的文摘方法,该方法以混乱度确定LDA模型的主题数目,以Gibbs抽样获得模型中句子的主题概率分布和主题的词汇概率分布,以句子中主题权重的加和确定各个主题的重要程度,并根据LDA模型中主题的概率分布和句子的概率分布提出了2种不同的句子权重计算模型.实验中使用ROUGE评测标准,与代表最新水平的SumBasic方法和其他2种基于LDA的多文档自动文摘方法在通用型多文档摘要测试集DUC2002上的评测数据进行比较,结果表明提出的基于LDA的多文档自动文摘方法在ROUGE的各个评测标准上均优于SumBasic方法,与其他基于LDA模型的文摘相比也具有优势.
-
关键词
多文档自动文摘
句子分值计算
主题模型
LDA
主题数目
-
Keywords
multi-document summarization
sentence scoring
topic model
latent dirichlet allocation
number of topics
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-