期刊文献+
共找到39篇文章
< 1 2 >
每页显示 20 50 100
基于异构图分层学习的细粒度多文档摘要抽取
1
作者 翁裕源 许柏炎 蔡瑞初 《计算机工程》 CAS CSCD 北大核心 2024年第3期336-344,共9页
抽取的目标是在多个文档中提取共有关键信息,其对简洁性的要求高于单文档摘要抽取。现有的多文档摘要抽取方法通常在句子级别进行建模,容易引入较多的冗余信息。为了解决上述问题,提出一种基于异构图分层学习的多文档摘要抽取框架,通过... 抽取的目标是在多个文档中提取共有关键信息,其对简洁性的要求高于单文档摘要抽取。现有的多文档摘要抽取方法通常在句子级别进行建模,容易引入较多的冗余信息。为了解决上述问题,提出一种基于异构图分层学习的多文档摘要抽取框架,通过层次化构建单词层级图和子句层级图来有效建模语义关系和结构关系。针对单词层级图和子句层级图这2个异构图的学习问题,设计具有不同层次更新机制的两层学习层来降低学习多种结构关系的难度。在单词层级图学习层,提出交替更新机制更新不同的粒度节点,以单词节点为载体通过图注意网络进行语义信息传递;在子句层级图学习层,提出两阶段分步学习更新机制聚合多种结构关系,第一阶段聚合同构关系,第二阶段基于注意力聚合异构关系。实验结果表明,与抽取式基准模型相比,该框架在Multinews数据集上取得了显著的性能提升,ROUGE-1、ROUGE-2和ROUGE-L分别提高0.88、0.23和2.27,消融实验结果也验证了两层学习层及其层次更新机制的有效性。 展开更多
关键词 抽取式多文档摘要 细粒度建模 异构图 分层学习 语义关系 结构关系
在线阅读 下载PDF
基于动态主题建模的Web论坛文档摘要 被引量:8
2
作者 任昭春 马军 陈竹敏 《计算机研究与发展》 EI CSCD 北大核心 2012年第11期2359-2367,共9页
针对论坛文档由于自身特点缺乏有效的文档摘要方法的现状,提出一种基于LDA主题模型的论坛文档摘要方法.在主题建模中考虑了Web论坛文档中帖子和帖子之间的回复关系,并把主题的分布变为随文档变化而变化的一个动态过程,来解决主题的依赖... 针对论坛文档由于自身特点缺乏有效的文档摘要方法的现状,提出一种基于LDA主题模型的论坛文档摘要方法.在主题建模中考虑了Web论坛文档中帖子和帖子之间的回复关系,并把主题的分布变为随文档变化而变化的一个动态过程,来解决主题的依赖和偏移问题.在使用GibbsEM采样算法来确定动态主题模型的参数后,通过计算句子中主题权重之和来确定各个主题的重要程度;最后根据动态主题模型中主题的概率分布计算各句子的权重并得到文档的摘要.实验结果表明,新方法在各个ROUGE评测标准上均优于其他各种对比的摘要方法. 展开更多
关键词 WEB论坛 论坛文档摘要 主题建模 Gibbs EM采样 文档摘要
在线阅读 下载PDF
基于孪生网络文本语义匹配的多文档摘要
3
作者 钟琪 王中卿 王红玲 《中文信息学报》 CSCD 北大核心 2024年第5期107-116,共10页
多文档摘要旨在从一组主题相关的文档集中抽取出最能代表文档集中心内容的句子作为摘要,文本语义匹配则是指学习两个文本单元之间的语义关系,使句子表征具有更加丰富的语义信息。该文提出了一种基于孪生网络文本语义匹配的多文档抽取式... 多文档摘要旨在从一组主题相关的文档集中抽取出最能代表文档集中心内容的句子作为摘要,文本语义匹配则是指学习两个文本单元之间的语义关系,使句子表征具有更加丰富的语义信息。该文提出了一种基于孪生网络文本语义匹配的多文档抽取式摘要方法,该方法将孪生网络和预训练语言模型BERT相结合,构建一个文本语义匹配与文本摘要联合学习模型。该模型运用孪生网络从不同的视角考察任意两个文本单元之间的语义关联,学习文档集中碎片化的信息,进一步对重要信息进行评估,最后结合文本摘要模型选择出更能代表文档集主要内容的句子组织成摘要。实验结果表明,该文所提方法和当前主流的多文档抽取式摘要方法相比,在ROUGE评价指标上有较大提升。 展开更多
关键词 文档抽取式摘要 语义关系 预训练语言模型
在线阅读 下载PDF
基于多阶段内容选择框架的无监督抽取式多文档摘要方法
4
作者 冯毅 宋明阳 +1 位作者 景丽萍 于剑 《中文信息学报》 CSCD 北大核心 2024年第11期46-56,共11页
多文档抽取式摘要任务(MDES)旨在从多个相关文档中提取一个简明且包含显著信息的摘要。通常,在同主题的多个文档中冗余信息不可避免,例如,因不同表达方式造成的重复描述等。现有大多数方法在抽取摘要时,仅关注显著性内容的检测或冗余信... 多文档抽取式摘要任务(MDES)旨在从多个相关文档中提取一个简明且包含显著信息的摘要。通常,在同主题的多个文档中冗余信息不可避免,例如,因不同表达方式造成的重复描述等。现有大多数方法在抽取摘要时,仅关注显著性内容的检测或冗余信息的过滤二者之一,导致摘要信息不全面、不准确。因此,在建模抽取式多文档摘要任务时如何权衡两者间的协作是个挑战。考虑到多文档领域缺乏大规模训练数据,该文提出了一个新的多阶段的多文档无监督文本摘要抽取模型,该模型在摘要级别上进行提取,并通过以下三个步骤依次解决冗余性去除问题和显著性检测问题:引入外部知识的噪声过滤机制、冗余感知的排序策略,以及显著性感知的重排序策略。实验结果表明,该文框架可在多文档数据集Multi-News上取得无监督方法的最优结果,并在两个单文档数据集上获得有竞争力的结果。 展开更多
关键词 文档抽取式摘要 无监督方法 多阶段框架
在线阅读 下载PDF
基于谱聚类的多文档摘要新方法 被引量:4
5
作者 林立 胡侠 朱俊彦 《计算机工程》 CAS CSCD 北大核心 2010年第22期64-65,68,共3页
提出一种基于谱聚类的多文档摘要方法。在将文档中主题相关的句子进行聚类的基础上,同时考虑不同主题类别的重要性,综合句子位置、长度等因素以得到句子的重要性得分。根据重要性从高到低抽取满足字数要求的句子作为最终摘要。实验结果... 提出一种基于谱聚类的多文档摘要方法。在将文档中主题相关的句子进行聚类的基础上,同时考虑不同主题类别的重要性,综合句子位置、长度等因素以得到句子的重要性得分。根据重要性从高到低抽取满足字数要求的句子作为最终摘要。实验结果表明,该方法相较于传统摘要方法有更好的性能,能够有效地提高摘要的质量。 展开更多
关键词 文档摘要 谱聚类 信息检索
在线阅读 下载PDF
利用维基百科实体增强基于图的多文档摘要 被引量:2
6
作者 陈维政 严睿 +1 位作者 闫宏飞 李晓明 《中文信息学报》 CSCD 北大核心 2016年第2期153-159,共7页
针对基于图的多文档摘要,该文提出了一种在图排序中结合维基百科实体信息增强摘要质量的方法。首先抽取文档集合中高频实体的维基词条内容作为该文档集合的背景知识,然后采用PageRank算法对文档集合中的句子进行排序,之后采用改进的DivR... 针对基于图的多文档摘要,该文提出了一种在图排序中结合维基百科实体信息增强摘要质量的方法。首先抽取文档集合中高频实体的维基词条内容作为该文档集合的背景知识,然后采用PageRank算法对文档集合中的句子进行排序,之后采用改进的DivRank算法对文档集合和背景知识中的句子一起排序,最后根据两次排序结果的线性组合确定文档句子的最终排序以进行摘要句的选取。在DUC2005数据集上的评测结果表明该方法可以有效利用维基百科知识增强摘要的质量。 展开更多
关键词 文档摘要 维基实体 基于图
在线阅读 下载PDF
基于文档语义图的中文多文档摘要生成机制 被引量:6
7
作者 宋锐 林鸿飞 《中文信息学报》 CSCD 北大核心 2009年第3期110-115,共6页
从文档集合的语义结构理解文档集合可以提高多文档摘要的质量。本文通过抽取中文多文档摘要文档集中的主-述-宾三元组结构构建文档语义图,再对语义图中的节点利用编辑距离进行语义聚类,并应用Page-Rank排序算法对语义图进行权重计算后,... 从文档集合的语义结构理解文档集合可以提高多文档摘要的质量。本文通过抽取中文多文档摘要文档集中的主-述-宾三元组结构构建文档语义图,再对语义图中的节点利用编辑距离进行语义聚类,并应用Page-Rank排序算法对语义图进行权重计算后,选取包含权重较高的节点及链接关系的三元组生成文档集合的多文档摘要。在摘要的评测阶段,将基于句子抽取的多文档摘要结果和基于文档语义图生成的多文档摘要分别与由评测员人工生成的摘要进行ROUGE相关度评测,并对利用编辑距离对语义图进行语义聚类前后的结果进行了比较。实验结果表明,基于文档语义图生成的多文档摘要与人工生成的摘要结果重叠度更高,而利用编辑距离对语义图进行聚类则进一步改进了摘要的质量。 展开更多
关键词 计算机应用 中文信息处理 文档语义图 编辑距离 PAGERANK ROUGE 中文多文档摘要
在线阅读 下载PDF
基于PV-DM模型的多文档摘要方法 被引量:2
8
作者 刘欣 王波 毛二松 《计算机应用与软件》 CSCD 2016年第10期251-255,278,共6页
当前的基于词向量的多文档摘要方法没有考虑句子中词语的顺序,存在异句同向量问题以及在小规模训练数据上生成的摘要冗余度高的问题。针对这些问题,提出基于PV-DM(Distributed Memory Model of Paragraph Vectors)模型的多文档摘要方法... 当前的基于词向量的多文档摘要方法没有考虑句子中词语的顺序,存在异句同向量问题以及在小规模训练数据上生成的摘要冗余度高的问题。针对这些问题,提出基于PV-DM(Distributed Memory Model of Paragraph Vectors)模型的多文档摘要方法。该方法首先构建单调亚模(Submodular)目标函数;然后,通过训练PV-DM模型得到句子向量计算句子间的语义相似度,进而求解单调亚模目标函数;最后,利用优化算法抽取句子生成摘要。在标准数据集Opinosis上的实验结果表明该方法优于当前主流的多文档摘要方法。 展开更多
关键词 语义相似度 PV-DM模型 句子向量 文档摘要 单调亚模函数
在线阅读 下载PDF
一种面向查询的多文档摘要方法 被引量:1
9
作者 叶娜 蔡东风 《中文信息学报》 CSCD 北大核心 2010年第6期69-74,共6页
面向查询的多文档摘要技术有两个难点:第一,为了保证摘要与查询密切相关,容易造成摘要内容重复,不够全面;第二,原始查询难以完整描述查询意图,需进行查询扩展,而现有查询扩展方法多依赖于外部语义资源。针对以上问题,该文提出一种面向... 面向查询的多文档摘要技术有两个难点:第一,为了保证摘要与查询密切相关,容易造成摘要内容重复,不够全面;第二,原始查询难以完整描述查询意图,需进行查询扩展,而现有查询扩展方法多依赖于外部语义资源。针对以上问题,该文提出一种面向查询的多文档摘要方法,利用主题分析技术识别出当前主题下的子主题,综合考虑句子所在的子主题与查询的相关度以及子主题的重要度两方面因素来选择摘要句,并根据词语在子主题之间的共现信息,在不使用任何外部知识的情况下,进行查询扩展。在DUC2006评测语料上的实验结果表明,与Baseline系统相比,该系统取得了更高的ROUGE评价值,基于子主题的查询扩展方法则进一步提高了摘要的质量。 展开更多
关键词 面向查询 文档摘要 子主题 相关度 查询扩展
在线阅读 下载PDF
结合LDA和谱聚类的多文档摘要 被引量:8
10
作者 付玲 张晖 《计算机工程与应用》 CSCD 2013年第16期142-145,154,共5页
自动文摘技术的目标是致力于将冗长的文档内容压缩成较为简短的几段话,将信息全面、简洁地呈现给用户,提高用户获取信息的效率和准确率。所提出的方法在LDA(Latent Dirichlet Allocation)的基础上,使用Gibbs抽样估计主题在单词上的概率... 自动文摘技术的目标是致力于将冗长的文档内容压缩成较为简短的几段话,将信息全面、简洁地呈现给用户,提高用户获取信息的效率和准确率。所提出的方法在LDA(Latent Dirichlet Allocation)的基础上,使用Gibbs抽样估计主题在单词上的概率分布和句子在主题上的概率分布,结合LDA参数和谱聚类算法提取多文档摘要。该方法使用线性公式来整合句子权重,提取出字数为400字的多文档摘要。使用ROUGE自动摘要评测工具包对DUC2002数据集评测摘要质量,结果表明,该方法能有效地提高摘要的质量。 展开更多
关键词 LATENT DIRICHLET Allocation (LDA) GIBBS抽样 谱聚类 文档摘要
在线阅读 下载PDF
融合多信息句子图模型的多文档摘要抽取 被引量:4
11
作者 蒋亚芳 严馨 +2 位作者 徐广义 周枫 邓忠莹 《计算机工程与科学》 CSCD 北大核心 2020年第3期535-542,共8页
针对现有多文档抽取方法不能很好地利用句子主题信息和语义信息的问题,提出一种融合多信息句子图模型的多文档摘要抽取方法。首先,以句子为节点,构建句子图模型;然后,将基于句子的贝叶斯主题模型和词向量模型得到的句子主题概率分布和... 针对现有多文档抽取方法不能很好地利用句子主题信息和语义信息的问题,提出一种融合多信息句子图模型的多文档摘要抽取方法。首先,以句子为节点,构建句子图模型;然后,将基于句子的贝叶斯主题模型和词向量模型得到的句子主题概率分布和句子语义相似度相融合,得到句子最终的相关性,结合主题信息和语义信息作为句子图模型的边权重;最后,借助句子图最小支配集的摘要方法来描述多文档摘要。该方法通过融合多信息的句子图模型,将句子间的主题信息、语义信息和关系信息相结合。实验结果表明,该方法能够有效地改进抽取摘要的综合性能。 展开更多
关键词 文档摘要 句子贝叶斯主题模型 词向量 句子图模型 最小支配集
在线阅读 下载PDF
一种面向实体的演化式多文档摘要生成方法 被引量:2
12
作者 宋俊 韩啸宇 +2 位作者 黄宇 黄廷磊 付琨 《广西师范大学学报(自然科学版)》 CAS 北大核心 2015年第2期36-41,共6页
本文针对多文档摘要没有考虑实体、仅仅生成通用摘要的问题,提出面向实体的演化式多文档摘要生成方法。本文首先利用一个概率主题模型联合建模文档主题的演化和实体的参与情况,然后结合实体对句子进行评分和选择,针对不同的实体,同一个... 本文针对多文档摘要没有考虑实体、仅仅生成通用摘要的问题,提出面向实体的演化式多文档摘要生成方法。本文首先利用一个概率主题模型联合建模文档主题的演化和实体的参与情况,然后结合实体对句子进行评分和选择,针对不同的实体,同一个句子可能获得不同的评分。此外,本文在真实数据集上进行了大量的实验和分析,实验结果表明,该方法可以面向不同的实体生成关于事件发展的个性化摘要,同时与现有方法相比,该方法还得到了更好的通用摘要。 展开更多
关键词 文档摘要 概率主题模型 自然语言处理
在线阅读 下载PDF
基于布谷鸟搜索优化算法的多文档摘要方法 被引量:4
13
作者 周诗源 王英林 《计算机工程》 CAS CSCD 北大核心 2020年第7期58-64,71,共8页
为最大化生成摘要的信息量,提出一种基于布谷鸟搜索(CS)算法与多目标函数的多文档摘要方法。对多文档数据进行预处理,通过句子分割、分词、移除停用词和词干化将文档转化为词语的基本处理形式,计算经数据预处理后的句子信息量得分并将... 为最大化生成摘要的信息量,提出一种基于布谷鸟搜索(CS)算法与多目标函数的多文档摘要方法。对多文档数据进行预处理,通过句子分割、分词、移除停用词和词干化将文档转化为词语的基本处理形式,计算经数据预处理后的句子信息量得分并将其作为CS算法的输入,再基于多目标函数生成包含原始文档重要信息的句子以组成最终的摘要。实验结果表明,与基于粒子群优化算法和双层K最近邻算法的多文档摘要方法相比,该方法在最大化生成摘要信息量的前提下,保证了高可读性和低冗余性,并且在DUC基准数据集上的摘要平均准确度高达0.99。 展开更多
关键词 文档摘要 布谷鸟搜索算法 数据预处理 多目标函数 信息量
在线阅读 下载PDF
SFExt-PGAbs:两阶段长文档摘要模型
14
作者 周伟枭 蓝雯飞 +1 位作者 许智明 朱容波 《计算机科学与探索》 CSCD 北大核心 2021年第5期907-921,共15页
针对抽取式方法、生成式方法在长文档摘要上的流畅性、准确性缺陷以及在文档编码前截断原始文档造成的重要信息缺失问题,提出一种两阶段长文档摘要模型SFExt-PGAbs,由次模函数抽取式摘要SFExt与指针生成器生成式摘要PGAbs组成。SFExt-PG... 针对抽取式方法、生成式方法在长文档摘要上的流畅性、准确性缺陷以及在文档编码前截断原始文档造成的重要信息缺失问题,提出一种两阶段长文档摘要模型SFExt-PGAbs,由次模函数抽取式摘要SFExt与指针生成器生成式摘要PGAbs组成。SFExt-PGAbs模拟人类对长文档进行摘要的过程,首先使用SFExt在长文档中抽取出重要句子,过滤不重要且冗余的句子形成过渡文档,然后PGAbs接收过渡文档作为输入以生成流畅且准确的摘要。为获取与原始文档中心思想更为接近的过渡文档,在传统SFExt中拓展出位置重要性、准确性两个子方面,同时设计新的贪心算法。为研究不同特征提取器对生成摘要质量的影响,在PGAbs中应用两种循环神经网络。实验结果显示,在CNNDM测试集上,SFExt-PGAbs相较于基线模型生成了更为流畅、准确的摘要,ROUGE指标有较大提升。同时,子方面拓展后的SFExt也能抽取得到更准确的摘要。 展开更多
关键词 两阶段摘要模型 文档摘要 抽取式摘要 生成式摘要 次模函数 指针生成器 子方面融合
在线阅读 下载PDF
中文单文档摘要模型DSum-SSE 被引量:1
15
作者 赫俊民 鲁梦华 孟魁 《计算机工程与应用》 CSCD 北大核心 2021年第15期200-206,共7页
针对中文文档摘要领域存在的缺少可靠数据集,有监督的摘要模型不成熟的问题,构建了一个规模超过20万篇的中文文档级别的摘要语料库(Chinese Document-level Extractive Summarization Dataset,CDESD),提出了一种有监督的文档级别抽取式... 针对中文文档摘要领域存在的缺少可靠数据集,有监督的摘要模型不成熟的问题,构建了一个规模超过20万篇的中文文档级别的摘要语料库(Chinese Document-level Extractive Summarization Dataset,CDESD),提出了一种有监督的文档级别抽取式摘要模型(Document Summarization with SPA Sentence Embedding,DSum-SSE)。该模型以神经网络为基础的框架,使用结合了Pointer和注意力机制的端到端框架解决句子级别的生成式摘要问题,以获得反映句子核心含义的表示向量,然后在此基础上引入极端的Pointer机制,完成文档级别抽取式摘要算法。实验表明,相比于无监督的单文档摘要算法——TextRank,DSum-SSE有能力提供更高质量的摘要。CDESD和DSum-SSE分别对中文文档级别摘要领域的语料数据和模型做了很好的补充。 展开更多
关键词 文档级文本摘要 抽取式摘要 端到端框架 注意力机制 POINTER
在线阅读 下载PDF
中-蒙-藏-维文多文档摘要数据集
16
作者 翁彧 邢天娇 +3 位作者 叶旭明 刘征 超木日力格 刘轩 《中国科学数据(中英文网络版)》 2024年第4期85-96,共12页
是自然语言处理中的一个关键任务,也是理解和处理大量文档中核心内容的关键技术。尽管目前英文和中文的多文档研究已取得显著进展,低资源语言相关研究却因数据不足而相对滞后。因此,本研究在构建中文多文档摘要数据集的基础上,采取机器... 是自然语言处理中的一个关键任务,也是理解和处理大量文档中核心内容的关键技术。尽管目前英文和中文的多文档研究已取得显著进展,低资源语言相关研究却因数据不足而相对滞后。因此,本研究在构建中文多文档摘要数据集的基础上,采取机器翻译加专家校对的方式构建了蒙文、藏文和维文对齐语料,组成了中文、蒙文、藏文和维文版本的面向多文档摘要生成的数据集MMDS。每种语言包含1044个新闻簇(6234篇新闻文章),覆盖2018至2023年间的重大新闻事件。此外,通过人工评价确保了数据集的高质量,使其更加适用于多语言的深度学习模型训练和NLP研究。本数据集的发布,对于促进低资源语言信息处理的发展具有重要的价值。 展开更多
关键词 文档摘要 数据集 蒙文 藏文 维文 低资源
在线阅读 下载PDF
基于LDA重要主题的多文档自动摘要算法 被引量:11
17
作者 刘娜 路莹 +1 位作者 唐晓君 李明霞 《计算机科学与探索》 CSCD 北大核心 2015年第2期242-248,共7页
提出了基于LDA(latent Dirichlet allocation)重要主题的多文档自动摘要算法。该算法与已有的基于主题模型的多文档自动摘要算法主要有两点区别:第一,在计算句子主题与文档主题相似度问题上,引入并定义了主题重要性的概念,将LDA模型建... 提出了基于LDA(latent Dirichlet allocation)重要主题的多文档自动摘要算法。该算法与已有的基于主题模型的多文档自动摘要算法主要有两点区别:第一,在计算句子主题与文档主题相似度问题上,引入并定义了主题重要性的概念,将LDA模型建立的主题分成重要和非重要主题两类,计算句子权重时重点考虑句子主题和文档重要主题的相似性;第二,该方法同时使用句子的词频、位置等统计特征和LDA特征组成的向量计算句子的权重,既突出了传统的统计特征的显著优势,又结合了LDA模型的主题概念。实验表明,该算法在DUC2002标准数据集上取得了较好的摘要效果。 展开更多
关键词 文档摘要 主题模型 重要主题
在线阅读 下载PDF
基于潜在狄利克雷分布模型的多文档情感摘要 被引量:9
18
作者 荀静 刘培玉 +1 位作者 杨玉珍 张艳辉 《计算机应用》 CSCD 北大核心 2014年第6期1636-1640,共5页
针对当前方法难以获取评论文本全局情感倾向性的问题,提出一种基于潜在狄利克雷分布(LDA)模型的多文档情感摘要方法。该方法首先对给定的句子进行情感分析,抽取带有主观性评价的句子;然后,应用LDA模型表示已抽取的句子,并通过词汇的重... 针对当前方法难以获取评论文本全局情感倾向性的问题,提出一种基于潜在狄利克雷分布(LDA)模型的多文档情感摘要方法。该方法首先对给定的句子进行情感分析,抽取带有主观性评价的句子;然后,应用LDA模型表示已抽取的句子,并通过词汇的重要度和句子的特征计算句子的权重;最终提取情感文摘。实验结果表明,该方法能够有效地识别情感关键句,在准确率、召回率和F值上均有不错的效果。 展开更多
关键词 潜在狄利克雷分布模型 主观句子 情感分析 文档摘要
在线阅读 下载PDF
一种集成框架下的分布式多文档自动摘要方法 被引量:3
19
作者 罗毅辉 熊曙初 《情报杂志》 CSSCI 北大核心 2013年第11期133-136,132,共5页
提出一种集成框架下的分布式多文档自动摘要方法,该方法克服了现有集中式多文档摘要集成方法的缺陷,能够对分布在不同网络节点上的文档摘要系统的文本摘要结果进行集成,更适合因特网环境下的多文档摘要任务。实验结果表明,该方法相对于... 提出一种集成框架下的分布式多文档自动摘要方法,该方法克服了现有集中式多文档摘要集成方法的缺陷,能够对分布在不同网络节点上的文档摘要系统的文本摘要结果进行集成,更适合因特网环境下的多文档摘要任务。实验结果表明,该方法相对于传统摘要方法有更好的性能,能够有效地提高文本摘要的质量,与集中式多文档摘要集成方法性能相当。 展开更多
关键词 文档摘要 集成方法 分布式 0-1整数规划
在线阅读 下载PDF
自适应主题融合的多文档自动摘要算法
20
作者 刘娜 肖智博 +2 位作者 路莹 唐晓君 肖鹏 《中南大学学报(自然科学版)》 EI CAS CSCD 北大核心 2013年第S2期205-209,共5页
在LDA主题模型的基础上,提出自适应主题融合的多文档自动摘要算法。考虑到标题信息对摘要形成有很强的指示作用,为文档的标题和正文内容分别建立主题模型,并对2个模型进行融合。融合过程中,根据2种形态的信息熵进行自适应不对称学习,从... 在LDA主题模型的基础上,提出自适应主题融合的多文档自动摘要算法。考虑到标题信息对摘要形成有很强的指示作用,为文档的标题和正文内容分别建立主题模型,并对2个模型进行融合。融合过程中,根据2种形态的信息熵进行自适应不对称学习,从而对不同形态的主题分布进行加权处理。融合后的模型适当地关联了标题和正文的信息,因此能够有助于摘要质量的提高。实验结果表明:自适应主题融合的多文档自动摘要算法在DUC2002标准数据集上取得了较好的效果。 展开更多
关键词 文档摘要 主题模型 自适应学习 信息熵
在线阅读 下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部