期刊文献+
共找到13篇文章
< 1 >
每页显示 20 50 100
主题模型LDA的多文档自动文摘 被引量:24
1
作者 杨潇 马军 +2 位作者 杨同峰 杜言琦 邵海敏 《智能系统学报》 2010年第2期169-176,共8页
近年来使用概率主题模型表示多文档文摘问题受到研究者的关注.LDA(latent dirichlet allocation)是主题模型中具有代表性的概率生成性模型之一.提出了一种基于LDA的文摘方法,该方法以混乱度确定LDA模型的主题数目,以Gibbs抽样获得模型... 近年来使用概率主题模型表示多文档文摘问题受到研究者的关注.LDA(latent dirichlet allocation)是主题模型中具有代表性的概率生成性模型之一.提出了一种基于LDA的文摘方法,该方法以混乱度确定LDA模型的主题数目,以Gibbs抽样获得模型中句子的主题概率分布和主题的词汇概率分布,以句子中主题权重的加和确定各个主题的重要程度,并根据LDA模型中主题的概率分布和句子的概率分布提出了2种不同的句子权重计算模型.实验中使用ROUGE评测标准,与代表最新水平的SumBasic方法和其他2种基于LDA的多文档自动文摘方法在通用型多文档摘要测试集DUC2002上的评测数据进行比较,结果表明提出的基于LDA的多文档自动文摘方法在ROUGE的各个评测标准上均优于SumBasic方法,与其他基于LDA模型的文摘相比也具有优势. 展开更多
关键词 多文档自动文摘 句子分值计算 主题模型 LDA 主题数目
在线阅读 下载PDF
基于信息融合的多文档自动文摘技术 被引量:27
2
作者 徐永东 徐志明 王晓龙 《计算机学报》 EI CSCD 北大核心 2007年第11期2048-2054,共7页
提出了一个面向多文档自动文摘任务的多文本框架(Multiple Document Framework,MDF),该框架通过系统地描述不同层面的文本单元之间的相互关系以及文档集合蕴含的事件在时间上的发生及演变,将多篇文档在不损失文档集合原有信息的前提下... 提出了一个面向多文档自动文摘任务的多文本框架(Multiple Document Framework,MDF),该框架通过系统地描述不同层面的文本单元之间的相互关系以及文档集合蕴含的事件在时间上的发生及演变,将多篇文档在不损失文档集合原有信息的前提下实现信息融合.MDF简化了传统交叉文本结构理论的文本集合表示模型,又补充了信息融合理论中缺乏的事件主题的演变性和分布性信息.文中给出了建立MDF、基于MDF的信息融合、文摘生成等一整套算法.通过对32组不同主题的网络文档试验结果表明,MDF策略很好地实现了多知识源的并行融合,并获得了较好的结果. 展开更多
关键词 多文本框架 多文档自动文摘 信息融合 时间
在线阅读 下载PDF
面向冗余度控制的中文多文档自动文摘 被引量:6
3
作者 王红玲 周国栋 朱巧明 《中文信息学报》 CSCD 北大核心 2012年第2期92-96,共5页
多文档自动文摘能够帮助人们自动、快速地获取信息,是目前的一个研究热点。相比于单文档自动文摘,多文档自动文摘需要更多考虑文档之间的相关性,以及文档信息之间的冗余性。因此如何控制信息冗余是多文档自动文摘的一个关键所在。该文... 多文档自动文摘能够帮助人们自动、快速地获取信息,是目前的一个研究热点。相比于单文档自动文摘,多文档自动文摘需要更多考虑文档之间的相关性,以及文档信息之间的冗余性。因此如何控制信息冗余是多文档自动文摘的一个关键所在。该文在考虑文摘特性的基础上提出了一个冗余度控制模型,该模型通过计算文本单元在主题概率分布之间的相似度来决定句子的选择,从而达到控制冗余的目的。实验结果表明,该方法能够有效降低冗余度,且总体性能优于现有的自动文摘系统。 展开更多
关键词 冗余度控制 多文档自动文摘 中文自动文摘
在线阅读 下载PDF
基于时间戳的多文档自动文摘 被引量:3
4
作者 索红光 梁玉环 刘玉树 《计算机工程》 CAS CSCD 北大核心 2007年第16期164-165,共2页
网站的新闻专题往往包含大量的网页,多文档自动文摘可以帮助人们从中快速获取主要信息。该文提出了利用时间戳改善文摘句子抽取质量和排序的方法。介绍了句子抽取方法、句子重要度计算、句子冗余减小方法。实验表明,形成的文摘性能良好... 网站的新闻专题往往包含大量的网页,多文档自动文摘可以帮助人们从中快速获取主要信息。该文提出了利用时间戳改善文摘句子抽取质量和排序的方法。介绍了句子抽取方法、句子重要度计算、句子冗余减小方法。实验表明,形成的文摘性能良好,可以应用于实际系统中。 展开更多
关键词 多文档自动文摘 时间戳 信息抽取 句子相似度
在线阅读 下载PDF
主题与子事件发现的多文档自动文摘 被引量:1
5
作者 王萌 李春贵 +1 位作者 徐超 何婷婷 《计算机工程与应用》 CSCD 北大核心 2011年第18期130-134,共5页
提出了一种基于主题与子事件抽取的多文档自动文摘方法。该方法突破传统词频统计方法,除考虑词语频率、位置信息外,还将词语是否为描述文本集合的主题和子事件作为因素,提取出了8个基本特征,利用逻辑回归模型预测基本特征对词语权重的影... 提出了一种基于主题与子事件抽取的多文档自动文摘方法。该方法突破传统词频统计方法,除考虑词语频率、位置信息外,还将词语是否为描述文本集合的主题和子事件作为因素,提取出了8个基本特征,利用逻辑回归模型预测基本特征对词语权重的影响,计算词语权重。通过建立句子向量空间模型给句子打分,结合句子分数和冗余度产生文摘。对N-gram同现频率、主题词覆盖率和高频词覆盖率3种不同参数,分别在Coverage Baseline、Centroid-Based Summary和Word Mining based Summary(WMS)3种不同文摘系统下所产生的文摘质量,进行了对比实验,结果表明WMS系统在多方面具有优越的性能。 展开更多
关键词 深层词语挖掘 多文档自动文摘 逻辑回归模型
在线阅读 下载PDF
基于LSA和pLSA的多文档自动文摘 被引量:6
6
作者 俞辉 《计算机工程与科学》 CSCD 北大核心 2009年第9期108-111,共4页
本文提出一种基于LSA和pLSA的多文档自动文摘策略。首先,将多个文档切分成自然段,以自然段作为聚类单位。采用了新的特征提取方法构建词-自然段矩阵,利用LSA对词-自然段矩阵进行奇异值分解,使得向量空间模型中的高维表示变成在潜在语义... 本文提出一种基于LSA和pLSA的多文档自动文摘策略。首先,将多个文档切分成自然段,以自然段作为聚类单位。采用了新的特征提取方法构建词-自然段矩阵,利用LSA对词-自然段矩阵进行奇异值分解,使得向量空间模型中的高维表示变成在潜在语义空间中的低维表示。然后,采用pLSA将数据转换成概率统计模型来计算。在文摘生成的过程中采用基于质心的文摘句挑选办法得到文摘并输出。实验表明,本文提出的方法有效地提高了生成文摘的质量。 展开更多
关键词 多文档自动文摘 潜在语义分析 奇异值分解
在线阅读 下载PDF
基于非完全吸收马尔科夫链的多文档自动文摘算法
7
作者 高晶 房俊 《计算机科学》 CSCD 北大核心 2013年第5期201-205,共5页
吸收马尔科夫链模型在自动文摘领域的有效性已经证实。然而,此模型中的平均期望历经次数需要通过矩阵求逆得到,所以模型的时间复杂度很高。此外,由于自身的局限性,它也无法利用除句子间相互关系以外的其它信息。针对此问题建立了一个新... 吸收马尔科夫链模型在自动文摘领域的有效性已经证实。然而,此模型中的平均期望历经次数需要通过矩阵求逆得到,所以模型的时间复杂度很高。此外,由于自身的局限性,它也无法利用除句子间相互关系以外的其它信息。针对此问题建立了一个新的模型:非完全吸收马尔科夫链;并以此为基础提出了一个新的多文档文摘算法。证明了吸收马尔科夫链的平均期望历经次数与对应的非完全吸收马尔科夫链的稳态概率分布的等价性,而后者可通过迭代求解。同时,这个新的模型还可以引入除句子间相互关系以外的其它信息,从而生成更准确的文摘。在TAC2011上的实验证实了该模型的有效性。 展开更多
关键词 非完全吸收马尔科夫链 LexRank 面向主题的先验分布 多文档自动文摘
在线阅读 下载PDF
基于MapReduce的多文档自动文摘的设计与实现
8
作者 胡琪 邹细勇 《计算机工程与应用》 CSCD 北大核心 2011年第35期67-70,共4页
多文档文摘是将同一主题下的多个文本描述的主要的信息按压缩比提炼为一个文本的自然语言处理技术,它可以从全局的角度对网络信息进行挖掘。在面对飞速增长的网络资源时,如何准确、高效地从海量数据源内进行自动文摘处理,是多文档自动... 多文档文摘是将同一主题下的多个文本描述的主要的信息按压缩比提炼为一个文本的自然语言处理技术,它可以从全局的角度对网络信息进行挖掘。在面对飞速增长的网络资源时,如何准确、高效地从海量数据源内进行自动文摘处理,是多文档自动文摘面临的主要难题之一。MapReduce是Google提出的一种分布式并行计算方法,它可以部署在任意一个普通商用计算机组成的集群上,能够有效地协调集群内各计算机的计算任务,充分利用计算机集群的处理能力,能够对海量数据进行有效的分析处理。提出了一个有效的实验模型,将MapReduce分布式并行框架应用在多文档自动文摘技术中。实验结果表明,MapReduce在保证文摘质量的前提下,能够有效地提高文摘抽取过程的处理性能。 展开更多
关键词 多文档自动文摘 MAPREDUCE 并行计算
在线阅读 下载PDF
多文档文摘中基于时间信息的句子排序策略研究 被引量:8
9
作者 徐永东 王亚东 +2 位作者 刘杨 王伟 权光日 《中文信息学报》 CSCD 北大核心 2009年第4期27-33,共7页
文摘句排序是多文档自动文摘中的一个关键技术,直接影响到文摘的流畅程度和可读性。文本时间信息处理是影响排序算法质量的瓶颈技术,由于无法获得准确的时间信息,传统的句子排序策略均回避了这一问题,而且均无法获得稳定的高质量的排序... 文摘句排序是多文档自动文摘中的一个关键技术,直接影响到文摘的流畅程度和可读性。文本时间信息处理是影响排序算法质量的瓶颈技术,由于无法获得准确的时间信息,传统的句子排序策略均回避了这一问题,而且均无法获得稳定的高质量的排序效果。对此该文从文本时间信息处理入手,首先提出了中文文本时间信息抽取、语义计算以及时序推理算法,并在此算法基础上,借鉴传统的主成分排列的思想和句子相关度计算方法,提出了基于时间信息的句子排序算法。实验表明该算法的质量要明显好于传统的主成分排列算法和时序排列算法。 展开更多
关键词 计算机应用 中文信息处理 多文档自动文摘 句子排序 中文时间信息处理
在线阅读 下载PDF
基于基本要素向量空间的英文多文档自动摘要 被引量:2
10
作者 刘德喜 何炎祥 +1 位作者 姬东鸿 杨华 《计算机工程》 CAS CSCD 北大核心 2007年第14期166-167,170,共3页
在基于基本要素(BE)向量空间的英文多文档自动文摘中,句子不再用术语向量或词向量来表达,而是用基本要素向量来表示。在用k-均值聚类算法时,采用一种自动探测k值的技术。实验表明,基于基本要素的多文档自动文摘MSBEC比基于词更优越。
关键词 多文档自动文摘 基本要素 K-均值聚类
在线阅读 下载PDF
SSC软聚类算法在面向查询的多文档文摘中的应用
11
作者 唐俊 《计算机工程与科学》 CSCD 北大核心 2010年第6期112-114,共3页
针对面向查询的多文档自动文摘,本文将查询句混入多文档集合中的各句子中间,采用高效的软聚类算法SSC对所有的句子进行聚类。采用轮转法抽取文摘句,最后生成文摘。该方法在DUC2005的语料中测试效果很好。
关键词 多文档自动文摘 软聚类算法 文摘句抽取
在线阅读 下载PDF
基于隐主题马尔科夫模型的多特征自动文摘 被引量:4
12
作者 刘江鸣 徐金安 张玉洁 《北京大学学报(自然科学版)》 EI CAS CSCD 北大核心 2014年第1期187-193,共7页
基于隐主题马尔科夫模型,消除LDA主题模型的主题独立假设,使得文摘生成过程中充分利用文章的结构信息,并结合基于内容的多特征方法提高文摘质量。提出在不破坏文章结构的前提下,从单文档扩展到多文档的自动文摘策略,最终搭建完善的自动... 基于隐主题马尔科夫模型,消除LDA主题模型的主题独立假设,使得文摘生成过程中充分利用文章的结构信息,并结合基于内容的多特征方法提高文摘质量。提出在不破坏文章结构的前提下,从单文档扩展到多文档的自动文摘策略,最终搭建完善的自动文摘系统。在DUC2007标准数据集上的实验证明了隐主题马尔科夫模型和文档特征的优越性,所实现的自动文摘系统ROUGE值有明显提高。 展开更多
关键词 隐主题马尔科夫模型 多特征 多文档自动文摘
在线阅读 下载PDF
面向查询的多模式自动摘要研究 被引量:3
13
作者 李芳 何婷婷 《中文信息学报》 CSCD 北大核心 2011年第2期9-14,共6页
为了满足用户的个性化需求,提供尽可能丰富、实用、方便的文摘结果,该文设计了面向查询的多文档自动文摘的多种摘要模式。在将查询返回的文档集合表示为以文本、段落为节点的双层复杂网络结构以发现子主题的基础上,除传统的摘要模式外,... 为了满足用户的个性化需求,提供尽可能丰富、实用、方便的文摘结果,该文设计了面向查询的多文档自动文摘的多种摘要模式。在将查询返回的文档集合表示为以文本、段落为节点的双层复杂网络结构以发现子主题的基础上,除传统的摘要模式外,该文又设计了概括摘要、局部摘要、全局摘要和详细摘要这四种摘要模式,并给出了各种摘要的生成方法。支持用户以主题为线索自主漫游,按照一定的逻辑顺序浏览信息。 展开更多
关键词 面向查询的多文档自动文摘 子主题发现 多模式摘要
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部