期刊导航
期刊开放获取
上海教育软件发展有限公..
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
13
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
主题模型LDA的多文档自动文摘
被引量:
24
1
作者
杨潇
马军
+2 位作者
杨同峰
杜言琦
邵海敏
《智能系统学报》
2010年第2期169-176,共8页
近年来使用概率主题模型表示多文档文摘问题受到研究者的关注.LDA(latent dirichlet allocation)是主题模型中具有代表性的概率生成性模型之一.提出了一种基于LDA的文摘方法,该方法以混乱度确定LDA模型的主题数目,以Gibbs抽样获得模型...
近年来使用概率主题模型表示多文档文摘问题受到研究者的关注.LDA(latent dirichlet allocation)是主题模型中具有代表性的概率生成性模型之一.提出了一种基于LDA的文摘方法,该方法以混乱度确定LDA模型的主题数目,以Gibbs抽样获得模型中句子的主题概率分布和主题的词汇概率分布,以句子中主题权重的加和确定各个主题的重要程度,并根据LDA模型中主题的概率分布和句子的概率分布提出了2种不同的句子权重计算模型.实验中使用ROUGE评测标准,与代表最新水平的SumBasic方法和其他2种基于LDA的多文档自动文摘方法在通用型多文档摘要测试集DUC2002上的评测数据进行比较,结果表明提出的基于LDA的多文档自动文摘方法在ROUGE的各个评测标准上均优于SumBasic方法,与其他基于LDA模型的文摘相比也具有优势.
展开更多
关键词
多文档自动文摘
句子分值计算
主题模型
LDA
主题数目
在线阅读
下载PDF
职称材料
基于信息融合的多文档自动文摘技术
被引量:
27
2
作者
徐永东
徐志明
王晓龙
《计算机学报》
EI
CSCD
北大核心
2007年第11期2048-2054,共7页
提出了一个面向多文档自动文摘任务的多文本框架(Multiple Document Framework,MDF),该框架通过系统地描述不同层面的文本单元之间的相互关系以及文档集合蕴含的事件在时间上的发生及演变,将多篇文档在不损失文档集合原有信息的前提下...
提出了一个面向多文档自动文摘任务的多文本框架(Multiple Document Framework,MDF),该框架通过系统地描述不同层面的文本单元之间的相互关系以及文档集合蕴含的事件在时间上的发生及演变,将多篇文档在不损失文档集合原有信息的前提下实现信息融合.MDF简化了传统交叉文本结构理论的文本集合表示模型,又补充了信息融合理论中缺乏的事件主题的演变性和分布性信息.文中给出了建立MDF、基于MDF的信息融合、文摘生成等一整套算法.通过对32组不同主题的网络文档试验结果表明,MDF策略很好地实现了多知识源的并行融合,并获得了较好的结果.
展开更多
关键词
多文本框架
多文档自动文摘
信息融合
时间
在线阅读
下载PDF
职称材料
面向冗余度控制的中文多文档自动文摘
被引量:
6
3
作者
王红玲
周国栋
朱巧明
《中文信息学报》
CSCD
北大核心
2012年第2期92-96,共5页
多文档自动文摘能够帮助人们自动、快速地获取信息,是目前的一个研究热点。相比于单文档自动文摘,多文档自动文摘需要更多考虑文档之间的相关性,以及文档信息之间的冗余性。因此如何控制信息冗余是多文档自动文摘的一个关键所在。该文...
多文档自动文摘能够帮助人们自动、快速地获取信息,是目前的一个研究热点。相比于单文档自动文摘,多文档自动文摘需要更多考虑文档之间的相关性,以及文档信息之间的冗余性。因此如何控制信息冗余是多文档自动文摘的一个关键所在。该文在考虑文摘特性的基础上提出了一个冗余度控制模型,该模型通过计算文本单元在主题概率分布之间的相似度来决定句子的选择,从而达到控制冗余的目的。实验结果表明,该方法能够有效降低冗余度,且总体性能优于现有的自动文摘系统。
展开更多
关键词
冗余度控制
多文档自动文摘
中文
自动
文摘
在线阅读
下载PDF
职称材料
基于时间戳的多文档自动文摘
被引量:
3
4
作者
索红光
梁玉环
刘玉树
《计算机工程》
CAS
CSCD
北大核心
2007年第16期164-165,共2页
网站的新闻专题往往包含大量的网页,多文档自动文摘可以帮助人们从中快速获取主要信息。该文提出了利用时间戳改善文摘句子抽取质量和排序的方法。介绍了句子抽取方法、句子重要度计算、句子冗余减小方法。实验表明,形成的文摘性能良好...
网站的新闻专题往往包含大量的网页,多文档自动文摘可以帮助人们从中快速获取主要信息。该文提出了利用时间戳改善文摘句子抽取质量和排序的方法。介绍了句子抽取方法、句子重要度计算、句子冗余减小方法。实验表明,形成的文摘性能良好,可以应用于实际系统中。
展开更多
关键词
多文档自动文摘
时间戳
信息抽取
句子相似度
在线阅读
下载PDF
职称材料
主题与子事件发现的多文档自动文摘
被引量:
1
5
作者
王萌
李春贵
+1 位作者
徐超
何婷婷
《计算机工程与应用》
CSCD
北大核心
2011年第18期130-134,共5页
提出了一种基于主题与子事件抽取的多文档自动文摘方法。该方法突破传统词频统计方法,除考虑词语频率、位置信息外,还将词语是否为描述文本集合的主题和子事件作为因素,提取出了8个基本特征,利用逻辑回归模型预测基本特征对词语权重的影...
提出了一种基于主题与子事件抽取的多文档自动文摘方法。该方法突破传统词频统计方法,除考虑词语频率、位置信息外,还将词语是否为描述文本集合的主题和子事件作为因素,提取出了8个基本特征,利用逻辑回归模型预测基本特征对词语权重的影响,计算词语权重。通过建立句子向量空间模型给句子打分,结合句子分数和冗余度产生文摘。对N-gram同现频率、主题词覆盖率和高频词覆盖率3种不同参数,分别在Coverage Baseline、Centroid-Based Summary和Word Mining based Summary(WMS)3种不同文摘系统下所产生的文摘质量,进行了对比实验,结果表明WMS系统在多方面具有优越的性能。
展开更多
关键词
深层词语挖掘
多文档自动文摘
逻辑回归模型
在线阅读
下载PDF
职称材料
基于LSA和pLSA的多文档自动文摘
被引量:
6
6
作者
俞辉
《计算机工程与科学》
CSCD
北大核心
2009年第9期108-111,共4页
本文提出一种基于LSA和pLSA的多文档自动文摘策略。首先,将多个文档切分成自然段,以自然段作为聚类单位。采用了新的特征提取方法构建词-自然段矩阵,利用LSA对词-自然段矩阵进行奇异值分解,使得向量空间模型中的高维表示变成在潜在语义...
本文提出一种基于LSA和pLSA的多文档自动文摘策略。首先,将多个文档切分成自然段,以自然段作为聚类单位。采用了新的特征提取方法构建词-自然段矩阵,利用LSA对词-自然段矩阵进行奇异值分解,使得向量空间模型中的高维表示变成在潜在语义空间中的低维表示。然后,采用pLSA将数据转换成概率统计模型来计算。在文摘生成的过程中采用基于质心的文摘句挑选办法得到文摘并输出。实验表明,本文提出的方法有效地提高了生成文摘的质量。
展开更多
关键词
多文档自动文摘
潜在语义分析
奇异值分解
在线阅读
下载PDF
职称材料
基于非完全吸收马尔科夫链的多文档自动文摘算法
7
作者
高晶
房俊
《计算机科学》
CSCD
北大核心
2013年第5期201-205,共5页
吸收马尔科夫链模型在自动文摘领域的有效性已经证实。然而,此模型中的平均期望历经次数需要通过矩阵求逆得到,所以模型的时间复杂度很高。此外,由于自身的局限性,它也无法利用除句子间相互关系以外的其它信息。针对此问题建立了一个新...
吸收马尔科夫链模型在自动文摘领域的有效性已经证实。然而,此模型中的平均期望历经次数需要通过矩阵求逆得到,所以模型的时间复杂度很高。此外,由于自身的局限性,它也无法利用除句子间相互关系以外的其它信息。针对此问题建立了一个新的模型:非完全吸收马尔科夫链;并以此为基础提出了一个新的多文档文摘算法。证明了吸收马尔科夫链的平均期望历经次数与对应的非完全吸收马尔科夫链的稳态概率分布的等价性,而后者可通过迭代求解。同时,这个新的模型还可以引入除句子间相互关系以外的其它信息,从而生成更准确的文摘。在TAC2011上的实验证实了该模型的有效性。
展开更多
关键词
非完全吸收马尔科夫链
LexRank
面向主题的先验分布
多文档自动文摘
在线阅读
下载PDF
职称材料
基于MapReduce的多文档自动文摘的设计与实现
8
作者
胡琪
邹细勇
《计算机工程与应用》
CSCD
北大核心
2011年第35期67-70,共4页
多文档文摘是将同一主题下的多个文本描述的主要的信息按压缩比提炼为一个文本的自然语言处理技术,它可以从全局的角度对网络信息进行挖掘。在面对飞速增长的网络资源时,如何准确、高效地从海量数据源内进行自动文摘处理,是多文档自动...
多文档文摘是将同一主题下的多个文本描述的主要的信息按压缩比提炼为一个文本的自然语言处理技术,它可以从全局的角度对网络信息进行挖掘。在面对飞速增长的网络资源时,如何准确、高效地从海量数据源内进行自动文摘处理,是多文档自动文摘面临的主要难题之一。MapReduce是Google提出的一种分布式并行计算方法,它可以部署在任意一个普通商用计算机组成的集群上,能够有效地协调集群内各计算机的计算任务,充分利用计算机集群的处理能力,能够对海量数据进行有效的分析处理。提出了一个有效的实验模型,将MapReduce分布式并行框架应用在多文档自动文摘技术中。实验结果表明,MapReduce在保证文摘质量的前提下,能够有效地提高文摘抽取过程的处理性能。
展开更多
关键词
多文档自动文摘
MAPREDUCE
并行计算
在线阅读
下载PDF
职称材料
多文档文摘中基于时间信息的句子排序策略研究
被引量:
8
9
作者
徐永东
王亚东
+2 位作者
刘杨
王伟
权光日
《中文信息学报》
CSCD
北大核心
2009年第4期27-33,共7页
文摘句排序是多文档自动文摘中的一个关键技术,直接影响到文摘的流畅程度和可读性。文本时间信息处理是影响排序算法质量的瓶颈技术,由于无法获得准确的时间信息,传统的句子排序策略均回避了这一问题,而且均无法获得稳定的高质量的排序...
文摘句排序是多文档自动文摘中的一个关键技术,直接影响到文摘的流畅程度和可读性。文本时间信息处理是影响排序算法质量的瓶颈技术,由于无法获得准确的时间信息,传统的句子排序策略均回避了这一问题,而且均无法获得稳定的高质量的排序效果。对此该文从文本时间信息处理入手,首先提出了中文文本时间信息抽取、语义计算以及时序推理算法,并在此算法基础上,借鉴传统的主成分排列的思想和句子相关度计算方法,提出了基于时间信息的句子排序算法。实验表明该算法的质量要明显好于传统的主成分排列算法和时序排列算法。
展开更多
关键词
计算机应用
中文信息处理
多文档自动文摘
句子排序
中文时间信息处理
在线阅读
下载PDF
职称材料
基于基本要素向量空间的英文多文档自动摘要
被引量:
2
10
作者
刘德喜
何炎祥
+1 位作者
姬东鸿
杨华
《计算机工程》
CAS
CSCD
北大核心
2007年第14期166-167,170,共3页
在基于基本要素(BE)向量空间的英文多文档自动文摘中,句子不再用术语向量或词向量来表达,而是用基本要素向量来表示。在用k-均值聚类算法时,采用一种自动探测k值的技术。实验表明,基于基本要素的多文档自动文摘MSBEC比基于词更优越。
关键词
多文档自动文摘
基本要素
K-均值聚类
在线阅读
下载PDF
职称材料
SSC软聚类算法在面向查询的多文档文摘中的应用
11
作者
唐俊
《计算机工程与科学》
CSCD
北大核心
2010年第6期112-114,共3页
针对面向查询的多文档自动文摘,本文将查询句混入多文档集合中的各句子中间,采用高效的软聚类算法SSC对所有的句子进行聚类。采用轮转法抽取文摘句,最后生成文摘。该方法在DUC2005的语料中测试效果很好。
关键词
多文档自动文摘
软聚类算法
文摘
句抽取
在线阅读
下载PDF
职称材料
基于隐主题马尔科夫模型的多特征自动文摘
被引量:
4
12
作者
刘江鸣
徐金安
张玉洁
《北京大学学报(自然科学版)》
EI
CAS
CSCD
北大核心
2014年第1期187-193,共7页
基于隐主题马尔科夫模型,消除LDA主题模型的主题独立假设,使得文摘生成过程中充分利用文章的结构信息,并结合基于内容的多特征方法提高文摘质量。提出在不破坏文章结构的前提下,从单文档扩展到多文档的自动文摘策略,最终搭建完善的自动...
基于隐主题马尔科夫模型,消除LDA主题模型的主题独立假设,使得文摘生成过程中充分利用文章的结构信息,并结合基于内容的多特征方法提高文摘质量。提出在不破坏文章结构的前提下,从单文档扩展到多文档的自动文摘策略,最终搭建完善的自动文摘系统。在DUC2007标准数据集上的实验证明了隐主题马尔科夫模型和文档特征的优越性,所实现的自动文摘系统ROUGE值有明显提高。
展开更多
关键词
隐主题马尔科夫模型
多特征
多文档自动文摘
在线阅读
下载PDF
职称材料
面向查询的多模式自动摘要研究
被引量:
3
13
作者
李芳
何婷婷
《中文信息学报》
CSCD
北大核心
2011年第2期9-14,共6页
为了满足用户的个性化需求,提供尽可能丰富、实用、方便的文摘结果,该文设计了面向查询的多文档自动文摘的多种摘要模式。在将查询返回的文档集合表示为以文本、段落为节点的双层复杂网络结构以发现子主题的基础上,除传统的摘要模式外,...
为了满足用户的个性化需求,提供尽可能丰富、实用、方便的文摘结果,该文设计了面向查询的多文档自动文摘的多种摘要模式。在将查询返回的文档集合表示为以文本、段落为节点的双层复杂网络结构以发现子主题的基础上,除传统的摘要模式外,该文又设计了概括摘要、局部摘要、全局摘要和详细摘要这四种摘要模式,并给出了各种摘要的生成方法。支持用户以主题为线索自主漫游,按照一定的逻辑顺序浏览信息。
展开更多
关键词
面向查询的
多文档自动文摘
子主题发现
多模式摘要
在线阅读
下载PDF
职称材料
题名
主题模型LDA的多文档自动文摘
被引量:
24
1
作者
杨潇
马军
杨同峰
杜言琦
邵海敏
机构
山东经济学院信息管理学院
山东大学计算机科学与技术学院
出处
《智能系统学报》
2010年第2期169-176,共8页
基金
国家自然科学基金资助项目(60970047)
山东省自然科学基金资助项目(Y2008G19)
+1 种基金
山东省科技计划资助项目(2007GG10001002
2008GG10001026)
文摘
近年来使用概率主题模型表示多文档文摘问题受到研究者的关注.LDA(latent dirichlet allocation)是主题模型中具有代表性的概率生成性模型之一.提出了一种基于LDA的文摘方法,该方法以混乱度确定LDA模型的主题数目,以Gibbs抽样获得模型中句子的主题概率分布和主题的词汇概率分布,以句子中主题权重的加和确定各个主题的重要程度,并根据LDA模型中主题的概率分布和句子的概率分布提出了2种不同的句子权重计算模型.实验中使用ROUGE评测标准,与代表最新水平的SumBasic方法和其他2种基于LDA的多文档自动文摘方法在通用型多文档摘要测试集DUC2002上的评测数据进行比较,结果表明提出的基于LDA的多文档自动文摘方法在ROUGE的各个评测标准上均优于SumBasic方法,与其他基于LDA模型的文摘相比也具有优势.
关键词
多文档自动文摘
句子分值计算
主题模型
LDA
主题数目
Keywords
multi-document summarization
sentence scoring
topic model
latent dirichlet allocation
number of topics
分类号
TP391.1 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
基于信息融合的多文档自动文摘技术
被引量:
27
2
作者
徐永东
徐志明
王晓龙
机构
哈尔滨工业大学计算机学院智能技术与自然语言处理研究室
出处
《计算机学报》
EI
CSCD
北大核心
2007年第11期2048-2054,共7页
基金
国家自然科学基金重点项目(60435020)
国家自然科学基金(60773070)资助.~~
文摘
提出了一个面向多文档自动文摘任务的多文本框架(Multiple Document Framework,MDF),该框架通过系统地描述不同层面的文本单元之间的相互关系以及文档集合蕴含的事件在时间上的发生及演变,将多篇文档在不损失文档集合原有信息的前提下实现信息融合.MDF简化了传统交叉文本结构理论的文本集合表示模型,又补充了信息融合理论中缺乏的事件主题的演变性和分布性信息.文中给出了建立MDF、基于MDF的信息融合、文摘生成等一整套算法.通过对32组不同主题的网络文档试验结果表明,MDF策略很好地实现了多知识源的并行融合,并获得了较好的结果.
关键词
多文本框架
多文档自动文摘
信息融合
时间
Keywords
multiple document framework
multi-document automatic summarization
information fusion
time
分类号
TP391 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
面向冗余度控制的中文多文档自动文摘
被引量:
6
3
作者
王红玲
周国栋
朱巧明
机构
苏州大学计算机科学与技术学院
出处
《中文信息学报》
CSCD
北大核心
2012年第2期92-96,共5页
基金
国家自然科学基金资助项目(60873150
60970056)
江苏省高校自然科学基金资助项目(10KJB520016)
文摘
多文档自动文摘能够帮助人们自动、快速地获取信息,是目前的一个研究热点。相比于单文档自动文摘,多文档自动文摘需要更多考虑文档之间的相关性,以及文档信息之间的冗余性。因此如何控制信息冗余是多文档自动文摘的一个关键所在。该文在考虑文摘特性的基础上提出了一个冗余度控制模型,该模型通过计算文本单元在主题概率分布之间的相似度来决定句子的选择,从而达到控制冗余的目的。实验结果表明,该方法能够有效降低冗余度,且总体性能优于现有的自动文摘系统。
关键词
冗余度控制
多文档自动文摘
中文
自动
文摘
Keywords
reduandancy control
multi-document summarization
Chinese automatic summarization
分类号
TP391 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
基于时间戳的多文档自动文摘
被引量:
3
4
作者
索红光
梁玉环
刘玉树
机构
北京理工大学计算机科学与技术学院
中国石油大学计算机与通信工程学院
出处
《计算机工程》
CAS
CSCD
北大核心
2007年第16期164-165,共2页
文摘
网站的新闻专题往往包含大量的网页,多文档自动文摘可以帮助人们从中快速获取主要信息。该文提出了利用时间戳改善文摘句子抽取质量和排序的方法。介绍了句子抽取方法、句子重要度计算、句子冗余减小方法。实验表明,形成的文摘性能良好,可以应用于实际系统中。
关键词
多文档自动文摘
时间戳
信息抽取
句子相似度
Keywords
automatic multidocument summarization
time stamp
information extraction
sentence similarity
分类号
TP31 [自动化与计算机技术—计算机软件与理论]
在线阅读
下载PDF
职称材料
题名
主题与子事件发现的多文档自动文摘
被引量:
1
5
作者
王萌
李春贵
徐超
何婷婷
机构
广西工学院计算机工程系
福建师范大学软件学院
华中师范大学计算机科学系
出处
《计算机工程与应用》
CSCD
北大核心
2011年第18期130-134,共5页
基金
国家自然科学基金(No.60773167)
广西科学基金资助项目(桂科自0640034)~~
文摘
提出了一种基于主题与子事件抽取的多文档自动文摘方法。该方法突破传统词频统计方法,除考虑词语频率、位置信息外,还将词语是否为描述文本集合的主题和子事件作为因素,提取出了8个基本特征,利用逻辑回归模型预测基本特征对词语权重的影响,计算词语权重。通过建立句子向量空间模型给句子打分,结合句子分数和冗余度产生文摘。对N-gram同现频率、主题词覆盖率和高频词覆盖率3种不同参数,分别在Coverage Baseline、Centroid-Based Summary和Word Mining based Summary(WMS)3种不同文摘系统下所产生的文摘质量,进行了对比实验,结果表明WMS系统在多方面具有优越的性能。
关键词
深层词语挖掘
多文档自动文摘
逻辑回归模型
Keywords
deeply word mining
multi-document summarization
logistic regression model
分类号
TP311 [自动化与计算机技术—计算机软件与理论]
在线阅读
下载PDF
职称材料
题名
基于LSA和pLSA的多文档自动文摘
被引量:
6
6
作者
俞辉
机构
中国石油大学计算机与通信工程学院
出处
《计算机工程与科学》
CSCD
北大核心
2009年第9期108-111,共4页
文摘
本文提出一种基于LSA和pLSA的多文档自动文摘策略。首先,将多个文档切分成自然段,以自然段作为聚类单位。采用了新的特征提取方法构建词-自然段矩阵,利用LSA对词-自然段矩阵进行奇异值分解,使得向量空间模型中的高维表示变成在潜在语义空间中的低维表示。然后,采用pLSA将数据转换成概率统计模型来计算。在文摘生成的过程中采用基于质心的文摘句挑选办法得到文摘并输出。实验表明,本文提出的方法有效地提高了生成文摘的质量。
关键词
多文档自动文摘
潜在语义分析
奇异值分解
Keywords
multi-document summarization
latent semantic analysis
singular value decomposition
分类号
TP311 [自动化与计算机技术—计算机软件与理论]
在线阅读
下载PDF
职称材料
题名
基于非完全吸收马尔科夫链的多文档自动文摘算法
7
作者
高晶
房俊
机构
北方工业大学云计算研究中心
出处
《计算机科学》
CSCD
北大核心
2013年第5期201-205,共5页
基金
国家自然基金重点项目(61033006)
国家自然基金项目(60970131)资助
文摘
吸收马尔科夫链模型在自动文摘领域的有效性已经证实。然而,此模型中的平均期望历经次数需要通过矩阵求逆得到,所以模型的时间复杂度很高。此外,由于自身的局限性,它也无法利用除句子间相互关系以外的其它信息。针对此问题建立了一个新的模型:非完全吸收马尔科夫链;并以此为基础提出了一个新的多文档文摘算法。证明了吸收马尔科夫链的平均期望历经次数与对应的非完全吸收马尔科夫链的稳态概率分布的等价性,而后者可通过迭代求解。同时,这个新的模型还可以引入除句子间相互关系以外的其它信息,从而生成更准确的文摘。在TAC2011上的实验证实了该模型的有效性。
关键词
非完全吸收马尔科夫链
LexRank
面向主题的先验分布
多文档自动文摘
Keywords
Partial absorbing markov chain
LexRank
Topic-oriented prior distribution
Multi-document summarization
分类号
TP391 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
基于MapReduce的多文档自动文摘的设计与实现
8
作者
胡琪
邹细勇
机构
中国计量学院光学与电子科技学院
出处
《计算机工程与应用》
CSCD
北大核心
2011年第35期67-70,共4页
基金
国家自然科学基金(No.50905170
No.61007012)~~
文摘
多文档文摘是将同一主题下的多个文本描述的主要的信息按压缩比提炼为一个文本的自然语言处理技术,它可以从全局的角度对网络信息进行挖掘。在面对飞速增长的网络资源时,如何准确、高效地从海量数据源内进行自动文摘处理,是多文档自动文摘面临的主要难题之一。MapReduce是Google提出的一种分布式并行计算方法,它可以部署在任意一个普通商用计算机组成的集群上,能够有效地协调集群内各计算机的计算任务,充分利用计算机集群的处理能力,能够对海量数据进行有效的分析处理。提出了一个有效的实验模型,将MapReduce分布式并行框架应用在多文档自动文摘技术中。实验结果表明,MapReduce在保证文摘质量的前提下,能够有效地提高文摘抽取过程的处理性能。
关键词
多文档自动文摘
MAPREDUCE
并行计算
Keywords
multi-document automatic summarization
MapReduce
parallel computing
分类号
TP311 [自动化与计算机技术—计算机软件与理论]
在线阅读
下载PDF
职称材料
题名
多文档文摘中基于时间信息的句子排序策略研究
被引量:
8
9
作者
徐永东
王亚东
刘杨
王伟
权光日
机构
哈尔滨工业大学(威海)计算机科学与技术学院
出处
《中文信息学报》
CSCD
北大核心
2009年第4期27-33,共7页
基金
国家自然科学基金资助项目(60803092)
哈尔滨工业大学科技创新基金资助(IMQQ29080001)
文摘
文摘句排序是多文档自动文摘中的一个关键技术,直接影响到文摘的流畅程度和可读性。文本时间信息处理是影响排序算法质量的瓶颈技术,由于无法获得准确的时间信息,传统的句子排序策略均回避了这一问题,而且均无法获得稳定的高质量的排序效果。对此该文从文本时间信息处理入手,首先提出了中文文本时间信息抽取、语义计算以及时序推理算法,并在此算法基础上,借鉴传统的主成分排列的思想和句子相关度计算方法,提出了基于时间信息的句子排序算法。实验表明该算法的质量要明显好于传统的主成分排列算法和时序排列算法。
关键词
计算机应用
中文信息处理
多文档自动文摘
句子排序
中文时间信息处理
Keywords
computer application
Chinese information processing
multi-documents automatic summarization
sen tences ordering
Chinese temporal information processing
分类号
TP391 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
基于基本要素向量空间的英文多文档自动摘要
被引量:
2
10
作者
刘德喜
何炎祥
姬东鸿
杨华
机构
襄樊学院物理学系
武汉大学计算机学院
新加坡信息通讯研究所
出处
《计算机工程》
CAS
CSCD
北大核心
2007年第14期166-167,170,共3页
基金
国家自然科学基金资助重大项目(90104005)
文摘
在基于基本要素(BE)向量空间的英文多文档自动文摘中,句子不再用术语向量或词向量来表达,而是用基本要素向量来表示。在用k-均值聚类算法时,采用一种自动探测k值的技术。实验表明,基于基本要素的多文档自动文摘MSBEC比基于词更优越。
关键词
多文档自动文摘
基本要素
K-均值聚类
Keywords
multi-document summarization
basic element
k-means clustering
分类号
TP391 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
SSC软聚类算法在面向查询的多文档文摘中的应用
11
作者
唐俊
机构
湖南城建职业技术学院信息工程系
出处
《计算机工程与科学》
CSCD
北大核心
2010年第6期112-114,共3页
文摘
针对面向查询的多文档自动文摘,本文将查询句混入多文档集合中的各句子中间,采用高效的软聚类算法SSC对所有的句子进行聚类。采用轮转法抽取文摘句,最后生成文摘。该方法在DUC2005的语料中测试效果很好。
关键词
多文档自动文摘
软聚类算法
文摘
句抽取
Keywords
multi-document summarization
soft clustering algorithm
sentence extraction
分类号
TP391 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
基于隐主题马尔科夫模型的多特征自动文摘
被引量:
4
12
作者
刘江鸣
徐金安
张玉洁
机构
北京交通大学计算机与信息技术学院
出处
《北京大学学报(自然科学版)》
EI
CAS
CSCD
北大核心
2014年第1期187-193,共7页
基金
国家自然科学基金(61370130)
科技部国际科技合作计划(K11F100010)
+2 种基金
中央高校基本科研业务费专项资金(2010JBZ2007)
中国科学院计算技术研究所智能信息处理重点实验室开放课题(IIP2010-4)
北京交通大学人才基金(2011RC034)资助
文摘
基于隐主题马尔科夫模型,消除LDA主题模型的主题独立假设,使得文摘生成过程中充分利用文章的结构信息,并结合基于内容的多特征方法提高文摘质量。提出在不破坏文章结构的前提下,从单文档扩展到多文档的自动文摘策略,最终搭建完善的自动文摘系统。在DUC2007标准数据集上的实验证明了隐主题马尔科夫模型和文档特征的优越性,所实现的自动文摘系统ROUGE值有明显提高。
关键词
隐主题马尔科夫模型
多特征
多文档自动文摘
Keywords
hidden topic Markov model
multi-features
multi-document summarization
分类号
TP391.1 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
面向查询的多模式自动摘要研究
被引量:
3
13
作者
李芳
何婷婷
机构
国家数字化学习工程技术研究中心
华中师范大学计算机科学系
出处
《中文信息学报》
CSCD
北大核心
2011年第2期9-14,共6页
基金
国家自然科学基金重大研究计划资助项目(90920005)
国家自然科学基金资助项目(60773167
+4 种基金
61003192)
973国家重点基础研究发展计划资助项目(2007CB310804)
教育部/国家外国专家局高等学校学科创新引智计划资助项目(B07042)
湖北省自然科学基金计划资助项目(2009CDB145)
武汉市晨光计划项目资助(201050231067)
文摘
为了满足用户的个性化需求,提供尽可能丰富、实用、方便的文摘结果,该文设计了面向查询的多文档自动文摘的多种摘要模式。在将查询返回的文档集合表示为以文本、段落为节点的双层复杂网络结构以发现子主题的基础上,除传统的摘要模式外,该文又设计了概括摘要、局部摘要、全局摘要和详细摘要这四种摘要模式,并给出了各种摘要的生成方法。支持用户以主题为线索自主漫游,按照一定的逻辑顺序浏览信息。
关键词
面向查询的
多文档自动文摘
子主题发现
多模式摘要
Keywords
query-directed multi-document summarization
sub-topic discovering
multi-mode summary
分类号
TP391 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
主题模型LDA的多文档自动文摘
杨潇
马军
杨同峰
杜言琦
邵海敏
《智能系统学报》
2010
24
在线阅读
下载PDF
职称材料
2
基于信息融合的多文档自动文摘技术
徐永东
徐志明
王晓龙
《计算机学报》
EI
CSCD
北大核心
2007
27
在线阅读
下载PDF
职称材料
3
面向冗余度控制的中文多文档自动文摘
王红玲
周国栋
朱巧明
《中文信息学报》
CSCD
北大核心
2012
6
在线阅读
下载PDF
职称材料
4
基于时间戳的多文档自动文摘
索红光
梁玉环
刘玉树
《计算机工程》
CAS
CSCD
北大核心
2007
3
在线阅读
下载PDF
职称材料
5
主题与子事件发现的多文档自动文摘
王萌
李春贵
徐超
何婷婷
《计算机工程与应用》
CSCD
北大核心
2011
1
在线阅读
下载PDF
职称材料
6
基于LSA和pLSA的多文档自动文摘
俞辉
《计算机工程与科学》
CSCD
北大核心
2009
6
在线阅读
下载PDF
职称材料
7
基于非完全吸收马尔科夫链的多文档自动文摘算法
高晶
房俊
《计算机科学》
CSCD
北大核心
2013
0
在线阅读
下载PDF
职称材料
8
基于MapReduce的多文档自动文摘的设计与实现
胡琪
邹细勇
《计算机工程与应用》
CSCD
北大核心
2011
0
在线阅读
下载PDF
职称材料
9
多文档文摘中基于时间信息的句子排序策略研究
徐永东
王亚东
刘杨
王伟
权光日
《中文信息学报》
CSCD
北大核心
2009
8
在线阅读
下载PDF
职称材料
10
基于基本要素向量空间的英文多文档自动摘要
刘德喜
何炎祥
姬东鸿
杨华
《计算机工程》
CAS
CSCD
北大核心
2007
2
在线阅读
下载PDF
职称材料
11
SSC软聚类算法在面向查询的多文档文摘中的应用
唐俊
《计算机工程与科学》
CSCD
北大核心
2010
0
在线阅读
下载PDF
职称材料
12
基于隐主题马尔科夫模型的多特征自动文摘
刘江鸣
徐金安
张玉洁
《北京大学学报(自然科学版)》
EI
CAS
CSCD
北大核心
2014
4
在线阅读
下载PDF
职称材料
13
面向查询的多模式自动摘要研究
李芳
何婷婷
《中文信息学报》
CSCD
北大核心
2011
3
在线阅读
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部