期刊导航
期刊开放获取
上海教育软件发展有限公..
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
83
篇文章
<
1
2
…
5
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
基于深度学习的抽取式摘要研究综述
1
作者
田萱
李嘉梁
孟晓欢
《计算机科学与探索》
CSCD
北大核心
2024年第11期2823-2847,共25页
自动文本摘要(ATS)是自然语言处理的热门研究方向,主要实现方法分为抽取式和生成式两类。抽取式摘要直接采用源文档中的文字内容,相比生成式摘要具有更高的语法正确性和事实正确性,在政策解读、官方文件总结、法律和医药等要求较为严谨...
自动文本摘要(ATS)是自然语言处理的热门研究方向,主要实现方法分为抽取式和生成式两类。抽取式摘要直接采用源文档中的文字内容,相比生成式摘要具有更高的语法正确性和事实正确性,在政策解读、官方文件总结、法律和医药等要求较为严谨的领域具有广泛应用前景。目前基于深度学习的抽取式摘要研究受到广泛关注。主要梳理了近几年基于深度学习的抽取式摘要技术研究进展;针对抽取式摘要的两个关键步骤——文本单元编码和摘要抽取,分别分析了相关研究工作。根据模型框架的不同,将文本单元编码方法分为层级序列编码、基于图神经网络的编码、融合式编码和基于预训练的编码四类进行介绍;根据摘要抽取阶段抽取粒度的不同,将摘要抽取方法分为文本单元级抽取和摘要级抽取两类进行分析。介绍了抽取式摘要任务常用的公共数据集和性能评估指标。预测并分析总结了该领域未来可能的研究方向及相应的发展趋势。
展开更多
关键词
自然语言处理
神经网络
深度学习
抽取
模型框架
预训练
编码方法
融合式
在线阅读
下载PDF
职称材料
基于无监督学习和监督学习的抽取式文本摘要综述
被引量:
5
2
作者
夏吾吉
黄鹤鸣
+1 位作者
更藏措毛
范玉涛
《计算机应用》
CSCD
北大核心
2024年第4期1035-1048,共14页
相较于生成式摘要方法,抽取式摘要方法简单易行、可读性强,使用范围广。目前,抽取式摘要方法综述文献仅对特定的某个方法或领域进行分析综述,缺乏多方面、多语种的系统性综述,因此探讨文本摘要生成任务的内涵,通过系统梳理和提炼现有的...
相较于生成式摘要方法,抽取式摘要方法简单易行、可读性强,使用范围广。目前,抽取式摘要方法综述文献仅对特定的某个方法或领域进行分析综述,缺乏多方面、多语种的系统性综述,因此探讨文本摘要生成任务的内涵,通过系统梳理和提炼现有的相关文献,对无监督学习和监督学习的抽取式文本摘要技术进行多维度、全方位的分析。首先,回顾文本摘要技术的发展,分析不同的抽取式文本摘要方法,主要包括基于规则、词频-逆文件概率(TFIDF)、中心性方法、潜在语义、深度学习、图排序、特征工程和预训练学习等,并对比不同方法的差异;其次,详细介绍不同语种文本摘要生成的常用数据集和主流的评价指标,通过不同的实验指标对相同数据集上的方法进行比较;最后,指出当前抽取式文本摘要研究中存在的主要问题和挑战,并提出具体的解决思路和未来发展趋势。
展开更多
关键词
抽取式摘要
无监督学习
监督学习
数据集
评价指标
在线阅读
下载PDF
职称材料
基于异构图和关键词的抽取式文本摘要模型
被引量:
1
3
作者
朱颀林
王羽
徐建
《电子科技大学学报》
EI
CAS
CSCD
北大核心
2024年第2期259-270,共12页
抽取式文本摘要使用一定的策略从冗长的文本中选择一些句子组成摘要,其关键在于要尽可能多地利用文本的语义信息和结构信息。为了更好地挖掘这些信息,进而利用它们指导摘要的抽取,提出了一种基于异构图和关键词的抽取式文本摘要模型(HGK...
抽取式文本摘要使用一定的策略从冗长的文本中选择一些句子组成摘要,其关键在于要尽可能多地利用文本的语义信息和结构信息。为了更好地挖掘这些信息,进而利用它们指导摘要的抽取,提出了一种基于异构图和关键词的抽取式文本摘要模型(HGKSum)。该模型首先将文本建模为由句子节点和词语节点构成的异构图,在异构图上使用图注意力网络学习节点的特征,之后将关键词抽取任务作为文本摘要任务的辅助任务,使用多任务学习的方式进行训练,得到候选摘要,最后对候选摘要进行精炼以降低冗余度,得到最终摘要。在基准数据集上的对比实验表明,该模型性能优于基准模型,此外,消融实验也证明了引入异构节点和关键词的必要性。
展开更多
关键词
抽取式文本摘要
异构图
关键词
图注意力网络
多任务学习
在线阅读
下载PDF
职称材料
融合多模态信息的产品摘要抽取模型
4
作者
赵强
王中卿
王红玲
《计算机应用》
CSCD
北大核心
2024年第1期73-78,共6页
在网络购物平台上,简洁、真实、有效的产品摘要对于提升购物体验至关重要。网上购物无法接触到产品实物,产品图像所含信息是除产品文本描述外的重要视觉信息,因此融合包括产品文本和产品图像在内的多模态信息的产品摘要对于网络购物具...
在网络购物平台上,简洁、真实、有效的产品摘要对于提升购物体验至关重要。网上购物无法接触到产品实物,产品图像所含信息是除产品文本描述外的重要视觉信息,因此融合包括产品文本和产品图像在内的多模态信息的产品摘要对于网络购物具有重要的意义。针对融合产品文本描述和产品图像的问题,提出一种融合多模态信息的产品摘要抽取模型。与一般的产品摘要任务的输入只包含产品文本描述不同,该模型引入了产品图像作为一种额外的信息来源,使抽取产生的摘要更丰富。具体来说,首先对产品文本描述和产品图像分别使用预训练模型进行特征表示,从产品文本描述中提取每个句子的文本特征表示,从产品图像中提取产品整体的视觉特征表示;然后使用基于低阶张量的多模态融合方法将每个句子的文本特征和整体视觉特征进行模态融合,得到每个句子的多模态特征表示;最后将所有句子的多模态特征表示输入摘要生成器中以生成最终的产品摘要。在CEPSUM(Chinese E-commerce Product SUMmarization)2.0数据集上进行对比实验,在CEPSUM 2.0的3个数据子集上,该模型的平均ROUGE-1比TextRank高3.12个百分点,比BERTSUMExt(BERT SUMmarization Extractive)高1.75个百分点。实验结果表明,该模型融合产品文本和图像信息对于产品摘要是有效的,在ROUGE评价指标上表现良好。
展开更多
关键词
产品摘要
多模态摘要
抽取式摘要
多模态融合
自动文摘
在线阅读
下载PDF
职称材料
基于子句单元的异构图网络抽取式文本摘要
5
作者
林群凯
陈钰枫
+2 位作者
徐金安
张玉洁
刘健
《中文信息学报》
CSCD
北大核心
2024年第6期119-128,共10页
的目标是将长文本进行压缩、归纳和总结,从而形成具有概括性含义的短文本,其能帮助人们快速获取文档的主要信息。当前大多数的抽取式文本摘要的研究都是以整句作为抽取单元,而整句作为抽取单元会引入冗余信息,因此该文考虑使用粒度更细...
的目标是将长文本进行压缩、归纳和总结,从而形成具有概括性含义的短文本,其能帮助人们快速获取文档的主要信息。当前大多数的抽取式文本摘要的研究都是以整句作为抽取单元,而整句作为抽取单元会引入冗余信息,因此该文考虑使用粒度更细的抽取单元。已有研究表明,细粒度的子句单元比整句单元在抽取式摘要上更具有优势。结合当下热门的图神经网络,该文提出了一种基于子句单元异构图网络的抽取式摘要模型,有效融合了词、实体和子句单元等不同层次的语言信息,能够实现更细粒度的抽取式摘要。在大规模基准语料库(CNN/DM和NYT)上的实验结果表明,该模型产生了突破性的性能并优于以前的抽取式摘要模型。
展开更多
关键词
子句
异构图
抽取式摘要
在线阅读
下载PDF
职称材料
基于孪生网络文本语义匹配的多文档摘要
6
作者
钟琪
王中卿
王红玲
《中文信息学报》
CSCD
北大核心
2024年第5期107-116,共10页
多文档摘要旨在从一组主题相关的文档集中抽取出最能代表文档集中心内容的句子作为摘要,文本语义匹配则是指学习两个文本单元之间的语义关系,使句子表征具有更加丰富的语义信息。该文提出了一种基于孪生网络文本语义匹配的多文档抽取式...
多文档摘要旨在从一组主题相关的文档集中抽取出最能代表文档集中心内容的句子作为摘要,文本语义匹配则是指学习两个文本单元之间的语义关系,使句子表征具有更加丰富的语义信息。该文提出了一种基于孪生网络文本语义匹配的多文档抽取式摘要方法,该方法将孪生网络和预训练语言模型BERT相结合,构建一个文本语义匹配与文本摘要联合学习模型。该模型运用孪生网络从不同的视角考察任意两个文本单元之间的语义关联,学习文档集中碎片化的信息,进一步对重要信息进行评估,最后结合文本摘要模型选择出更能代表文档集主要内容的句子组织成摘要。实验结果表明,该文所提方法和当前主流的多文档抽取式摘要方法相比,在ROUGE评价指标上有较大提升。
展开更多
关键词
多文档抽取式摘要
语义关系
预训练语言模型
在线阅读
下载PDF
职称材料
面向司法文书的抽取-生成式自动摘要模型
7
作者
陈炫言
安娜
+1 位作者
孙宇
周炼赤
《计算机工程与设计》
北大核心
2024年第4期1117-1125,共9页
为解决抽取式摘要核心信息拼接生硬,生成式摘要源文本过长易忽略重要信息等问题,对抽取式摘要和生成式摘要的结合进行研究。通过分析抽取式摘要可提取出文本关键信息且缩短源文本长度特性;生成式摘要可降低序列间信息损失,增加文本关联...
为解决抽取式摘要核心信息拼接生硬,生成式摘要源文本过长易忽略重要信息等问题,对抽取式摘要和生成式摘要的结合进行研究。通过分析抽取式摘要可提取出文本关键信息且缩短源文本长度特性;生成式摘要可降低序列间信息损失,增加文本关联的优势。提出一种面向司法文书的抽取-生成式自动摘要模型,融合模型优势,避免单一模型存在的关键文本信息重复及重组段落语法不准的问题,保障法律文书抽取的切实完整性。在大规模公开法律领域裁判文书数据集上的实验结果表明,该模型获得较高ROUGE得分,表明了该模型提升了摘要质量。
展开更多
关键词
自动摘要
抽取式
生成式
算法融合
裁判文书
法律领域
完整连贯性
在线阅读
下载PDF
职称材料
基于多阶段内容选择框架的无监督抽取式多文档摘要方法
8
作者
冯毅
宋明阳
+1 位作者
景丽萍
于剑
《中文信息学报》
CSCD
北大核心
2024年第11期46-56,共11页
多文档抽取式摘要任务(MDES)旨在从多个相关文档中提取一个简明且包含显著信息的摘要。通常,在同主题的多个文档中冗余信息不可避免,例如,因不同表达方式造成的重复描述等。现有大多数方法在抽取摘要时,仅关注显著性内容的检测或冗余信...
多文档抽取式摘要任务(MDES)旨在从多个相关文档中提取一个简明且包含显著信息的摘要。通常,在同主题的多个文档中冗余信息不可避免,例如,因不同表达方式造成的重复描述等。现有大多数方法在抽取摘要时,仅关注显著性内容的检测或冗余信息的过滤二者之一,导致摘要信息不全面、不准确。因此,在建模抽取式多文档摘要任务时如何权衡两者间的协作是个挑战。考虑到多文档领域缺乏大规模训练数据,该文提出了一个新的多阶段的多文档无监督文本摘要抽取模型,该模型在摘要级别上进行提取,并通过以下三个步骤依次解决冗余性去除问题和显著性检测问题:引入外部知识的噪声过滤机制、冗余感知的排序策略,以及显著性感知的重排序策略。实验结果表明,该文框架可在多文档数据集Multi-News上取得无监督方法的最优结果,并在两个单文档数据集上获得有竞争力的结果。
展开更多
关键词
多文档抽取式摘要
无监督方法
多阶段框架
在线阅读
下载PDF
职称材料
基于文本摘要的无监督关键词抽取方法
9
作者
尤泽顺
周喜
+2 位作者
董瑞
张洋宁
杨奉毅
《计算机工程与设计》
北大核心
2024年第9期2779-2784,共6页
为克服基于嵌入的关键词抽取方法在长文档上性能下降的问题,提出一种基于文本摘要的方法(summarization-based document embedding rank,SDERank)。将句向量的加权和作为文档嵌入,根据每个句子与文档主题的语义相关度赋予权重。以往基...
为克服基于嵌入的关键词抽取方法在长文档上性能下降的问题,提出一种基于文本摘要的方法(summarization-based document embedding rank,SDERank)。将句向量的加权和作为文档嵌入,根据每个句子与文档主题的语义相关度赋予权重。以往基于嵌入的方法选择关键词时忽略候选词之间的关联,针对该问题,在SDERank的改进版SDERank+中,PageRank算法被用于提取候选词之间的共现权重作为相似度分数的修正。实验结果表明,在4个广泛使用的数据集上SDERank和SDERank+比之前最好的模型MDERank的F1分数平均高出2.2%和3.29%。
展开更多
关键词
自动关键词抽取
文本摘要
长文档建模
文档主题分析
语义处理
权重优化
向量相似性
在线阅读
下载PDF
职称材料
基于异构图分层学习的细粒度多文档摘要抽取
10
作者
翁裕源
许柏炎
蔡瑞初
《计算机工程》
CAS
CSCD
北大核心
2024年第3期336-344,共9页
抽取的目标是在多个文档中提取共有关键信息,其对简洁性的要求高于单文档摘要抽取。现有的多文档摘要抽取方法通常在句子级别进行建模,容易引入较多的冗余信息。为了解决上述问题,提出一种基于异构图分层学习的多文档摘要抽取框架,通过...
抽取的目标是在多个文档中提取共有关键信息,其对简洁性的要求高于单文档摘要抽取。现有的多文档摘要抽取方法通常在句子级别进行建模,容易引入较多的冗余信息。为了解决上述问题,提出一种基于异构图分层学习的多文档摘要抽取框架,通过层次化构建单词层级图和子句层级图来有效建模语义关系和结构关系。针对单词层级图和子句层级图这2个异构图的学习问题,设计具有不同层次更新机制的两层学习层来降低学习多种结构关系的难度。在单词层级图学习层,提出交替更新机制更新不同的粒度节点,以单词节点为载体通过图注意网络进行语义信息传递;在子句层级图学习层,提出两阶段分步学习更新机制聚合多种结构关系,第一阶段聚合同构关系,第二阶段基于注意力聚合异构关系。实验结果表明,与抽取式基准模型相比,该框架在Multinews数据集上取得了显著的性能提升,ROUGE-1、ROUGE-2和ROUGE-L分别提高0.88、0.23和2.27,消融实验结果也验证了两层学习层及其层次更新机制的有效性。
展开更多
关键词
抽取式多文档摘要
细粒度建模
异构图
分层学习
语义关系
结构关系
在线阅读
下载PDF
职称材料
虫草素的提取纯化及测定方法研究进展
被引量:
28
11
作者
刘春泉
宋江峰
+1 位作者
李大婧
金邦荃
《食品科学》
EI
CAS
CSCD
北大核心
2007年第11期596-599,共4页
虫草素(cordycepin)是虫草重要的活性成分,具有显著的药理作用。本文主要就近年来北冬虫夏草中虫草素的提取纯化以及相关测定方法的研究作一概述,以期为实现其规模纯化打下基础。
关键词
虫草素
提取纯化
测定方法
概述
在线阅读
下载PDF
职称材料
Internet上文本的自动摘要技术
被引量:
13
12
作者
尹存燕
戴新宇
陈家骏
《计算机工程》
EI
CAS
CSCD
北大核心
2006年第3期88-90,共3页
主要研究了Internet上的文本自动摘要,介绍了自动摘要的主流技术;讨论Internet上文本摘要的新需求以及网页上与自动摘要相关的信息,介绍了摘要处理过程和当前自动摘要的主要评估方法;对Internet上文本的自动摘要作出了总结和展望。
关键词
自动摘要
抽取型摘要
概括型摘要
互联网
在线阅读
下载PDF
职称材料
文本情感分析
被引量:
558
13
作者
赵妍妍
秦兵
刘挺
《软件学报》
EI
CSCD
北大核心
2010年第8期1834-1848,共15页
对文本情感分析的研究现状与进展进行了总结.首先将文本情感分析归纳为3项主要任务,即情感信息抽取、情感信息分类以及情感信息的检索与归纳,并对它们进行了细致的介绍和分析;进而介绍了文本情感分析的国内外评测和资源建设情况;最后介...
对文本情感分析的研究现状与进展进行了总结.首先将文本情感分析归纳为3项主要任务,即情感信息抽取、情感信息分类以及情感信息的检索与归纳,并对它们进行了细致的介绍和分析;进而介绍了文本情感分析的国内外评测和资源建设情况;最后介绍了文本情感分析的应用.重在对文本情感分析研究的主流方法和前沿进展进行概括、比较和分析.
展开更多
关键词
文本情感分析
情感信息抽取
情感信息分类
情感信息的检索与归纳
评测
资源建设
在线阅读
下载PDF
职称材料
基于在线评论词向量表征的产品属性提取
被引量:
19
14
作者
李良强
袁华
+2 位作者
叶开
钱宇
唐小我
《系统工程学报》
CSCD
北大核心
2018年第5期687-697,共11页
在线评论中蕴含的产品信息具有很高的电子商务应用价值.但是,与之相关的文本挖掘工作,常常会面临着特征抽取以及对特征属性进行归类等问题的挑战.基于词向量模型在表达词语的情景语义方面的优势,提出了一种结合词向量表征和K-means聚类...
在线评论中蕴含的产品信息具有很高的电子商务应用价值.但是,与之相关的文本挖掘工作,常常会面临着特征抽取以及对特征属性进行归类等问题的挑战.基于词向量模型在表达词语的情景语义方面的优势,提出了一种结合词向量表征和K-means聚类相结合的半监督方法,用于从海量在线文本中高效挖掘出用户评论的特征,并进一步按照这些特征的语义提取出它们的归类信息.在真实数据集上的实验结果表明,提出的方法可有效应用于海量在线评论中的文本属性提取工作;与经典模型相比,本方法从特征中提取的归类属性信息能更好地呈现出评论者表达的语义.
展开更多
关键词
在线评论
特征抽取
属性归类
词向量
聚类
在线阅读
下载PDF
职称材料
基于事件抽取的网络新闻多文档自动摘要
被引量:
15
15
作者
韩永峰
许旭阳
+2 位作者
李弼程
朱武斌
陈刚
《中文信息学报》
CSCD
北大核心
2012年第1期58-66,共9页
目前,有代表性的自动摘要方法是根据文本片段进行聚类,较传统方法避免了信息冗余,但网络新闻文本中有些文本片段和主题无关,影响了聚类的效果,导致最终生成的摘要不够简洁。为此,该文引入事件抽取技术,提出了一种基于事件抽取的网络新...
目前,有代表性的自动摘要方法是根据文本片段进行聚类,较传统方法避免了信息冗余,但网络新闻文本中有些文本片段和主题无关,影响了聚类的效果,导致最终生成的摘要不够简洁。为此,该文引入事件抽取技术,提出了一种基于事件抽取的网络新闻多文档自动摘要方法。该方法首先通过二元分类器辨析出文本中的事件和非事件;然后通过聚类将文档原来以段落或句子为单位的物理划分转化为以事件为单位的内容逻辑划分,最后通过主旨事件抽取、排序及润色,生成摘要。实验结果表明,该方法是有效的,显著提高了生成摘要的质量。
展开更多
关键词
事件抽取
中文信息处理
分类
新闻文档
聚类
自动摘要
在线阅读
下载PDF
职称材料
基于超图的文本摘要与关键词协同抽取研究
被引量:
12
16
作者
莫鹏
胡珀
+1 位作者
黄湘冀
何婷婷
《中文信息学报》
CSCD
北大核心
2015年第6期135-140,共6页
文本摘要和关键词抽取是自然语言处理领域的两个重要研究课题,它们均以生成描述文本主旨内容的精简信息为目标。尽管这两个任务目标相似,但它们通常被作为两个独立的问题分别研究,而较少考虑其彼此间的自然关联性。尽管已有学者提出了...
文本摘要和关键词抽取是自然语言处理领域的两个重要研究课题,它们均以生成描述文本主旨内容的精简信息为目标。尽管这两个任务目标相似,但它们通常被作为两个独立的问题分别研究,而较少考虑其彼此间的自然关联性。尽管已有学者提出了基于图模型的协同抽取方法,该方法同时考虑了句子与句子、词与词、句子与词之间的各种关系,以迭代强化的方式同时生成文本摘要和关键词,但现有模型大多仅限于表达句子与词之间的各种二元关系,而忽视了不同文本单元间潜在的若干重要的高阶关系。鉴于此,该文提出了一种新的基于超图的协同抽取方法。该方法以句子作为超边,以词作为节点构建超图,在一个统一的超图模型下同时利用句子与词之间的高阶信息来生成摘要和关键词。在NLPCC 2015面向微博的新闻文本摘要任务数据集上的实验结果验证了所提方法的可行性和有效性。
展开更多
关键词
超图
文本摘要
关键词抽取
协同抽取
在线阅读
下载PDF
职称材料
权衡熵和相关度的自动摘要技术研究
被引量:
9
17
作者
罗文娟
马慧芳
+1 位作者
何清
史忠植
《中文信息学报》
CSCD
北大核心
2011年第5期9-16,共8页
生成高质量的文档摘要需要用简约而不丢失信息的描述文档,是自动摘要技术的一大难题。该文认为高质量的文档摘要必须尽量多的覆盖原始文档中的信息,同时尽可能的保持紧凑。从这一角度出发,从文档中抽取出熵和相关度这两组特征用以权衡...
生成高质量的文档摘要需要用简约而不丢失信息的描述文档,是自动摘要技术的一大难题。该文认为高质量的文档摘要必须尽量多的覆盖原始文档中的信息,同时尽可能的保持紧凑。从这一角度出发,从文档中抽取出熵和相关度这两组特征用以权衡摘要的信息覆盖率和紧凑性。该文采用基于回归的有监督摘要技术对提取的特征进行权衡,并且采用单文档摘要和多文档摘要进行了系统的实验。实验结果证明对于单文档摘要和多文档摘要,权衡熵和相关度均能有效地提高文档摘要的质量。
展开更多
关键词
自动摘要
句子特征抽取
熵
相关度
在线阅读
下载PDF
职称材料
基于改进的TextRank的自动摘要提取方法
被引量:
43
18
作者
余珊珊
苏锦钿
李鹏飞
《计算机科学》
CSCD
北大核心
2016年第6期240-247,共8页
经典的TextRank算法在文档的自动摘要提取时往往只考虑了句子节点间的相似性,而忽略了文档的篇章结构及句子的上下文信息。针对这些问题,结合中文文本的结构特点,提出一种改进后的iTextRank算法,通过将标题、段落、特殊句子、句子位置...
经典的TextRank算法在文档的自动摘要提取时往往只考虑了句子节点间的相似性,而忽略了文档的篇章结构及句子的上下文信息。针对这些问题,结合中文文本的结构特点,提出一种改进后的iTextRank算法,通过将标题、段落、特殊句子、句子位置和长度等信息引入到TextRank网络图的构造中,给出改进后的句子相似度计算方法及权重调整因子,并将其应用于中文文本的自动摘要提取,同时分析了算法的时间复杂度。最后,实验证明iTextRank比经典的TextRank方法具有更高的准确率和更低的召回率。
展开更多
关键词
中文文本
自动摘要提取
TextRank
篇章结构
无监督学习方法
在线阅读
下载PDF
职称材料
TP-AS:一种面向长文本的两阶段自动摘要方法
被引量:
12
19
作者
王帅
赵翔
+2 位作者
李博
葛斌
汤大权
《中文信息学报》
CSCD
北大核心
2018年第6期71-79,共9页
随着互联网上信息的爆炸式增长,如何有效提高知识获取效率变得尤为重要。文本自动摘要技术通过对信息的压缩和精炼,为知识的快速获取提供了很好的辅助手段。现有的文本自动摘要方法在处理长文本的过程中,存在准确率低的问题,无法达到令...
随着互联网上信息的爆炸式增长,如何有效提高知识获取效率变得尤为重要。文本自动摘要技术通过对信息的压缩和精炼,为知识的快速获取提供了很好的辅助手段。现有的文本自动摘要方法在处理长文本的过程中,存在准确率低的问题,无法达到令用户满意的性能效果。为此,该文提出一种新的两阶段的长文本自动摘要方法TP-AS,首先利用基于图模型的混合文本相似度计算方法进行关键句抽取,然后结合指针机制和注意力机制构建一种基于循环神经网络的编码器—解码器模型进行摘要生成。通过基于真实大规模金融领域长文本数据上的实验,验证了TP-AS方法的有效性,其自动摘要的准确性在ROUGE-1的指标下分别达到了36.6%(词)和33.9%(字符),明显优于现有其他方法。
展开更多
关键词
自动文本摘要
自然语言处理
抽取和生成
循环神经网络
在线阅读
下载PDF
职称材料
基于滑动窗口的动态摘要算法
被引量:
4
20
作者
蔡建山
迟呈英
+1 位作者
战学刚
王丫
《计算机工程》
CAS
CSCD
北大核心
2007年第6期213-215,238,共4页
动态摘要是根据查询检索词从文章中动态提取的摘要。用户仅仅浏览动态摘要之后就能了解文章中与查询相关的部分,进而判断是否值得详细阅读整篇文章。该文根据搜索引擎对摘要速度和质量的要求,提出了一种使用滑动窗口抽取片断的算法,接...
动态摘要是根据查询检索词从文章中动态提取的摘要。用户仅仅浏览动态摘要之后就能了解文章中与查询相关的部分,进而判断是否值得详细阅读整篇文章。该文根据搜索引擎对摘要速度和质量的要求,提出了一种使用滑动窗口抽取片断的算法,接着构造了摘要评测模型,使用同一个测试集对新动态摘要算法和Google、百度作对比实验。结果证明使用新方法生成的摘要能够言简意赅地概括文章的相关内容,在摘要指标的分项测试中取得了和Google基本相同的效果,但明显要比百度好,综合评价分别提高了5%和11%。
展开更多
关键词
动态摘要
文本摘要
片断抽取
滑动窗口
在线阅读
下载PDF
职称材料
题名
基于深度学习的抽取式摘要研究综述
1
作者
田萱
李嘉梁
孟晓欢
机构
北京林业大学信息学院
国家林业草原林业智能信息处理工程技术研究中心
出处
《计算机科学与探索》
CSCD
北大核心
2024年第11期2823-2847,共25页
基金
国家重点研发计划基本项目(2018YFC1603305,2018YFC1603302)。
文摘
自动文本摘要(ATS)是自然语言处理的热门研究方向,主要实现方法分为抽取式和生成式两类。抽取式摘要直接采用源文档中的文字内容,相比生成式摘要具有更高的语法正确性和事实正确性,在政策解读、官方文件总结、法律和医药等要求较为严谨的领域具有广泛应用前景。目前基于深度学习的抽取式摘要研究受到广泛关注。主要梳理了近几年基于深度学习的抽取式摘要技术研究进展;针对抽取式摘要的两个关键步骤——文本单元编码和摘要抽取,分别分析了相关研究工作。根据模型框架的不同,将文本单元编码方法分为层级序列编码、基于图神经网络的编码、融合式编码和基于预训练的编码四类进行介绍;根据摘要抽取阶段抽取粒度的不同,将摘要抽取方法分为文本单元级抽取和摘要级抽取两类进行分析。介绍了抽取式摘要任务常用的公共数据集和性能评估指标。预测并分析总结了该领域未来可能的研究方向及相应的发展趋势。
关键词
自然语言处理
神经网络
深度学习
抽取
模型框架
预训练
编码方法
融合式
Keywords
deep learning
extractive
summarization
text unit encoding
summar
y
extract
ion
分类号
TP18 [自动化与计算机技术—控制理论与控制工程]
在线阅读
下载PDF
职称材料
题名
基于无监督学习和监督学习的抽取式文本摘要综述
被引量:
5
2
作者
夏吾吉
黄鹤鸣
更藏措毛
范玉涛
机构
青海师范大学计算机学院
藏语智能信息处理及应用国家重点实验室(青海师范大学)
出处
《计算机应用》
CSCD
北大核心
2024年第4期1035-1048,共14页
基金
国家自然科学基金资助项目(62066039)
青海省自然科学基金资助项目(2022⁃ZJ⁃925)
藏语智能信息处理及应用国家重点实验室自主项目(2022⁃SKL⁃007)。
文摘
相较于生成式摘要方法,抽取式摘要方法简单易行、可读性强,使用范围广。目前,抽取式摘要方法综述文献仅对特定的某个方法或领域进行分析综述,缺乏多方面、多语种的系统性综述,因此探讨文本摘要生成任务的内涵,通过系统梳理和提炼现有的相关文献,对无监督学习和监督学习的抽取式文本摘要技术进行多维度、全方位的分析。首先,回顾文本摘要技术的发展,分析不同的抽取式文本摘要方法,主要包括基于规则、词频-逆文件概率(TFIDF)、中心性方法、潜在语义、深度学习、图排序、特征工程和预训练学习等,并对比不同方法的差异;其次,详细介绍不同语种文本摘要生成的常用数据集和主流的评价指标,通过不同的实验指标对相同数据集上的方法进行比较;最后,指出当前抽取式文本摘要研究中存在的主要问题和挑战,并提出具体的解决思路和未来发展趋势。
关键词
抽取式摘要
无监督学习
监督学习
数据集
评价指标
Keywords
extractive
summarization
unsupervised learning
supervised learning
dataset
evaluation metric
分类号
TP391.1 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
基于异构图和关键词的抽取式文本摘要模型
被引量:
1
3
作者
朱颀林
王羽
徐建
机构
南京理工大学计算机科学与工程学院
国防科技大学信息系统工程重点实验室
中国电子科技集团公司第二十八研究所
出处
《电子科技大学学报》
EI
CAS
CSCD
北大核心
2024年第2期259-270,共12页
基金
国家自然科学基金(61872186)
国防基础科研计划国防科技重点实验室稳定支持项目(WDZC20225250405)。
文摘
抽取式文本摘要使用一定的策略从冗长的文本中选择一些句子组成摘要,其关键在于要尽可能多地利用文本的语义信息和结构信息。为了更好地挖掘这些信息,进而利用它们指导摘要的抽取,提出了一种基于异构图和关键词的抽取式文本摘要模型(HGKSum)。该模型首先将文本建模为由句子节点和词语节点构成的异构图,在异构图上使用图注意力网络学习节点的特征,之后将关键词抽取任务作为文本摘要任务的辅助任务,使用多任务学习的方式进行训练,得到候选摘要,最后对候选摘要进行精炼以降低冗余度,得到最终摘要。在基准数据集上的对比实验表明,该模型性能优于基准模型,此外,消融实验也证明了引入异构节点和关键词的必要性。
关键词
抽取式文本摘要
异构图
关键词
图注意力网络
多任务学习
Keywords
extractive
document
summarization
heterogeneous graph
keywords
graph attention network
multi-task learning
分类号
TP391 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
融合多模态信息的产品摘要抽取模型
4
作者
赵强
王中卿
王红玲
机构
苏州大学计算机科学与技术学院
出处
《计算机应用》
CSCD
北大核心
2024年第1期73-78,共6页
基金
国家自然科学基金资助项目(61976146)。
文摘
在网络购物平台上,简洁、真实、有效的产品摘要对于提升购物体验至关重要。网上购物无法接触到产品实物,产品图像所含信息是除产品文本描述外的重要视觉信息,因此融合包括产品文本和产品图像在内的多模态信息的产品摘要对于网络购物具有重要的意义。针对融合产品文本描述和产品图像的问题,提出一种融合多模态信息的产品摘要抽取模型。与一般的产品摘要任务的输入只包含产品文本描述不同,该模型引入了产品图像作为一种额外的信息来源,使抽取产生的摘要更丰富。具体来说,首先对产品文本描述和产品图像分别使用预训练模型进行特征表示,从产品文本描述中提取每个句子的文本特征表示,从产品图像中提取产品整体的视觉特征表示;然后使用基于低阶张量的多模态融合方法将每个句子的文本特征和整体视觉特征进行模态融合,得到每个句子的多模态特征表示;最后将所有句子的多模态特征表示输入摘要生成器中以生成最终的产品摘要。在CEPSUM(Chinese E-commerce Product SUMmarization)2.0数据集上进行对比实验,在CEPSUM 2.0的3个数据子集上,该模型的平均ROUGE-1比TextRank高3.12个百分点,比BERTSUMExt(BERT SUMmarization Extractive)高1.75个百分点。实验结果表明,该模型融合产品文本和图像信息对于产品摘要是有效的,在ROUGE评价指标上表现良好。
关键词
产品摘要
多模态摘要
抽取式摘要
多模态融合
自动文摘
Keywords
product
summarization
multimodal
summarization
extract
ion
summarization
multimodal fusion
automatic
summarization
分类号
TP391.1 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
基于子句单元的异构图网络抽取式文本摘要
5
作者
林群凯
陈钰枫
徐金安
张玉洁
刘健
机构
北京交通大学交通数据分析与挖掘北京市重点实验室
出处
《中文信息学报》
CSCD
北大核心
2024年第6期119-128,共10页
基金
国家自然科学基金(61976016,61976015,61876198)。
文摘
的目标是将长文本进行压缩、归纳和总结,从而形成具有概括性含义的短文本,其能帮助人们快速获取文档的主要信息。当前大多数的抽取式文本摘要的研究都是以整句作为抽取单元,而整句作为抽取单元会引入冗余信息,因此该文考虑使用粒度更细的抽取单元。已有研究表明,细粒度的子句单元比整句单元在抽取式摘要上更具有优势。结合当下热门的图神经网络,该文提出了一种基于子句单元异构图网络的抽取式摘要模型,有效融合了词、实体和子句单元等不同层次的语言信息,能够实现更细粒度的抽取式摘要。在大规模基准语料库(CNN/DM和NYT)上的实验结果表明,该模型产生了突破性的性能并优于以前的抽取式摘要模型。
关键词
子句
异构图
抽取式摘要
Keywords
sub-sentential
heterogeneous graph
extractive
summarization
分类号
TP391 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
基于孪生网络文本语义匹配的多文档摘要
6
作者
钟琪
王中卿
王红玲
机构
苏州大学计算机科学与技术学院
出处
《中文信息学报》
CSCD
北大核心
2024年第5期107-116,共10页
基金
国家自然科学基金(61976146)。
文摘
多文档摘要旨在从一组主题相关的文档集中抽取出最能代表文档集中心内容的句子作为摘要,文本语义匹配则是指学习两个文本单元之间的语义关系,使句子表征具有更加丰富的语义信息。该文提出了一种基于孪生网络文本语义匹配的多文档抽取式摘要方法,该方法将孪生网络和预训练语言模型BERT相结合,构建一个文本语义匹配与文本摘要联合学习模型。该模型运用孪生网络从不同的视角考察任意两个文本单元之间的语义关联,学习文档集中碎片化的信息,进一步对重要信息进行评估,最后结合文本摘要模型选择出更能代表文档集主要内容的句子组织成摘要。实验结果表明,该文所提方法和当前主流的多文档抽取式摘要方法相比,在ROUGE评价指标上有较大提升。
关键词
多文档抽取式摘要
语义关系
预训练语言模型
Keywords
multi-document
extractive
summarization
semantic relation
pre-training language model
分类号
TP391 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
面向司法文书的抽取-生成式自动摘要模型
7
作者
陈炫言
安娜
孙宇
周炼赤
机构
中国航天科工集团第二研究院七〇六所
出处
《计算机工程与设计》
北大核心
2024年第4期1117-1125,共9页
文摘
为解决抽取式摘要核心信息拼接生硬,生成式摘要源文本过长易忽略重要信息等问题,对抽取式摘要和生成式摘要的结合进行研究。通过分析抽取式摘要可提取出文本关键信息且缩短源文本长度特性;生成式摘要可降低序列间信息损失,增加文本关联的优势。提出一种面向司法文书的抽取-生成式自动摘要模型,融合模型优势,避免单一模型存在的关键文本信息重复及重组段落语法不准的问题,保障法律文书抽取的切实完整性。在大规模公开法律领域裁判文书数据集上的实验结果表明,该模型获得较高ROUGE得分,表明了该模型提升了摘要质量。
关键词
自动摘要
抽取式
生成式
算法融合
裁判文书
法律领域
完整连贯性
Keywords
automatic
summarization
extractive
generative
algorithm fusion
judgment documents
legal field
complete coherence
分类号
TP391.1 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
基于多阶段内容选择框架的无监督抽取式多文档摘要方法
8
作者
冯毅
宋明阳
景丽萍
于剑
机构
北京交通大学计算机与信息技术学院
北京交通大学交通数据分析与挖掘北京市重点实验室
出处
《中文信息学报》
CSCD
北大核心
2024年第11期46-56,共11页
基金
中央高校基本科研业务费(2019JBZ110)
国家自然科学基金(62176020)
+2 种基金
国家重点研究与发展计划(2020AAA0106800)
北京市自然科学基金(L211016)
中国人工智能学会-华为MindSpore开放基金和中国科学院(OEIP-O-202004)。
文摘
多文档抽取式摘要任务(MDES)旨在从多个相关文档中提取一个简明且包含显著信息的摘要。通常,在同主题的多个文档中冗余信息不可避免,例如,因不同表达方式造成的重复描述等。现有大多数方法在抽取摘要时,仅关注显著性内容的检测或冗余信息的过滤二者之一,导致摘要信息不全面、不准确。因此,在建模抽取式多文档摘要任务时如何权衡两者间的协作是个挑战。考虑到多文档领域缺乏大规模训练数据,该文提出了一个新的多阶段的多文档无监督文本摘要抽取模型,该模型在摘要级别上进行提取,并通过以下三个步骤依次解决冗余性去除问题和显著性检测问题:引入外部知识的噪声过滤机制、冗余感知的排序策略,以及显著性感知的重排序策略。实验结果表明,该文框架可在多文档数据集Multi-News上取得无监督方法的最优结果,并在两个单文档数据集上获得有竞争力的结果。
关键词
多文档抽取式摘要
无监督方法
多阶段框架
Keywords
multi-document
extractive
summarization
unsupervised method
multi-stage framework
分类号
TP391 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
基于文本摘要的无监督关键词抽取方法
9
作者
尤泽顺
周喜
董瑞
张洋宁
杨奉毅
机构
中国科学院新疆理化技术研究所
中国科学院大学计算机科学与技术学院
新疆民族语音语言信息处理实验室
新疆农业大学计算机与信息工程学院
出处
《计算机工程与设计》
北大核心
2024年第9期2779-2784,共6页
基金
新疆维吾尔自治区自然科学基金项目(2022D01E04)
新疆维吾尔自治区重大科技专项基金项目(2020A02001-1)
+1 种基金
中国科学院西部青年学者基金项目(2019-XBQNXZ-B-008)
中国科学院青年创新促进会基金项目(2021436)。
文摘
为克服基于嵌入的关键词抽取方法在长文档上性能下降的问题,提出一种基于文本摘要的方法(summarization-based document embedding rank,SDERank)。将句向量的加权和作为文档嵌入,根据每个句子与文档主题的语义相关度赋予权重。以往基于嵌入的方法选择关键词时忽略候选词之间的关联,针对该问题,在SDERank的改进版SDERank+中,PageRank算法被用于提取候选词之间的共现权重作为相似度分数的修正。实验结果表明,在4个广泛使用的数据集上SDERank和SDERank+比之前最好的模型MDERank的F1分数平均高出2.2%和3.29%。
关键词
自动关键词抽取
文本摘要
长文档建模
文档主题分析
语义处理
权重优化
向量相似性
Keywords
automatic keyword
extract
ion
text
summarization
long document modeling
document topic analysis
semantic proce-ssing
weight optimization
similarity matches
分类号
TP391.1 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
基于异构图分层学习的细粒度多文档摘要抽取
10
作者
翁裕源
许柏炎
蔡瑞初
机构
广东工业大学计算机学院
出处
《计算机工程》
CAS
CSCD
北大核心
2024年第3期336-344,共9页
基金
科技创新2030—“新一代人工智能”重大项目(2021ZD0111501)
国家优秀青年科学基金(62122022)
国家自然科学基金(61876043,61976052,62206064)。
文摘
抽取的目标是在多个文档中提取共有关键信息,其对简洁性的要求高于单文档摘要抽取。现有的多文档摘要抽取方法通常在句子级别进行建模,容易引入较多的冗余信息。为了解决上述问题,提出一种基于异构图分层学习的多文档摘要抽取框架,通过层次化构建单词层级图和子句层级图来有效建模语义关系和结构关系。针对单词层级图和子句层级图这2个异构图的学习问题,设计具有不同层次更新机制的两层学习层来降低学习多种结构关系的难度。在单词层级图学习层,提出交替更新机制更新不同的粒度节点,以单词节点为载体通过图注意网络进行语义信息传递;在子句层级图学习层,提出两阶段分步学习更新机制聚合多种结构关系,第一阶段聚合同构关系,第二阶段基于注意力聚合异构关系。实验结果表明,与抽取式基准模型相比,该框架在Multinews数据集上取得了显著的性能提升,ROUGE-1、ROUGE-2和ROUGE-L分别提高0.88、0.23和2.27,消融实验结果也验证了两层学习层及其层次更新机制的有效性。
关键词
抽取式多文档摘要
细粒度建模
异构图
分层学习
语义关系
结构关系
Keywords
extractive multi-document summarization
fine-grained modeling
heterogeneous graph
hierarchical learning
semantic relation
structural relation
分类号
TP391.1 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
虫草素的提取纯化及测定方法研究进展
被引量:
28
11
作者
刘春泉
宋江峰
李大婧
金邦荃
机构
江苏省农业科学院原子能农业利用研究所
南京师范大学金陵女子学院
出处
《食品科学》
EI
CAS
CSCD
北大核心
2007年第11期596-599,共4页
基金
江苏省科技攻关项目(BG2006319)
文摘
虫草素(cordycepin)是虫草重要的活性成分,具有显著的药理作用。本文主要就近年来北冬虫夏草中虫草素的提取纯化以及相关测定方法的研究作一概述,以期为实现其规模纯化打下基础。
关键词
虫草素
提取纯化
测定方法
概述
Keywords
cordycepin
extract
ion
determination
summarization
分类号
TS201.24 [轻工技术与工程—食品科学]
在线阅读
下载PDF
职称材料
题名
Internet上文本的自动摘要技术
被引量:
13
12
作者
尹存燕
戴新宇
陈家骏
机构
南京大学计算机软件新技术国家重点实验室南京大学计算机科学与技术系
出处
《计算机工程》
EI
CAS
CSCD
北大核心
2006年第3期88-90,共3页
基金
国家"863"计划基金资助项目(2002AA117010-04)
文摘
主要研究了Internet上的文本自动摘要,介绍了自动摘要的主流技术;讨论Internet上文本摘要的新需求以及网页上与自动摘要相关的信息,介绍了摘要处理过程和当前自动摘要的主要评估方法;对Internet上文本的自动摘要作出了总结和展望。
关键词
自动摘要
抽取型摘要
概括型摘要
互联网
Keywords
Automatic
summarization
extract
ion
summarization
Abstract
summarization
Intemet
分类号
TP391 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
文本情感分析
被引量:
558
13
作者
赵妍妍
秦兵
刘挺
机构
哈尔滨工业大学计算机科学与技术学院信息检索研究中心
出处
《软件学报》
EI
CSCD
北大核心
2010年第8期1834-1848,共15页
基金
国家自然科学基金Nos.60803093
60975055
国家高技术研究发展计划(863)No.2008AA01Z144~~
文摘
对文本情感分析的研究现状与进展进行了总结.首先将文本情感分析归纳为3项主要任务,即情感信息抽取、情感信息分类以及情感信息的检索与归纳,并对它们进行了细致的介绍和分析;进而介绍了文本情感分析的国内外评测和资源建设情况;最后介绍了文本情感分析的应用.重在对文本情感分析研究的主流方法和前沿进展进行概括、比较和分析.
关键词
文本情感分析
情感信息抽取
情感信息分类
情感信息的检索与归纳
评测
资源建设
Keywords
sentiment analysis
sentiment
extract
ion
sentiment classification
sentiment retrieval and
summarization
evaluation
corpus
分类号
TP391 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
基于在线评论词向量表征的产品属性提取
被引量:
19
14
作者
李良强
袁华
叶开
钱宇
唐小我
机构
电子科技大学经济与管理学院
出处
《系统工程学报》
CSCD
北大核心
2018年第5期687-697,共11页
基金
国家自然科学基金资助项目(71271044
U1233118
+1 种基金
71490720
71572029)
文摘
在线评论中蕴含的产品信息具有很高的电子商务应用价值.但是,与之相关的文本挖掘工作,常常会面临着特征抽取以及对特征属性进行归类等问题的挑战.基于词向量模型在表达词语的情景语义方面的优势,提出了一种结合词向量表征和K-means聚类相结合的半监督方法,用于从海量在线文本中高效挖掘出用户评论的特征,并进一步按照这些特征的语义提取出它们的归类信息.在真实数据集上的实验结果表明,提出的方法可有效应用于海量在线评论中的文本属性提取工作;与经典模型相比,本方法从特征中提取的归类属性信息能更好地呈现出评论者表达的语义.
关键词
在线评论
特征抽取
属性归类
词向量
聚类
Keywords
online review
feature
extract
ion
aspect
summarization
word vector
clustering
分类号
TP273 [自动化与计算机技术—检测技术与自动化装置]
在线阅读
下载PDF
职称材料
题名
基于事件抽取的网络新闻多文档自动摘要
被引量:
15
15
作者
韩永峰
许旭阳
李弼程
朱武斌
陈刚
机构
解放军信息工程大学信息工程学院
出处
《中文信息学报》
CSCD
北大核心
2012年第1期58-66,共9页
基金
国家社科重大基金项目(09&ZD014)
国家"863"计划资助项目(2007AA01Z439)
文摘
目前,有代表性的自动摘要方法是根据文本片段进行聚类,较传统方法避免了信息冗余,但网络新闻文本中有些文本片段和主题无关,影响了聚类的效果,导致最终生成的摘要不够简洁。为此,该文引入事件抽取技术,提出了一种基于事件抽取的网络新闻多文档自动摘要方法。该方法首先通过二元分类器辨析出文本中的事件和非事件;然后通过聚类将文档原来以段落或句子为单位的物理划分转化为以事件为单位的内容逻辑划分,最后通过主旨事件抽取、排序及润色,生成摘要。实验结果表明,该方法是有效的,显著提高了生成摘要的质量。
关键词
事件抽取
中文信息处理
分类
新闻文档
聚类
自动摘要
Keywords
event
extract
ion
Chinese information processing
classification
news text
clustering
automatic
summarization
分类号
TP391 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
基于超图的文本摘要与关键词协同抽取研究
被引量:
12
16
作者
莫鹏
胡珀
黄湘冀
何婷婷
机构
华中师范大学计算机学院
出处
《中文信息学报》
CSCD
北大核心
2015年第6期135-140,共6页
基金
国家自然科学基金青年科学基金(61402191)
华中师范大学中央高校基本科研业务费项目(CCNU14A05015
+2 种基金
CCNU15ZD003)
华中师范大学教师科研启动基金项目
国家社科基金重大计划招标项目(12&2D223)
文摘
文本摘要和关键词抽取是自然语言处理领域的两个重要研究课题,它们均以生成描述文本主旨内容的精简信息为目标。尽管这两个任务目标相似,但它们通常被作为两个独立的问题分别研究,而较少考虑其彼此间的自然关联性。尽管已有学者提出了基于图模型的协同抽取方法,该方法同时考虑了句子与句子、词与词、句子与词之间的各种关系,以迭代强化的方式同时生成文本摘要和关键词,但现有模型大多仅限于表达句子与词之间的各种二元关系,而忽视了不同文本单元间潜在的若干重要的高阶关系。鉴于此,该文提出了一种新的基于超图的协同抽取方法。该方法以句子作为超边,以词作为节点构建超图,在一个统一的超图模型下同时利用句子与词之间的高阶信息来生成摘要和关键词。在NLPCC 2015面向微博的新闻文本摘要任务数据集上的实验结果验证了所提方法的可行性和有效性。
关键词
超图
文本摘要
关键词抽取
协同抽取
Keywords
hypergraph
document
summarization
keyword
extract
ion
collaborative
extract
ion
分类号
TP391 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
权衡熵和相关度的自动摘要技术研究
被引量:
9
17
作者
罗文娟
马慧芳
何清
史忠植
机构
中国科学院计算技术研究所
中国科学院研究生院
西北师范大学数学与信息科学学院
出处
《中文信息学报》
CSCD
北大核心
2011年第5期9-16,共8页
基金
国家自然科学基金资助项目(60933004
60975039
+5 种基金
61035003
60903141
61072085)
国家973计划资助项目(2007 CB311004)
国家科技支撑计划资助项目(2006BAC08B06)
西北师范大学青年教师科研能力提升计划资助项目(NWNU-LKQN-10-1)
文摘
生成高质量的文档摘要需要用简约而不丢失信息的描述文档,是自动摘要技术的一大难题。该文认为高质量的文档摘要必须尽量多的覆盖原始文档中的信息,同时尽可能的保持紧凑。从这一角度出发,从文档中抽取出熵和相关度这两组特征用以权衡摘要的信息覆盖率和紧凑性。该文采用基于回归的有监督摘要技术对提取的特征进行权衡,并且采用单文档摘要和多文档摘要进行了系统的实验。实验结果证明对于单文档摘要和多文档摘要,权衡熵和相关度均能有效地提高文档摘要的质量。
关键词
自动摘要
句子特征抽取
熵
相关度
Keywords
document
summarization
sentence feature
extract
ion
entropy
relevance
分类号
TP391 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
基于改进的TextRank的自动摘要提取方法
被引量:
43
18
作者
余珊珊
苏锦钿
李鹏飞
机构
广东药科大学医药信息工程学院
华南理工大学计算机科学与工程学院
出处
《计算机科学》
CSCD
北大核心
2016年第6期240-247,共8页
基金
广东省自然科学基金(2015A030310318)
广东省医学科学技术研究基金项目(A2015065)
国家自然科学基金资助项目(61103038)资助
文摘
经典的TextRank算法在文档的自动摘要提取时往往只考虑了句子节点间的相似性,而忽略了文档的篇章结构及句子的上下文信息。针对这些问题,结合中文文本的结构特点,提出一种改进后的iTextRank算法,通过将标题、段落、特殊句子、句子位置和长度等信息引入到TextRank网络图的构造中,给出改进后的句子相似度计算方法及权重调整因子,并将其应用于中文文本的自动摘要提取,同时分析了算法的时间复杂度。最后,实验证明iTextRank比经典的TextRank方法具有更高的准确率和更低的召回率。
关键词
中文文本
自动摘要提取
TextRank
篇章结构
无监督学习方法
Keywords
Chinese texts, Automatic
summarization
extract
ion, TextRank, Article discourse, Unsupervised learning methods
分类号
TP181 [自动化与计算机技术—控制理论与控制工程]
在线阅读
下载PDF
职称材料
题名
TP-AS:一种面向长文本的两阶段自动摘要方法
被引量:
12
19
作者
王帅
赵翔
李博
葛斌
汤大权
机构
国防科学技术大学信息系统工程重点实验室
地球空间信息技术协同创新中心
出处
《中文信息学报》
CSCD
北大核心
2018年第6期71-79,共9页
基金
国家自然科学基金(61402494
61402498
+1 种基金
71690233)
湖南省自然科学基金(2015JJ4009)
文摘
随着互联网上信息的爆炸式增长,如何有效提高知识获取效率变得尤为重要。文本自动摘要技术通过对信息的压缩和精炼,为知识的快速获取提供了很好的辅助手段。现有的文本自动摘要方法在处理长文本的过程中,存在准确率低的问题,无法达到令用户满意的性能效果。为此,该文提出一种新的两阶段的长文本自动摘要方法TP-AS,首先利用基于图模型的混合文本相似度计算方法进行关键句抽取,然后结合指针机制和注意力机制构建一种基于循环神经网络的编码器—解码器模型进行摘要生成。通过基于真实大规模金融领域长文本数据上的实验,验证了TP-AS方法的有效性,其自动摘要的准确性在ROUGE-1的指标下分别达到了36.6%(词)和33.9%(字符),明显优于现有其他方法。
关键词
自动文本摘要
自然语言处理
抽取和生成
循环神经网络
Keywords
automatic text
summarization
natural language processing
extract
ion and abstraction
RNN
分类号
TP391 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
基于滑动窗口的动态摘要算法
被引量:
4
20
作者
蔡建山
迟呈英
战学刚
王丫
机构
鞍山科技大学计算机科学与技术学院
出处
《计算机工程》
CAS
CSCD
北大核心
2007年第6期213-215,238,共4页
基金
辽宁省自然科学基金资助项目(2004D110)
文摘
动态摘要是根据查询检索词从文章中动态提取的摘要。用户仅仅浏览动态摘要之后就能了解文章中与查询相关的部分,进而判断是否值得详细阅读整篇文章。该文根据搜索引擎对摘要速度和质量的要求,提出了一种使用滑动窗口抽取片断的算法,接着构造了摘要评测模型,使用同一个测试集对新动态摘要算法和Google、百度作对比实验。结果证明使用新方法生成的摘要能够言简意赅地概括文章的相关内容,在摘要指标的分项测试中取得了和Google基本相同的效果,但明显要比百度好,综合评价分别提高了5%和11%。
关键词
动态摘要
文本摘要
片断抽取
滑动窗口
Keywords
Query-biased
summarization
Text
summarization
Snippet
extract
ion
Slide window
分类号
TP182 [自动化与计算机技术—控制理论与控制工程]
在线阅读
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
基于深度学习的抽取式摘要研究综述
田萱
李嘉梁
孟晓欢
《计算机科学与探索》
CSCD
北大核心
2024
0
在线阅读
下载PDF
职称材料
2
基于无监督学习和监督学习的抽取式文本摘要综述
夏吾吉
黄鹤鸣
更藏措毛
范玉涛
《计算机应用》
CSCD
北大核心
2024
5
在线阅读
下载PDF
职称材料
3
基于异构图和关键词的抽取式文本摘要模型
朱颀林
王羽
徐建
《电子科技大学学报》
EI
CAS
CSCD
北大核心
2024
1
在线阅读
下载PDF
职称材料
4
融合多模态信息的产品摘要抽取模型
赵强
王中卿
王红玲
《计算机应用》
CSCD
北大核心
2024
0
在线阅读
下载PDF
职称材料
5
基于子句单元的异构图网络抽取式文本摘要
林群凯
陈钰枫
徐金安
张玉洁
刘健
《中文信息学报》
CSCD
北大核心
2024
0
在线阅读
下载PDF
职称材料
6
基于孪生网络文本语义匹配的多文档摘要
钟琪
王中卿
王红玲
《中文信息学报》
CSCD
北大核心
2024
0
在线阅读
下载PDF
职称材料
7
面向司法文书的抽取-生成式自动摘要模型
陈炫言
安娜
孙宇
周炼赤
《计算机工程与设计》
北大核心
2024
0
在线阅读
下载PDF
职称材料
8
基于多阶段内容选择框架的无监督抽取式多文档摘要方法
冯毅
宋明阳
景丽萍
于剑
《中文信息学报》
CSCD
北大核心
2024
0
在线阅读
下载PDF
职称材料
9
基于文本摘要的无监督关键词抽取方法
尤泽顺
周喜
董瑞
张洋宁
杨奉毅
《计算机工程与设计》
北大核心
2024
0
在线阅读
下载PDF
职称材料
10
基于异构图分层学习的细粒度多文档摘要抽取
翁裕源
许柏炎
蔡瑞初
《计算机工程》
CAS
CSCD
北大核心
2024
0
在线阅读
下载PDF
职称材料
11
虫草素的提取纯化及测定方法研究进展
刘春泉
宋江峰
李大婧
金邦荃
《食品科学》
EI
CAS
CSCD
北大核心
2007
28
在线阅读
下载PDF
职称材料
12
Internet上文本的自动摘要技术
尹存燕
戴新宇
陈家骏
《计算机工程》
EI
CAS
CSCD
北大核心
2006
13
在线阅读
下载PDF
职称材料
13
文本情感分析
赵妍妍
秦兵
刘挺
《软件学报》
EI
CSCD
北大核心
2010
558
在线阅读
下载PDF
职称材料
14
基于在线评论词向量表征的产品属性提取
李良强
袁华
叶开
钱宇
唐小我
《系统工程学报》
CSCD
北大核心
2018
19
在线阅读
下载PDF
职称材料
15
基于事件抽取的网络新闻多文档自动摘要
韩永峰
许旭阳
李弼程
朱武斌
陈刚
《中文信息学报》
CSCD
北大核心
2012
15
在线阅读
下载PDF
职称材料
16
基于超图的文本摘要与关键词协同抽取研究
莫鹏
胡珀
黄湘冀
何婷婷
《中文信息学报》
CSCD
北大核心
2015
12
在线阅读
下载PDF
职称材料
17
权衡熵和相关度的自动摘要技术研究
罗文娟
马慧芳
何清
史忠植
《中文信息学报》
CSCD
北大核心
2011
9
在线阅读
下载PDF
职称材料
18
基于改进的TextRank的自动摘要提取方法
余珊珊
苏锦钿
李鹏飞
《计算机科学》
CSCD
北大核心
2016
43
在线阅读
下载PDF
职称材料
19
TP-AS:一种面向长文本的两阶段自动摘要方法
王帅
赵翔
李博
葛斌
汤大权
《中文信息学报》
CSCD
北大核心
2018
12
在线阅读
下载PDF
职称材料
20
基于滑动窗口的动态摘要算法
蔡建山
迟呈英
战学刚
王丫
《计算机工程》
CAS
CSCD
北大核心
2007
4
在线阅读
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
2
…
5
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部