期刊文献+
共找到84篇文章
< 1 2 5 >
每页显示 20 50 100
基于深度学习的自动文本摘要研究综述 被引量:1
1
作者 其其日力格 斯琴图 王斯日古楞 《计算机工程与应用》 北大核心 2025年第18期24-40,共17页
自动文本摘要技术是自然语言处理领域的重要研究方向,旨在实现信息的高效压缩与核心语义的保留。随着深度学习技术的快速发展,基于该技术的自动文本摘要方法逐渐成为主流。从抽取式与生成式两大技术路线出发,系统梳理了序列标注、图神... 自动文本摘要技术是自然语言处理领域的重要研究方向,旨在实现信息的高效压缩与核心语义的保留。随着深度学习技术的快速发展,基于该技术的自动文本摘要方法逐渐成为主流。从抽取式与生成式两大技术路线出发,系统梳理了序列标注、图神经网络、预训练语言模型、序列到序列模型和强化学习等技术在自动文本摘要中的应用,并分析了各类模型的优缺点;介绍了自动文本摘要领域常用的公开数据集、国内低资源语言数据集及评价指标。通过多维度实验对比分析总结了现有技术面临的问题,提出了相应的改进方案。最后,探讨了自动文本摘要的未来研究方向,为后续研究提供参考。 展开更多
关键词 自动文本摘要 深度学习 生成式摘要 抽取式摘要 自然语言处理
在线阅读 下载PDF
党参多糖的分离提取及生物活性研究进展
2
作者 张静 《上海农业学报》 2025年第4期190-194,共5页
党参多糖是传统中药材党参中一种重要的天然药物成分,具有多种生物活性和临床药理作用。本文综述了近年来党参多糖的分离提取及生物活性研究进展。在提取、分离纯化工艺方面,传统热水浸提法结合醇沉技术仍是主流,而超声辅助、微波辅助... 党参多糖是传统中药材党参中一种重要的天然药物成分,具有多种生物活性和临床药理作用。本文综述了近年来党参多糖的分离提取及生物活性研究进展。在提取、分离纯化工艺方面,传统热水浸提法结合醇沉技术仍是主流,而超声辅助、微波辅助、超临界流体提取、离子交换色谱提取、凝胶过滤提取及逆流色谱提取等新兴技术可显著提高多糖获得率与活性。在生物活性方面,党参多糖在免疫调节、抗氧化、抗肿瘤、抗炎、抗衰老、调节血糖、保护肝脏、改善睡眠质量等方面均表现出较高的生物活性。未来进一步研究将聚焦推动党参多糖在功能性食品和药物开发中的应用。 展开更多
关键词 党参多糖 分离提取 生物活性 综述
在线阅读 下载PDF
基于结构建模的抽取式会议纪要生成方法
3
作者 张剑 苏彦源 《中文信息学报》 北大核心 2025年第8期139-148,共10页
会议纪要生成作为文本摘要任务的一个具体应用,旨在帮助人们快速从海量会议数据中获取关键信息,而当前的会议纪要生成方法存在着缺乏对会议整体内容语义把握和对会议结构信息关注的问题。该文针对这些问题提出了一个基于结构建模的抽取... 会议纪要生成作为文本摘要任务的一个具体应用,旨在帮助人们快速从海量会议数据中获取关键信息,而当前的会议纪要生成方法存在着缺乏对会议整体内容语义把握和对会议结构信息关注的问题。该文针对这些问题提出了一个基于结构建模的抽取式会议纪要生成模型,通过提取会议文本的句子级粒度特征,利用句向量进行结构建模实现段落分割得到其结构信息,然后将这些结构信息用于抽取式会议纪要生成任务,并根据将抽取式文本摘要任务作为文本匹配任务的思想,对原文本和摘要结果的语义关系进行了学习,最终结合文本段落结构信息,帮助最终摘要结果性能的提升。同时,为了解决中文会议公开语料库缺乏的问题,该文构建了一个含有段落标注和摘要标注的中文会议语料库。实验表明,在中文会议文本上,相比于词向量,使用句向量表征的方式更有利于结构建模任务性能的提升,同时证明了会议结构信息的引入有利于提升会议纪要结果质量,表明了结合文本结构建模任务进行文本摘要任务研究的必要性。 展开更多
关键词 抽取式摘要 会议纪要 结构建模
在线阅读 下载PDF
CINOSUM:面向多民族低资源语言的抽取式摘要模型 被引量:1
4
作者 翁彧 罗皓予 +3 位作者 超木日力格 刘轩 董俊 刘征 《计算机科学》 CSCD 北大核心 2024年第7期296-302,共7页
针对现有的模型无法处理多民族低资源语言自动摘要生成的问题,基于CINO提出了一种面向多民族低资源语言的抽取式摘要模型CINOSUM。为扩大文本摘要的语言范围,首先构建了多种民族语言的摘要数据集MESUM。为解决以往模型在低资源语言上效... 针对现有的模型无法处理多民族低资源语言自动摘要生成的问题,基于CINO提出了一种面向多民族低资源语言的抽取式摘要模型CINOSUM。为扩大文本摘要的语言范围,首先构建了多种民族语言的摘要数据集MESUM。为解决以往模型在低资源语言上效果不佳的问题,构建了一个框架,采用统一的句子抽取器,以进行不同民族语言的抽取式摘要生成。此外,提出采用多语言数据集的联合训练方法,旨在弥补知识获取上的不足,进而扩展在低资源语言上的应用,显著增强模型的适应性与灵活性。最终,在MESUM数据集上开展了广泛的实验研究,实验结果表明CINOSUM模型在包括藏语和维吾尔语在内的多民族低资源语言环境中表现卓越,并且在ROUGE评价体系下取得了显著的性能提升。 展开更多
关键词 抽取式摘要 多语言预训练模型 低资源语言信息处理 知识迁移
在线阅读 下载PDF
基于深度学习的抽取式摘要研究综述
5
作者 田萱 李嘉梁 孟晓欢 《计算机科学与探索》 CSCD 北大核心 2024年第11期2823-2847,共25页
自动文本摘要(ATS)是自然语言处理的热门研究方向,主要实现方法分为抽取式和生成式两类。抽取式摘要直接采用源文档中的文字内容,相比生成式摘要具有更高的语法正确性和事实正确性,在政策解读、官方文件总结、法律和医药等要求较为严谨... 自动文本摘要(ATS)是自然语言处理的热门研究方向,主要实现方法分为抽取式和生成式两类。抽取式摘要直接采用源文档中的文字内容,相比生成式摘要具有更高的语法正确性和事实正确性,在政策解读、官方文件总结、法律和医药等要求较为严谨的领域具有广泛应用前景。目前基于深度学习的抽取式摘要研究受到广泛关注。主要梳理了近几年基于深度学习的抽取式摘要技术研究进展;针对抽取式摘要的两个关键步骤——文本单元编码和摘要抽取,分别分析了相关研究工作。根据模型框架的不同,将文本单元编码方法分为层级序列编码、基于图神经网络的编码、融合式编码和基于预训练的编码四类进行介绍;根据摘要抽取阶段抽取粒度的不同,将摘要抽取方法分为文本单元级抽取和摘要级抽取两类进行分析。介绍了抽取式摘要任务常用的公共数据集和性能评估指标。预测并分析总结了该领域未来可能的研究方向及相应的发展趋势。 展开更多
关键词 自然语言处理 神经网络 深度学习 抽取 模型框架 预训练 编码方法 融合式
在线阅读 下载PDF
基于无监督学习和监督学习的抽取式文本摘要综述 被引量:5
6
作者 夏吾吉 黄鹤鸣 +1 位作者 更藏措毛 范玉涛 《计算机应用》 CSCD 北大核心 2024年第4期1035-1048,共14页
相较于生成式摘要方法,抽取式摘要方法简单易行、可读性强,使用范围广。目前,抽取式摘要方法综述文献仅对特定的某个方法或领域进行分析综述,缺乏多方面、多语种的系统性综述,因此探讨文本摘要生成任务的内涵,通过系统梳理和提炼现有的... 相较于生成式摘要方法,抽取式摘要方法简单易行、可读性强,使用范围广。目前,抽取式摘要方法综述文献仅对特定的某个方法或领域进行分析综述,缺乏多方面、多语种的系统性综述,因此探讨文本摘要生成任务的内涵,通过系统梳理和提炼现有的相关文献,对无监督学习和监督学习的抽取式文本摘要技术进行多维度、全方位的分析。首先,回顾文本摘要技术的发展,分析不同的抽取式文本摘要方法,主要包括基于规则、词频-逆文件概率(TFIDF)、中心性方法、潜在语义、深度学习、图排序、特征工程和预训练学习等,并对比不同方法的差异;其次,详细介绍不同语种文本摘要生成的常用数据集和主流的评价指标,通过不同的实验指标对相同数据集上的方法进行比较;最后,指出当前抽取式文本摘要研究中存在的主要问题和挑战,并提出具体的解决思路和未来发展趋势。 展开更多
关键词 抽取式摘要 无监督学习 监督学习 数据集 评价指标
在线阅读 下载PDF
面向司法文书的抽取-生成式自动摘要模型 被引量:1
7
作者 陈炫言 安娜 +1 位作者 孙宇 周炼赤 《计算机工程与设计》 北大核心 2024年第4期1117-1125,共9页
为解决抽取式摘要核心信息拼接生硬,生成式摘要源文本过长易忽略重要信息等问题,对抽取式摘要和生成式摘要的结合进行研究。通过分析抽取式摘要可提取出文本关键信息且缩短源文本长度特性;生成式摘要可降低序列间信息损失,增加文本关联... 为解决抽取式摘要核心信息拼接生硬,生成式摘要源文本过长易忽略重要信息等问题,对抽取式摘要和生成式摘要的结合进行研究。通过分析抽取式摘要可提取出文本关键信息且缩短源文本长度特性;生成式摘要可降低序列间信息损失,增加文本关联的优势。提出一种面向司法文书的抽取-生成式自动摘要模型,融合模型优势,避免单一模型存在的关键文本信息重复及重组段落语法不准的问题,保障法律文书抽取的切实完整性。在大规模公开法律领域裁判文书数据集上的实验结果表明,该模型获得较高ROUGE得分,表明了该模型提升了摘要质量。 展开更多
关键词 自动摘要 抽取式 生成式 算法融合 裁判文书 法律领域 完整连贯性
在线阅读 下载PDF
基于异构图和关键词的抽取式文本摘要模型 被引量:2
8
作者 朱颀林 王羽 徐建 《电子科技大学学报》 EI CAS CSCD 北大核心 2024年第2期259-270,共12页
抽取式文本摘要使用一定的策略从冗长的文本中选择一些句子组成摘要,其关键在于要尽可能多地利用文本的语义信息和结构信息。为了更好地挖掘这些信息,进而利用它们指导摘要的抽取,提出了一种基于异构图和关键词的抽取式文本摘要模型(HGK... 抽取式文本摘要使用一定的策略从冗长的文本中选择一些句子组成摘要,其关键在于要尽可能多地利用文本的语义信息和结构信息。为了更好地挖掘这些信息,进而利用它们指导摘要的抽取,提出了一种基于异构图和关键词的抽取式文本摘要模型(HGKSum)。该模型首先将文本建模为由句子节点和词语节点构成的异构图,在异构图上使用图注意力网络学习节点的特征,之后将关键词抽取任务作为文本摘要任务的辅助任务,使用多任务学习的方式进行训练,得到候选摘要,最后对候选摘要进行精炼以降低冗余度,得到最终摘要。在基准数据集上的对比实验表明,该模型性能优于基准模型,此外,消融实验也证明了引入异构节点和关键词的必要性。 展开更多
关键词 抽取式文本摘要 异构图 关键词 图注意力网络 多任务学习
在线阅读 下载PDF
融合多模态信息的产品摘要抽取模型
9
作者 赵强 王中卿 王红玲 《计算机应用》 CSCD 北大核心 2024年第1期73-78,共6页
在网络购物平台上,简洁、真实、有效的产品摘要对于提升购物体验至关重要。网上购物无法接触到产品实物,产品图像所含信息是除产品文本描述外的重要视觉信息,因此融合包括产品文本和产品图像在内的多模态信息的产品摘要对于网络购物具... 在网络购物平台上,简洁、真实、有效的产品摘要对于提升购物体验至关重要。网上购物无法接触到产品实物,产品图像所含信息是除产品文本描述外的重要视觉信息,因此融合包括产品文本和产品图像在内的多模态信息的产品摘要对于网络购物具有重要的意义。针对融合产品文本描述和产品图像的问题,提出一种融合多模态信息的产品摘要抽取模型。与一般的产品摘要任务的输入只包含产品文本描述不同,该模型引入了产品图像作为一种额外的信息来源,使抽取产生的摘要更丰富。具体来说,首先对产品文本描述和产品图像分别使用预训练模型进行特征表示,从产品文本描述中提取每个句子的文本特征表示,从产品图像中提取产品整体的视觉特征表示;然后使用基于低阶张量的多模态融合方法将每个句子的文本特征和整体视觉特征进行模态融合,得到每个句子的多模态特征表示;最后将所有句子的多模态特征表示输入摘要生成器中以生成最终的产品摘要。在CEPSUM(Chinese E-commerce Product SUMmarization)2.0数据集上进行对比实验,在CEPSUM 2.0的3个数据子集上,该模型的平均ROUGE-1比TextRank高3.12个百分点,比BERTSUMExt(BERT SUMmarization Extractive)高1.75个百分点。实验结果表明,该模型融合产品文本和图像信息对于产品摘要是有效的,在ROUGE评价指标上表现良好。 展开更多
关键词 产品摘要 多模态摘要 抽取式摘要 多模态融合 自动文摘
在线阅读 下载PDF
基于子句单元的异构图网络抽取式文本摘要
10
作者 林群凯 陈钰枫 +2 位作者 徐金安 张玉洁 刘健 《中文信息学报》 CSCD 北大核心 2024年第6期119-128,共10页
的目标是将长文本进行压缩、归纳和总结,从而形成具有概括性含义的短文本,其能帮助人们快速获取文档的主要信息。当前大多数的抽取式文本摘要的研究都是以整句作为抽取单元,而整句作为抽取单元会引入冗余信息,因此该文考虑使用粒度更细... 的目标是将长文本进行压缩、归纳和总结,从而形成具有概括性含义的短文本,其能帮助人们快速获取文档的主要信息。当前大多数的抽取式文本摘要的研究都是以整句作为抽取单元,而整句作为抽取单元会引入冗余信息,因此该文考虑使用粒度更细的抽取单元。已有研究表明,细粒度的子句单元比整句单元在抽取式摘要上更具有优势。结合当下热门的图神经网络,该文提出了一种基于子句单元异构图网络的抽取式摘要模型,有效融合了词、实体和子句单元等不同层次的语言信息,能够实现更细粒度的抽取式摘要。在大规模基准语料库(CNN/DM和NYT)上的实验结果表明,该模型产生了突破性的性能并优于以前的抽取式摘要模型。 展开更多
关键词 子句 异构图 抽取式摘要
在线阅读 下载PDF
基于孪生网络文本语义匹配的多文档摘要
11
作者 钟琪 王中卿 王红玲 《中文信息学报》 CSCD 北大核心 2024年第5期107-116,共10页
多文档摘要旨在从一组主题相关的文档集中抽取出最能代表文档集中心内容的句子作为摘要,文本语义匹配则是指学习两个文本单元之间的语义关系,使句子表征具有更加丰富的语义信息。该文提出了一种基于孪生网络文本语义匹配的多文档抽取式... 多文档摘要旨在从一组主题相关的文档集中抽取出最能代表文档集中心内容的句子作为摘要,文本语义匹配则是指学习两个文本单元之间的语义关系,使句子表征具有更加丰富的语义信息。该文提出了一种基于孪生网络文本语义匹配的多文档抽取式摘要方法,该方法将孪生网络和预训练语言模型BERT相结合,构建一个文本语义匹配与文本摘要联合学习模型。该模型运用孪生网络从不同的视角考察任意两个文本单元之间的语义关联,学习文档集中碎片化的信息,进一步对重要信息进行评估,最后结合文本摘要模型选择出更能代表文档集主要内容的句子组织成摘要。实验结果表明,该文所提方法和当前主流的多文档抽取式摘要方法相比,在ROUGE评价指标上有较大提升。 展开更多
关键词 多文档抽取式摘要 语义关系 预训练语言模型
在线阅读 下载PDF
基于多阶段内容选择框架的无监督抽取式多文档摘要方法
12
作者 冯毅 宋明阳 +1 位作者 景丽萍 于剑 《中文信息学报》 CSCD 北大核心 2024年第11期46-56,共11页
多文档抽取式摘要任务(MDES)旨在从多个相关文档中提取一个简明且包含显著信息的摘要。通常,在同主题的多个文档中冗余信息不可避免,例如,因不同表达方式造成的重复描述等。现有大多数方法在抽取摘要时,仅关注显著性内容的检测或冗余信... 多文档抽取式摘要任务(MDES)旨在从多个相关文档中提取一个简明且包含显著信息的摘要。通常,在同主题的多个文档中冗余信息不可避免,例如,因不同表达方式造成的重复描述等。现有大多数方法在抽取摘要时,仅关注显著性内容的检测或冗余信息的过滤二者之一,导致摘要信息不全面、不准确。因此,在建模抽取式多文档摘要任务时如何权衡两者间的协作是个挑战。考虑到多文档领域缺乏大规模训练数据,该文提出了一个新的多阶段的多文档无监督文本摘要抽取模型,该模型在摘要级别上进行提取,并通过以下三个步骤依次解决冗余性去除问题和显著性检测问题:引入外部知识的噪声过滤机制、冗余感知的排序策略,以及显著性感知的重排序策略。实验结果表明,该文框架可在多文档数据集Multi-News上取得无监督方法的最优结果,并在两个单文档数据集上获得有竞争力的结果。 展开更多
关键词 多文档抽取式摘要 无监督方法 多阶段框架
在线阅读 下载PDF
基于文本摘要的无监督关键词抽取方法
13
作者 尤泽顺 周喜 +2 位作者 董瑞 张洋宁 杨奉毅 《计算机工程与设计》 北大核心 2024年第9期2779-2784,共6页
为克服基于嵌入的关键词抽取方法在长文档上性能下降的问题,提出一种基于文本摘要的方法(summarization-based document embedding rank,SDERank)。将句向量的加权和作为文档嵌入,根据每个句子与文档主题的语义相关度赋予权重。以往基... 为克服基于嵌入的关键词抽取方法在长文档上性能下降的问题,提出一种基于文本摘要的方法(summarization-based document embedding rank,SDERank)。将句向量的加权和作为文档嵌入,根据每个句子与文档主题的语义相关度赋予权重。以往基于嵌入的方法选择关键词时忽略候选词之间的关联,针对该问题,在SDERank的改进版SDERank+中,PageRank算法被用于提取候选词之间的共现权重作为相似度分数的修正。实验结果表明,在4个广泛使用的数据集上SDERank和SDERank+比之前最好的模型MDERank的F1分数平均高出2.2%和3.29%。 展开更多
关键词 自动关键词抽取 文本摘要 长文档建模 文档主题分析 语义处理 权重优化 向量相似性
在线阅读 下载PDF
基于异构图分层学习的细粒度多文档摘要抽取
14
作者 翁裕源 许柏炎 蔡瑞初 《计算机工程》 CAS CSCD 北大核心 2024年第3期336-344,共9页
抽取的目标是在多个文档中提取共有关键信息,其对简洁性的要求高于单文档摘要抽取。现有的多文档摘要抽取方法通常在句子级别进行建模,容易引入较多的冗余信息。为了解决上述问题,提出一种基于异构图分层学习的多文档摘要抽取框架,通过... 抽取的目标是在多个文档中提取共有关键信息,其对简洁性的要求高于单文档摘要抽取。现有的多文档摘要抽取方法通常在句子级别进行建模,容易引入较多的冗余信息。为了解决上述问题,提出一种基于异构图分层学习的多文档摘要抽取框架,通过层次化构建单词层级图和子句层级图来有效建模语义关系和结构关系。针对单词层级图和子句层级图这2个异构图的学习问题,设计具有不同层次更新机制的两层学习层来降低学习多种结构关系的难度。在单词层级图学习层,提出交替更新机制更新不同的粒度节点,以单词节点为载体通过图注意网络进行语义信息传递;在子句层级图学习层,提出两阶段分步学习更新机制聚合多种结构关系,第一阶段聚合同构关系,第二阶段基于注意力聚合异构关系。实验结果表明,与抽取式基准模型相比,该框架在Multinews数据集上取得了显著的性能提升,ROUGE-1、ROUGE-2和ROUGE-L分别提高0.88、0.23和2.27,消融实验结果也验证了两层学习层及其层次更新机制的有效性。 展开更多
关键词 抽取式多文档摘要 细粒度建模 异构图 分层学习 语义关系 结构关系
在线阅读 下载PDF
虫草素的提取纯化及测定方法研究进展 被引量:28
15
作者 刘春泉 宋江峰 +1 位作者 李大婧 金邦荃 《食品科学》 EI CAS CSCD 北大核心 2007年第11期596-599,共4页
虫草素(cordycepin)是虫草重要的活性成分,具有显著的药理作用。本文主要就近年来北冬虫夏草中虫草素的提取纯化以及相关测定方法的研究作一概述,以期为实现其规模纯化打下基础。
关键词 虫草素 提取纯化 测定方法 概述
在线阅读 下载PDF
Internet上文本的自动摘要技术 被引量:13
16
作者 尹存燕 戴新宇 陈家骏 《计算机工程》 EI CAS CSCD 北大核心 2006年第3期88-90,共3页
主要研究了Internet上的文本自动摘要,介绍了自动摘要的主流技术;讨论Internet上文本摘要的新需求以及网页上与自动摘要相关的信息,介绍了摘要处理过程和当前自动摘要的主要评估方法;对Internet上文本的自动摘要作出了总结和展望。
关键词 自动摘要 抽取型摘要 概括型摘要 互联网
在线阅读 下载PDF
文本情感分析 被引量:557
17
作者 赵妍妍 秦兵 刘挺 《软件学报》 EI CSCD 北大核心 2010年第8期1834-1848,共15页
对文本情感分析的研究现状与进展进行了总结.首先将文本情感分析归纳为3项主要任务,即情感信息抽取、情感信息分类以及情感信息的检索与归纳,并对它们进行了细致的介绍和分析;进而介绍了文本情感分析的国内外评测和资源建设情况;最后介... 对文本情感分析的研究现状与进展进行了总结.首先将文本情感分析归纳为3项主要任务,即情感信息抽取、情感信息分类以及情感信息的检索与归纳,并对它们进行了细致的介绍和分析;进而介绍了文本情感分析的国内外评测和资源建设情况;最后介绍了文本情感分析的应用.重在对文本情感分析研究的主流方法和前沿进展进行概括、比较和分析. 展开更多
关键词 文本情感分析 情感信息抽取 情感信息分类 情感信息的检索与归纳 评测 资源建设
在线阅读 下载PDF
基于在线评论词向量表征的产品属性提取 被引量:20
18
作者 李良强 袁华 +2 位作者 叶开 钱宇 唐小我 《系统工程学报》 CSCD 北大核心 2018年第5期687-697,共11页
在线评论中蕴含的产品信息具有很高的电子商务应用价值.但是,与之相关的文本挖掘工作,常常会面临着特征抽取以及对特征属性进行归类等问题的挑战.基于词向量模型在表达词语的情景语义方面的优势,提出了一种结合词向量表征和K-means聚类... 在线评论中蕴含的产品信息具有很高的电子商务应用价值.但是,与之相关的文本挖掘工作,常常会面临着特征抽取以及对特征属性进行归类等问题的挑战.基于词向量模型在表达词语的情景语义方面的优势,提出了一种结合词向量表征和K-means聚类相结合的半监督方法,用于从海量在线文本中高效挖掘出用户评论的特征,并进一步按照这些特征的语义提取出它们的归类信息.在真实数据集上的实验结果表明,提出的方法可有效应用于海量在线评论中的文本属性提取工作;与经典模型相比,本方法从特征中提取的归类属性信息能更好地呈现出评论者表达的语义. 展开更多
关键词 在线评论 特征抽取 属性归类 词向量 聚类
在线阅读 下载PDF
基于事件抽取的网络新闻多文档自动摘要 被引量:15
19
作者 韩永峰 许旭阳 +2 位作者 李弼程 朱武斌 陈刚 《中文信息学报》 CSCD 北大核心 2012年第1期58-66,共9页
目前,有代表性的自动摘要方法是根据文本片段进行聚类,较传统方法避免了信息冗余,但网络新闻文本中有些文本片段和主题无关,影响了聚类的效果,导致最终生成的摘要不够简洁。为此,该文引入事件抽取技术,提出了一种基于事件抽取的网络新... 目前,有代表性的自动摘要方法是根据文本片段进行聚类,较传统方法避免了信息冗余,但网络新闻文本中有些文本片段和主题无关,影响了聚类的效果,导致最终生成的摘要不够简洁。为此,该文引入事件抽取技术,提出了一种基于事件抽取的网络新闻多文档自动摘要方法。该方法首先通过二元分类器辨析出文本中的事件和非事件;然后通过聚类将文档原来以段落或句子为单位的物理划分转化为以事件为单位的内容逻辑划分,最后通过主旨事件抽取、排序及润色,生成摘要。实验结果表明,该方法是有效的,显著提高了生成摘要的质量。 展开更多
关键词 事件抽取 中文信息处理 分类 新闻文档 聚类 自动摘要
在线阅读 下载PDF
基于超图的文本摘要与关键词协同抽取研究 被引量:12
20
作者 莫鹏 胡珀 +1 位作者 黄湘冀 何婷婷 《中文信息学报》 CSCD 北大核心 2015年第6期135-140,共6页
文本摘要和关键词抽取是自然语言处理领域的两个重要研究课题,它们均以生成描述文本主旨内容的精简信息为目标。尽管这两个任务目标相似,但它们通常被作为两个独立的问题分别研究,而较少考虑其彼此间的自然关联性。尽管已有学者提出了... 文本摘要和关键词抽取是自然语言处理领域的两个重要研究课题,它们均以生成描述文本主旨内容的精简信息为目标。尽管这两个任务目标相似,但它们通常被作为两个独立的问题分别研究,而较少考虑其彼此间的自然关联性。尽管已有学者提出了基于图模型的协同抽取方法,该方法同时考虑了句子与句子、词与词、句子与词之间的各种关系,以迭代强化的方式同时生成文本摘要和关键词,但现有模型大多仅限于表达句子与词之间的各种二元关系,而忽视了不同文本单元间潜在的若干重要的高阶关系。鉴于此,该文提出了一种新的基于超图的协同抽取方法。该方法以句子作为超边,以词作为节点构建超图,在一个统一的超图模型下同时利用句子与词之间的高阶信息来生成摘要和关键词。在NLPCC 2015面向微博的新闻文本摘要任务数据集上的实验结果验证了所提方法的可行性和有效性。 展开更多
关键词 超图 文本摘要 关键词抽取 协同抽取
在线阅读 下载PDF
上一页 1 2 5 下一页 到第
使用帮助 返回顶部