期刊文献+
共找到145篇文章
< 1 2 8 >
每页显示 20 50 100
融合知识和语义信息的双编码器自动摘要模型 被引量:1
1
作者 贾莉 马廷淮 +1 位作者 桑晨扬 潘倩 《计算机工程与应用》 北大核心 2025年第7期213-221,共9页
为了解决自动文本摘要任务存在的文本语义信息不能充分编码、生成的摘要语义冗余、原始语义信息丢失等语义问题,提出了一种融合知识和文本语义信息的双编码器自动摘要模型(dual-encoder automatic summarization model incorporating kn... 为了解决自动文本摘要任务存在的文本语义信息不能充分编码、生成的摘要语义冗余、原始语义信息丢失等语义问题,提出了一种融合知识和文本语义信息的双编码器自动摘要模型(dual-encoder automatic summarization model incorporating knowledge and semantic information,KSDASum)。该方法采用双编码器对原文语义信息进行充分编码,文本编码器获取全文的语义信息,图结构编码器维护全文上下文结构信息。解码器部分采用基于Transformer结构和指针网络,更好地捕捉文本和结构信息进行交互,并利用指针网络的优势提高生成摘要的准确性。同时,训练过程中采用强化学习中自我批判的策略梯度优化模型能力。该方法在CNN/Daily Mail和XSum公开数据集上与GSUM生成式摘要方法相比,在评价指标上均获得最优的结果,证明了所提模型能够有效地利用知识和语义信息,提升了生成文本摘要的能力。 展开更多
关键词 知识图谱编码器 图注意力机制 指针网络 增强训练 自动摘要
在线阅读 下载PDF
结合主题分割和自动文摘的演示文稿生成方法
2
作者 王鑫 李宁 田英爱 《计算机应用与软件》 北大核心 2025年第8期35-40,共6页
通过演示文稿传播学术成果是一种常见做法,然而手工制作演示文稿过于繁琐。该文以学术论文为蓝本,提出一种结合主题分割和自动文摘的演示文稿生成方法。该方法首先在论文章节结构的基础上对正文进行主题分割,构建演示文稿层次结构,再利... 通过演示文稿传播学术成果是一种常见做法,然而手工制作演示文稿过于繁琐。该文以学术论文为蓝本,提出一种结合主题分割和自动文摘的演示文稿生成方法。该方法首先在论文章节结构的基础上对正文进行主题分割,构建演示文稿层次结构,再利用自动文摘抽取论文中的重要文本,基于主题生成演示文稿。实验证明,该方法生成的演示文稿不仅体现论文的行文逻辑,在ROUGE-1、ROUGE-2、ROUGE-L三个指标上也均有所提高。 展开更多
关键词 演示文稿生成 主题分割 自动文摘 ROUGE指标
在线阅读 下载PDF
中文大模型生成式摘要能力评估
3
作者 王俊超 樊可汗 霍智恒 《中文信息学报》 北大核心 2025年第1期1-15,共15页
从传统的纸带机到当今大语言模型时代,自动文本摘要技术发展经历了多次质的飞跃并不断提升。但在中文摘要方面,由于其语言特点及叙述方式,机器生成的摘要难以与人工撰写的相媲美。如今,众多国产开源大模型均加强了对中文语料的训练并展... 从传统的纸带机到当今大语言模型时代,自动文本摘要技术发展经历了多次质的飞跃并不断提升。但在中文摘要方面,由于其语言特点及叙述方式,机器生成的摘要难以与人工撰写的相媲美。如今,众多国产开源大模型均加强了对中文语料的训练并展示出较为优秀的成果。为了评估这些开源大模型在中文摘要任务上的实际表现,该文筛选ChatGLM2-6B、Baichuan2-7B和InternLM-7B等中文大模型作为研究对象,在中文摘要数据集上采用不同提示词生成零样本和少样本摘要,通过自动评估和人工比对的方法详细分析了它们在自动文本摘要任务上的表现及其不足之处。评估结果表明,ChatGLM2-6B和Baichuan2-7B通过零样本的方法通常能够总结出语句通顺叙述详尽的摘要,但在凝练程度上仍有不足;而少样本的方法可以使大模型生成更为精炼的摘要,但对重点信息的把握程度明显下降。此外,大模型也存在陷入重复、出现幻觉、与事实矛盾等问题。 展开更多
关键词 自动文本摘要 大语言模型 能力评估
在线阅读 下载PDF
基于分层表示和上下文增强的类摘要生成技术 被引量:2
4
作者 陈豪伶 虞慧群 +2 位作者 范贵生 李明辰 黄子杰 《计算机研究与发展》 EI CSCD 北大核心 2024年第2期307-323,共17页
代码摘要是源代码的自然语言解释,高质量的代码摘要有助于提高开发人员程序理解效率.近年来,代码自动摘要的研究集中在为方法粒度的代码片段生成摘要.然而,对于面向对象的语言,例如Java,类才是项目的基本组成单元.基于上述问题,提出一... 代码摘要是源代码的自然语言解释,高质量的代码摘要有助于提高开发人员程序理解效率.近年来,代码自动摘要的研究集中在为方法粒度的代码片段生成摘要.然而,对于面向对象的语言,例如Java,类才是项目的基本组成单元.基于上述问题,提出一种基于分层表示和上下文增强的类摘要生成方法HRCE(hierarchical representation and context enhancement),并构建了一个包含358 992个?Java类,上下文,摘要?数据对的类摘要数据集.HRCE使用代码精简策略去除类的非关键代码,从而缩短代码长度.然后,对类的层次结构,包括类签名、属性和方法分别进行建模,获得类的语义信息和层次结构信息.此外,从项目中抽取父类的签名及摘要来刻画类在项目中依赖的上下文.实验表明,基于分层表示和上下文增强的生成模型能够表征代码的语义和层次结构,并可以从目标类的内部和外部获取信息. HRCE在BLEU,METEOR,ROUGE-L等评估指标上超过了所有基准模型. 展开更多
关键词 代码自动摘要 分层表示 上下文增强 深度学习 类摘要
在线阅读 下载PDF
AIGC驱动古籍自动摘要研究:从自然语言理解到生成 被引量:6
5
作者 吴娜 刘畅 +1 位作者 刘江峰 王东波 《图书馆论坛》 CSSCI 北大核心 2024年第9期111-123,共13页
作为自然语言处理中的关键任务,旨在压缩长文本信息、解决文本信息过载问题。文章以《二十四史》中的人物列传语料为例,从抽取式和生成式方法出发,探索AIGC技术驱动下古籍文本自动摘要应用的可行路径,为古籍资源的创造性转化和创新性发... 作为自然语言处理中的关键任务,旨在压缩长文本信息、解决文本信息过载问题。文章以《二十四史》中的人物列传语料为例,从抽取式和生成式方法出发,探索AIGC技术驱动下古籍文本自动摘要应用的可行路径,为古籍资源的创造性转化和创新性发展提供参考,助力数字人文理念下的古籍内容价值实现。首先基于GujiBERT、SikuBERT、BERT-ancient-Chinese模型进行语义表征,并使用LexRank算法进行重要性排序以抽取摘要。然后利用GPT-3.5-turbo、GPT-4和ChatGLM3模型生成摘要,并构建ChatGLM3和GPT-3.5-turbo微调模型。最后采用信息覆盖率和信息多样性指标对抽取式摘要结果进行评测,采用rouge和mauve指标对生成式摘要结果进行评测。研究表明:SikuBERT在抽取式摘要任务中对古文的语义表征能力和理解能力较强;通用大语言模型在古籍领域的自动摘要能力各有特色,但主旨提炼能力有所欠缺;通过小样本数据集微调GPT-3.5-turbo和ChatGLM3模型能有效提升模型的摘要生成能力。 展开更多
关键词 古籍价值再造 自动摘要 SikuBERT 大语言模型
在线阅读 下载PDF
基于深度学习的海洋热点新闻挖掘方法 被引量:2
6
作者 覃娴萍 丁昭旭 +1 位作者 仲国强 王栋 《计算机科学》 CSCD 北大核心 2024年第S02期98-107,共10页
移动互联网的快速发展和现代移动客户端的普及推动了网络新闻行业、社交媒体和自媒体等的蓬勃发展,为用户提供了多元、丰富的海量信息。随着我国海洋强国战略的稳步推进,国民海洋意识的显著增强,有关海洋领域的多方面信息充斥着网络,相... 移动互联网的快速发展和现代移动客户端的普及推动了网络新闻行业、社交媒体和自媒体等的蓬勃发展,为用户提供了多元、丰富的海量信息。随着我国海洋强国战略的稳步推进,国民海洋意识的显著增强,有关海洋领域的多方面信息充斥着网络,相关媒体报道、公众舆论在网上大量涌现,热点事件频频发生。针对多来源、多属性的网络海洋信息,基于多源文本聚类和自动摘要技术,提出一种基于深度学习的海洋热点新闻自动挖掘系统,包括多源涉海数据自动采集、数据预处理、特征提取、文本聚类、自动摘要五大功能模块。具体而言,网络爬虫程序从多个数据源采集多样且分散的海洋数据,自动将数据结构化后存入数据库;根据文本特征的近似程度和文本间的关联关系实现聚类分析,聚类结果为后继摘要生成、主题发现提供数据支撑;基于预训练语言模型强大的上下文理解能力和丰富的语言表达能力,提出基于预训练语言模型的海洋新闻自动摘要生成方法。通过多组实验证明了所提方法在各个评估指标上的有效性,突显出其在多源异构网络海洋新闻挖掘方面的优势。该方法为处理分散的海洋资讯信息、生成可读性更强的内容摘要提供可行的解决方案,对提高海洋信息获取效率、监测公众舆论走向、推动海洋信息的应用与传播具有重要意义。 展开更多
关键词 海洋新闻 文本聚类 自动摘要 深度学习 自然语言处理 预训练模型
在线阅读 下载PDF
基于改动树检索的拉取请求描述生成方法 被引量:1
7
作者 蒋竞 刘子豪 +1 位作者 张莉 汪亮 《软件学报》 EI CSCD 北大核心 2024年第11期5065-5082,共18页
随着开源人工智能系统规模的扩大,软件的开发与维护也变得困难.GitHub是开源社区最重要的开源项目托管平台之一,通过GitHub提供的拉取请求系统,开发者可以方便地参与到开源项目的开发.拉取请求的描述可以帮助项目核心团队理解拉取请求... 随着开源人工智能系统规模的扩大,软件的开发与维护也变得困难.GitHub是开源社区最重要的开源项目托管平台之一,通过GitHub提供的拉取请求系统,开发者可以方便地参与到开源项目的开发.拉取请求的描述可以帮助项目核心团队理解拉取请求的内容和开发者的意图,促进拉取请求被接受.当前,存在可观比例的开发者没有为拉取请求提供描述,既增加了核心团队的工作负担,也不利于项目日后的维护工作.提出一种自动为拉取请求生成描述的方法PRSim.所提方法提取拉取请求包含的提交说明、注释更新和代码改动等特征,建立语法改动树,使用树结构自编码器编码以检索代码改动相似的其他拉取请求,参照相似拉取请求的描述,使用编码器-解码器网络概括提交说明和注释更新,生成新拉取请求的描述.实验结果表明,PRSim的生成效果在Rouge-1、Rouge-2和Rouge-L这3个指标的F1分数上分别达到36.47%、27.69%和35.37%,与现有方法LeadCM相比分别提升了34.3%、75.2%和55.3%,与方法Attn+PG+RL相比分别提升了16.2%、22.9%和16.8%,与方法PRHAN相比分别提升了23.5%、72.0%和24.8%. 展开更多
关键词 拉取请求 语法改动树 相似度计算 自动摘要 开源社区
在线阅读 下载PDF
基于二阶段对比学习的中文自动文本摘要方法研究 被引量:1
8
作者 杨子健 郭卫斌 《华东理工大学学报(自然科学版)》 CAS CSCD 北大核心 2024年第4期586-593,共8页
在中文自动文本摘要中,暴露偏差是一个常见的现象。由于中文文本自动摘要在序列到序列模型训练时解码器每一个词输入都来自真实样本,但是在测试时当前输入用的却是上一个词的输出,导致预测词在训练和测试时是从不同的分布中推断出来的,... 在中文自动文本摘要中,暴露偏差是一个常见的现象。由于中文文本自动摘要在序列到序列模型训练时解码器每一个词输入都来自真实样本,但是在测试时当前输入用的却是上一个词的输出,导致预测词在训练和测试时是从不同的分布中推断出来的,而这种不一致将导致训练模型和测试模型直接的差异。本文提出了一个两阶段对比学习框架以实现面向中文文本的生成式摘要训练,同时从摘要模型的训练以及摘要评价的建模进行对比学习。在大规模中文短文本摘要数据集(LCSTS)以及自然语言处理与中文计算会议的文本数据集(NLPCC)上的实验结果表明,相比于基线模型,本文方法可以获得更高的面向召回率的摘要评价方法(ROUGE)指标,并能更好地解决暴露偏差问题。 展开更多
关键词 中文自动文本摘要 对比学习 暴露偏差 预处理模型 ROUGE指标
在线阅读 下载PDF
融合多模态信息的产品摘要抽取模型
9
作者 赵强 王中卿 王红玲 《计算机应用》 CSCD 北大核心 2024年第1期73-78,共6页
在网络购物平台上,简洁、真实、有效的产品摘要对于提升购物体验至关重要。网上购物无法接触到产品实物,产品图像所含信息是除产品文本描述外的重要视觉信息,因此融合包括产品文本和产品图像在内的多模态信息的产品摘要对于网络购物具... 在网络购物平台上,简洁、真实、有效的产品摘要对于提升购物体验至关重要。网上购物无法接触到产品实物,产品图像所含信息是除产品文本描述外的重要视觉信息,因此融合包括产品文本和产品图像在内的多模态信息的产品摘要对于网络购物具有重要的意义。针对融合产品文本描述和产品图像的问题,提出一种融合多模态信息的产品摘要抽取模型。与一般的产品摘要任务的输入只包含产品文本描述不同,该模型引入了产品图像作为一种额外的信息来源,使抽取产生的摘要更丰富。具体来说,首先对产品文本描述和产品图像分别使用预训练模型进行特征表示,从产品文本描述中提取每个句子的文本特征表示,从产品图像中提取产品整体的视觉特征表示;然后使用基于低阶张量的多模态融合方法将每个句子的文本特征和整体视觉特征进行模态融合,得到每个句子的多模态特征表示;最后将所有句子的多模态特征表示输入摘要生成器中以生成最终的产品摘要。在CEPSUM(Chinese E-commerce Product SUMmarization)2.0数据集上进行对比实验,在CEPSUM 2.0的3个数据子集上,该模型的平均ROUGE-1比TextRank高3.12个百分点,比BERTSUMExt(BERT SUMmarization Extractive)高1.75个百分点。实验结果表明,该模型融合产品文本和图像信息对于产品摘要是有效的,在ROUGE评价指标上表现良好。 展开更多
关键词 产品摘要 多模态摘要 抽取式摘要 多模态融合 自动文摘
在线阅读 下载PDF
基于领域概念图的航天新闻自动摘要模型 被引量:1
10
作者 黄浩宁 陈志敏 +1 位作者 徐聪 张晓燕 《北京航空航天大学学报》 EI CAS CSCD 北大核心 2024年第1期317-327,共11页
互联网海量的航天新闻中隐含着大量航天情报信息,对其进行理解与压缩是提高后续情报分析效率的基础。然而通用的自动摘要算法往往会忽略很多航天领域关键信息,且有监督自动摘要算法需要对领域文本进行大量的数据标注,费时费力。因此,提... 互联网海量的航天新闻中隐含着大量航天情报信息,对其进行理解与压缩是提高后续情报分析效率的基础。然而通用的自动摘要算法往往会忽略很多航天领域关键信息,且有监督自动摘要算法需要对领域文本进行大量的数据标注,费时费力。因此,提出一种基于领域概念图的无监督自动摘要(DCG-TextRank)模型,利用领域术语辅助引导图排序,提高模型对领域文本的理解力。该模型分3个模块:领域概念图生成、图权重初始化、图排序及语义筛选。根据句向量相似度和领域术语库,将文本转换为包含句子节点和领域术语节点的领域概念图;根据航天新闻文本特征初始化领域概念图权值;采用TextRank模型对句子进行排序,并在语义筛选模块通过图节点聚类及设置摘要语义保留度的方法改进TextRank的输出,充分保留文本的多语义信息并降低冗余。所提模型具有领域可移植性,且实验结果表明:在航天新闻数据集中,所提模型相比传统TextRank模型性能提升了14.97%,相比有监督抽取式文本摘要模型BertSum和MatchSum性能提升了4.37%~12.97%。 展开更多
关键词 自动文本摘要 领域概念图 预训练语言模型 图排序算法 图节点聚类
在线阅读 下载PDF
面向司法文书的抽取-生成式自动摘要模型
11
作者 陈炫言 安娜 +1 位作者 孙宇 周炼赤 《计算机工程与设计》 北大核心 2024年第4期1117-1125,共9页
为解决抽取式摘要核心信息拼接生硬,生成式摘要源文本过长易忽略重要信息等问题,对抽取式摘要和生成式摘要的结合进行研究。通过分析抽取式摘要可提取出文本关键信息且缩短源文本长度特性;生成式摘要可降低序列间信息损失,增加文本关联... 为解决抽取式摘要核心信息拼接生硬,生成式摘要源文本过长易忽略重要信息等问题,对抽取式摘要和生成式摘要的结合进行研究。通过分析抽取式摘要可提取出文本关键信息且缩短源文本长度特性;生成式摘要可降低序列间信息损失,增加文本关联的优势。提出一种面向司法文书的抽取-生成式自动摘要模型,融合模型优势,避免单一模型存在的关键文本信息重复及重组段落语法不准的问题,保障法律文书抽取的切实完整性。在大规模公开法律领域裁判文书数据集上的实验结果表明,该模型获得较高ROUGE得分,表明了该模型提升了摘要质量。 展开更多
关键词 自动摘要 抽取式 生成式 算法融合 裁判文书 法律领域 完整连贯性
在线阅读 下载PDF
基于文本摘要的无监督关键词抽取方法
12
作者 尤泽顺 周喜 +2 位作者 董瑞 张洋宁 杨奉毅 《计算机工程与设计》 北大核心 2024年第9期2779-2784,共6页
为克服基于嵌入的关键词抽取方法在长文档上性能下降的问题,提出一种基于文本摘要的方法(summarization-based document embedding rank,SDERank)。将句向量的加权和作为文档嵌入,根据每个句子与文档主题的语义相关度赋予权重。以往基... 为克服基于嵌入的关键词抽取方法在长文档上性能下降的问题,提出一种基于文本摘要的方法(summarization-based document embedding rank,SDERank)。将句向量的加权和作为文档嵌入,根据每个句子与文档主题的语义相关度赋予权重。以往基于嵌入的方法选择关键词时忽略候选词之间的关联,针对该问题,在SDERank的改进版SDERank+中,PageRank算法被用于提取候选词之间的共现权重作为相似度分数的修正。实验结果表明,在4个广泛使用的数据集上SDERank和SDERank+比之前最好的模型MDERank的F1分数平均高出2.2%和3.29%。 展开更多
关键词 自动关键词抽取 文本摘要 长文档建模 文档主题分析 语义处理 权重优化 向量相似性
在线阅读 下载PDF
自动文摘综述 被引量:24
13
作者 郭燕慧 钟义信 +1 位作者 马志勇 姚均勇 《情报学报》 CSSCI 北大核心 2002年第5期582-591,共10页
本文概述了自动文摘的发展历史和研究状况 ,给出当前自动文摘领域主要的研究方法和策略 ,剖析了它们的优点和不足。进一步结合自动文摘自身的特点和难点 ,提出近期自动文摘的研究重点是基于篇章话语形式的浅层分析方法生成指示型文摘。
关键词 研究方法 研究重点 指示型文摘 自动文摘 话语形式 浅层分析 指示型文摘
在线阅读 下载PDF
Internet上文本的自动摘要技术 被引量:13
14
作者 尹存燕 戴新宇 陈家骏 《计算机工程》 EI CAS CSCD 北大核心 2006年第3期88-90,共3页
主要研究了Internet上的文本自动摘要,介绍了自动摘要的主流技术;讨论Internet上文本摘要的新需求以及网页上与自动摘要相关的信息,介绍了摘要处理过程和当前自动摘要的主要评估方法;对Internet上文本的自动摘要作出了总结和展望。
关键词 自动摘要 抽取型摘要 概括型摘要 互联网
在线阅读 下载PDF
自动文本摘要方法 被引量:13
15
作者 江开忠 李子成 顾君忠 《计算机工程》 CAS CSCD 北大核心 2008年第1期221-223,共3页
自动文本是继信息检索之后信息或知识获取的一个重要步骤,对高质量的文档文摘十分重要。该文提出以句子为基本抽取单位,以位置和标题关键词为句子的加权特征,对句子基于潜语义聚类,提出语义结构的方法。同时给出了较为客观和有效的评价... 自动文本是继信息检索之后信息或知识获取的一个重要步骤,对高质量的文档文摘十分重要。该文提出以句子为基本抽取单位,以位置和标题关键词为句子的加权特征,对句子基于潜语义聚类,提出语义结构的方法。同时给出了较为客观和有效的评价方法。实验表明了该方法的有效性。 展开更多
关键词 自动文本摘要 语义结构 摘要评价
在线阅读 下载PDF
基于知识的文本摘要系统研究与实现 被引量:19
16
作者 孙春葵 李蕾 +1 位作者 杨晓兰 钟义信 《计算机研究与发展》 EI CSCD 北大核心 2000年第7期874-881,共8页
提出了一个基于知识的文摘系统模型 ,并基于这种模型实现了一个文本摘要系统 L ADIES.另外 ,还提出了一种文摘系统的评估方法 .
关键词 中文信息处理 知识 文本摘要系统
在线阅读 下载PDF
自动文摘系统评价方法的研究与实践 被引量:8
17
作者 沈洲 王永成 +1 位作者 许一震 方澈 《情报学报》 CSSCI 北大核心 2001年第1期66-72,共7页
自动文摘系统作为一种信息压缩精选工具 ,越来越引起人们广泛的兴趣。但是 ,目前仍未有一种客观公认的评价方法来对已有的系统进行评价 ,从而极大地阻碍了自动文摘领域的研究。本文首先阐述了自动文摘系统评价所面临的问题 ,随后综述了... 自动文摘系统作为一种信息压缩精选工具 ,越来越引起人们广泛的兴趣。但是 ,目前仍未有一种客观公认的评价方法来对已有的系统进行评价 ,从而极大地阻碍了自动文摘领域的研究。本文首先阐述了自动文摘系统评价所面临的问题 ,随后综述了当前国内外自动文摘的评价方法 。 展开更多
关键词 自然语言处理 自动文摘系统 评价方法 内部评价方法 外部评价方法
在线阅读 下载PDF
一种基于词共现图的文档自动摘要研究 被引量:15
18
作者 耿焕同 蔡庆生 +1 位作者 赵鹏 于琨 《情报学报》 CSSCI 北大核心 2005年第6期651-656,共6页
本文提出了一种基于词共现图的文档自动摘要算法.该算法以统计方法为基础,又利用词共现图形成的主题信息以及不同主题间的连接特征信息,旨在能够有效地生成既全面反映文档的主要内容,又不受领域限制的文档摘要;同时该方法能动态地确定... 本文提出了一种基于词共现图的文档自动摘要算法.该算法以统计方法为基础,又利用词共现图形成的主题信息以及不同主题间的连接特征信息,旨在能够有效地生成既全面反映文档的主要内容,又不受领域限制的文档摘要;同时该方法能动态地确定文档摘要长度.在实验评估中,该文档自动摘要方法取得了令人满意的摘要效果. 展开更多
关键词 自动摘要 词共现图 主题 自然语言处理
在线阅读 下载PDF
基于主题词权重和句子特征的自动文摘 被引量:17
19
作者 蒋昌金 彭宏 +1 位作者 陈建超 马千里 《华南理工大学学报(自然科学版)》 EI CAS CSCD 北大核心 2010年第7期50-55,共6页
为获得高质量的自动文摘,在组合词识别算法的基础上,充分考虑词的频率、词性、词的位置、词长等因素,构建了一个词语权重计算公式,该公式能使表达主题的词和短语具有较高的权重.对句子权重的计算,则考虑了句子的内容、位置以及线索词的... 为获得高质量的自动文摘,在组合词识别算法的基础上,充分考虑词的频率、词性、词的位置、词长等因素,构建了一个词语权重计算公式,该公式能使表达主题的词和短语具有较高的权重.对句子权重的计算,则考虑了句子的内容、位置以及线索词的作用和用户偏好等.摘要的生成充分考虑了候选文摘句的相似性,避免了冗余信息的加入.对摘要的评估进行了从句子粒度到词语粒度的改进,提出了一种基于词语粒度的准确率和召回率计算方法.实验证明,该算法生成的自动文摘有着较高的质量,平均准确率达到77.1%. 展开更多
关键词 主题词 自动文摘 组合词 权重计算 句子特征
在线阅读 下载PDF
基于事件抽取的网络新闻多文档自动摘要 被引量:15
20
作者 韩永峰 许旭阳 +2 位作者 李弼程 朱武斌 陈刚 《中文信息学报》 CSCD 北大核心 2012年第1期58-66,共9页
目前,有代表性的自动摘要方法是根据文本片段进行聚类,较传统方法避免了信息冗余,但网络新闻文本中有些文本片段和主题无关,影响了聚类的效果,导致最终生成的摘要不够简洁。为此,该文引入事件抽取技术,提出了一种基于事件抽取的网络新... 目前,有代表性的自动摘要方法是根据文本片段进行聚类,较传统方法避免了信息冗余,但网络新闻文本中有些文本片段和主题无关,影响了聚类的效果,导致最终生成的摘要不够简洁。为此,该文引入事件抽取技术,提出了一种基于事件抽取的网络新闻多文档自动摘要方法。该方法首先通过二元分类器辨析出文本中的事件和非事件;然后通过聚类将文档原来以段落或句子为单位的物理划分转化为以事件为单位的内容逻辑划分,最后通过主旨事件抽取、排序及润色,生成摘要。实验结果表明,该方法是有效的,显著提高了生成摘要的质量。 展开更多
关键词 事件抽取 中文信息处理 分类 新闻文档 聚类 自动摘要
在线阅读 下载PDF
上一页 1 2 8 下一页 到第
使用帮助 返回顶部