期刊文献+
共找到23篇文章
< 1 2 >
每页显示 20 50 100
基于知识的文本摘要系统研究与实现 被引量:19
1
作者 孙春葵 李蕾 +1 位作者 杨晓兰 钟义信 《计算机研究与发展》 EI CSCD 北大核心 2000年第7期874-881,共8页
提出了一个基于知识的文摘系统模型 ,并基于这种模型实现了一个文本摘要系统 L ADIES.另外 ,还提出了一种文摘系统的评估方法 .
关键词 中文信息处理 知识 文本摘要系统
在线阅读 下载PDF
中文新闻关键事件的主题句识别 被引量:18
2
作者 王伟 赵东岩 赵伟 《北京大学学报(自然科学版)》 EI CAS CSCD 北大核心 2011年第5期789-796,共8页
提出在单文档中通过提取主题句以获取关键事件信息的思想。根据新闻的体裁特点,分析了新闻报道与事件的关系,以及新闻标题在内容、形式和语言方面的特征。提出利用标题的提示性信息提取主题句来描述新闻关键事件的方法。该方法首先对新... 提出在单文档中通过提取主题句以获取关键事件信息的思想。根据新闻的体裁特点,分析了新闻报道与事件的关系,以及新闻标题在内容、形式和语言方面的特征。提出利用标题的提示性信息提取主题句来描述新闻关键事件的方法。该方法首先对新闻标题按信息含量进行分类,然后结合新闻句子的词频、长度、位置、与标题的相似度等特征计算句子的重要性。实验表明,该方法能够准确提取新闻主题句,为进一步抽取事件信息打好了基础。 展开更多
关键词 计算机应用 中文信息处理 自然语言处理 自动文摘 事件抽取 新闻标题
在线阅读 下载PDF
基于事件抽取的网络新闻多文档自动摘要 被引量:15
3
作者 韩永峰 许旭阳 +2 位作者 李弼程 朱武斌 陈刚 《中文信息学报》 CSCD 北大核心 2012年第1期58-66,共9页
目前,有代表性的自动摘要方法是根据文本片段进行聚类,较传统方法避免了信息冗余,但网络新闻文本中有些文本片段和主题无关,影响了聚类的效果,导致最终生成的摘要不够简洁。为此,该文引入事件抽取技术,提出了一种基于事件抽取的网络新... 目前,有代表性的自动摘要方法是根据文本片段进行聚类,较传统方法避免了信息冗余,但网络新闻文本中有些文本片段和主题无关,影响了聚类的效果,导致最终生成的摘要不够简洁。为此,该文引入事件抽取技术,提出了一种基于事件抽取的网络新闻多文档自动摘要方法。该方法首先通过二元分类器辨析出文本中的事件和非事件;然后通过聚类将文档原来以段落或句子为单位的物理划分转化为以事件为单位的内容逻辑划分,最后通过主旨事件抽取、排序及润色,生成摘要。实验结果表明,该方法是有效的,显著提高了生成摘要的质量。 展开更多
关键词 事件抽取 中文信息处理 分类 新闻文档 聚类 自动摘要
在线阅读 下载PDF
基于HowNet概念获取的中文自动文摘系统 被引量:22
4
作者 王萌 何婷婷 +1 位作者 姬东鸿 王晓荣 《中文信息学报》 CSCD 北大核心 2005年第3期87-93,共7页
本文提出了一种中文自动文摘的方法。不同于其它的基于词频统计的一般方法,运用概念(词义)作为特征取代词语。用概念统计代替传统的词形频率统计方法,建立概念向量空间模型,计算出句子重要度,并对句子进行冗余度计算,抽取文摘句。对于... 本文提出了一种中文自动文摘的方法。不同于其它的基于词频统计的一般方法,运用概念(词义)作为特征取代词语。用概念统计代替传统的词形频率统计方法,建立概念向量空间模型,计算出句子重要度,并对句子进行冗余度计算,抽取文摘句。对于文摘测试,采用两种不同的方法进行测试:一是用机器文摘和专家文摘进行比较的内部测试;二是对不同文摘方法进行分类,通过对分类正确率的比较的外部评测方法。 展开更多
关键词 计算机应用 中文信息处理 HOWNET 自动文摘 概念向量空间模型
在线阅读 下载PDF
TP-AS:一种面向长文本的两阶段自动摘要方法 被引量:12
5
作者 王帅 赵翔 +2 位作者 李博 葛斌 汤大权 《中文信息学报》 CSCD 北大核心 2018年第6期71-79,共9页
随着互联网上信息的爆炸式增长,如何有效提高知识获取效率变得尤为重要。文本自动摘要技术通过对信息的压缩和精炼,为知识的快速获取提供了很好的辅助手段。现有的文本自动摘要方法在处理长文本的过程中,存在准确率低的问题,无法达到令... 随着互联网上信息的爆炸式增长,如何有效提高知识获取效率变得尤为重要。文本自动摘要技术通过对信息的压缩和精炼,为知识的快速获取提供了很好的辅助手段。现有的文本自动摘要方法在处理长文本的过程中,存在准确率低的问题,无法达到令用户满意的性能效果。为此,该文提出一种新的两阶段的长文本自动摘要方法TP-AS,首先利用基于图模型的混合文本相似度计算方法进行关键句抽取,然后结合指针机制和注意力机制构建一种基于循环神经网络的编码器—解码器模型进行摘要生成。通过基于真实大规模金融领域长文本数据上的实验,验证了TP-AS方法的有效性,其自动摘要的准确性在ROUGE-1的指标下分别达到了36.6%(词)和33.9%(字符),明显优于现有其他方法。 展开更多
关键词 自动文本摘要 自然语言处理 抽取和生成 循环神经网络
在线阅读 下载PDF
一种新的句子相似度度量及其在文本自动摘要中的应用 被引量:34
6
作者 张奇 黄萱菁 吴立德 《中文信息学报》 CSCD 北大核心 2005年第2期93-99,共7页
本文提出了一种新的句子相似度度量的方法并应用于文本自动摘要中。其创新处在于相似度计算不仅考虑句子中的uni gram ,还考虑了bi gram和tri gram ,通过回归方法将这几种相似度结果综合起来。实验证明这种相似度计算方法是有效的。同... 本文提出了一种新的句子相似度度量的方法并应用于文本自动摘要中。其创新处在于相似度计算不仅考虑句子中的uni gram ,还考虑了bi gram和tri gram ,通过回归方法将这几种相似度结果综合起来。实验证明这种相似度计算方法是有效的。同时本文还提出了一种新的 ,利用句子间相似度以及句子的权重的抽句式文摘算法 ,在抽取出句子的同时也去掉了冗余。DUC2 0 0 3、DUC2 0 0 4 (DocumentUnderstandingConference 2 0 0 3,2 0 0 4 )的评测结果征明了方法的有效性。我们的系统在DUC2 0 0 4的评测中列第二位。 展开更多
关键词 计算机应用 中文信息处理 文本自动摘要 向量模型 相似度计算
在线阅读 下载PDF
自动文摘评价方法综述 被引量:12
7
作者 张瑾 王小磊 许洪波 《中文信息学报》 CSCD 北大核心 2008年第3期81-88,共8页
评价是自动文摘领域长期关注的焦点,对自动文摘技术的发展起着积极的促进作用。本文首先介绍了自动文摘评价方法的应用背景和面临的困难;然后对自动文摘评价方法进行了简单介绍和评价;接着在了解国内外研究现状的基础上详细分析了文摘... 评价是自动文摘领域长期关注的焦点,对自动文摘技术的发展起着积极的促进作用。本文首先介绍了自动文摘评价方法的应用背景和面临的困难;然后对自动文摘评价方法进行了简单介绍和评价;接着在了解国内外研究现状的基础上详细分析了文摘评价方法的关键技术;最后对自动文摘评价方法未来的发展趋势进行了展望。 展开更多
关键词 计算机应用 中文信息处理 文本挖掘 自动文摘 自然语言处理 多文档文摘 文摘评价方法
在线阅读 下载PDF
多文档文摘中基于时间信息的句子排序策略研究 被引量:8
8
作者 徐永东 王亚东 +2 位作者 刘杨 王伟 权光日 《中文信息学报》 CSCD 北大核心 2009年第4期27-33,共7页
文摘句排序是多文档自动文摘中的一个关键技术,直接影响到文摘的流畅程度和可读性。文本时间信息处理是影响排序算法质量的瓶颈技术,由于无法获得准确的时间信息,传统的句子排序策略均回避了这一问题,而且均无法获得稳定的高质量的排序... 文摘句排序是多文档自动文摘中的一个关键技术,直接影响到文摘的流畅程度和可读性。文本时间信息处理是影响排序算法质量的瓶颈技术,由于无法获得准确的时间信息,传统的句子排序策略均回避了这一问题,而且均无法获得稳定的高质量的排序效果。对此该文从文本时间信息处理入手,首先提出了中文文本时间信息抽取、语义计算以及时序推理算法,并在此算法基础上,借鉴传统的主成分排列的思想和句子相关度计算方法,提出了基于时间信息的句子排序算法。实验表明该算法的质量要明显好于传统的主成分排列算法和时序排列算法。 展开更多
关键词 计算机应用 中文信息处理 多文档自动文摘 句子排序 中文时间信息处理
在线阅读 下载PDF
基于规则和统计的中文自动文摘系统 被引量:21
9
作者 傅间莲 陈群秀 《中文信息学报》 CSCD 北大核心 2006年第5期10-16,共7页
自动文摘是自然语言处理领域里一个重要课题,本文在传统方法基础上提出了一种中文自动文摘的方法。在篇章结构分析里,我们提出了基于连续段落相似度的主题划分算法,使生成的文摘更具内容全面性与结构平衡性。同时结合了若干规则对生成... 自动文摘是自然语言处理领域里一个重要课题,本文在传统方法基础上提出了一种中文自动文摘的方法。在篇章结构分析里,我们提出了基于连续段落相似度的主题划分算法,使生成的文摘更具内容全面性与结构平衡性。同时结合了若干规则对生成的文摘初稿进行可读性加工处理,使最终生成的文摘更具可读性。最后提出了一种新的文摘评价方法(F-new-m easure)对系统进行测试。系统测试表明该方法在不同文摘压缩率时,评价值均较为稳定。 展开更多
关键词 计算机应用 中文信息处理 自动文摘 向量空间模型 主题划分 可读性 评价
在线阅读 下载PDF
基于深度学习的文本自动摘要方案 被引量:11
10
作者 张克君 李伟男 +2 位作者 钱榕 史泰猛 焦萌 《计算机应用》 CSCD 北大核心 2019年第2期311-315,共5页
针对自然语言处理(NLP)生成式自动摘要领域的语义理解不充分、摘要语句不通顺和摘要准确度不够高的问题,提出了一种新的生成式自动摘要解决方案,包括一种改进的词向量生成技术和一个生成式自动摘要模型。改进的词向量生成技术以Skip-Gra... 针对自然语言处理(NLP)生成式自动摘要领域的语义理解不充分、摘要语句不通顺和摘要准确度不够高的问题,提出了一种新的生成式自动摘要解决方案,包括一种改进的词向量生成技术和一个生成式自动摘要模型。改进的词向量生成技术以Skip-Gram方法生成的词向量为基础,结合摘要的特点,引入词性、词频和逆文本频率三个词特征,有效地提高了词语的理解;而提出的Bi-MulRnn+生成式自动摘要模型以序列映射(seq2seq)与自编码器结构为基础,引入注意力机制、门控循环单元(GRU)结构、双向循环神经网络(BiRnn)、多层循环神经网络(MultiRnn)和集束搜索,提高了生成式摘要准确性与语句流畅度。基于大规模中文短文本摘要(LCSTS)数据集的实验结果表明,该方案能够有效地解决短文本生成式摘要问题,并在Rouge标准评价体系中表现良好,提高了摘要准确性与语句流畅度。 展开更多
关键词 自然语言处理 生成式文本自动摘要 序列映射 自编码器 词向量 循环神经网络
在线阅读 下载PDF
基于规则与统计相结合的中文文本自动查错模型与算法 被引量:34
11
作者 张仰森 曹元大 俞士汶 《中文信息学报》 CSCD 北大核心 2006年第4期1-7,55,共8页
中文文本自动校对是自然语言处理领域具有挑战性的研究课题。本文提出了一种规则与统计相结合的中文文本自动查错模型与算法。根据正确文本分词后单字词的出现规律以及“非多字词错误”的概念,提出一组错误发现规则,并与针对分词后单字... 中文文本自动校对是自然语言处理领域具有挑战性的研究课题。本文提出了一种规则与统计相结合的中文文本自动查错模型与算法。根据正确文本分词后单字词的出现规律以及“非多字词错误”的概念,提出一组错误发现规则,并与针对分词后单字散串建立的字二元、三元统计模型和词性二元、三元统计模型相结合,建立了文本自动查错模型与实现算法。通过对30篇含有578个错误测试点的文本进行实验,所提算法的查错召回率为86.85%、准确率为69.43%,误报率为30.57%。 展开更多
关键词 计算机应用 中文信息处理 中文文本自动查错 规则与统计相结合 非多字词错误 真多字词错误
在线阅读 下载PDF
中文自动文摘系统CAAS的研究与实现 被引量:2
12
作者 刘挺 吴岩 王开铸 《哈尔滨工业大学学报》 EI CAS CSCD 北大核心 1999年第6期59-62,共4页
介绍了一种中文自动文摘系统;该系统在高精度的汉语自动分词、关键词自动抽取等算法的基础上,引入了文本结构的统计分析和句间指代关系的识别等技术,使得生成的摘要更加准确、全面、连贯. 该系统适用于科技文献、政论文、公文等实... 介绍了一种中文自动文摘系统;该系统在高精度的汉语自动分词、关键词自动抽取等算法的基础上,引入了文本结构的统计分析和句间指代关系的识别等技术,使得生成的摘要更加准确、全面、连贯. 该系统适用于科技文献、政论文、公文等实用文体的摘要生成. 展开更多
关键词 中文信息处理 应用软件 自动文摘 CAAS 自动分词
在线阅读 下载PDF
自动文摘系统中的主题划分问题研究 被引量:13
13
作者 傅间莲 陈群秀 《中文信息学报》 CSCD 北大核心 2005年第6期28-35,共8页
随着网络的发展,电子文本大量涌现,自动文摘以迅速、快捷、有效、客观等手工文摘无可比拟的优势,使得其实用价值得到充分体现。而主题划分是自动文摘系统中文本结构分析阶段所要解决的一个重要问题。本文提出了一个通过建立段落向量空... 随着网络的发展,电子文本大量涌现,自动文摘以迅速、快捷、有效、客观等手工文摘无可比拟的优势,使得其实用价值得到充分体现。而主题划分是自动文摘系统中文本结构分析阶段所要解决的一个重要问题。本文提出了一个通过建立段落向量空间模型,根据连续段落相似度进行文本主题划分的算法,解决了文章的篇章结构分析问题,使得多主题文章的文摘更具内容全面性与结构平衡性。实验结果表明,该算法对多主题文章的主题划分准确率为92.2%,对单主题文章的主题划分准确率为99.1%。 展开更多
关键词 计算机应用 中文信息处理 自动文摘 向量空间模型 段落相似度 主题划分
在线阅读 下载PDF
一种基于LDA的CRF自动文摘方法 被引量:13
14
作者 吴晓锋 宗成庆 《中文信息学报》 CSCD 北大核心 2009年第6期39-45,共7页
浅层狄利赫雷分配(Latent Dirichlet Allocation,LDA)方法近年来被广泛应用于文本聚类、分类、段落切分等等,并且也有人将其应用于基于提问的无监督的多文档自动摘要。该方法被认为能较好地对文本进行浅层语义建模。该文在前人工作基础... 浅层狄利赫雷分配(Latent Dirichlet Allocation,LDA)方法近年来被广泛应用于文本聚类、分类、段落切分等等,并且也有人将其应用于基于提问的无监督的多文档自动摘要。该方法被认为能较好地对文本进行浅层语义建模。该文在前人工作基础上提出了基于LDA的条件随机场(Conditional Random Field,CRF)自动文摘(LCAS)方法,研究了LDA在有监督的单文档自动文摘中的作用,提出了将LDA提取的主题(Topic)作为特征加入CRF模型中进行训练的方法,并分析研究了在不同Topic下LDA对摘要结果的影响。实验结果表明,加入LDA特征后,能够有效地提高以传统特征为输入的CRF文摘系统的质量。 展开更多
关键词 计算机应用 中文信息处理 自然语言处理 自动文摘 狄利赫雷分布 条件随机场
在线阅读 下载PDF
基于Web的文摘技术研究 被引量:1
15
作者 耿增民 贾云得 +1 位作者 刘万春 朱玉文 《中文信息学报》 CSCD 北大核心 2006年第6期54-60,108,共8页
W eb文档的迅猛增长使W eb文摘技术成了当今的一个研究热点。由于W eb文档的特殊性,使得W eb文摘不同于传统的文本自动文摘。本文分析了W eb文档的特点;给出了W eb文摘的定义;提出了基于句子抽取的W eb文摘生成算法。算法中将每个W eb... W eb文档的迅猛增长使W eb文摘技术成了当今的一个研究热点。由于W eb文档的特殊性,使得W eb文摘不同于传统的文本自动文摘。本文分析了W eb文档的特点;给出了W eb文摘的定义;提出了基于句子抽取的W eb文摘生成算法。算法中将每个W eb句子权重分解为W eb特征词权重和W eb句子结构权重,并用机器学习的方法来计算二者所占的比重。W eb特征词权重根据文档分类树图进行权值调整,W eb句子结构权重充分考虑排版格式和超连接属性。通过对1000篇W eb文档的文摘实验,证明文中所提W eb文摘算法切实可行。 展开更多
关键词 计算机应用 中文信息处理 Web文摘 文本文摘 Web文档预处理 文摘后处理
在线阅读 下载PDF
关于自然语言处理中的文摘生成及其相关技术 被引量:2
16
作者 孙春葵 钟义信 《计算机科学》 CSCD 北大核心 1999年第10期16-19,11,共5页
一、引言自然语言处理(简称NLP)伴随着计算机的诞生而诞生。在自然语言处理中,开始人们关注的焦点是机器翻译(简称MT),早在1958年已极为盛行。美国投入大量资金和人力组建各种研究小组进行机器翻译的研究。与此同时,自动文摘(Automatic ... 一、引言自然语言处理(简称NLP)伴随着计算机的诞生而诞生。在自然语言处理中,开始人们关注的焦点是机器翻译(简称MT),早在1958年已极为盛行。美国投入大量资金和人力组建各种研究小组进行机器翻译的研究。与此同时,自动文摘(Automatic Abstracting,即文摘生成,Text Summarization,简称TS) 展开更多
关键词 自然语言处理 文摘生成 计算机
在线阅读 下载PDF
基于段落匹配和分布密度的偏重摘要实现机制 被引量:1
17
作者 林鸿飞 杨志豪 赵晶 《中文信息学报》 CSCD 北大核心 2007年第1期43-48,共6页
本文提出了基于段落匹配和分布密度的偏重文本摘要实现机制,旨在满足摘要的个性化要求。首先在关键字同义扩充的基础上,利用基于侧面相似度的段落匹配方法,获取相关的文本段落集合。然后通过计算文本窗口的分布密度函数,获取关键字集聚... 本文提出了基于段落匹配和分布密度的偏重文本摘要实现机制,旨在满足摘要的个性化要求。首先在关键字同义扩充的基础上,利用基于侧面相似度的段落匹配方法,获取相关的文本段落集合。然后通过计算文本窗口的分布密度函数,获取关键字集聚区域,依据覆盖区域的句子权重,输出的最终偏重摘要。最后进行了评价实验,通过问答测验和相似比较,效果良好,而且表明偏重摘要对于多主题文本更为有效。 展开更多
关键词 计算机应用 中文信息处理 文本摘要 偏重摘要 同义扩充 段落匹配 分布密度
在线阅读 下载PDF
一种基于词编码的中文文档格式 被引量:1
18
作者 焦慧 刘迁 贾惠波 《计算机科学》 CSCD 北大核心 2008年第10期162-164,共3页
分析了汉语自动分词问题产生的根源和面临的困难,针对性地提出了一种基于词的中文编码方法和中文文档新格式,实现了以词作为中文文本的最小信息载体,使中文文本分析可以在词平台上实现,避免了自动分词对中文信息处理带来的障碍。基于中... 分析了汉语自动分词问题产生的根源和面临的困难,针对性地提出了一种基于词的中文编码方法和中文文档新格式,实现了以词作为中文文本的最小信息载体,使中文文本分析可以在词平台上实现,避免了自动分词对中文信息处理带来的障碍。基于中文词的编码方法,以每个词作为一个单位,对词进行编码。此方法避开了中文的自动分词问题,特别是解决了歧义切分的难题,并提出了一种利用文档格式解决未登录词问题的新思路。采用统计分析方法对词平台基础上的关键词自动抽取进行了实验研究,取得良好效果。 展开更多
关键词 中文信息处理 词典码 文档格式 自动分词
在线阅读 下载PDF
汉语文本形式结构分析及其标引算法 被引量:5
19
作者 单永明 《中文信息学报》 CSCD 北大核心 2002年第2期14-19,26,共7页
本文从形式化的角度讨论了汉语文本的形式结构及有关的基本概念 ,给出了文本的标题、子标题、段落及其层次结构的一种划分与标记方法 ,提出了规范的与准规范的文本等概念 ,并以此为基础讨论了文本形式结构的标引问题 ,给出了两个标引算法。
关键词 中文信息处理 文本结构分析 标引树 自动标引算法 汉语文本分析 文本形式结构
在线阅读 下载PDF
一类规范文本篇章结构的自动标引 被引量:4
20
作者 单永明 《中文信息学报》 CSCD 北大核心 1998年第4期47-52,共6页
本文通过对汉语文本中标题和段的级、标题的型等概念的描述与分析,讨论了汉语文本篇章结构的标引问题,提出了规范文本的概念,并给出了规范文本篇章结构的一种标记方法,在此基础上,讨论并实现了规范文本篇章结构的自动标引,给出了... 本文通过对汉语文本中标题和段的级、标题的型等概念的描述与分析,讨论了汉语文本篇章结构的标引问题,提出了规范文本的概念,并给出了规范文本篇章结构的一种标记方法,在此基础上,讨论并实现了规范文本篇章结构的自动标引,给出了标引算法。 展开更多
关键词 中文信息处理 文本自动分析 自动标引 篇章结构
在线阅读 下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部