期刊文献+
共找到21篇文章
< 1 2 >
每页显示 20 50 100
基于概念的文本结构分析方法 被引量:36
1
作者 林鸿飞 战学刚 姚天顺 《计算机研究与发展》 EI CSCD 北大核心 2000年第3期324-328,共5页
文本结构分析是文本处理领域中的重要内容,它可以有效地改进文本摘要、文本检索以及文本过滤的精度.文中简要描述了文本的物理结构和逻辑结构以及文本分析的背景,提出了文本结构分析中的层次分析方法.该方法保证了层次划分的有序性... 文本结构分析是文本处理领域中的重要内容,它可以有效地改进文本摘要、文本检索以及文本过滤的精度.文中简要描述了文本的物理结构和逻辑结构以及文本分析的背景,提出了文本结构分析中的层次分析方法.该方法保证了层次划分的有序性,可操作性强,便于解释,不依赖于具体领域.其基本思想是对于输入文本,首先识别出文本的物理结构;然后在概念映射、概念密度和概念消歧的基础上,将文本依据主题划分为若干层次;最终获得文本的逻辑结构. 展开更多
关键词 文本结构分析 概念 信息处理 文本处理 计算机
在线阅读 下载PDF
基于HowNet概念获取的中文自动文摘系统 被引量:22
2
作者 王萌 何婷婷 +1 位作者 姬东鸿 王晓荣 《中文信息学报》 CSCD 北大核心 2005年第3期87-93,共7页
本文提出了一种中文自动文摘的方法。不同于其它的基于词频统计的一般方法,运用概念(词义)作为特征取代词语。用概念统计代替传统的词形频率统计方法,建立概念向量空间模型,计算出句子重要度,并对句子进行冗余度计算,抽取文摘句。对于... 本文提出了一种中文自动文摘的方法。不同于其它的基于词频统计的一般方法,运用概念(词义)作为特征取代词语。用概念统计代替传统的词形频率统计方法,建立概念向量空间模型,计算出句子重要度,并对句子进行冗余度计算,抽取文摘句。对于文摘测试,采用两种不同的方法进行测试:一是用机器文摘和专家文摘进行比较的内部测试;二是对不同文摘方法进行分类,通过对分类正确率的比较的外部评测方法。 展开更多
关键词 计算机应用 中文信息处理 HOWNET 自动文摘 概念向量空间模型
在线阅读 下载PDF
自动文摘方法分析 被引量:8
3
作者 金旭 杨炳儒 菅志刚 《计算机应用研究》 CSCD 北大核心 2004年第9期5-6,11,共3页
介绍了目前自动文摘的四种实现方法,并对这四种方法的优缺点进行了较为详细的分析与比较,介绍了它们的应用实例。最后讨论了一种面向非受限领域的综合式中文自动文摘方法。
关键词 自动文摘 向量空间模型 自然语言理解
在线阅读 下载PDF
基于统计方法的汉语自动文摘系统研究 被引量:12
4
作者 王文欣 黄萱菁 吴立德 《计算机应用与软件》 CSCD 2000年第9期28-33,共6页
本文简要介绍了文本的向量空间模型表示,并提出了用该模型进行非受限真实文本的自动文摘方法。其基本思想是对输入文本进行项(本文为词和概念)的统计,根据不同项在文本中的分布评估其重要性,据此和其它信息形成句子的综合权重,生成摘要... 本文简要介绍了文本的向量空间模型表示,并提出了用该模型进行非受限真实文本的自动文摘方法。其基本思想是对输入文本进行项(本文为词和概念)的统计,根据不同项在文本中的分布评估其重要性,据此和其它信息形成句子的综合权重,生成摘要。文中较详细地介绍了系统的实现及实验结果,同时提出了对文摘系统的评价方法。 展开更多
关键词 自然语言处理 汉语自动文献系统 统计方法
在线阅读 下载PDF
文本主题的自动提取方法研究与实现 被引量:6
5
作者 张其文 李明 《计算机工程与设计》 CSCD 北大核心 2006年第15期2744-2746,2766,共4页
在深入分析了当前流行的文本主题提取技术和方法的基础上,将语义方法融入统计算法,提出了一种基于统计的主题提取方法,并描述了它的实现过程。该方法利用文档内句子之间的语义相关性,实现了文本主题的自动生成。首先对文本进行切词和分... 在深入分析了当前流行的文本主题提取技术和方法的基础上,将语义方法融入统计算法,提出了一种基于统计的主题提取方法,并描述了它的实现过程。该方法利用文档内句子之间的语义相关性,实现了文本主题的自动生成。首先对文本进行切词和分句处理实现信息分割,再结合文本聚类技术对文本句进行聚类实现信息合并,最后从每类中抽取代表句生成文本主题。实验结果表明,该方法是一个有效、实用的方法。 展开更多
关键词 文本主题 自动文摘 文本分段 文本聚类 向量空间模型 文本模型
在线阅读 下载PDF
基于HTML文档结构的向量空间模型的改进 被引量:10
6
作者 胡健 陆一鸣 马范援 《情报学报》 CSSCI 北大核心 2005年第4期433-437,共5页
根据HTML文档不同标签域的分布特征和对文档内容的代表能力不同,我们提出了一种改进的向量模型(PFTF),并通过trec12的查询实验,比较了传统向量模型与PFTF模型对单个标签域以及多个文档表示结果的结合的检索性能.实验结果表明,PFTF模型... 根据HTML文档不同标签域的分布特征和对文档内容的代表能力不同,我们提出了一种改进的向量模型(PFTF),并通过trec12的查询实验,比较了传统向量模型与PFTF模型对单个标签域以及多个文档表示结果的结合的检索性能.实验结果表明,PFTF模型对于这两个方面都有提高. 展开更多
关键词 HTML文档结构 信息检索 向量空间模型链接文本TREC 向量空间模型 HTML文档 文档结构 向量模型 分布特征 检索性能 标签
在线阅读 下载PDF
多文档文摘提取方法的研究 被引量:4
7
作者 张其文 李明 《兰州理工大学学报》 CAS 北大核心 2007年第1期96-99,共4页
在深入分析当前流行的自动文摘技术和方法的基础上,将语义方法融入统计算法,提出了一种基于统计的多文档文摘提取方法,描述了它的实现过程.该方法利用文档内和文档之间段落的语义相关性,实现了多文档文摘的自动生成.首先对文档进行分段... 在深入分析当前流行的自动文摘技术和方法的基础上,将语义方法融入统计算法,提出了一种基于统计的多文档文摘提取方法,描述了它的实现过程.该方法利用文档内和文档之间段落的语义相关性,实现了多文档文摘的自动生成.首先对文档进行分段实现信息分割,再利用聚类技术对文本段进行聚类实现信息合并,最后从类中抽取代表段产生摘要文本.实验结果表明,该方法是一个有效、实用的方法. 展开更多
关键词 自动文摘 文本分段 语义段 向量空间模型 文本模型
在线阅读 下载PDF
自动文摘系统中的主题划分问题研究 被引量:13
8
作者 傅间莲 陈群秀 《中文信息学报》 CSCD 北大核心 2005年第6期28-35,共8页
随着网络的发展,电子文本大量涌现,自动文摘以迅速、快捷、有效、客观等手工文摘无可比拟的优势,使得其实用价值得到充分体现。而主题划分是自动文摘系统中文本结构分析阶段所要解决的一个重要问题。本文提出了一个通过建立段落向量空... 随着网络的发展,电子文本大量涌现,自动文摘以迅速、快捷、有效、客观等手工文摘无可比拟的优势,使得其实用价值得到充分体现。而主题划分是自动文摘系统中文本结构分析阶段所要解决的一个重要问题。本文提出了一个通过建立段落向量空间模型,根据连续段落相似度进行文本主题划分的算法,解决了文章的篇章结构分析问题,使得多主题文章的文摘更具内容全面性与结构平衡性。实验结果表明,该算法对多主题文章的主题划分准确率为92.2%,对单主题文章的主题划分准确率为99.1%。 展开更多
关键词 计算机应用 中文信息处理 自动文摘 向量空间模型 段落相似度 主题划分
在线阅读 下载PDF
一种基于词序信息的自动文摘方法 被引量:3
9
作者 任纪生 张弛 王作英 《计算机工程与设计》 CSCD 北大核心 2007年第1期178-181,共4页
自动文摘技术应尽可能获取准确的相似度以确定句子或段落的权重,但目前常用的基于向量空间模型的计算方法却忽视句子、段落、文本中词的顺序。提出了一种新的基于相邻词序组的相似度度量方法并应用于文本的自动,采用基于聚类的方法实现... 自动文摘技术应尽可能获取准确的相似度以确定句子或段落的权重,但目前常用的基于向量空间模型的计算方法却忽视句子、段落、文本中词的顺序。提出了一种新的基于相邻词序组的相似度度量方法并应用于文本的自动,采用基于聚类的方法实现了词序组的向量表示并以此刻画句子、段落、文本,通过线性插值将基于不同长度词序组的相似度结果予以综合。同时,提出了新的基于含词序组重要性累计度的句子或段落的权重指标。实验证明利用词序信息可有效提高自动文摘质量。 展开更多
关键词 自动文摘 词序 向量空间模型 相似度 权重
在线阅读 下载PDF
基于向量空间模型的自动摘要冗余处理研究 被引量:4
10
作者 张筱丹 胡学钢 《合肥工业大学学报(自然科学版)》 CAS CSCD 北大核心 2010年第9期1355-1358,共4页
随着信息技术的发展,互联网上的文本信息呈爆炸式增长,文本自动摘要技术成为目前研究的热点。文章提出一种基于向量空间模型的自动摘要冗余处理方法,该方法首先根据统计信息进行粗摘要提取,然后利用向量空间模型对粗摘要进行冗余处理;... 随着信息技术的发展,互联网上的文本信息呈爆炸式增长,文本自动摘要技术成为目前研究的热点。文章提出一种基于向量空间模型的自动摘要冗余处理方法,该方法首先根据统计信息进行粗摘要提取,然后利用向量空间模型对粗摘要进行冗余处理;实验结果表明,该方法提取的摘要不受领域知识限制,有效去除冗余,能更好地反映文档内容。 展开更多
关键词 自动摘要 向量空间模型 冗余处理
在线阅读 下载PDF
基于指代消解和篇章结构分析的自动摘录算法 被引量:2
11
作者 郑诚 刘福君 李清 《计算机工程》 CAS CSCD 2012年第16期170-173,共4页
传统自动文摘方法生成的文摘结果指代关系模糊,且对于某些段落结构有规律的文章,没有分析文章结构与主题思想之间的关系。为此,提出一种基于指代消解和篇章结构分析的自动摘录算法。采用有限知识的思路完成指代消解,利用指代消解解决文... 传统自动文摘方法生成的文摘结果指代关系模糊,且对于某些段落结构有规律的文章,没有分析文章结构与主题思想之间的关系。为此,提出一种基于指代消解和篇章结构分析的自动摘录算法。采用有限知识的思路完成指代消解,利用指代消解解决文摘语义不连贯问题,以提高句子权重计算的准确性,对文章做主题划分时进行篇章结构识别,按照段落标题信息划分段落结构。实验结果表明,该算法在受限金融领域文本自动摘录中,具有较高的准确率和召回率。 展开更多
关键词 自然语言处理 自动摘录 向量空间模型 主题划分 篇章结构 指代消解
在线阅读 下载PDF
一种混合型的汉语篇章结构自动分析方法 被引量:10
12
作者 张益民 陆汝占 沈李斌 《软件学报》 EI CSCD 北大核心 2000年第11期1527-1533,共7页
提出一种混合型的汉语篇章结构自动分析方法 .此方法主要基于 RST( rhetorical structure theory)分析、主位模式分析等多种语言学方法 ,还利用了向量空间模型等统计方法 .提出并实现了一种确定性 RST分析算法 .与其他现有方法相比 ,此... 提出一种混合型的汉语篇章结构自动分析方法 .此方法主要基于 RST( rhetorical structure theory)分析、主位模式分析等多种语言学方法 ,还利用了向量空间模型等统计方法 .提出并实现了一种确定性 RST分析算法 .与其他现有方法相比 ,此方法具有更大的适用范围和更高的处理精度 . 展开更多
关键词 汉语篇章结构 自动分析 篇章处理 自然语言处理
在线阅读 下载PDF
基于无向图构建策略的主题句抽取 被引量:10
13
作者 葛斌 李芳芳 +1 位作者 李阜 肖卫东 《计算机科学》 CSCD 北大核心 2011年第5期181-185,共5页
基于文档句构建无向图,将主题句的抽取问题转换为无向图中节点的权重计算问题。首先利用滑窗方法抽取主题词,构建空间向量并生成无向图,然后基于向量空间模型计算边权重,最后利用文档句相似度矩阵的权重模型对文档句权重进行建模与计算... 基于文档句构建无向图,将主题句的抽取问题转换为无向图中节点的权重计算问题。首先利用滑窗方法抽取主题词,构建空间向量并生成无向图,然后基于向量空间模型计算边权重,最后利用文档句相似度矩阵的权重模型对文档句权重进行建模与计算,依据压缩比得到文档的主题句。实验表明,该方法在不同的压缩比下生成的摘要质量高,主题句抽取结果接近于人工摘要,召回率和准确率综合指数较高。 展开更多
关键词 主题句抽取 无向图 文档句权重 自动文摘
在线阅读 下载PDF
一种基于遗传算法的主题划分方法 被引量:1
14
作者 傅间莲 陈群秀 《计算机工程》 EI CAS CSCD 北大核心 2006年第11期209-210,218,共3页
提出了一个通过建立段落向量空间模型,根据遗传算法进行文本主题划分的算法,解决了文章的篇章结构分析问题,使得多主题文章的文摘更具内容全面性与结构平衡性。实验结果表明,该算法对多主题文章的主题划分准确率为89.3%,对单主题文章的... 提出了一个通过建立段落向量空间模型,根据遗传算法进行文本主题划分的算法,解决了文章的篇章结构分析问题,使得多主题文章的文摘更具内容全面性与结构平衡性。实验结果表明,该算法对多主题文章的主题划分准确率为89.3%,对单主题文章的主题划分准确率为94.6%。 展开更多
关键词 自动文摘 向量空间模型 遗传算法 主题划分
在线阅读 下载PDF
面向自动文摘的文本结构划分 被引量:2
15
作者 朱荷香 曲维光 +2 位作者 卢俊之 李素建 邵艳秋 《南京大学学报(自然科学版)》 CAS CSCD 北大核心 2008年第2期204-211,共8页
文本结构划分是自动文摘研究中的一个关键阶段,也是自然语言处理领域的重要课题.本文通过构建段落向量空间模型,提出一种综合考察相邻段落相似度和连续段落平均相似度的意义段划分方法,使文摘内容更加全面,结构更加平衡.实验结果表明,... 文本结构划分是自动文摘研究中的一个关键阶段,也是自然语言处理领域的重要课题.本文通过构建段落向量空间模型,提出一种综合考察相邻段落相似度和连续段落平均相似度的意义段划分方法,使文摘内容更加全面,结构更加平衡.实验结果表明,该方法能够较有效地反映文章的内容结构,对有子标题组织和无子标题组织的文章均适用;由于考虑了总起段,使得文本结构划分更加合理,为自动文摘系统的后续工作打下坚实的基础. 展开更多
关键词 文本结构 自动文摘 向量空间模型 段落相似度 意义段划分
在线阅读 下载PDF
一种改进的基于VSM的文本分类算法 被引量:8
16
作者 张彰 樊孝忠 《计算机工程与设计》 CSCD 北大核心 2006年第21期4078-4080,共3页
在文本分类中,向量空间模型(VSM)是常用的文本表示形式,但是它把文本看作词袋,忽略了文本的结构信息。通过区别对待文本的不同部分来改进基本的向量空间方法:对于标题和段落首尾句采用核心词共现的方法来计算其对分类的作用;对其它部分... 在文本分类中,向量空间模型(VSM)是常用的文本表示形式,但是它把文本看作词袋,忽略了文本的结构信息。通过区别对待文本的不同部分来改进基本的向量空间方法:对于标题和段落首尾句采用核心词共现的方法来计算其对分类的作用;对其它部分采用基本的向量空间模型方法进行计算。对这两部分的计算结果进行加权求和,来综合判定文本的类别。对改进的文本分类方法进行了测试,实验结果表明改进的方法提高了分类的精确率、召回率和F1测试值。 展开更多
关键词 文本分类 向量空间模型 文本结构信息 核心词 共现
在线阅读 下载PDF
汉语文本结构的自动分析 被引量:8
17
作者 薛翠芳 郭炳炎 《情报学报》 CSSCI 北大核心 2000年第4期319-325,共7页
本文试图运用向量空间模型来确定文本段落之间内容的相关性 ,从而实现文本主题的自动分析 ,找出构成文本大主题的各个小主题 ,从这些小主题入手来实现自动文摘 ,可为自动文摘技术探索一条新途径。另一方面 ,通过文本结构的自动分析 ,可... 本文试图运用向量空间模型来确定文本段落之间内容的相关性 ,从而实现文本主题的自动分析 ,找出构成文本大主题的各个小主题 ,从这些小主题入手来实现自动文摘 ,可为自动文摘技术探索一条新途径。另一方面 ,通过文本结构的自动分析 ,可确定文本结构的类型 。 展开更多
关键词 文本结构 向量空间模型 自动文摘 汉语 自动化
在线阅读 下载PDF
基于自动分类的搜索引擎过滤系统 被引量:2
18
作者 康平波 王文杰 《计算机工程》 CAS CSCD 北大核心 2004年第2期95-97,共3页
随着互联网的普及和发展,网络上的信息资源越来越丰富,如何高效、准确地获得包含用户所需的信息的网页资源,日益成为需要迫切解决的问题。目前搜索引擎返回的搜索结果往往涉及很多领域,而且是大量的,用户从中找到自己所感兴趣的内容往... 随着互联网的普及和发展,网络上的信息资源越来越丰富,如何高效、准确地获得包含用户所需的信息的网页资源,日益成为需要迫切解决的问题。目前搜索引擎返回的搜索结果往往涉及很多领域,而且是大量的,用户从中找到自己所感兴趣的内容往往很困难。利用自动分类器对搜索引擎的返回结果进行分类,以提高检索效率和准确性,方便用户使用。 展开更多
关键词 文本自动分类 主题词 向量空间模型
在线阅读 下载PDF
综合词位置和语义信息的专利文本相似度计算 被引量:10
19
作者 夏冰 李宝安 吕学强 《计算机工程与设计》 北大核心 2018年第10期3087-3091,共5页
为解决传统文本相似度计算方法没有充分考虑专利文本结构特殊性以及计算文本相似度过程中往往忽略词汇间语义信息的问题,在传统方法的基础上,考虑词性以及专利文本的结构特征,将IPC分类号、标题、摘要、权利要求书作为主要研究对象,词... 为解决传统文本相似度计算方法没有充分考虑专利文本结构特殊性以及计算文本相似度过程中往往忽略词汇间语义信息的问题,在传统方法的基础上,考虑词性以及专利文本的结构特征,将IPC分类号、标题、摘要、权利要求书作为主要研究对象,词在不同位置出现分别赋予不同的权重,通过word2vec将词表示成词向量的形式,通过词汇跟词汇之间的语义信息改进余弦相似度公式。实验结果表明,提出方法相比于传统文本相似度计算方法准确率和召回率有所提高,验证了其有效性。 展开更多
关键词 文本相似度 专利文本结构 向量空间模型 词向量 余弦相似度
在线阅读 下载PDF
基于自动分类的网页机器人 被引量:1
20
作者 康平波 王文杰 《计算机工程》 CAS CSCD 北大核心 2003年第21期123-124,127,共3页
随着互联网的普及和发展,网络上的信息资源越来越丰富,它需要高效智能的工 具来完成信息资源的采集。WWW上的网页抓取器,又称Robot. 讨论了抓取器与文本自动分类 器相结合,对用户要求领域网页的收集。抓取器找到相关链接进行抓取,... 随着互联网的普及和发展,网络上的信息资源越来越丰富,它需要高效智能的工 具来完成信息资源的采集。WWW上的网页抓取器,又称Robot. 讨论了抓取器与文本自动分类 器相结合,对用户要求领域网页的收集。抓取器找到相关链接进行抓取,而避免对非相关链 接的抓取。这样可以节省硬件、网络资源和提高抓取器的效率。 展开更多
关键词 网页机器人 文本自动分类 向量空间模型
在线阅读 下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部