期刊文献+
共找到5篇文章
< 1 >
每页显示 20 50 100
基于连续段落相似度的主题划分算法 被引量:10
1
作者 傅间莲 陈群秀 《计算机应用》 CSCD 北大核心 2005年第9期2022-2024,共3页
主题划分是自动文摘系统中文本结构分析阶段所要解决的一个重要问题。文中提出了一个通过建立段落向量空间模型,根据连续段落相似度进行文本主题划分的算法,解决了文章的篇章结构分析问题,使得多主题文章的文摘更具内容全面性与结构平... 主题划分是自动文摘系统中文本结构分析阶段所要解决的一个重要问题。文中提出了一个通过建立段落向量空间模型,根据连续段落相似度进行文本主题划分的算法,解决了文章的篇章结构分析问题,使得多主题文章的文摘更具内容全面性与结构平衡性。实验结果表明,该算法对多主题文章的主题划分准确率为92.4%,对单主题文章的主题划分准确率为99.1%。 展开更多
关键词 自动文摘 向量空间模型 段落相似度 主题划分
在线阅读 下载PDF
基于加权二部图匹配的中文段落相似度计算 被引量:4
2
作者 张绍阳 曹家波 +1 位作者 王子凡 曲卫东 《计算机工程与应用》 CSCD 北大核心 2017年第18期95-101,共7页
为了改进传统以向量空间模型(VSM)为代表的基于词频统计的方法在中文段落相似度计算时存在的精度不高问题,在基于加权二部图匹配的思想上提出了一种计算中文段落之间相似度的方法。该方法将相似度计算分为段落和句子两个层次,将句子作... 为了改进传统以向量空间模型(VSM)为代表的基于词频统计的方法在中文段落相似度计算时存在的精度不高问题,在基于加权二部图匹配的思想上提出了一种计算中文段落之间相似度的方法。该方法将相似度计算分为段落和句子两个层次,将句子作为简单段落看待,也使用二部图匹配进行相似度计算。首先利用句子主干词汇提取算法来提取句子的主干词汇,将主干词汇作为二部图的顶点,把主干词汇之间的相似度作为二部图顶点之间的权值系数,进行句子相似度的计算。其次,将句子作为加权二部图的顶点,把句子之间的相似度作为二部图顶点之间的权值系数,进行段落之间的相似度计算。实验结果表明,该方法与VSM相比,由于它能准确识别同义词,自动匹配两个在段落中不同位置的相似词语,因而在准确度上有了很大的提高。 展开更多
关键词 段落相似度 句子主干提取 二部图匹配 向量空间模型 中文分词
在线阅读 下载PDF
基于累积Logistic回归分析的文本段落聚类策略研究 被引量:1
3
作者 徐永东 徐志明 王晓龙 《高技术通讯》 CAS CSCD 北大核心 2006年第8期789-794,共6页
提出一种新的文本段落聚类策略,该策略采用多特征融合思想尽可能多地挖掘段落内的特征,并采用累积Logistic回归分析方法来拟合这些特征与段落相似度之间的内在关联,使得段落相似度计算的结果更为理想。最后采用层次聚合聚类算法中的c... 提出一种新的文本段落聚类策略,该策略采用多特征融合思想尽可能多地挖掘段落内的特征,并采用累积Logistic回归分析方法来拟合这些特征与段落相似度之间的内在关联,使得段落相似度计算的结果更为理想。最后采用层次聚合聚类算法中的complete—link方法对段落集合进行聚类处理:通过网络真实文本进行了段落相似度度量实验和段落聚类实验,实验结果显示了方法的可行性。 展开更多
关键词 多特征融合 累积Logistic回归分析 段落相似度计算 段落聚类
在线阅读 下载PDF
自动文摘系统中的主题划分问题研究 被引量:13
4
作者 傅间莲 陈群秀 《中文信息学报》 CSCD 北大核心 2005年第6期28-35,共8页
随着网络的发展,电子文本大量涌现,自动文摘以迅速、快捷、有效、客观等手工文摘无可比拟的优势,使得其实用价值得到充分体现。而主题划分是自动文摘系统中文本结构分析阶段所要解决的一个重要问题。本文提出了一个通过建立段落向量空... 随着网络的发展,电子文本大量涌现,自动文摘以迅速、快捷、有效、客观等手工文摘无可比拟的优势,使得其实用价值得到充分体现。而主题划分是自动文摘系统中文本结构分析阶段所要解决的一个重要问题。本文提出了一个通过建立段落向量空间模型,根据连续段落相似度进行文本主题划分的算法,解决了文章的篇章结构分析问题,使得多主题文章的文摘更具内容全面性与结构平衡性。实验结果表明,该算法对多主题文章的主题划分准确率为92.2%,对单主题文章的主题划分准确率为99.1%。 展开更多
关键词 计算机应用 中文信息处理 自动文摘 向量空间模型 段落相似度 主题划分
在线阅读 下载PDF
面向自动文摘的文本结构划分 被引量:2
5
作者 朱荷香 曲维光 +2 位作者 卢俊之 李素建 邵艳秋 《南京大学学报(自然科学版)》 CAS CSCD 北大核心 2008年第2期204-211,共8页
文本结构划分是自动文摘研究中的一个关键阶段,也是自然语言处理领域的重要课题.本文通过构建段落向量空间模型,提出一种综合考察相邻段落相似度和连续段落平均相似度的意义段划分方法,使文摘内容更加全面,结构更加平衡.实验结果表明,... 文本结构划分是自动文摘研究中的一个关键阶段,也是自然语言处理领域的重要课题.本文通过构建段落向量空间模型,提出一种综合考察相邻段落相似度和连续段落平均相似度的意义段划分方法,使文摘内容更加全面,结构更加平衡.实验结果表明,该方法能够较有效地反映文章的内容结构,对有子标题组织和无子标题组织的文章均适用;由于考虑了总起段,使得文本结构划分更加合理,为自动文摘系统的后续工作打下坚实的基础. 展开更多
关键词 文本结构 自动文摘 向量空间模型 段落相似度 意义段划分
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部