期刊文献+
共找到84篇文章
< 1 2 5 >
每页显示 20 50 100
基于跨语言广义向量空间模型的跨语言文档聚类方法 被引量:6
1
作者 唐国瑜 夏云庆 +1 位作者 张民 郑方 《中文信息学报》 CSCD 北大核心 2012年第2期116-120,共5页
跨语言文档聚类主要是将跨语言文档按照内容或者话题组织为不同的类簇。该文通过采用跨语言词相似度计算将单语广义向量空间模型(Generalized Vector Space Model,GVSM)拓展到跨语言文档表示中,即跨语言广义空间向量模型(Cross-Lingual ... 跨语言文档聚类主要是将跨语言文档按照内容或者话题组织为不同的类簇。该文通过采用跨语言词相似度计算将单语广义向量空间模型(Generalized Vector Space Model,GVSM)拓展到跨语言文档表示中,即跨语言广义空间向量模型(Cross-Lingual Generalized Vector Space Model,CLGVSM),并且比较了不同相似度在文档聚类下的性能。同时提出了适用于GVSM的特征选择算法。实验证明,采用SOCPMI词汇相似度度量算法构造GVSM时,跨语言文档聚类的性能优于LSA。 展开更多
关键词 跨语言文档聚 跨语言广义向量空间模型 文档聚 跨语言信息检索
在线阅读 下载PDF
一种基于群体智能的Web文档聚类算法 被引量:41
2
作者 吴斌 傅伟鹏 +2 位作者 郑毅 刘少辉 史忠植 《计算机研究与发展》 EI CSCD 北大核心 2002年第11期1429-1435,共7页
将群体智能聚类模型运用于文档聚类 ,提出了一种基于群体智能的 Web文档聚类算法 .首先运用向量空间模型表示 Web文档信息 ,采用常规方法如消除无用词和特征词条约简法则得到文本特征集 ,然后将文档向量随机分布到一个平面上 ,运用基于... 将群体智能聚类模型运用于文档聚类 ,提出了一种基于群体智能的 Web文档聚类算法 .首先运用向量空间模型表示 Web文档信息 ,采用常规方法如消除无用词和特征词条约简法则得到文本特征集 ,然后将文档向量随机分布到一个平面上 ,运用基于群体智能的聚类方法进行文档聚类 ,最后从平面上采用递归算法收集聚类结果 .为了改善算法的实用性 ,将原算法与 k均值算法相结合提出一种混合聚类算法 .通过实验比较 ,结果表明基于群体智能的 Web文档聚类算法具有较好的聚类特性 ,它能将与一个主题相关的 Web文档较完全而准确地聚成一类 . 展开更多
关键词 群体智能 WEB 文档聚类算法 自组织 群体相似度 互联网 信息检索
在线阅读 下载PDF
一种结合主动学习的半监督文档聚类算法 被引量:30
3
作者 赵卫中 马慧芳 +1 位作者 李志清 史忠植 《软件学报》 EI CSCD 北大核心 2012年第6期1486-1499,共14页
半监督文档聚类,即利用少量具有监督信息的数据来辅助无监督文档聚类,近几年来逐渐成为机器学习和数据挖掘领域研究的热点问题.由于获取大量监督信息费时费力,因此,国内外学者考虑如何获得少量但对聚类性能提高显著的监督信息.提出一种... 半监督文档聚类,即利用少量具有监督信息的数据来辅助无监督文档聚类,近几年来逐渐成为机器学习和数据挖掘领域研究的热点问题.由于获取大量监督信息费时费力,因此,国内外学者考虑如何获得少量但对聚类性能提高显著的监督信息.提出一种结合主动学习的半监督文档聚类算法,通过引入成对约束信息指导DBSCAN的聚类过程来提高聚类性能,得到一种半监督文档聚类算法Cons-DBSCAN.通过对约束集中所含信息量的衡量和对DBSCAN算法本身的分析,提出了一种启发式的主动学习算法,能够选取含信息量大的成对约束集,从而能够更高效地辅助半监督文档聚类.实验结果表明,所提出的算法能够高效地进行文档聚类.通过主动学习算法获得的成对约束集,能够显著地提高聚类性能.并且,算法的性能优于两个代表性的结合主动学习的半监督聚类算法. 展开更多
关键词 半监督 文档聚 主动学习 成对约束
在线阅读 下载PDF
文档聚类综述 被引量:65
4
作者 刘远超 王晓龙 +1 位作者 徐志明 关毅 《中文信息学报》 CSCD 北大核心 2006年第3期55-62,共8页
聚类作为一种自动化程度较高的无监督机器学习方法,近年来在信息检索、多文档自动文摘等领域获得了广泛的应用。本文首先讨论了文档聚类的应用背景和体系结构,然后对文档聚类算法、聚类空间的构造和降维方法、文档聚类中的语义问题进行... 聚类作为一种自动化程度较高的无监督机器学习方法,近年来在信息检索、多文档自动文摘等领域获得了广泛的应用。本文首先讨论了文档聚类的应用背景和体系结构,然后对文档聚类算法、聚类空间的构造和降维方法、文档聚类中的语义问题进行了综述。最后还介绍了聚类质量评测问题。 展开更多
关键词 计算机应用 中文信息处理 综述 文档聚 降维 概念相关 类算法
在线阅读 下载PDF
基于模糊概念图的文档聚类及其在Web中的应用 被引量:12
5
作者 陈宁 陈安 +2 位作者 周龙骧 贾维嘉 罗三定 《软件学报》 EI CSCD 北大核心 2002年第8期1598-1605,共8页
随着World Wide Web上数据量的日益庞大,现有的搜索引擎已经不能满足用户日益增长的需求.利用数据挖掘技术,提高搜索效率,实现了查询的用户化.首先提出了模糊概念图的模型来描述词语间的关系,然后在聚类过程中引入概念知识,提出了基于... 随着World Wide Web上数据量的日益庞大,现有的搜索引擎已经不能满足用户日益增长的需求.利用数据挖掘技术,提高搜索效率,实现了查询的用户化.首先提出了模糊概念图的模型来描述词语间的关系,然后在聚类过程中引入概念知识,提出了基于模糊概念图的文档聚类算法,通过分析用户的浏览行为发现兴趣模式.在上述技术的基础上,给出了一种用户化的智能搜索系统的实现策略,通过分析概念间的关系和用户的兴趣模式,评价超链/文档和查询的相关程度,从而帮助用户得到更准确的信息. 展开更多
关键词 模糊概念图 文档聚 WEB 计算机网络 兴趣模式 用户化智能搜索
在线阅读 下载PDF
一种基于LDA的潜在语义区划分及Web文档聚类算法 被引量:19
6
作者 刘振鹿 王大玲 +2 位作者 冯时 张一飞 方东昊 《中文信息学报》 CSCD 北大核心 2011年第1期60-65,70,共7页
该文应用LDA模型进行文档的潜在语义分析,将语义分布划分成低频、中频、高频语义区,以低频语义区的语义进行Web游离文档检测,以中、高频语义区的语义作为文档特征进行文档聚类,采用文档类别与语义互作用机制对聚类结果进行修正。与相关... 该文应用LDA模型进行文档的潜在语义分析,将语义分布划分成低频、中频、高频语义区,以低频语义区的语义进行Web游离文档检测,以中、高频语义区的语义作为文档特征进行文档聚类,采用文档类别与语义互作用机制对聚类结果进行修正。与相关工作比较,该文不仅应用LDA模型表示文档,而且进行了深入的语义分布区域划分,并将分析结果应用于Web文档聚类。实验表明,该文提出的基于LDA的文档类别与语义互作用聚类算法获得了更好的聚类结果。 展开更多
关键词 LDA 潜在语义 语义分布 文档聚
在线阅读 下载PDF
基于概率主题模型的文档聚类 被引量:24
7
作者 王李冬 魏宝刚 袁杰 《电子学报》 EI CAS CSCD 北大核心 2012年第11期2346-2350,共5页
为了实现普通文本语料库和数字图书语料库的有效聚类,分别提出基于传统LDA(Latent Dirichlet Allo-cation)模型和TC-LDA模型的聚类算法.TC-LDA模型在LDA模型基础上进行扩展,通过对图书文档的目录和正文信息联合进行主题建模.和传统方法... 为了实现普通文本语料库和数字图书语料库的有效聚类,分别提出基于传统LDA(Latent Dirichlet Allo-cation)模型和TC-LDA模型的聚类算法.TC-LDA模型在LDA模型基础上进行扩展,通过对图书文档的目录和正文信息联合进行主题建模.和传统方法不同,基于主题模型的聚类算法能将具备同一主题的文档聚为一类.实验结果表明从主题分析角度出发实现的聚类算法优于传统的聚类算法. 展开更多
关键词 主题模型 LDA模型 TC-LDA模型 文档聚
在线阅读 下载PDF
文档聚类中k-means算法的一种改进算法 被引量:29
8
作者 万小军 杨建武 陈晓鸥 《计算机工程》 CAS CSCD 北大核心 2003年第2期102-103,157,共3页
介绍了文档聚类中基于划分的k-means算法,k-means算法适合于海量文档集的处理,但它对孤立点很敏感。为此,文章提出将聚类均值点与聚类种子相分离的思想,并具体给出了基于该思想的对k-means算法的改进算法。实验表明,该改进算法比原... 介绍了文档聚类中基于划分的k-means算法,k-means算法适合于海量文档集的处理,但它对孤立点很敏感。为此,文章提出将聚类均值点与聚类种子相分离的思想,并具体给出了基于该思想的对k-means算法的改进算法。实验表明,该改进算法比原k-means算法具有更高的准确性和稳定性。 展开更多
关键词 文档聚 K-MEANS算法 划分类算法 数据库
在线阅读 下载PDF
一种改进的k-means文档聚类初值选择算法 被引量:23
9
作者 刘远超 王晓龙 刘秉权 《高技术通讯》 CAS CSCD 北大核心 2006年第1期11-15,共5页
提出了一种改进的基于最小最大原则的k-means文档聚类初始值选择算法。该方法首先构造相似度矩阵,然后利用最小最大原则对相似度矩阵进行分析,从而选择初始聚点并自动确定聚类k值。实验结果表明利用该方法找到的k值比较接近真实值。
关键词 文档聚 K-MEANS 最小最大原则 相似度矩阵
在线阅读 下载PDF
一种基于词共现的文档聚类算法 被引量:15
10
作者 常鹏 冯楠 马辉 《计算机工程》 CAS CSCD 2012年第2期213-214,220,共3页
为解决文本主题表达存在的信息缺失问题,提出一种基于词共现的文档聚类算法。利用文档集上的频繁共现词建立文档主题向量表示模型,将其应用于层次聚类算法中,并通过聚类熵寻找最优的层次划分,从而准确反映文档之间的主题相关关系。实验... 为解决文本主题表达存在的信息缺失问题,提出一种基于词共现的文档聚类算法。利用文档集上的频繁共现词建立文档主题向量表示模型,将其应用于层次聚类算法中,并通过聚类熵寻找最优的层次划分,从而准确反映文档之间的主题相关关系。实验结果表明,该算法所获得的结果优于其他基于短语的文档层次聚类算法。 展开更多
关键词 文档聚 文档模型 词共现 文档相似度 类增益
在线阅读 下载PDF
基于关联规则的Web文档聚类算法 被引量:41
11
作者 宋擒豹 沈钧毅 《软件学报》 EI CSCD 北大核心 2002年第3期417-423,共7页
Web文档聚类可以有效地压缩搜索空间,加快检索速度,提高查询精度.提出了一种Web文档的聚类算法.该算法首先采用向量空间模型VSM(vector space model)表示主题,根据主题表示文档;再以文档为事务,以主题为事务项,将文档和主题间的关系看... Web文档聚类可以有效地压缩搜索空间,加快检索速度,提高查询精度.提出了一种Web文档的聚类算法.该算法首先采用向量空间模型VSM(vector space model)表示主题,根据主题表示文档;再以文档为事务,以主题为事务项,将文档和主题间的关系看作事务的形式,采用关联规则挖掘算法发现主题频集,相应的文档集即为初步文档类;然后依据类间距离和类内连接强度阈值合并、拆分类,最终实现文档聚类.实验结果表明,该算法是有效的,能处理文档类间固有的重叠情况,具有一定的实用价值. 展开更多
关键词 产联规则 WWW Web文档聚类算法 数据挖掘 数据库
在线阅读 下载PDF
一种基于本体的抽象度可调文档聚类 被引量:3
12
作者 王晓东 郭雷 +2 位作者 方俊 杨宁 邓涛 《计算机工程与应用》 CSCD 北大核心 2007年第29期172-175,共4页
文档聚类随着网上文本数量的激增以及实际应用中的需求,引起了人们广泛的关注。针对目前文档聚类的主要缺陷,提出了一种新的基于本体的抽象度可调文档聚类(Adjustable Text Clustering using Abstract Degreeof Concept,ATCADC)。该方... 文档聚类随着网上文本数量的激增以及实际应用中的需求,引起了人们广泛的关注。针对目前文档聚类的主要缺陷,提出了一种新的基于本体的抽象度可调文档聚类(Adjustable Text Clustering using Abstract Degreeof Concept,ATCADC)。该方法采用Wordnet对VSM特征词进行概念映射和消歧处理,利用生成的特征概念实现文档语义层面上的矢量描述,并在二次特征选择的基础上,完成合成聚类(AHC)。方法能够依据用户设定的概念抽象度,借助专门设计的语义中心矢量调节聚类,还可利用关键特征概念对聚类簇进行解释。实验结果证明,聚类精度高,聚类簇可解释,调节效果有效,能够满足用户不同概念抽象度层次上的聚类。 展开更多
关键词 本体 文档聚 概念 消歧 抽象度
在线阅读 下载PDF
一种基于SOM和K-means的文档聚类算法 被引量:16
13
作者 杨占华 杨燕 《计算机应用研究》 CSCD 北大核心 2006年第5期73-74,79,共3页
提出了一种把自组织特征映射SOM和K-means算法结合的聚类组合算法。先用SOM对文档聚类,然后以SOM的输出权值初始化K-means的聚类中心,再用K-means算法对文档聚类。实验结果表明,该聚类组合算法能改进文档聚类的性能。
关键词 自组织特征映射 K-MEANS 组合方法 文档聚
在线阅读 下载PDF
基于BP神经网络的文档聚类研究 被引量:7
14
作者 田萱 刘希玉 孟强 《计算机科学》 CSCD 北大核心 2002年第8期93-95,共3页
1,引言 近年来,随着互联网的迅速发展,基于Web的数据挖掘技术受到越来越多的关注,经常用在文本挖掘和信息检索等多个领域的聚类(Clustering)技术也成为人们研究的热点.对一组实际或抽象的元素进行处理,把相似的元素归为同类的过程称之... 1,引言 近年来,随着互联网的迅速发展,基于Web的数据挖掘技术受到越来越多的关注,经常用在文本挖掘和信息检索等多个领域的聚类(Clustering)技术也成为人们研究的热点.对一组实际或抽象的元素进行处理,把相似的元素归为同类的过程称之为聚类[1].对文本信息,如科技文献、Web文档等的聚类,称之为文档聚类(Document Clustering).最初,文档聚类常用于提高信息检索系统的查准率和查全率(recall),或用来寻找与一篇文档最为相似的文档[2].现在,人们利用文档聚类来获得一组满足用户要求的文档集合并按用户需求对其进行排序.另外在Internet上,文本聚类也可用来自动产生文档的层次聚类,从而实现对Web文档的分类. 展开更多
关键词 Internet BP神经网络 文档聚 数据挖掘 信息检索系统 查准率 查全率
在线阅读 下载PDF
基于主题的Web文档聚类研究 被引量:31
15
作者 孙学刚 陈群秀 马亮 《中文信息学报》 CSCD 北大核心 2003年第3期21-26,共6页
网络资源的不断膨胀和新旧信息的迅速更迭 ,使传统的手工分检的方法难以适应对海量电子数据的管理需要。Web文档聚类可以快速地将文档进行自动归类 ,并能够发现新的信息资源。针对Web文档数据的复杂性 ,本文提出了通过二次特征提取和聚... 网络资源的不断膨胀和新旧信息的迅速更迭 ,使传统的手工分检的方法难以适应对海量电子数据的管理需要。Web文档聚类可以快速地将文档进行自动归类 ,并能够发现新的信息资源。针对Web文档数据的复杂性 ,本文提出了通过二次特征提取和聚类的方法 ,将Web文档按照主题进行自动聚类。在主题特征被有效提取的同时 ,实现了较高质量的Web文档聚类。 展开更多
关键词 计算机应用 中文信息处理 WEB文档聚 OPTICS算法 特征提取 K近邻准则 二次特征提取和类的方法
在线阅读 下载PDF
一种结构与内容相结合的XML文档聚类方法 被引量:4
16
作者 谌志群 王小华 王荣波 《情报学报》 CSSCI 北大核心 2009年第5期693-699,共7页
XML(可扩展标记语言)正在成为Web数据交换的标准格式。随着XML格式的半结构数据的大量出现,如何处理和管理XML文档已经成为了一个研究热点。XML文档聚类作为XML数据处理的重要课题,是指将具有类似特征的XML文档聚集成簇。现有的大部... XML(可扩展标记语言)正在成为Web数据交换的标准格式。随着XML格式的半结构数据的大量出现,如何处理和管理XML文档已经成为了一个研究热点。XML文档聚类作为XML数据处理的重要课题,是指将具有类似特征的XML文档聚集成簇。现有的大部分XML文档聚类是基于文档结构特征的。本文提出了一个新的结构与内容相结合的XML文档聚类方法。首先从文档中抽取构件向量,并把文档转换为向量化的表示。然后,在文档相似度计算的基础上,引入一个层次聚类方法对XML文档进行聚类。在DBLPXML记录集上进行的实验表明该方法具有可行性并且性能明显优于已有方法。 展开更多
关键词 XML 文档聚 结构 内容 层次
在线阅读 下载PDF
基于遗传算法的文档聚类算法的设计与仿真(英文) 被引量:4
17
作者 魏建香 刘怀 苏新宁 《南京大学学报(自然科学版)》 CAS CSCD 北大核心 2009年第3期432-438,共7页
在各种聚类算法中,K-means是一种基于划分的经典算法.但是由于K-means方法对于初始中心点的选择非常敏感,有可能导致聚类结果收敛于局部,本文提出了一种基于遗传算法来对类中心点进行全局寻优的文档聚类算法.在传统相似度计算的方法中,... 在各种聚类算法中,K-means是一种基于划分的经典算法.但是由于K-means方法对于初始中心点的选择非常敏感,有可能导致聚类结果收敛于局部,本文提出了一种基于遗传算法来对类中心点进行全局寻优的文档聚类算法.在传统相似度计算的方法中,文档相似矩阵为绝大部分元素为0的稀疏矩阵,忽略了关键字之间的部分相似性,影响了文档之间的相似度.为此,本文改变了传统相似度计算的方法,通过关键字之间的部分相似度,设计出更加精确的文档相似度计算公式.在遗传算法的设计中,将K个类中心点组成的矩阵作为初始个体,采用浮点数进行编码;适应度函数采用所有类内距离的均方差之和加1的倒数表示,当类内均方差之和越小,则个体的适应度越大,被选择进入下一代的概率也越大.通过选择、交叉和变异等步骤对聚类的中心点进行反复迭代寻优,最终找到最优的类中心点.通过实验仿真,K-means收敛速度快,聚类的平均目标函数大于genetic algorithm(GA)且正确率明显小于GA.本文提出的GA算法的分类正确率能达到98%以上,与传统的K-means方法相比,聚类的准确性更高,说明本文提出的算法是一种行之有效的文档聚类方法. 展开更多
关键词 文档聚 遗传算法 相似度 类中心
在线阅读 下载PDF
一个基于关联规则的多层文档聚类算法 被引量:4
18
作者 宋江春 沈钧毅 宋擒豹 《计算机应用》 CSCD 北大核心 2005年第7期1570-1572,共3页
提出了一种新的基于关联规则的多层文档聚类算法,该算法利用新的文档特征抽取方法构造了文档的主题和关键字特征向量。首先在主题特征向量空间中利用频集快速算法对文档进行初始聚类,然后在基于主题关键字的新的特征向量空间中利用类间... 提出了一种新的基于关联规则的多层文档聚类算法,该算法利用新的文档特征抽取方法构造了文档的主题和关键字特征向量。首先在主题特征向量空间中利用频集快速算法对文档进行初始聚类,然后在基于主题关键字的新的特征向量空间中利用类间距和连接度对初始文档类进行求精,从而得到最终聚类。由于使用了两层聚类方法,使算法的效率和精度都大大提高;使用新的文档特征抽取方法还解决了由于文档关键字过多而导致文档特征向量的维数过高的问题。 展开更多
关键词 文档挖掘 文档聚 关联规则 文档主题特征向量 文档关键字特征向量
在线阅读 下载PDF
基于语义相似度的Web文档聚类算法 被引量:3
19
作者 李毅 王浩 杨静 《合肥工业大学学报(自然科学版)》 CAS CSCD 北大核心 2009年第12期1846-1850,共5页
文章提出基于语义相似度的Web文档聚类算法——WDCSS算法,依据文档关键词之间的相似度生成最小树,通过概率统计来确定最小树中相似度阈值,并对最小树中进行切割,同时对较小的子类进行划分合并。实验表明,WDCSS不仅能为具有各种不同聚类... 文章提出基于语义相似度的Web文档聚类算法——WDCSS算法,依据文档关键词之间的相似度生成最小树,通过概率统计来确定最小树中相似度阈值,并对最小树中进行切割,同时对较小的子类进行划分合并。实验表明,WDCSS不仅能为具有各种不同聚类形状的数据集准确地分析出数据中存在的合理聚类和例外样本,而且避免了用户参数选择所造成聚类质量降低问题。 展开更多
关键词 WEB文档聚 语义相似度 类算法 最小树
在线阅读 下载PDF
基于CUDA的k-means文档聚类算法并行优化 被引量:2
20
作者 戴涛 杨洲 +1 位作者 方勇 景旭 《计算机工程与设计》 CSCD 北大核心 2013年第11期4032-4036,4071,共6页
为提高k-means的大数据量计算速度,结合k-means算法计算密集和计算统一设备架构(CUDA)的特点,提出了寄存器优化的并行聚类算法和滑动门并行计算中心点算法。寄存器优化的并行聚类算法优化了聚类步骤,提高了GPU的寄存器利用率,降低了数... 为提高k-means的大数据量计算速度,结合k-means算法计算密集和计算统一设备架构(CUDA)的特点,提出了寄存器优化的并行聚类算法和滑动门并行计算中心点算法。寄存器优化的并行聚类算法优化了聚类步骤,提高了GPU的寄存器利用率,降低了数据获取延迟;滑动门并行计算中心点算法优化了中心点计算步骤,避免了数据同步,提高了GPU计算核心的利用率。实验结果表明,并行优化的k-means算法在GTX 480上可获最高约137倍的加速比,有效地提高了k-means算法在单机上的运行效率。 展开更多
关键词 K-MEANS 文档聚 CUDA 并行计算 GPU
在线阅读 下载PDF
上一页 1 2 5 下一页 到第
使用帮助 返回顶部