期刊文献+
共找到60篇文章
< 1 2 3 >
每页显示 20 50 100
Distributed Document Clustering Analysis Based on a Hybrid Method 被引量:2
1
作者 J.E.Judith J.Jayakumari 《China Communications》 SCIE CSCD 2017年第2期131-142,共12页
Clustering is one of the recently challenging tasks since there is an ever.growing amount of data in scientific research and commercial applications. High quality and fast document clustering algorithms are in great d... Clustering is one of the recently challenging tasks since there is an ever.growing amount of data in scientific research and commercial applications. High quality and fast document clustering algorithms are in great demand to deal with large volume of data. The computational requirements for bringing such growing amount data to a central site for clustering are complex. The proposed algorithm uses optimal centroids for K.Means clustering based on Particle Swarm Optimization(PSO).PSO is used to take advantage of its global search ability to provide optimal centroids which aids in generating more compact clusters with improved accuracy. This proposed methodology utilizes Hadoop and Map Reduce framework which provides distributed storage and analysis to support data intensive distributed applications. Experiments were performed on Reuter's and RCV1 document dataset which shows an improvement in accuracy with reduced execution time. 展开更多
关键词 distributed document clustering HADOOP K-MEANS PSO MAPREDUCE
在线阅读 下载PDF
Embedding-based Detection and Extraction of Research Topics from Academic Documents Using Deep Clustering 被引量:4
2
作者 Sahand Vahidnia Alireza Abbasi Hussein A.Abbass 《Journal of Data and Information Science》 CSCD 2021年第3期99-122,共24页
Purpose:Detection of research fields or topics and understanding the dynamics help the scientific community in their decisions regarding the establishment of scientific fields.This also helps in having a better collab... Purpose:Detection of research fields or topics and understanding the dynamics help the scientific community in their decisions regarding the establishment of scientific fields.This also helps in having a better collaboration with governments and businesses.This study aims to investigate the development of research fields over time,translating it into a topic detection problem.Design/methodology/approach:To achieve the objectives,we propose a modified deep clustering method to detect research trends from the abstracts and titles of academic documents.Document embedding approaches are utilized to transform documents into vector-based representations.The proposed method is evaluated by comparing it with a combination of different embedding and clustering approaches and the classical topic modeling algorithms(i.e.LDA)against a benchmark dataset.A case study is also conducted exploring the evolution of Artificial Intelligence(AI)detecting the research topics or sub-fields in related AI publications.Findings:Evaluating the performance of the proposed method using clustering performance indicators reflects that our proposed method outperforms similar approaches against the benchmark dataset.Using the proposed method,we also show how the topics have evolved in the period of the recent 30 years,taking advantage of a keyword extraction method for cluster tagging and labeling,demonstrating the context of the topics.Research limitations:We noticed that it is not possible to generalize one solution for all downstream tasks.Hence,it is required to fine-tune or optimize the solutions for each task and even datasets.In addition,interpretation of cluster labels can be subjective and vary based on the readers’opinions.It is also very difficult to evaluate the labeling techniques,rendering the explanation of the clusters further limited.Practical implications:As demonstrated in the case study,we show that in a real-world example,how the proposed method would enable the researchers and reviewers of the academic research to detect,summarize,analyze,and visualize research topics from decades of academic documents.This helps the scientific community and all related organizations in fast and effective analysis of the fields,by establishing and explaining the topics.Originality/value:In this study,we introduce a modified and tuned deep embedding clustering coupled with Doc2Vec representations for topic extraction.We also use a concept extraction method as a labeling approach in this study.The effectiveness of the method has been evaluated in a case study of AI publications,where we analyze the AI topics during the past three decades. 展开更多
关键词 Dynamics of science Science mapping document clustering Artificial intelligence Deep learning
在线阅读 下载PDF
Meaningful String Extraction Based on Clustering for Improving Webpage Classification
3
作者 Chen Jie Tan Jianlong +1 位作者 Liao Hao Zhou Yanquan 《China Communications》 SCIE CSCD 2012年第3期68-77,共10页
Since webpage classification is different from traditional text classification with its irregular words and phrases,massive and unlabeled features,which makes it harder for us to obtain effective feature.To cope with ... Since webpage classification is different from traditional text classification with its irregular words and phrases,massive and unlabeled features,which makes it harder for us to obtain effective feature.To cope with this problem,we propose two scenarios to extract meaningful strings based on document clustering and term clustering with multi-strategies to optimize a Vector Space Model(VSM) in order to improve webpage classification.The results show that document clustering work better than term clustering in coping with document content.However,a better overall performance is obtained by spectral clustering with document clustering.Moreover,owing to image existing in a same webpage with document content,the proposed method is also applied to extract image meaningful terms,and experiment results also show its effectiveness in improving webpage classification. 展开更多
关键词 webpage classification meaningfulstring extraction document clustering term cluste-ring K-MEANS spectral clustering
在线阅读 下载PDF
信息检索中的聚类分析技术 被引量:9
4
作者 刘远超 王晓龙 +1 位作者 刘秉权 钟彬彬 《电子与信息学报》 EI CSCD 北大核心 2006年第4期606-609,共4页
信息检索/搜索引擎技术的快速发展使得信息的查全率有较大提高,而查准率以及人们获取信息的效率改善却不明显。文本聚类和多文档关键词的自动生成技术将有助于解决这一问题。其基本思想是对检索到的部分文档进行聚类处理,并对每类文档... 信息检索/搜索引擎技术的快速发展使得信息的查全率有较大提高,而查准率以及人们获取信息的效率改善却不明显。文本聚类和多文档关键词的自动生成技术将有助于解决这一问题。其基本思想是对检索到的部分文档进行聚类处理,并对每类文档自动生成关键词,从而帮助用户判断各个类别的文档和检索需求是否相关。该文提出文档相关度和类别相关度的概念,并利用词频信息以及知网(HOWNET)中词的概念计算模型计算类别相关度, 将其作为聚类合并的依据。信息获取的仿真实验表明文档检索效率有较大提高。 展开更多
关键词 文档聚类 关键词抽取 知网 文档相关度
在线阅读 下载PDF
CMDC:一种差异互补的迭代式多维度文本聚类算法 被引量:4
5
作者 黄瑞章 白瑞娜 +3 位作者 陈艳平 秦永彬 程欣宇 田有亮 《通信学报》 EI CSCD 北大核心 2020年第8期155-164,共10页
针对传统多维度文本聚类算法把文本表示与聚类过程分离,忽略了维度间的互补特性的问题,提出了一种差异互补的迭代式多维度文本聚类算法——CMDC,实现文本聚类与特征调整过程的统一优化。CMDC算法挑选维度聚类间结果的互补文本,基于局部... 针对传统多维度文本聚类算法把文本表示与聚类过程分离,忽略了维度间的互补特性的问题,提出了一种差异互补的迭代式多维度文本聚类算法——CMDC,实现文本聚类与特征调整过程的统一优化。CMDC算法挑选维度聚类间结果的互补文本,基于局部度量学习算法利用互补文本促进聚类的特征调优,以维度的度量一致性来解决多维度文本聚类的划分一致性。实验结果表明,CMDC算法有效地提升了多维度聚类性能。 展开更多
关键词 多维度文本聚类 互补文本 约束文本聚类 度量计算
在线阅读 下载PDF
基于概率主题模型的文档聚类 被引量:24
6
作者 王李冬 魏宝刚 袁杰 《电子学报》 EI CAS CSCD 北大核心 2012年第11期2346-2350,共5页
为了实现普通文本语料库和数字图书语料库的有效聚类,分别提出基于传统LDA(Latent Dirichlet Allo-cation)模型和TC-LDA模型的聚类算法.TC-LDA模型在LDA模型基础上进行扩展,通过对图书文档的目录和正文信息联合进行主题建模.和传统方法... 为了实现普通文本语料库和数字图书语料库的有效聚类,分别提出基于传统LDA(Latent Dirichlet Allo-cation)模型和TC-LDA模型的聚类算法.TC-LDA模型在LDA模型基础上进行扩展,通过对图书文档的目录和正文信息联合进行主题建模.和传统方法不同,基于主题模型的聚类算法能将具备同一主题的文档聚为一类.实验结果表明从主题分析角度出发实现的聚类算法优于传统的聚类算法. 展开更多
关键词 主题模型 LDA模型 TC-LDA模型 文档聚类
在线阅读 下载PDF
奇异值分解算法优化 被引量:21
7
作者 王佰玲 田志宏 张永铮 《电子学报》 EI CAS CSCD 北大核心 2010年第10期2234-2239,共6页
奇异值分解算法在信号处理、图像处理、信息安全等领域均有重要应用.针对该算法存在的性能问题,提出了基于gamma:1驱动的数据重用模型,提高计算负载平衡性,降低数据通信量;给出基于多处理器的并行分解模型,数值试验均表明算法具有较高... 奇异值分解算法在信号处理、图像处理、信息安全等领域均有重要应用.针对该算法存在的性能问题,提出了基于gamma:1驱动的数据重用模型,提高计算负载平衡性,降低数据通信量;给出基于多处理器的并行分解模型,数值试验均表明算法具有较高的并行加速比和效率. 展开更多
关键词 数据挖掘 文本聚类 奇异值分解 矩阵计算
在线阅读 下载PDF
一种改进的k-means文档聚类初值选择算法 被引量:23
8
作者 刘远超 王晓龙 刘秉权 《高技术通讯》 CAS CSCD 北大核心 2006年第1期11-15,共5页
提出了一种改进的基于最小最大原则的k-means文档聚类初始值选择算法。该方法首先构造相似度矩阵,然后利用最小最大原则对相似度矩阵进行分析,从而选择初始聚点并自动确定聚类k值。实验结果表明利用该方法找到的k值比较接近真实值。
关键词 文档聚类 K-MEANS 最小最大原则 相似度矩阵
在线阅读 下载PDF
基于加权余弦相似度的XML文档聚类研究 被引量:10
9
作者 李巍 孙涛 +2 位作者 陈建孝 罗梓恒 李雄飞 《吉林大学学报(信息科学版)》 CAS 2010年第1期68-76,共9页
在实际应用中,XML(eXtensible Markup Language)文档中的一些结构经常被改变。为了挖掘XML文档在历史变化过程中经常改变的结构所蕴含的知识,提出了发现频繁变化结构的方法。该方法用一组频繁变化结构组成的文档向量模型代表一个XML文档... 在实际应用中,XML(eXtensible Markup Language)文档中的一些结构经常被改变。为了挖掘XML文档在历史变化过程中经常改变的结构所蕴含的知识,提出了发现频繁变化结构的方法。该方法用一组频繁变化结构组成的文档向量模型代表一个XML文档,将频繁变化结构在簇中的出现比例作为权值,使用加权余弦相似度对XML文档进行聚类。经过实验分析,根据XML文档历史变化过程中的频繁变化结构能较好地将XML文档进行聚类。用加权余弦相似度对XML文档进行聚类,其聚类结果的正确率、召回率和簇内部距离均优于使用非加权余弦相似度对XML文档进行聚类得到的结果。 展开更多
关键词 XML文档聚类 加权余弦相似度 频繁变化结构
在线阅读 下载PDF
一种基于SOM和层次凝聚的中文文本聚类方法 被引量:8
10
作者 朱红灿 孟志青 《湘潭大学自然科学学报》 CAS CSCD 北大核心 2005年第3期36-40,共5页
研究了一种基于SOM(self-organizing map)和层次聚集的中文文本聚类方法,按照提出的中文聚类模型,该方法首先对文档集向量化,文档向量矩阵通过SOM训练映射到虚拟的二维空间,形成初步聚类;然后对虚拟坐标集进行二次聚类.与直接聚类方法相... 研究了一种基于SOM(self-organizing map)和层次聚集的中文文本聚类方法,按照提出的中文聚类模型,该方法首先对文档集向量化,文档向量矩阵通过SOM训练映射到虚拟的二维空间,形成初步聚类;然后对虚拟坐标集进行二次聚类.与直接聚类方法相比,该方法提高了聚类的效果,减少了计算时间,通过数值实验对比表明该方法对中文文本聚类具有有效性. 展开更多
关键词 中文文本 文本聚类 自组织神经网络(SOM) 向量空间模型
在线阅读 下载PDF
一种改进CHAMELEON算法的聚类算法COCK 被引量:3
11
作者 朱烨行 李艳玲 杨献文 《微电子学与计算机》 CSCD 北大核心 2015年第12期173-176,共4页
通过对现有的CHAMELEON算法进行改进,并借鉴ROCK算法的计算步聚,提出了一个新的层次聚类算法COCK.改进之处在于:合并的簇的内部紧密性、合并的簇的内部互连性、相对紧密性和相对互连性的计算方法进行了改变,并取消了CHAMELEON算法原有... 通过对现有的CHAMELEON算法进行改进,并借鉴ROCK算法的计算步聚,提出了一个新的层次聚类算法COCK.改进之处在于:合并的簇的内部紧密性、合并的簇的内部互连性、相对紧密性和相对互连性的计算方法进行了改变,并取消了CHAMELEON算法原有两个阶段的第一个阶段.由簇U和簇V合并构成的簇W的内部紧密性由两个因素决定,一个是簇U和簇V本身的内部紧密性的加权和,另一个是簇U和簇V之间的绝对紧密性;簇W的内部互连性由两个因素决定,一个是簇U和簇V本身的内部互连性的加权和,另一个是簇U和簇V之间的绝对互连性;由簇W和簇J合起来的簇的相对紧密性的计算方法是,先求出簇W和簇J内部紧密性的加权和,用这个加权和去除簇W和簇J之间的绝对紧密性;计算两个簇W和J之间的相对互连性的方法是,把簇W和簇J之间的绝对互连性除以簇W和簇J内部互连性的加权和. 展开更多
关键词 文本聚类 文档聚类 CHAMELEON ROCK 算法
在线阅读 下载PDF
利用单词超团的二分图文本聚类算法 被引量:4
12
作者 朱君 曲超 汤庸 《电子科技大学学报》 EI CAS CSCD 北大核心 2008年第3期439-442,共4页
鉴于目前传统文本聚类方法中利用文档间的相似度进行聚类存在的问题,在传统的文本挖掘基础上提出了一种新的文本聚类算法——利用单词超团的二分图文本聚类算法。该算法用文档中单词的关联模式来评估文档间的相似度及主题类别预测,并利... 鉴于目前传统文本聚类方法中利用文档间的相似度进行聚类存在的问题,在传统的文本挖掘基础上提出了一种新的文本聚类算法——利用单词超团的二分图文本聚类算法。该算法用文档中单词的关联模式来评估文档间的相似度及主题类别预测,并利用图划分策略来大大降低文档相似度比较算法的复杂度,同时将超团作为特征结构的扩展,可以在一定范围内减少语言信息的丢失,提高聚类效果。经实验证明该算法具有较高的有效性。 展开更多
关键词 二分图划分 文本聚类 单词超团
在线阅读 下载PDF
新颖的无监督特征选择方法 被引量:4
13
作者 朱颢东 李红婵 钟勇 《电子科技大学学报》 EI CAS CSCD 北大核心 2010年第3期412-415,共4页
针对有监督特征选择方法因为需要类信息而无法应用于文本聚类的问题,提出了一种新的无监督特征选择方法:结合文档频和K-Means的特征选择方法。该方法首先使用文档频进行无监督特征初选,然后再通过在不同K-Means聚类结果上使用有监督特... 针对有监督特征选择方法因为需要类信息而无法应用于文本聚类的问题,提出了一种新的无监督特征选择方法:结合文档频和K-Means的特征选择方法。该方法首先使用文档频进行无监督特征初选,然后再通过在不同K-Means聚类结果上使用有监督特征选择方法来实现无监督特征选择。实验表明该方法不仅能够成功地选择出最为重要的—小部分特征,而且还能提高聚类质量。 展开更多
关键词 分类 聚类算法 文档频 特征选择 K-MEANS
在线阅读 下载PDF
基于语义相似度的Web文档聚类算法 被引量:3
14
作者 李毅 王浩 杨静 《合肥工业大学学报(自然科学版)》 CAS CSCD 北大核心 2009年第12期1846-1850,共5页
文章提出基于语义相似度的Web文档聚类算法——WDCSS算法,依据文档关键词之间的相似度生成最小树,通过概率统计来确定最小树中相似度阈值,并对最小树中进行切割,同时对较小的子类进行划分合并。实验表明,WDCSS不仅能为具有各种不同聚类... 文章提出基于语义相似度的Web文档聚类算法——WDCSS算法,依据文档关键词之间的相似度生成最小树,通过概率统计来确定最小树中相似度阈值,并对最小树中进行切割,同时对较小的子类进行划分合并。实验表明,WDCSS不仅能为具有各种不同聚类形状的数据集准确地分析出数据中存在的合理聚类和例外样本,而且避免了用户参数选择所造成聚类质量降低问题。 展开更多
关键词 WEB文档聚类 语义相似度 聚类算法 最小树
在线阅读 下载PDF
一种基于关键特征的搜索引擎结果聚类算法 被引量:4
15
作者 张辉 谢科 +1 位作者 庞斌 吴辉 《北京航空航天大学学报》 EI CAS CSCD 北大核心 2007年第6期739-742,共4页
为了解决用户在搜索引擎结果列表中寻找所需信息困难的问题,帮助用户快速有效地定位有价值的Web文档,与向量空间模型方法不同,采用基于关键特征的聚类算法(KFC).首先从搜索引擎返回结果的关键词里选择重要的词作为关键特征,然后通过分... 为了解决用户在搜索引擎结果列表中寻找所需信息困难的问题,帮助用户快速有效地定位有价值的Web文档,与向量空间模型方法不同,采用基于关键特征的聚类算法(KFC).首先从搜索引擎返回结果的关键词里选择重要的词作为关键特征,然后通过分析特征间的关系对特征聚类,最后基于特征聚类结果实现文档的聚类.通过对实验结果的测试表明了算法的有效性. 展开更多
关键词 搜索引擎 算法 特征提取 文档聚类 向量空间模型VSM KFC算法
在线阅读 下载PDF
PBC:一种基于路径的XML文档聚类方法 被引量:2
16
作者 梁作鹏 业宁 董逸生 《应用科学学报》 CAS CSCD 北大核心 2005年第4期399-403,共5页
提出了一种基于路径的XML文档结构聚类方法(PBC).与其他方法直接计算XML文档结构距离不同,该方法通过对文档包含的路径聚类,间接完成文档的聚类.首先,包含某一路径的文档集合形成初始类,并用该路径作为初始类的标识.然后,用层次聚类方... 提出了一种基于路径的XML文档结构聚类方法(PBC).与其他方法直接计算XML文档结构距离不同,该方法通过对文档包含的路径聚类,间接完成文档的聚类.首先,包含某一路径的文档集合形成初始类,并用该路径作为初始类的标识.然后,用层次聚类方法根据设定的标准,合并初始类,直至结束.类的标识信息是类中文档包含的路径,结果直观,容易理解.算法的复杂度是O(n),其中n是文档的大小.相关实验证明该算法不但能保证聚类结果准确,而且能大幅度提高计算的速度. 展开更多
关键词 XML 信息检索 文档聚类
在线阅读 下载PDF
基于概念分组的Web搜索结果聚类算法 被引量:2
17
作者 李红梅 丁振国 +1 位作者 周水生 周利华 《华南理工大学学报(自然科学版)》 EI CAS CSCD 北大核心 2009年第1期130-134,共5页
为了便于用户浏览搜索引擎返回的搜索结果,快速有效地定位有价值的Web文档,提出了基于概念分组的Web搜索结果聚类算法.首先,建立特征词同现网络,利用概念分组技术挖掘特征词之间的语义关联,形成主题概念类;然后,计算文档与各概念类之间... 为了便于用户浏览搜索引擎返回的搜索结果,快速有效地定位有价值的Web文档,提出了基于概念分组的Web搜索结果聚类算法.首先,建立特征词同现网络,利用概念分组技术挖掘特征词之间的语义关联,形成主题概念类;然后,计算文档与各概念类之间的距离,据此实现Web搜索结果的聚类;最后,综合考虑特征词在类内和文档集中的重要性进行类别标签的选择.实验结果表明本算法具有较好的聚类性能,明显优于k-均值算法,且产生的类别标签容易理解. 展开更多
关键词 信息检索 搜索引擎 WEB文档 聚类 概念分组
在线阅读 下载PDF
规则切割碎纸片的复原 被引量:4
18
作者 潘斌 郭小明 +3 位作者 陈明明 于晶贤 赵晓颖 陈为 《辽宁石油化工大学学报》 CAS 2014年第5期70-73,78,共5页
破碎文件的拼接在司法物证复原、历史文献修复以及军事情报获取等领域都有着重要的应用。针对规则碎纸片的复原问题,首先自动提取碎片的行间距特征,采用Mean-shift算法对所有碎片进行聚类分析,然后根据碎片边界的灰度特征,建立碎片之间... 破碎文件的拼接在司法物证复原、历史文献修复以及军事情报获取等领域都有着重要的应用。针对规则碎纸片的复原问题,首先自动提取碎片的行间距特征,采用Mean-shift算法对所有碎片进行聚类分析,然后根据碎片边界的灰度特征,建立碎片之间的相似性矩阵,最后采用遗传算法将碎片进行拼接。 展开更多
关键词 碎片修复 行间距 聚类分析 遗传算法 规则碎纸
在线阅读 下载PDF
使用谱聚类算法解决文本聚类集成问题 被引量:15
19
作者 徐森 卢志茂 顾国昌 《通信学报》 EI CSCD 北大核心 2010年第6期58-66,共9页
采用2个不同的谱聚类算法解决文本聚类集成问题。为使算法可扩展到大规模应用,基于代数变换,通过求解小规模矩阵的特征值分解问题避免了大规模矩阵的特征值分解问题,有效降低了2个谱聚类算法的计算复杂度。分别从矩阵扰动理论和图上的... 采用2个不同的谱聚类算法解决文本聚类集成问题。为使算法可扩展到大规模应用,基于代数变换,通过求解小规模矩阵的特征值分解问题避免了大规模矩阵的特征值分解问题,有效降低了2个谱聚类算法的计算复杂度。分别从矩阵扰动理论和图上的随机游走的角度解释了2个算法的有效性。在真实文本集上的实验结果表明:提出的代数变换方法是有效的,该方法可以有效提高谱聚类算法的运行效率;该聚类集成谱算法比其他常见的聚类集成算法更优越、更高效,可以有效解决文本聚类集成问题。 展开更多
关键词 聚类集成 文本聚类 谱聚类 矩阵扰动理论 图上的随机游动
在线阅读 下载PDF
一种基于文本聚类的web军事情报挖掘系统设计与实现 被引量:12
20
作者 傅畅 宋佳庆 《中国电子科学研究院学报》 北大核心 2015年第5期541-545,共5页
为了解决在海量web资源中提取出有用军事情报的问题,本文在分析军事情报和互联网信息特点的基础上,设计并实现了一个包括采集、处理、存储与检索的web军事情报挖掘模型,然后提出了一种面向军事情报应用的文本聚类方法,最后通过实验对聚... 为了解决在海量web资源中提取出有用军事情报的问题,本文在分析军事情报和互联网信息特点的基础上,设计并实现了一个包括采集、处理、存储与检索的web军事情报挖掘模型,然后提出了一种面向军事情报应用的文本聚类方法,最后通过实验对聚类效果进行了评估,实验结果表明该方法在聚类纯度、准确率、召回率、F-score指标上有不同程度的提升。 展开更多
关键词 军事情报 WEB信息 网络爬虫 k-means算法 文本聚类
在线阅读 下载PDF
上一页 1 2 3 下一页 到第
使用帮助 返回顶部