期刊文献+
共找到9篇文章
< 1 >
每页显示 20 50 100
IncSNN——一种基于密度的增量聚类算法 被引量:5
1
作者 孙焕良 邱菲 +1 位作者 刘俊岭 朱叶丽 《计算机研究与发展》 EI CSCD 北大核心 2006年第z3期309-313,共5页
基于密度的聚类算法是一类重要的聚类算法,能发现任意形状的簇,但由于它的时间复杂度较高,因此设计有效的增量更新算法是一个重要研究方向.在SNN算法的基础上,提出一种基于密度的增量聚类算法-IncSNN.该算法将所更新对象的空间进行划分... 基于密度的聚类算法是一类重要的聚类算法,能发现任意形状的簇,但由于它的时间复杂度较高,因此设计有效的增量更新算法是一个重要研究方向.在SNN算法的基础上,提出一种基于密度的增量聚类算法-IncSNN.该算法将所更新对象的空间进行划分,定义了基于该划分的最近邻居的概念,进而确定了受影响对象的集合,当算法更新时,只需要对受影响的数据进行处理.由于受影响对象的集合远小于原数据集合,因此显著提高了算法的效率.实验结果验证了IncSNN的有效性. 展开更多
关键词 分析 SNN 增量聚类算法 基于密度的算法
在线阅读 下载PDF
ISNN:一种基于密度的高效增量聚类算法
2
作者 孙焕良 邱菲 +1 位作者 朱叶丽 王永会 《沈阳建筑大学学报(自然科学版)》 CAS 2006年第6期1015-1018,共4页
目的提高算法效率,减少磁盘访问次数,提出一种基于密度的高效增量聚类算法ISNN.方法将更新对象的空间进行划分,定义了基于该划分的最近邻居概念,在此基础上应用一种剪枝策略来确定受影响对象的集合,数据更新时,只需要对受影响对象集合... 目的提高算法效率,减少磁盘访问次数,提出一种基于密度的高效增量聚类算法ISNN.方法将更新对象的空间进行划分,定义了基于该划分的最近邻居概念,在此基础上应用一种剪枝策略来确定受影响对象的集合,数据更新时,只需要对受影响对象集合进行处理.结果受影响对象集合远小于原数据集合,显著地提高了算法效率.结论实验表明,ISNN在效率和磁盘访问次数上都显著优于SNN算法. 展开更多
关键词 分析 SNN 增量聚类算法 基于密度的算法 ISNN
在线阅读 下载PDF
面向新闻评论的短文本增量聚类算法 被引量:2
3
作者 刘晓琳 曹付元 梁吉业 《计算机科学与探索》 CSCD 北大核心 2018年第6期950-960,共11页
对新闻评论进行增量聚类可以有效地发现网民对新闻事件的观点,在舆情分析领域具有十分重要的意义。针对传统的增量聚类算法存在对文本输入顺序敏感的缺点,提出了一种基于待定循环策略的增量聚类算法(uncertain cyclic Single-Pass,UCSP... 对新闻评论进行增量聚类可以有效地发现网民对新闻事件的观点,在舆情分析领域具有十分重要的意义。针对传统的增量聚类算法存在对文本输入顺序敏感的缺点,提出了一种基于待定循环策略的增量聚类算法(uncertain cyclic Single-Pass,UCSP)。在聚类过程中,针对传统的短文本向量空间模型语义信息匮乏、特征项稀疏的问题,结合神经网络训练的词向量模型,构建了一种基于多特征组合的短文本表示模型。在爬取的5个腾讯新闻评论数据集进行实验,并与传统的文本表示模型和聚类算法进行对比分析,结果表明,所提算法可以有效地提高聚类质量。 展开更多
关键词 舆情分析 短文本 增量聚类算法 向量空间模型 神经网络
在线阅读 下载PDF
基于密度的增量式网格聚类算法(英文) 被引量:45
4
作者 陈宁 陈安 周龙骧 《软件学报》 EI CSCD 北大核心 2002年第1期1-7,共7页
提出基于密度的网格聚类算法GDCA,发现大规模空间数据库中任意形状的聚类.该算法首先将数据空间划分成若干体积相同的单元,然后对单元进行聚类.只有密度不小于给定阈值的单元才得到扩展,从而大大降低了时间复杂性.在GDCA的基础上,给出... 提出基于密度的网格聚类算法GDCA,发现大规模空间数据库中任意形状的聚类.该算法首先将数据空间划分成若干体积相同的单元,然后对单元进行聚类.只有密度不小于给定阈值的单元才得到扩展,从而大大降低了时间复杂性.在GDCA的基础上,给出增量式聚类算法IGDCA,适用于数据的批量更新. 展开更多
关键词 增量式网格算法 密度 空间数据库 IGDCA
在线阅读 下载PDF
增量式CURE聚类算法研究 被引量:9
5
作者 冯兴杰 黄亚楼 《小型微型计算机系统》 CSCD 北大核心 2004年第10期1847-1849,共3页
聚类是一种非常有用的数据挖掘方法 ,可用于发现隐藏在数据背后的分组和数据分布信息 .目前已经提出了许多聚类算法及其变种 ,但在增量式聚类算法研究方面所作的工作较少 .当数据集因更新而发生变化时 ,数据挖掘的结果也应该进行相应的... 聚类是一种非常有用的数据挖掘方法 ,可用于发现隐藏在数据背后的分组和数据分布信息 .目前已经提出了许多聚类算法及其变种 ,但在增量式聚类算法研究方面所作的工作较少 .当数据集因更新而发生变化时 ,数据挖掘的结果也应该进行相应的更新 .由于数据量大 ,在更新后的数据集上重新执行聚类算法以更新挖掘结果显然比较低效 ,因此亟待研究增量式聚类算法 .通过对 CURE聚类算法的改进 ,提出了一种高效的增量式 CU RE聚类算法 .它能够很好的解决传统聚类算法在伸缩性、数据定期更新时所面临的问题 . 展开更多
关键词 数据挖掘 CURE算法 最近邻 增量算法
在线阅读 下载PDF
增量式K-Medoids聚类算法 被引量:9
6
作者 高小梅 冯云 冯兴杰 《计算机工程》 CAS CSCD 北大核心 2005年第B07期181-183,共3页
聚类是一种非常有用的数据挖掘方法,可用于发现隐藏在数据背后的分组和数据分布信息。目前已经提出了许多聚类算法及其变种,但在增量式聚类算法研究方面所做的工作较少。当数据集因更新而发生变化时,数据挖掘的结果也应该进行相应的更... 聚类是一种非常有用的数据挖掘方法,可用于发现隐藏在数据背后的分组和数据分布信息。目前已经提出了许多聚类算法及其变种,但在增量式聚类算法研究方面所做的工作较少。当数据集因更新而发生变化时,数据挖掘的结果也应该进行相应的更新。由于数据量大,在更新后的数据集上重新执行聚类算法以更新挖掘结果显然比较低效,因此亟待研究增量式聚类算法。该文通过对K-Medoids聚类算法的改进,提出一种增量式K-Medoids聚类算法。它能够很好地解决传统聚类算法在伸缩性、数据定期更新时所面临的问题。 展开更多
关键词 数据挖掘 K—Medoids算法 最近邻 增量算法
在线阅读 下载PDF
具有抗噪性能适用高维数据的增量式聚类算法 被引量:10
7
作者 邵俊健 王士同 《计算机科学与探索》 CSCD 北大核心 2019年第9期1553-1566,共14页
针对含有噪声的高维数据的聚类问题,提出一种使用新的距离度量方式的增量式聚类算法ANFCM(c+p)。由于传统的模糊C均值聚类算法对初始化聚类中心比较敏感,所提出的聚类算法将单程FCM的增量机制(称为SpFCM)与FCPM中使用的初始化聚类中心... 针对含有噪声的高维数据的聚类问题,提出一种使用新的距离度量方式的增量式聚类算法ANFCM(c+p)。由于传统的模糊C均值聚类算法对初始化聚类中心比较敏感,所提出的聚类算法将单程FCM的增量机制(称为SpFCM)与FCPM中使用的初始化聚类中心的策略相结合,即将先前数据块的聚类中心附近的几个样本点添加到下一个数据块进行聚类,以避免FCM对噪声的敏感性。此外,所提出的聚类算法使用一种新的改进后的距离度量的同时,使用修正后的约束条件和目标函数。通过以上改进,可以有效区分已知类和未知类在算法中的不同影响程度,并加强类之间的相互影响程度。实验结果表明,该算法对高维噪声数据具有很好的聚类效果和鲁棒性。 展开更多
关键词 高斯噪声 增量算法 距离度量 高维数据 FCPM算法
在线阅读 下载PDF
高维数据的增量式聚类算法的距离度量选择研究 被引量:7
8
作者 邵俊健 王士同 《计算机工程与科学》 CSCD 北大核心 2019年第2期214-223,共10页
合适的距离度量函数对于聚类结果有重要的影响。针对大规模高维数据集,使用增量式聚类算法进行距离度量的选择分析。SpFCM算法是将大规模数据集分成小样本进行增量分批聚类,可在有限的计算机内存中获得较好的聚类结果。在传统的SpFCM算... 合适的距离度量函数对于聚类结果有重要的影响。针对大规模高维数据集,使用增量式聚类算法进行距离度量的选择分析。SpFCM算法是将大规模数据集分成小样本进行增量分批聚类,可在有限的计算机内存中获得较好的聚类结果。在传统的SpFCM算法的基础上,使用不同的距离度量函数来衡量样本之间的相似性,以得出不同的距离度量对SpFCM算法的影响。在不同的大规模高维数据集中,使用欧氏距离、余弦距离、相关系数距离和扩展的杰卡德距离来计算距离。实验结果表明,后3个距离度量相对于欧氏距离可以很大程度地提高聚类效果,其中相关系数距离可以得到较好的结果,余弦距离和扩展的杰卡德距离效果比较一般。 展开更多
关键词 高维数据 SpFCM算法 距离度量 增量式模糊算法 相关系数距离度量
在线阅读 下载PDF
在线新闻主题检测系统的设计与应用 被引量:7
9
作者 万小军 杨建武 《华南理工大学学报(自然科学版)》 EI CAS CSCD 北大核心 2004年第z1期42-46,共5页
利用主题检测技术可以从海量新闻信息中实时检测到主题信息,从而将新闻信息按照主题组织并加以利用.文中通过改进加窗策略,采用自适应倒排文档频率,设计了一个中文新闻主题检测系统并进行了实验.结果表明了该系统的有效性.该系统在新华... 利用主题检测技术可以从海量新闻信息中实时检测到主题信息,从而将新闻信息按照主题组织并加以利用.文中通过改进加窗策略,采用自适应倒排文档频率,设计了一个中文新闻主题检测系统并进行了实验.结果表明了该系统的有效性.该系统在新华网数据中心的成功应用进一步表明系统达到了实用需求. 展开更多
关键词 主题检测 增量算法 加窗策略 自适应倒排文档频率
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部