-
题名改进的共享最近邻聚类算法
被引量:3
- 1
-
-
作者
李霞
蒋盛益
-
机构
广东外语外贸大学思科信息学院
-
出处
《计算机工程与应用》
CSCD
北大核心
2011年第8期138-142,共5页
-
基金
国家自然科学基金(No.61070061)~~
-
文摘
聚类是一种无监督的机器学习方法,其任务是发现数据中的自然簇。共享最近邻聚类算法(SNN)在处理大小不同、形状不同以及密度不同的数据集上具有很好的聚类效果,但该算法还存在以下不足:(1)时间复杂度为O(n2),不适合处理大规模数据集;(2)没有明确给出参数阈值的简单指导性操作方法;(3)只能处理数值型属性数据集。对共享最近邻算法进行改进,使其能够处理混合属性数据集,并给出参数阈值的简单选择方法,改进后算法运行时间与数据集大小成近似线性关系,适用于大规模高维数据集。在真实数据集和人造数据集上的实验结果表明,提出的改进算法是有效可行的。
-
关键词
共享最近邻聚类算法
一趟聚类算法
大规模数据集
-
Keywords
shared nearest neighbor clustering algorithm one-pass clustering algorithm large dataset
-
分类号
TP393
[自动化与计算机技术—计算机应用技术]
-
-
题名一种垃圾邮件快速识别方法
被引量:2
- 2
-
-
作者
李霞
蒋盛益
-
机构
广东外语外贸大学信息学院
-
出处
《小型微型计算机系统》
CSCD
北大核心
2013年第3期498-502,共5页
-
基金
国家自然科学基金项目(61070061)资助
教育部人文社会科学研究青年基金项目(11YJCZH086)资助
广州社科青年基金项目(11Q20)资助
-
文摘
k最近邻分类算法原理简单且分类性能好,但因其时间复杂度高,不适用于实际领域在线垃圾邮件过滤.本文在建模阶段首先对训练邮件进行初始聚类,将训练邮件划分为半径大小几乎相同的初始簇,然后使用共享最近邻图聚类算法对包含邮件的初始簇进行再聚类,最终聚类簇被看成是可以增量更新的分类模型,最后使用经典k最近邻分类算法在该分类模型上对未知邮件进行分类.在公开语料Ling-Spam上的实验结果表明,本文提出的垃圾邮件识别算法不仅具有较高的垃圾邮件识别精度,而且还具有较低的时间复杂度.
-
关键词
垃圾邮件过滤
K最近邻分类算法
共享最近邻图聚类算法
-
Keywords
spam filtering
k nearest neighbor algorithm
SNN clustering algorithm
-
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
-