期刊文献+
共找到2篇文章
< 1 >
每页显示 20 50 100
基于向量内积不等式的分布式k均值聚类算法 被引量:15
1
作者 倪巍伟 陆介平 孙志挥 《计算机研究与发展》 EI CSCD 北大核心 2005年第9期1493-1497,共5页
聚类分析是数据挖掘领域的一项重要研究课题.随着数据量的急剧增加,针对大数据集的聚类分析成为一个难点.虽然k均值算法具有易实现、复杂度与数据集大小成线性关系的优点,将其应用于大数据集时仍然存在效率低的问题.分布式聚类是解决这... 聚类分析是数据挖掘领域的一项重要研究课题.随着数据量的急剧增加,针对大数据集的聚类分析成为一个难点.虽然k均值算法具有易实现、复杂度与数据集大小成线性关系的优点,将其应用于大数据集时仍然存在效率低的问题.分布式聚类是解决这一问题的有效方法.在已有分布式聚类算法kDMeans基础上,结合向量内积不等式关系对算法加以优化,提出分布式聚类算法kDCBIP.理论分析和实验结果表明,算法kDCBIP优于kDMeans,可以有效地解决大数据集聚类问题,算法是有效可行的. 展开更多
关键词 分布式聚类 数据点的模 向量内积 向量内积不等式
在线阅读 下载PDF
基于nested-loop的大数据集快速离群点检测算法 被引量:1
2
作者 倪巍伟 陈耿 +1 位作者 陆介平 孙志挥 《东南大学学报(自然科学版)》 EI CAS CSCD 北大核心 2006年第3期463-466,共4页
针对已有的多数离群点检测算法存在扩展性差,不能有效应用于大数据集的问题,在已有的基于距离的离群点检测算法的基础上,设计模信息表存储结构,利用向量内积不等式关系以及合理的存储分配和调度策略,提出一种高效离群点检测算法DBoda.... 针对已有的多数离群点检测算法存在扩展性差,不能有效应用于大数据集的问题,在已有的基于距离的离群点检测算法的基础上,设计模信息表存储结构,利用向量内积不等式关系以及合理的存储分配和调度策略,提出一种高效离群点检测算法DBoda.该算法通过在预处理中存储每个点的模信息,减少点间距离的计算量,并对嵌套循环方法进行优化,进一步减少I/O的开销.理论分析和试验结果表明,所提算法具有时间消耗小和适用于处理大数据集的特点,可以有效地解决离群点检测中的算法时间复杂性和算法扩展性问题. 展开更多
关键词 大数据集 模信息表 向量内积不等式 离群点检测
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部