期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
一种采用伪随机分区的自适应并行密度聚类算法
1
作者 曾鸿斌 钱雪忠 宋威 《小型微型计算机系统》 北大核心 2025年第6期1349-1357,共9页
针对大数据环境下并行密度聚类算法存在数据分区效率低下、负载不均衡、局部聚类合并不准确以及并行化效率较低等问题,本文提出了一种基于伪随机分区策略构建单元子图的并行密度聚类算法.该算法采用伪随机分区策略快速进行数据分区,并使... 针对大数据环境下并行密度聚类算法存在数据分区效率低下、负载不均衡、局部聚类合并不准确以及并行化效率较低等问题,本文提出了一种基于伪随机分区策略构建单元子图的并行密度聚类算法.该算法采用伪随机分区策略快速进行数据分区,并使用Spark在每个分区中构建单元子图实现局部聚类.同时,本文还提出了一种新的局部簇合并策略,提高了合并的准确率.此外,针对传统DBSCAN算法需要手动确定参数的问题,本文使用了一种改进的自适应参数方法,通过使用高斯核函数和最小化积分均方误差(MISE)方法确定eps和minpts的值.经实验证明,该算法在人工数据集和大规模真实数据集上都展现出了出色的并行性能和高准确率. 展开更多
关键词 DBSCAN 伪随机分区 SPARK 自适应参数 聚类合并
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部