期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
Spark框架结合分布式KNN分类器的网络大数据分类处理方法 被引量:8
1
作者 曹瑜 王楠 徐志超 《计算机应用研究》 CSCD 北大核心 2019年第11期3274-3277,3333,共5页
针对现有大数据分类方法难以满足大数据应用中时间和储存空间的限制,提出了一种基于Apache Spark框架的大数据并行多标签K最近邻分类器设计方法。为了通过使用其他内存操作来减轻现有MapReduce方案的成本消耗,首先,结合Apache Spark框... 针对现有大数据分类方法难以满足大数据应用中时间和储存空间的限制,提出了一种基于Apache Spark框架的大数据并行多标签K最近邻分类器设计方法。为了通过使用其他内存操作来减轻现有MapReduce方案的成本消耗,首先,结合Apache Spark框架的并行机制将训练集划分成若干分区;然后在map阶段找到待预测样本每个分区的K近邻,进一步在reduce阶段根据map阶段的结果确定最终的K近邻;最后并行地对近邻的标签集合进行聚合,通过最大化后验概率输出待预测样本的目标标签集合。在PokerHand等四个大数据分类数据集上进行实验,该方法取得了较低的汉明损失,证明了其有效性。 展开更多
关键词 分类处理 APACHE SPARK 并行机制 数据挖掘 汉明损失 K最近邻
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部