期刊导航
期刊开放获取
上海教育软件发展有限公..
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
1
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
Spark框架结合分布式KNN分类器的网络大数据分类处理方法
被引量:
8
1
作者
曹瑜
王楠
徐志超
《计算机应用研究》
CSCD
北大核心
2019年第11期3274-3277,3333,共5页
针对现有大数据分类方法难以满足大数据应用中时间和储存空间的限制,提出了一种基于Apache Spark框架的大数据并行多标签K最近邻分类器设计方法。为了通过使用其他内存操作来减轻现有MapReduce方案的成本消耗,首先,结合Apache Spark框...
针对现有大数据分类方法难以满足大数据应用中时间和储存空间的限制,提出了一种基于Apache Spark框架的大数据并行多标签K最近邻分类器设计方法。为了通过使用其他内存操作来减轻现有MapReduce方案的成本消耗,首先,结合Apache Spark框架的并行机制将训练集划分成若干分区;然后在map阶段找到待预测样本每个分区的K近邻,进一步在reduce阶段根据map阶段的结果确定最终的K近邻;最后并行地对近邻的标签集合进行聚合,通过最大化后验概率输出待预测样本的目标标签集合。在PokerHand等四个大数据分类数据集上进行实验,该方法取得了较低的汉明损失,证明了其有效性。
展开更多
关键词
分类处理
APACHE
SPARK
并行机制
数据挖掘
汉明损失
K最近邻
在线阅读
下载PDF
职称材料
题名
Spark框架结合分布式KNN分类器的网络大数据分类处理方法
被引量:
8
1
作者
曹瑜
王楠
徐志超
机构
哈尔滨金融
学院
计算机系
吉林财经大学管信学院
吉林
大学
计算机
学院
出处
《计算机应用研究》
CSCD
北大核心
2019年第11期3274-3277,3333,共5页
基金
国家自然科学基金资助项目(61702213)
吉林省教育厅“十三五”科学技术研究(JJKH20180463KJ)
文摘
针对现有大数据分类方法难以满足大数据应用中时间和储存空间的限制,提出了一种基于Apache Spark框架的大数据并行多标签K最近邻分类器设计方法。为了通过使用其他内存操作来减轻现有MapReduce方案的成本消耗,首先,结合Apache Spark框架的并行机制将训练集划分成若干分区;然后在map阶段找到待预测样本每个分区的K近邻,进一步在reduce阶段根据map阶段的结果确定最终的K近邻;最后并行地对近邻的标签集合进行聚合,通过最大化后验概率输出待预测样本的目标标签集合。在PokerHand等四个大数据分类数据集上进行实验,该方法取得了较低的汉明损失,证明了其有效性。
关键词
分类处理
APACHE
SPARK
并行机制
数据挖掘
汉明损失
K最近邻
Keywords
classification processing
Apache Spark
parallelism
data mining
Hamming loss
K-nearest neighbor
分类号
TP391 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
Spark框架结合分布式KNN分类器的网络大数据分类处理方法
曹瑜
王楠
徐志超
《计算机应用研究》
CSCD
北大核心
2019
8
在线阅读
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部