-
题名基于MPI的并行大数据集生成器
- 1
-
-
作者
葛旭冉
刘洋
陈志广
肖侬
-
机构
国防科技大学计算机学院
中山大学计算机学院
-
出处
《计算机工程与科学》
CSCD
北大核心
2022年第7期1152-1161,共10页
-
基金
国家重点研发计划(2018YFC1406205)
国家自然科学基金(U1811461,61872392)
+1 种基金
广东省自然科学基金(2018B0303120)
广东省基础与应用基础研究(2019B030302002)。
-
文摘
大数据处理分析算法在优化研究过程中,速度常常受限于数据集的规模。在数据集体量不足时,算法的通信时间往往要高于真正的计算时间,无法验证真实的效果。故设计实现了一个大数据集生成器,为运行在超级计算机上的并行大数据处理分析算法提供基准测试数据集。首先,使用MPI并行编程技术构造了一个并行随机数生成器,在此基础上设计实现了可控制规模及复杂性的人工数据集,主要包括:分类和聚类数据集、回归数据集、流形学习数据集和因子分解数据集等。其次,设计了大数据集生成器的I/O系统,提供MPI-I/O并行读、写数据集的接口,并设置了数据集在不同进程间的分发、映射规则,通过点对点通信实现不同节点之间的数据交互。实验结果表明,并行大数据集生成器有效提高了数据生成效率和生成规模,为并行大数据处理分析算法提供了高质量、大体量的测试数据集。
-
关键词
MPI
大数据集生成器
I/O系统
并行大数据处理算法
算法测试
-
Keywords
MPI
large dataset generator
I/O system
parallel big data processing algorithm
algorithm test
-
分类号
TP393
[自动化与计算机技术—计算机应用技术]
-