-
题名基于MPI的高精度归约函数设计与实现
被引量:4
- 1
-
-
作者
何康
黄春
姜浩
谷同祥
齐进
刘杰
-
机构
国防科技大学计算机学院
北京应用物理与计算数学研究所
国防科技大学并行与分布处理重点实验室
国防科技大学复杂系统软件工程湖南省重点实验室
-
出处
《计算机工程与科学》
CSCD
北大核心
2021年第4期594-602,共9页
-
基金
重点研发计划(2018YFB0204301)
国家自然科学基金(61907034)
+1 种基金
科学挑战专题资助项目(TZ2016002)
湖南省自然科学基金(2018JJ3616)。
-
文摘
随着科学工程计算大规模、高维数和长时程的特性越来越显著,浮点舍入误差的累积效应往往使得计算结果不可信,提高计算精度成为了并行计算领域研究的热点之一。基于MPICH3框架,采用无误差变换技术构建新的数据格式和相应运算操作符,设计了高精度归约函数MPI_ACCU_REDUCE,实现了高精度的求和、求积和求L2范数3种MPI归约运算。数值实验结果表明,提出的3种高精度归约运算有效提高了数值计算的精度。
-
关键词
MPI
高精度计算
归约操作
无误差变换
-
Keywords
MPI
high-precision computation
reduction operation
error-free transformation
-
分类号
TP391.9
[自动化与计算机技术—计算机应用技术]
-
-
题名潜艇使用自航式声诱饵防御鱼雷模型并行计算方法研究
被引量:8
- 2
-
-
作者
李雯
迟利华
张会
张哲
刘杰
-
机构
国防科技大学并行与分布处理重点实验室
国防科技大学复杂系统软件工程湖南省重点实验室
湖南大学信息科学与工程学院
海军潜艇学院
-
出处
《计算机工程与科学》
CSCD
北大核心
2020年第12期2163-2168,共6页
-
基金
国家重点研发计划(2018YFB0204301,2017YFB0202104)。
-
文摘
潜艇使用自航式声诱饵防御声自导鱼雷是水下防御的主要手段之一,传统穷举统计方法计算量随决策参数增多而急剧增加,无法满足实时性要求。从基于多实体有限状态机的鱼雷防御模型出发,提出了2级并行策略,在进程和线程间划分仿真循环,通过数据交换作出最优决策。实验结果表明,并行后的模型可以在短时间内作出和实际作战情况相近的决策,在404个方案仿真的计算量下,模型运行时间从144.65 s缩短至1.2 s,获得了120倍的加速比,有效解决了实时方案决策的问题。
-
关键词
自航式声诱饵
鱼雷防御
并行算法
-
Keywords
self-propelled acoustic decoy
torpedo defense
parallel algorithm
-
分类号
TP301
[自动化与计算机技术—计算机系统结构]
-
-
题名基于RMC的蒙特卡罗程序性能优化
被引量:2
- 3
-
-
作者
徐海坤
匡邓晖
刘杰
龚春叶
-
机构
国防科技大学并行与分布处理国家重点实验室
国防科技大学复杂系统软件工程湖南省重点实验室
-
出处
《计算机工程与科学》
CSCD
北大核心
2021年第4期634-640,共7页
-
基金
国家重点研发计划(2017YFB0202104,2018YFB0204301)。
-
文摘
蒙特卡罗MC方法是核反应堆设计和分析中重要的粒子输运模拟方法。MC方法能够模拟复杂几何形状且计算结果精度高,缺点是需要耗费大量时间进行上亿规模粒子模拟。如何提高蒙特卡罗程序的性能成为大规模蒙特卡罗数值模拟的挑战。基于堆用蒙特卡罗分析程序RMC,先后开展了基于TCMalloc动态内存分配优化、OpenMP线程调度策略优化、vector内存对齐优化和基于HDF5的并行I/O优化等一系列优化手段,对于200万粒子的算例,使其总体性能提高26.45%以上。
-
关键词
蒙特卡罗方法
性能优化
内存管理
并行I/O
-
Keywords
Monte Carlo method
performance optimization
memory management
parallel I/O
-
分类号
TP393
[自动化与计算机技术—计算机应用技术]
-
-
题名面向语音分离的深层转导式非负矩阵分解并行算法
- 4
-
-
作者
李雨蓉
刘杰
刘亚林
龚春叶
王勇
-
机构
国防科技大学并行与分布处理重点实验室
国防科技大学复杂系统软件工程湖南省重点实验室
-
出处
《计算机科学》
CSCD
北大核心
2020年第8期49-55,共7页
-
基金
重点研发计划(2018YFB0204301)。
-
文摘
非负矩阵分解(Non-negative Matrix Factorization,NMF)能保存语音信号的非负特征,是用于语音分离的重要方法,但该方法存在数据运算复杂、计算量太大的问题,需要研究能减少计算时间的并行计算方法。针对语音分离预训练及分离过程的计算问题,文中提出深层转导式非负矩阵分解并行算法,综合考虑迭代更新过程的数据关联性,设计了一种任务间和任务内多级并行算法。该并行算法在任务级将分解训练语音得到对应基矩阵的过程作为两个独立的任务进行并行计算;在任务内部进程级把矩阵按行列划分,主进程把矩阵块分发到从进程,从进程接收当前矩阵块并计算结果矩阵子块,然后将当前进程矩阵块发送到下一进程,实现第二个矩阵中每一个矩阵块在所有进程的遍历,并计算结果矩阵对应子块的乘积,最后由主进程收集从进程数据块;在线程级子矩阵乘法运算的过程中,采取生成多线程,通过共享内存交换数据计算子矩阵块的加速策略。该算法为首个实现深层转导式非负矩阵分解的并行算法。在天河二号平台上的测试结果表明,在分离多说话人混合语音信号时,相比串行程序,所提出的并行算法能在不改变分离效果的前提下,使得预训练过程中使用64个进程的加速比为18,分离过程使用64个进程的对应加速比为24。相较于串行及MPI模型分离,混合模型分离时间大大缩短,从而证明了设计的并行算法可有效提高语音分离的效率。
-
关键词
深层转导式非负矩阵分解并行算法
乘性迭代更新规则加速算法
消息传递接口
共享存储并行编程
语音分离
-
Keywords
Parallel algorithm of deep-transductive non-negative matrix factorization
Acceleration algorithm based on multiplicative update rules
MPI
OpenMP
Speech separation
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-