期刊文献+
共找到4篇文章
< 1 >
每页显示 20 50 100
面向国产加速器的并行代码自动生成框架
1
作者 王玲 高娅 +1 位作者 吉青 卜景德 《计算机工程与设计》 北大核心 2025年第5期1438-1444,共7页
国产加速器复杂的硬件架构需要编写高度优化的代码才能充分发挥其卓越性能,由此带来繁重工作量和技术难度,为此提出一种面向国产加速器的并行代码自动生成框架。基础配置参数模块涵盖广泛的参数选项,实现代码自动调优,提高框架的通用性... 国产加速器复杂的硬件架构需要编写高度优化的代码才能充分发挥其卓越性能,由此带来繁重工作量和技术难度,为此提出一种面向国产加速器的并行代码自动生成框架。基础配置参数模块涵盖广泛的参数选项,实现代码自动调优,提高框架的通用性;预定义代码生成模块生成汇编代码并加入算法优化,扩展预定义代码的汇编指令适配目标架构支持的指令集使该框架适用于其它加速器;最优代码选择模块根据框架生成的多组代码执行情况智能地选择性能最佳的代码进行输出。实验结果表明,该框架能够生成常见数据类型的程序,使用优化组件组合后生成的基准测试程序的性能可达到国产加速器理论峰值的90.1%。 展开更多
关键词 国产加速器 自动调优 配置参数 预定义代码 汇编指令 最优代码选择 代码自动生成
在线阅读 下载PDF
基于国产加速器的三维卷积前向算子优化
2
作者 姬晨晨 陈永青 韩孟之 《计算机工程》 北大核心 2025年第2期250-258,共9页
目前三维卷积神经网络(3D CNN)的应用场景越来越广泛,其能够从原始数据中提取更丰富、更具判别性的特征信息,在处理3D数据、特征提取和实际应用等方面具有重要意义。然而,从二维(2D)数据到3D数据的转变导致了卷积运算的数据量和计算量... 目前三维卷积神经网络(3D CNN)的应用场景越来越广泛,其能够从原始数据中提取更丰富、更具判别性的特征信息,在处理3D数据、特征提取和实际应用等方面具有重要意义。然而,从二维(2D)数据到3D数据的转变导致了卷积运算的数据量和计算量均呈指数级增长,对计算资源和时间的需求也相应增加,这会导致训练和推理过程更加耗时,特别是在处理大规模3D数据时尤为明显。针对以上问题,提出一种基于国产加速器的隐式卷积算法,对3D卷积的前向计算过程进行优化。首先,该算法结合了硬件特点和并行化思路,利用索引直接访问所需计算的数据地址,无须开辟新的内存空间,大幅节省内存开销;其次,考虑到国产加速器具有高度并行的计算结构和丰富的计算资源,适合处理大规模数据和复杂的计算任务,结合国产加速器的计算能力和架构特点,采用一系列特定的异构并行优化算法,加速3D卷积前向算子的计算过程,提高计算效率和性能。实验结果表明,自研算子性能远超国产计算平台现有算子的最优性能,在多数情况下与NVIDIA V100之间的能效比可以达到70%甚至更高。 展开更多
关键词 三维卷积 国产加速器 隐式卷积算法 索引机制 前向算子优化 并行优化算法
在线阅读 下载PDF
面向国产异构系统的HPL异构协同设计
3
作者 甘新标 孙燎原 +2 位作者 刘杰 雄成伟 黄嘉昆 《计算机工程与科学》 CSCD 北大核心 2018年第1期10-14,共5页
HPL是高性能计算广泛采用的Linpack测试软件包,传统HPL算法中,求解矩阵将以块为单位循环分布到所有处理器,由于国产加速器(China Accelerator)的底层矩阵乘接口仅支持定制接口,传统HPL算法已不适合CPU+China Accelerator异构系统,因此,... HPL是高性能计算广泛采用的Linpack测试软件包,传统HPL算法中,求解矩阵将以块为单位循环分布到所有处理器,由于国产加速器(China Accelerator)的底层矩阵乘接口仅支持定制接口,传统HPL算法已不适合CPU+China Accelerator异构系统,因此,必须基于定制接口完成矩阵分布细致划分与封装dPEM,以提供一个通用的HPL测试配置环境;同时,为了充分发挥国产异构系统的效率,设计了异构协同矩阵乘调度算法OA4MM,以提高国产异构系统的效率。实验验证了dPEM的有效性和OA4MM算法的高效性,OA4MM较传统的异构HPL调度算法性能提升近10%。 展开更多
关键词 HPL 国产加速器 矩阵分布细致划分与封装 异构协同矩阵乘调度
在线阅读 下载PDF
面向天河2A系统的基于蒙特卡罗方法的粒子输运异构协同计算 被引量:3
4
作者 李彪 刘杰 《计算机工程与科学》 CSCD 北大核心 2020年第11期1922-1928,共7页
粒子输运模拟在核科学领域、医疗放射治疗领域中占有重要的地位。基于MC方法设计和开发了面向天河2A系统的粒子输运异构协同算法;基于天河2A系统的异构通信模式BCL和ACL,提出了一种CPU与加速器Matrix2000之间的简单高效的对称通信模式;... 粒子输运模拟在核科学领域、医疗放射治疗领域中占有重要的地位。基于MC方法设计和开发了面向天河2A系统的粒子输运异构协同算法;基于天河2A系统的异构通信模式BCL和ACL,提出了一种CPU与加速器Matrix2000之间的简单高效的对称通信模式;在Matrix2000加速器端,通过OpenMP指令开发程序的线程级并行;优化了原MC程序串行数据收集通信模式,提出了新的二叉树通信模式,极大地减少了通信时间。实现的基于CPU/Matrix2000异构协同计算的并行程序,在天河2A系统上进行测试,大规模测试可以扩展到45万核,相对5万核并行效率保持在22.54%。 展开更多
关键词 粒子输运 异构协同计算 蒙特卡罗方法 OPENMP 国产加速器
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部