检索结果-维普期刊中文期刊服务平台

面向国产加速器的并行代码自动生成框架: 1; 作者王玲高娅 +1 位作者吉青卜景德《计算机工程与设计》北大核心 2025年第5期1438-1444,共7页; 国产加速器复杂的硬件架构需要编写高度优化的代码才能充分发挥其卓越性能,由此带来繁重工作量和技术难度,为此提出一种面向国产加速器的并行代码自动生成框架。基础配置参数模块涵盖广泛的参数选项,实现代码自动调优,提高框架的通用性... 展开更多; 关键词国产加速器自动调优配置参数预定义代码汇编指令最优代码选择代码自动生成; 在线阅读下载PDF 职称材料

基于国产加速器的三维卷积前向算子优化: 2; 作者姬晨晨陈永青韩孟之《计算机工程》北大核心 2025年第2期250-258,共9页; 目前三维卷积神经网络(3D CNN)的应用场景越来越广泛,其能够从原始数据中提取更丰富、更具判别性的特征信息,在处理3D数据、特征提取和实际应用等方面具有重要意义。然而,从二维(2D)数据到3D数据的转变导致了卷积运算的数据量和计算量... 展开更多; 关键词三维卷积国产加速器隐式卷积算法索引机制前向算子优化并行优化算法; 在线阅读下载PDF 职称材料

面向国产异构系统的HPL异构协同设计: 3; 作者甘新标孙燎原 +2 位作者刘杰雄成伟黄嘉昆《计算机工程与科学》 CSCD 北大核心 2018年第1期10-14,共5页; HPL是高性能计算广泛采用的Linpack测试软件包,传统HPL算法中,求解矩阵将以块为单位循环分布到所有处理器,由于国产加速器(China Accelerator)的底层矩阵乘接口仅支持定制接口,传统HPL算法已不适合CPU+China Accelerator异构系统,因此,... 展开更多; 关键词 HPL 国产加速器矩阵分布细致划分与封装异构协同矩阵乘调度; 在线阅读下载PDF 职称材料

面向天河2A系统的基于蒙特卡罗方法的粒子输运异构协同计算被引量：3: 4; 作者李彪刘杰《计算机工程与科学》 CSCD 北大核心 2020年第11期1922-1928,共7页; 粒子输运模拟在核科学领域、医疗放射治疗领域中占有重要的地位。基于MC方法设计和开发了面向天河2A系统的粒子输运异构协同算法;基于天河2A系统的异构通信模式BCL和ACL,提出了一种CPU与加速器Matrix2000之间的简单高效的对称通信模式;... 展开更多; 关键词粒子输运异构协同计算蒙特卡罗方法 OPENMP 国产加速器; 在线阅读下载PDF 职称材料

题名面向国产加速器的并行代码自动生成框架: 1; 作者王玲高娅吉青卜景德; 机构郑州大学计算机与人工智能学院曙光信息产业(北京)有限公司高密度计算产品事业部; 出处《计算机工程与设计》北大核心 2025年第5期1438-1444,共7页; 基金国家重点研发计划基金项目(2021YFB0300200)。; 文摘国产加速器复杂的硬件架构需要编写高度优化的代码才能充分发挥其卓越性能,由此带来繁重工作量和技术难度,为此提出一种面向国产加速器的并行代码自动生成框架。基础配置参数模块涵盖广泛的参数选项,实现代码自动调优,提高框架的通用性;预定义代码生成模块生成汇编代码并加入算法优化,扩展预定义代码的汇编指令适配目标架构支持的指令集使该框架适用于其它加速器;最优代码选择模块根据框架生成的多组代码执行情况智能地选择性能最佳的代码进行输出。实验结果表明,该框架能够生成常见数据类型的程序,使用优化组件组合后生成的基准测试程序的性能可达到国产加速器理论峰值的90.1%。; 关键词国产加速器自动调优配置参数预定义代码汇编指令最优代码选择代码自动生成; Keywords domestic accelerator auto tuning configuration parameters predefined code assembly instructions optimal code selection automatic code generation; 分类号 TP313 [自动化与计算机技术—计算机软件与理论]; 在线阅读下载PDF 职称材料

题名基于国产加速器的三维卷积前向算子优化: 2; 作者姬晨晨陈永青韩孟之; 机构郑州大学计算机与人工智能学院曙光信息产业(北京)有限公司; 出处《计算机工程》北大核心 2025年第2期250-258,共9页; 基金国家重点研发计划(2021YFB0300200)。; 文摘目前三维卷积神经网络(3D CNN)的应用场景越来越广泛,其能够从原始数据中提取更丰富、更具判别性的特征信息,在处理3D数据、特征提取和实际应用等方面具有重要意义。然而,从二维(2D)数据到3D数据的转变导致了卷积运算的数据量和计算量均呈指数级增长,对计算资源和时间的需求也相应增加,这会导致训练和推理过程更加耗时,特别是在处理大规模3D数据时尤为明显。针对以上问题,提出一种基于国产加速器的隐式卷积算法,对3D卷积的前向计算过程进行优化。首先,该算法结合了硬件特点和并行化思路,利用索引直接访问所需计算的数据地址,无须开辟新的内存空间,大幅节省内存开销;其次,考虑到国产加速器具有高度并行的计算结构和丰富的计算资源,适合处理大规模数据和复杂的计算任务,结合国产加速器的计算能力和架构特点,采用一系列特定的异构并行优化算法,加速3D卷积前向算子的计算过程,提高计算效率和性能。实验结果表明,自研算子性能远超国产计算平台现有算子的最优性能,在多数情况下与NVIDIA V100之间的能效比可以达到70%甚至更高。; 关键词三维卷积国产加速器隐式卷积算法索引机制前向算子优化并行优化算法; Keywords 3D convolution domestic accelerator implicit convolution algorithm indexing mechanism forward operator optimization parallel optimization algorithm; 分类号 TP338.6 [自动化与计算机技术—计算机系统结构]; 在线阅读下载PDF 职称材料

题名面向国产异构系统的HPL异构协同设计: 3; 作者甘新标孙燎原刘杰雄成伟黄嘉昆; 机构国防科技大学计算机学院计算机软件新技术国家重点实验室(南京大学) 国防科技大学量子信息研究所兼高性能计算国家重点实验室; 出处《计算机工程与科学》 CSCD 北大核心 2018年第1期10-14,共5页; 基金国家重点研发计划(2017YFB0202104) 国家自然科学基金(61602495 +6 种基金 61402039 11401580 11665012) 中国科学院光谱成像技术重点实验室开放基金(LIST201602D); 文摘 HPL是高性能计算广泛采用的Linpack测试软件包,传统HPL算法中,求解矩阵将以块为单位循环分布到所有处理器,由于国产加速器(China Accelerator)的底层矩阵乘接口仅支持定制接口,传统HPL算法已不适合CPU+China Accelerator异构系统,因此,必须基于定制接口完成矩阵分布细致划分与封装dPEM,以提供一个通用的HPL测试配置环境;同时,为了充分发挥国产异构系统的效率,设计了异构协同矩阵乘调度算法OA4MM,以提高国产异构系统的效率。实验验证了dPEM的有效性和OA4MM算法的高效性,OA4MM较传统的异构HPL调度算法性能提升近10%。; 关键词 HPL 国产加速器矩阵分布细致划分与封装异构协同矩阵乘调度; Keywords HPL China accelerator delicate partition and encapsulation on matrix orchestrating algorithm for matrix multiplication; 分类号 TP311 [自动化与计算机技术—计算机软件与理论]; 在线阅读下载PDF 职称材料

题名面向天河2A系统的基于蒙特卡罗方法的粒子输运异构协同计算被引量：3: 4; 作者李彪刘杰; 机构国防科技大学并行与分布处理国家重点实验室复杂系统软件工程湖南省重点实验室; 出处《计算机工程与科学》 CSCD 北大核心 2020年第11期1922-1928,共7页; 基金国家重点研发计划(2017YFB0202104) 湖南省自然科学基金(2019JJ40339) 国防科技大学科研项目(ZK18-03-01)。; 文摘粒子输运模拟在核科学领域、医疗放射治疗领域中占有重要的地位。基于MC方法设计和开发了面向天河2A系统的粒子输运异构协同算法;基于天河2A系统的异构通信模式BCL和ACL,提出了一种CPU与加速器Matrix2000之间的简单高效的对称通信模式;在Matrix2000加速器端,通过OpenMP指令开发程序的线程级并行;优化了原MC程序串行数据收集通信模式,提出了新的二叉树通信模式,极大地减少了通信时间。实现的基于CPU/Matrix2000异构协同计算的并行程序,在天河2A系统上进行测试,大规模测试可以扩展到45万核,相对5万核并行效率保持在22.54%。; 关键词粒子输运异构协同计算蒙特卡罗方法 OPENMP 国产加速器; Keywords particle transport heterogeneous collaborative computing Monte Carlo method OpenMP domestic accelerator; 分类号 TP391 [自动化与计算机技术—计算机应用技术]; 在线阅读下载PDF 职称材料

	题名	作者	出处	发文年	被引量	操作
1	面向国产加速器的并行代码自动生成框架	王玲高娅吉青卜景德	《计算机工程与设计》北大核心	2025	0	在线阅读下载PDF 职称材料
2	基于国产加速器的三维卷积前向算子优化	姬晨晨陈永青韩孟之	《计算机工程》北大核心	2025	0	在线阅读下载PDF 职称材料
3	面向国产异构系统的HPL异构协同设计	甘新标孙燎原刘杰雄成伟黄嘉昆	《计算机工程与科学》 CSCD 北大核心	2018	0	在线阅读下载PDF 职称材料
4	面向天河2A系统的基于蒙特卡罗方法的粒子输运异构协同计算	李彪刘杰	《计算机工程与科学》 CSCD 北大核心	2020	3	在线阅读下载PDF 职称材料