期刊导航
期刊开放获取
上海教育软件发展有限公..
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
4
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
面向国产加速器的并行代码自动生成框架
1
作者
王玲
高娅
+1 位作者
吉青
卜景德
《计算机工程与设计》
北大核心
2025年第5期1438-1444,共7页
国产加速器复杂的硬件架构需要编写高度优化的代码才能充分发挥其卓越性能,由此带来繁重工作量和技术难度,为此提出一种面向国产加速器的并行代码自动生成框架。基础配置参数模块涵盖广泛的参数选项,实现代码自动调优,提高框架的通用性...
国产加速器复杂的硬件架构需要编写高度优化的代码才能充分发挥其卓越性能,由此带来繁重工作量和技术难度,为此提出一种面向国产加速器的并行代码自动生成框架。基础配置参数模块涵盖广泛的参数选项,实现代码自动调优,提高框架的通用性;预定义代码生成模块生成汇编代码并加入算法优化,扩展预定义代码的汇编指令适配目标架构支持的指令集使该框架适用于其它加速器;最优代码选择模块根据框架生成的多组代码执行情况智能地选择性能最佳的代码进行输出。实验结果表明,该框架能够生成常见数据类型的程序,使用优化组件组合后生成的基准测试程序的性能可达到国产加速器理论峰值的90.1%。
展开更多
关键词
国产加速器
自动调优
配置参数
预定义代码
汇编指令
最优代码选择
代码自动生成
在线阅读
下载PDF
职称材料
基于国产加速器的三维卷积前向算子优化
2
作者
姬晨晨
陈永青
韩孟之
《计算机工程》
北大核心
2025年第2期250-258,共9页
目前三维卷积神经网络(3D CNN)的应用场景越来越广泛,其能够从原始数据中提取更丰富、更具判别性的特征信息,在处理3D数据、特征提取和实际应用等方面具有重要意义。然而,从二维(2D)数据到3D数据的转变导致了卷积运算的数据量和计算量...
目前三维卷积神经网络(3D CNN)的应用场景越来越广泛,其能够从原始数据中提取更丰富、更具判别性的特征信息,在处理3D数据、特征提取和实际应用等方面具有重要意义。然而,从二维(2D)数据到3D数据的转变导致了卷积运算的数据量和计算量均呈指数级增长,对计算资源和时间的需求也相应增加,这会导致训练和推理过程更加耗时,特别是在处理大规模3D数据时尤为明显。针对以上问题,提出一种基于国产加速器的隐式卷积算法,对3D卷积的前向计算过程进行优化。首先,该算法结合了硬件特点和并行化思路,利用索引直接访问所需计算的数据地址,无须开辟新的内存空间,大幅节省内存开销;其次,考虑到国产加速器具有高度并行的计算结构和丰富的计算资源,适合处理大规模数据和复杂的计算任务,结合国产加速器的计算能力和架构特点,采用一系列特定的异构并行优化算法,加速3D卷积前向算子的计算过程,提高计算效率和性能。实验结果表明,自研算子性能远超国产计算平台现有算子的最优性能,在多数情况下与NVIDIA V100之间的能效比可以达到70%甚至更高。
展开更多
关键词
三维卷积
国产加速器
隐式卷积算法
索引机制
前向算子优化
并行优化算法
在线阅读
下载PDF
职称材料
面向国产异构系统的HPL异构协同设计
3
作者
甘新标
孙燎原
+2 位作者
刘杰
雄成伟
黄嘉昆
《计算机工程与科学》
CSCD
北大核心
2018年第1期10-14,共5页
HPL是高性能计算广泛采用的Linpack测试软件包,传统HPL算法中,求解矩阵将以块为单位循环分布到所有处理器,由于国产加速器(China Accelerator)的底层矩阵乘接口仅支持定制接口,传统HPL算法已不适合CPU+China Accelerator异构系统,因此,...
HPL是高性能计算广泛采用的Linpack测试软件包,传统HPL算法中,求解矩阵将以块为单位循环分布到所有处理器,由于国产加速器(China Accelerator)的底层矩阵乘接口仅支持定制接口,传统HPL算法已不适合CPU+China Accelerator异构系统,因此,必须基于定制接口完成矩阵分布细致划分与封装dPEM,以提供一个通用的HPL测试配置环境;同时,为了充分发挥国产异构系统的效率,设计了异构协同矩阵乘调度算法OA4MM,以提高国产异构系统的效率。实验验证了dPEM的有效性和OA4MM算法的高效性,OA4MM较传统的异构HPL调度算法性能提升近10%。
展开更多
关键词
HPL
国产加速器
矩阵分布细致划分与封装
异构协同矩阵乘调度
在线阅读
下载PDF
职称材料
面向天河2A系统的基于蒙特卡罗方法的粒子输运异构协同计算
被引量:
3
4
作者
李彪
刘杰
《计算机工程与科学》
CSCD
北大核心
2020年第11期1922-1928,共7页
粒子输运模拟在核科学领域、医疗放射治疗领域中占有重要的地位。基于MC方法设计和开发了面向天河2A系统的粒子输运异构协同算法;基于天河2A系统的异构通信模式BCL和ACL,提出了一种CPU与加速器Matrix2000之间的简单高效的对称通信模式;...
粒子输运模拟在核科学领域、医疗放射治疗领域中占有重要的地位。基于MC方法设计和开发了面向天河2A系统的粒子输运异构协同算法;基于天河2A系统的异构通信模式BCL和ACL,提出了一种CPU与加速器Matrix2000之间的简单高效的对称通信模式;在Matrix2000加速器端,通过OpenMP指令开发程序的线程级并行;优化了原MC程序串行数据收集通信模式,提出了新的二叉树通信模式,极大地减少了通信时间。实现的基于CPU/Matrix2000异构协同计算的并行程序,在天河2A系统上进行测试,大规模测试可以扩展到45万核,相对5万核并行效率保持在22.54%。
展开更多
关键词
粒子输运
异构协同计算
蒙特卡罗方法
OPENMP
国产加速器
在线阅读
下载PDF
职称材料
题名
面向国产加速器的并行代码自动生成框架
1
作者
王玲
高娅
吉青
卜景德
机构
郑州大学计算机与人工智能学院
曙光信息产业(北京)有限公司高密度计算产品事业部
出处
《计算机工程与设计》
北大核心
2025年第5期1438-1444,共7页
基金
国家重点研发计划基金项目(2021YFB0300200)。
文摘
国产加速器复杂的硬件架构需要编写高度优化的代码才能充分发挥其卓越性能,由此带来繁重工作量和技术难度,为此提出一种面向国产加速器的并行代码自动生成框架。基础配置参数模块涵盖广泛的参数选项,实现代码自动调优,提高框架的通用性;预定义代码生成模块生成汇编代码并加入算法优化,扩展预定义代码的汇编指令适配目标架构支持的指令集使该框架适用于其它加速器;最优代码选择模块根据框架生成的多组代码执行情况智能地选择性能最佳的代码进行输出。实验结果表明,该框架能够生成常见数据类型的程序,使用优化组件组合后生成的基准测试程序的性能可达到国产加速器理论峰值的90.1%。
关键词
国产加速器
自动调优
配置参数
预定义代码
汇编指令
最优代码选择
代码自动生成
Keywords
domestic accelerator
auto tuning
configuration parameters
predefined code
assembly instructions
optimal code selection
automatic code generation
分类号
TP313 [自动化与计算机技术—计算机软件与理论]
在线阅读
下载PDF
职称材料
题名
基于国产加速器的三维卷积前向算子优化
2
作者
姬晨晨
陈永青
韩孟之
机构
郑州大学计算机与人工智能学院
曙光信息产业(北京)有限公司
出处
《计算机工程》
北大核心
2025年第2期250-258,共9页
基金
国家重点研发计划(2021YFB0300200)。
文摘
目前三维卷积神经网络(3D CNN)的应用场景越来越广泛,其能够从原始数据中提取更丰富、更具判别性的特征信息,在处理3D数据、特征提取和实际应用等方面具有重要意义。然而,从二维(2D)数据到3D数据的转变导致了卷积运算的数据量和计算量均呈指数级增长,对计算资源和时间的需求也相应增加,这会导致训练和推理过程更加耗时,特别是在处理大规模3D数据时尤为明显。针对以上问题,提出一种基于国产加速器的隐式卷积算法,对3D卷积的前向计算过程进行优化。首先,该算法结合了硬件特点和并行化思路,利用索引直接访问所需计算的数据地址,无须开辟新的内存空间,大幅节省内存开销;其次,考虑到国产加速器具有高度并行的计算结构和丰富的计算资源,适合处理大规模数据和复杂的计算任务,结合国产加速器的计算能力和架构特点,采用一系列特定的异构并行优化算法,加速3D卷积前向算子的计算过程,提高计算效率和性能。实验结果表明,自研算子性能远超国产计算平台现有算子的最优性能,在多数情况下与NVIDIA V100之间的能效比可以达到70%甚至更高。
关键词
三维卷积
国产加速器
隐式卷积算法
索引机制
前向算子优化
并行优化算法
Keywords
3D convolution
domestic accelerator
implicit convolution algorithm
indexing mechanism
forward operator optimization
parallel optimization algorithm
分类号
TP338.6 [自动化与计算机技术—计算机系统结构]
在线阅读
下载PDF
职称材料
题名
面向国产异构系统的HPL异构协同设计
3
作者
甘新标
孙燎原
刘杰
雄成伟
黄嘉昆
机构
国防科技大学计算机学院
计算机软件新技术国家重点实验室(南京大学)
国防科技大学量子信息研究所兼高性能计算国家重点实验室
出处
《计算机工程与科学》
CSCD
北大核心
2018年第1期10-14,共5页
基金
国家重点研发计划(2017YFB0202104)
国家自然科学基金(61602495
+6 种基金
61402039
11401580
11665012)
计算机软件新技术国家重点实验室(南京大学)开放课题(KFKT2016B25)
国防科技大学预研计划(ZK16-03-06)
国家重点实验室专项基金(Y62612A87S)
中国科学院光谱成像技术重点实验室开放基金(LIST201602D)
文摘
HPL是高性能计算广泛采用的Linpack测试软件包,传统HPL算法中,求解矩阵将以块为单位循环分布到所有处理器,由于国产加速器(China Accelerator)的底层矩阵乘接口仅支持定制接口,传统HPL算法已不适合CPU+China Accelerator异构系统,因此,必须基于定制接口完成矩阵分布细致划分与封装dPEM,以提供一个通用的HPL测试配置环境;同时,为了充分发挥国产异构系统的效率,设计了异构协同矩阵乘调度算法OA4MM,以提高国产异构系统的效率。实验验证了dPEM的有效性和OA4MM算法的高效性,OA4MM较传统的异构HPL调度算法性能提升近10%。
关键词
HPL
国产加速器
矩阵分布细致划分与封装
异构协同矩阵乘调度
Keywords
HPL
China accelerator
delicate partition and encapsulation on matrix
orchestrating algorithm for matrix multiplication
分类号
TP311 [自动化与计算机技术—计算机软件与理论]
在线阅读
下载PDF
职称材料
题名
面向天河2A系统的基于蒙特卡罗方法的粒子输运异构协同计算
被引量:
3
4
作者
李彪
刘杰
机构
国防科技大学并行与分布处理国家重点实验室
复杂系统软件工程湖南省重点实验室
出处
《计算机工程与科学》
CSCD
北大核心
2020年第11期1922-1928,共7页
基金
国家重点研发计划(2017YFB0202104)
湖南省自然科学基金(2019JJ40339)
国防科技大学科研项目(ZK18-03-01)。
文摘
粒子输运模拟在核科学领域、医疗放射治疗领域中占有重要的地位。基于MC方法设计和开发了面向天河2A系统的粒子输运异构协同算法;基于天河2A系统的异构通信模式BCL和ACL,提出了一种CPU与加速器Matrix2000之间的简单高效的对称通信模式;在Matrix2000加速器端,通过OpenMP指令开发程序的线程级并行;优化了原MC程序串行数据收集通信模式,提出了新的二叉树通信模式,极大地减少了通信时间。实现的基于CPU/Matrix2000异构协同计算的并行程序,在天河2A系统上进行测试,大规模测试可以扩展到45万核,相对5万核并行效率保持在22.54%。
关键词
粒子输运
异构协同计算
蒙特卡罗方法
OPENMP
国产加速器
Keywords
particle transport
heterogeneous collaborative computing
Monte Carlo method
OpenMP
domestic accelerator
分类号
TP391 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
面向国产加速器的并行代码自动生成框架
王玲
高娅
吉青
卜景德
《计算机工程与设计》
北大核心
2025
0
在线阅读
下载PDF
职称材料
2
基于国产加速器的三维卷积前向算子优化
姬晨晨
陈永青
韩孟之
《计算机工程》
北大核心
2025
0
在线阅读
下载PDF
职称材料
3
面向国产异构系统的HPL异构协同设计
甘新标
孙燎原
刘杰
雄成伟
黄嘉昆
《计算机工程与科学》
CSCD
北大核心
2018
0
在线阅读
下载PDF
职称材料
4
面向天河2A系统的基于蒙特卡罗方法的粒子输运异构协同计算
李彪
刘杰
《计算机工程与科学》
CSCD
北大核心
2020
3
在线阅读
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部