期刊导航
期刊开放获取
上海教育软件发展有限公..
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
1
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
基于直接内存访问和动态共享缓冲区的超长向量归约操作硬件卸载结构与方法
1
作者
徐金波
戴艺
翦杰
《计算机工程与科学》
北大核心
2025年第4期571-581,共11页
MPI聚合通信通过将多个计算结点的多个进程组织起来协同完成一系列通信操作,以提高系统性能。其中,超长操作数向量的归约操作在高性能计算和AI计算中应用广泛。提出了一种基于DMA和动态共享缓冲区的超长向量归约操作的硬件卸载结构与方...
MPI聚合通信通过将多个计算结点的多个进程组织起来协同完成一系列通信操作,以提高系统性能。其中,超长操作数向量的归约操作在高性能计算和AI计算中应用广泛。提出了一种基于DMA和动态共享缓冲区的超长向量归约操作的硬件卸载结构与方法。通过专用硬件通信序列触发机制,实现聚合通信硬件卸载流程的控制;通过DMA传输协议提升归约操作数的软硬件传输效率;提出片上动态共享缓冲区存储结构,以实现大量操作数的灵活高效缓存;通过部署片上ALU阵列,直接在网络芯片中完成计算。实验结果表明,相对于MPI非卸载方式和“天河”原有卸载方式均有明显的加速效果,尤其是当归约向量长度较大时,加速效果显著提升。
展开更多
关键词
聚合通信
归约
直接内存访问
动态共享缓冲区
硬件卸载
在线阅读
下载PDF
职称材料
题名
基于直接内存访问和动态共享缓冲区的超长向量归约操作硬件卸载结构与方法
1
作者
徐金波
戴艺
翦杰
机构
国防科技大学计算机学院
出处
《计算机工程与科学》
北大核心
2025年第4期571-581,共11页
基金
国防科技重点实验室基金(2022-KJWPDL-11)
自主创新科学基金(22-ZZCX-002)。
文摘
MPI聚合通信通过将多个计算结点的多个进程组织起来协同完成一系列通信操作,以提高系统性能。其中,超长操作数向量的归约操作在高性能计算和AI计算中应用广泛。提出了一种基于DMA和动态共享缓冲区的超长向量归约操作的硬件卸载结构与方法。通过专用硬件通信序列触发机制,实现聚合通信硬件卸载流程的控制;通过DMA传输协议提升归约操作数的软硬件传输效率;提出片上动态共享缓冲区存储结构,以实现大量操作数的灵活高效缓存;通过部署片上ALU阵列,直接在网络芯片中完成计算。实验结果表明,相对于MPI非卸载方式和“天河”原有卸载方式均有明显的加速效果,尤其是当归约向量长度较大时,加速效果显著提升。
关键词
聚合通信
归约
直接内存访问
动态共享缓冲区
硬件卸载
Keywords
collective communication
reduce
direct memory access
dynamic shared buffer
hardware offloading
分类号
TP302.2 [自动化与计算机技术—计算机系统结构]
在线阅读
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
基于直接内存访问和动态共享缓冲区的超长向量归约操作硬件卸载结构与方法
徐金波
戴艺
翦杰
《计算机工程与科学》
北大核心
2025
0
在线阅读
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部