期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
SW-IntraCC:一种面向申威智能加速卡内部的集合通信机制
1
作者 赵玉龙 顾燕卿 +6 位作者 田松涛 吴春志 汤凌韬 张鲁飞 秦晓军 刘鑫 陈左宁 《计算机研究与发展》 北大核心 2025年第6期1333-1346,共14页
大规模语言模型参数量呈指数级增长趋势,对加速卡算力密度与通信效率提出更高要求,推动单卡多芯粒、多芯片及多通信实体等新型架构的快速发展.申威智能加速卡采用4个核组片上环网架构,但在大模型训练中,数据通信量大和卡内传统Ring集合... 大规模语言模型参数量呈指数级增长趋势,对加速卡算力密度与通信效率提出更高要求,推动单卡多芯粒、多芯片及多通信实体等新型架构的快速发展.申威智能加速卡采用4个核组片上环网架构,但在大模型训练中,数据通信量大和卡内传统Ring集合通信方式面临单核组显存容量与传输带宽双重限制、卡内集合通信效率低、通信计算无法重叠等核心瓶颈.采用软硬协同设计理念提出SW-IntraCC(Sunway-intra collective communication)的优化框架,通过三级存储架构突破上述限制.首先,基于片上高速环网构建三级存储架构,单核组显存容量最高扩大至4倍,主机-加速卡传输带宽提升2.5倍;其次,设计采用交叉共享访存的片内高效CSC(cross shared communication)通信算法,实现面向大模型训练的典型通信算子CSC-AG(CSC-AllGather)和CSC-RS(CSC-ReduceScatter),通信效率是传统方式的2.15倍;最后,提出双向算子融合的通信计算重叠方法,实现通信与计算重叠,优化后通信性能提升59%. 展开更多
关键词 集合通信 申威智能加速卡 sw-intracc 通信优化 环形网络
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部