期刊导航
期刊开放获取
上海教育软件发展有限公..
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
1
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
SlimGC:面向分布式深度学习的梯度压缩优化策略
1
作者
白哲
于恩达
董德尊
《计算机学报》
北大核心
2025年第5期1168-1187,共20页
梯度压缩是缓解分布式深度学习中通信瓶颈的关键技术。然而,通过梯度压缩实现显著的性能改进仍然具有挑战性。在实际应用中,梯度压缩面临着以下几个挑战:(1)不能有效优化小规模张量通信的启动开销;(2)压缩操作可能会与张量计算竞争GPU资...
梯度压缩是缓解分布式深度学习中通信瓶颈的关键技术。然而,通过梯度压缩实现显著的性能改进仍然具有挑战性。在实际应用中,梯度压缩面临着以下几个挑战:(1)不能有效优化小规模张量通信的启动开销;(2)压缩操作可能会与张量计算竞争GPU资源,从而延迟梯度传输的启动时机;(3)它可能引发需要谨慎处理的模型精度问题。为了最大限度地发挥梯度压缩的优势并应对这些挑战,本文设计了SlimGC策略来用于通用梯度压缩增强。此外,为了避免对GPU算力和内存资源的争用,SlimGC将压缩操作卸载给CPU,并采用模型备份技术,该技术解除了工作节点间对模型参数的读取依赖,从而隐藏CPU压缩成本和部分通信开销。本文的实验是在一个拥有16个V100 GPU的集群上进行的。实验评估表明,对于典型的分布式深度学习训练任务,SlimGC将1bit和2bit压缩算法的训练吞吐量分别最高提高了74.3%和75.9%。此外,它实现了1.1%~2.3%的收敛精度提高,并减少了10.3%的GPU内存消耗。
展开更多
关键词
分布式
深度学习
梯度压缩
分布式通信优化
压缩卸载
内存消耗
在线阅读
下载PDF
职称材料
题名
SlimGC:面向分布式深度学习的梯度压缩优化策略
1
作者
白哲
于恩达
董德尊
机构
国防科技大学计算机学院
出处
《计算机学报》
北大核心
2025年第5期1168-1187,共20页
基金
国家重点研发计划项目(No.2022YFB4501702)
国家自然科学基金(U24B20151)资助。
文摘
梯度压缩是缓解分布式深度学习中通信瓶颈的关键技术。然而,通过梯度压缩实现显著的性能改进仍然具有挑战性。在实际应用中,梯度压缩面临着以下几个挑战:(1)不能有效优化小规模张量通信的启动开销;(2)压缩操作可能会与张量计算竞争GPU资源,从而延迟梯度传输的启动时机;(3)它可能引发需要谨慎处理的模型精度问题。为了最大限度地发挥梯度压缩的优势并应对这些挑战,本文设计了SlimGC策略来用于通用梯度压缩增强。此外,为了避免对GPU算力和内存资源的争用,SlimGC将压缩操作卸载给CPU,并采用模型备份技术,该技术解除了工作节点间对模型参数的读取依赖,从而隐藏CPU压缩成本和部分通信开销。本文的实验是在一个拥有16个V100 GPU的集群上进行的。实验评估表明,对于典型的分布式深度学习训练任务,SlimGC将1bit和2bit压缩算法的训练吞吐量分别最高提高了74.3%和75.9%。此外,它实现了1.1%~2.3%的收敛精度提高,并减少了10.3%的GPU内存消耗。
关键词
分布式
深度学习
梯度压缩
分布式通信优化
压缩卸载
内存消耗
Keywords
distributed deep learning
gradient compression
distributed communication optimization
compression offloading
memory consumption
分类号
TP18 [自动化与计算机技术—控制理论与控制工程]
在线阅读
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
SlimGC:面向分布式深度学习的梯度压缩优化策略
白哲
于恩达
董德尊
《计算机学报》
北大核心
2025
0
在线阅读
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部