期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
SlimGC:面向分布式深度学习的梯度压缩优化策略
1
作者 白哲 于恩达 董德尊 《计算机学报》 北大核心 2025年第5期1168-1187,共20页
梯度压缩是缓解分布式深度学习中通信瓶颈的关键技术。然而,通过梯度压缩实现显著的性能改进仍然具有挑战性。在实际应用中,梯度压缩面临着以下几个挑战:(1)不能有效优化小规模张量通信的启动开销;(2)压缩操作可能会与张量计算竞争GPU资... 梯度压缩是缓解分布式深度学习中通信瓶颈的关键技术。然而,通过梯度压缩实现显著的性能改进仍然具有挑战性。在实际应用中,梯度压缩面临着以下几个挑战:(1)不能有效优化小规模张量通信的启动开销;(2)压缩操作可能会与张量计算竞争GPU资源,从而延迟梯度传输的启动时机;(3)它可能引发需要谨慎处理的模型精度问题。为了最大限度地发挥梯度压缩的优势并应对这些挑战,本文设计了SlimGC策略来用于通用梯度压缩增强。此外,为了避免对GPU算力和内存资源的争用,SlimGC将压缩操作卸载给CPU,并采用模型备份技术,该技术解除了工作节点间对模型参数的读取依赖,从而隐藏CPU压缩成本和部分通信开销。本文的实验是在一个拥有16个V100 GPU的集群上进行的。实验评估表明,对于典型的分布式深度学习训练任务,SlimGC将1bit和2bit压缩算法的训练吞吐量分别最高提高了74.3%和75.9%。此外,它实现了1.1%~2.3%的收敛精度提高,并减少了10.3%的GPU内存消耗。 展开更多
关键词 分布式深度学习 梯度压缩 分布式通信优化 压缩卸载 内存消耗
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部