期刊文献+
共找到2篇文章
< 1 >
每页显示 20 50 100
GPU矩阵乘法和FFT算法的性能优化 被引量:5
1
作者 李晓雯 崔翔 《现代电子技术》 2013年第4期80-84,共5页
当前GPU的体系结构为高性能计算提供了良好的可编程性。为了得到众核GPU高性能程序设计的一般方法,探索GPU程序性能优化技术,对在GPU上进行高性能程序设计的经验进行了总结。通过基准测试,得到GPU性能指标,对GPU程序设计进行指导。使用C... 当前GPU的体系结构为高性能计算提供了良好的可编程性。为了得到众核GPU高性能程序设计的一般方法,探索GPU程序性能优化技术,对在GPU上进行高性能程序设计的经验进行了总结。通过基准测试,得到GPU性能指标,对GPU程序设计进行指导。使用CUDA对单精度矩阵乘法和FFT进行性能优化,前一个算法是计算密集型任务,后一个算法是带宽密集型任务。在NVIDIA GeForce GTX280 GPU上,矩阵乘法算法达到393 Gflop/s的峰值速度,比CUBLAS 2.0数学库提高了5%;对于一些维度的FFT计算也取得了较好的性能。 展开更多
关键词 gpu程序设计 矩阵乘法 快速傅里叶变换 性能优化技术
在线阅读 下载PDF
缓存结构GPU矩阵乘法算法的自动优化
2
作者 李晓雯 崔翔 +1 位作者 殷瑞杰 刘强 《现代电子技术》 2014年第10期137-140,共4页
讨论在Fermi结构GPU使用CUDA对GEMM(单精度和双精度)算法进行优化,以及Fermi体系结构的新特性(如缓存)对性能的影响。GPU缓存一方面可以提高处理器在运行时数据访问的局部性,另一方面使得代码性能对与性能相关算法参数的依赖变得不可预... 讨论在Fermi结构GPU使用CUDA对GEMM(单精度和双精度)算法进行优化,以及Fermi体系结构的新特性(如缓存)对性能的影响。GPU缓存一方面可以提高处理器在运行时数据访问的局部性,另一方面使得代码性能对与性能相关算法参数的依赖变得不可预测。自动优化技术可以用来解决这一问题。自动优化的SGEMM和DGEMM代码在Tesla C2050 GPU上达到了563GFlops和253GFlops的性能。代码使用CUDA和C语言进行实现,未进行二进制代码级别的优化。 展开更多
关键词 gpu程序设计 矩阵乘法 自动优化 GEMM模板
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部