-
题名GPU矩阵乘法和FFT算法的性能优化
被引量:5
- 1
-
-
作者
李晓雯
崔翔
-
机构
防空兵学院指挥控制系
河南大学计算机与信息工程学院
-
出处
《现代电子技术》
2013年第4期80-84,共5页
-
基金
国家"863"高技术研究发展计划项目基金(2012AA010902)
国家自然科学基金资助项目(61240045
10571178)
-
文摘
当前GPU的体系结构为高性能计算提供了良好的可编程性。为了得到众核GPU高性能程序设计的一般方法,探索GPU程序性能优化技术,对在GPU上进行高性能程序设计的经验进行了总结。通过基准测试,得到GPU性能指标,对GPU程序设计进行指导。使用CUDA对单精度矩阵乘法和FFT进行性能优化,前一个算法是计算密集型任务,后一个算法是带宽密集型任务。在NVIDIA GeForce GTX280 GPU上,矩阵乘法算法达到393 Gflop/s的峰值速度,比CUBLAS 2.0数学库提高了5%;对于一些维度的FFT计算也取得了较好的性能。
-
关键词
gpu程序设计
矩阵乘法
快速傅里叶变换
性能优化技术
-
Keywords
gpu programming
matrix multiplication
FFT
performance optimization technique
-
分类号
TN911.34
[电子电信—通信与信息系统]
TP312
[自动化与计算机技术—计算机软件与理论]
-
-
题名缓存结构GPU矩阵乘法算法的自动优化
- 2
-
-
作者
李晓雯
崔翔
殷瑞杰
刘强
-
机构
防空兵学院指挥控制系
河南大学计算机与信息工程学院
-
出处
《现代电子技术》
2014年第10期137-140,共4页
-
基金
国家自然科学基金(61240045)
博士后科学基金(2013M540821)
河南省教育厅科学技术研究重点项目(13A520065)
-
文摘
讨论在Fermi结构GPU使用CUDA对GEMM(单精度和双精度)算法进行优化,以及Fermi体系结构的新特性(如缓存)对性能的影响。GPU缓存一方面可以提高处理器在运行时数据访问的局部性,另一方面使得代码性能对与性能相关算法参数的依赖变得不可预测。自动优化技术可以用来解决这一问题。自动优化的SGEMM和DGEMM代码在Tesla C2050 GPU上达到了563GFlops和253GFlops的性能。代码使用CUDA和C语言进行实现,未进行二进制代码级别的优化。
-
关键词
gpu程序设计
矩阵乘法
自动优化
GEMM模板
-
Keywords
gpu programming
matrix multiplication
automatic optimization
GEMM template
-
分类号
TN40
[电子电信—微电子学与固体电子学]
TP312
[自动化与计算机技术—计算机软件与理论]
-