-
题名面向GPU的通用矩阵乘法计算的容错研究
- 1
-
-
作者
包冲
张善从
-
机构
中国科学院大学
中国科学院空间应用工程与技术中心
-
出处
《微电子学与计算机》
2021年第1期22-26,32,共6页
-
基金
载人航天工程预研项目(18128060301)。
-
文摘
矩阵计算是GPU最擅长的工作之一,NVIDIA公司在CUDA中提供了线性代数库cuBLAS,用于矩阵和向量相关的计算.但是GPU容易受到电磁或者宇宙射线影响,而发生"位"反转问题,从而发生静默数据损坏错误.针对这个问题,利用基于算法的容错方法,提出了带容错的,用于通用矩阵乘法计算的方法,并以CUDA库函数的方式实现.论文讨论了算法的原理,用一种高效的方法实现了容错计算,并提出了一个低开销、高准确率的阈值计算方法用于在线的快速纠错和检错.在两款嵌入式GPU平台上对带容错功能的GEMM库函数进行了评估,其纠错和检错能力与预期一致,并且在大部分情况下,额外性能开销能够控制在50%以内,证明了该GEMM函数可以在较低的性能开销情况下,能够很好的实现GEMM计算的检错和纠错,在某些结果-关键的高性能计算中,具有一定的实用价值.
-
关键词
通用矩阵乘法
基于算法的容错
静默数据损坏
浮点运算
校验和
检错与纠错
-
Keywords
General Matrix Multiplication(GEMM)
Algorithm Based Fault Tolerant(ABFT)
Silent Data Corruption(SDC)
Floating Point Calculation
Checksum
Error Detection and Correction
-
分类号
TN911-34
[电子电信—通信与信息系统]
TP312
[自动化与计算机技术—计算机软件与理论]
-