基于高精度乘累加的LU分解加速器的设计被引量：2

Design of a LU Decomposition Accelerator Based on High-Precision Multiplying and Accumulating

在线阅读下载PDF

导出

摘要本文首先分析LU分解中舍入误差的积累过程,建立精度损失与矩阵规模的关系模型来预测大规模LU分解的精度;然后,根据定点加法的简单、快速、无精度损失的特点,设计高精度乘累加器(HPMAcc),并基于此实现一个细粒度并行LU分解加速器。实验结果表明,和高精度软件库QD或MPFR相比,4PE结构的LU分解加速器能够取得100倍的加速比,同时取得90多位的计算精度。 In this paper we analyze the course of rounding error accumulation in the LU decomposition, and create a model, between the loss accuracy of the result and the scale of matrix, to predict the accuracy of large scale LU decompositions. Then, we design a high-precision multiplying-accumulating （HPMAcc） unit in terms of the features of the simple, fast and error-free fixed-point add, and a fine-grain parallel LU decomposition accelerator based on this multiplying-accumulating unit. Compared to the implementation of a high-precision software library such as QD or MPFR, the speed-up factors up to more than 100 are obtained. Meanwhile, more than 90 bits of accuracy can he achieved.

作者雷元武窦勇郭松李鑫雷国庆

机构地区国防科技大学计算机学院

出处《计算机工程与科学》 CSCD 北大核心 2009年第11期33-36,共4页 Computer Engineering & Science

基金国家自然科学基金资助项目(60633050)

关键词舍入误差 LU分解高精度乘累加 rounding error LU decomposition high-precision multiply and accumulate

分类号 TP303 [自动化与计算机技术—计算机系统结构]

作者简介雷元武（1982-），男，湖南桂阳人，博士生，研究方向为高性能体系结构；通讯地址：410073湖南省长沙市国防科技大学计算机学院博士生队；Tel：13607315362；E-mail：yuanwulei@nudt．edu.cn 窦勇，教授，博士生导师，研究方向为高性能体系结构和可重构体系结构。

引文网络
相关文献

参考文献6

1Kogge P, Bergman K, Borkar S, et al. ExaSeale Computing Studing: Technology Challenges in Aehieveing Exaseale Systems[R]. 2008.
2Higham N J. Accuracy and Stablility of Numerical Algorithms [M]. SIAM, Philadelphia, 1996.
3Bailey D H. High-Precision Floating-Point Arithmetic in Scientific Computation [J]. Computing in Science & Engineering. 2005,7(3): 54-61.
4周毓麟,袁国兴.关于科学计算用数字电子计算机字长问题[J].计算机工程与科学,2005,27(10):1-2. 被引量：7
5Kulisch U. Computer Arithmetic and Validity-Theory, Implementation, and Applications [M]. New York: Walter Grayter, 2008.
6Knofel A. A Fast Hardware Units for the Computation of Accurate Dot Products[C]//Proc of the 10th IEEE Syrup on Computer Arithmetic, 1991 : 70-74.

二级参考文献2

1周毓麟.科学计算用数字电子计算机的若干问题[J].数学进展,1989,18(4):433-438. 被引量：1
2周毓麟.关于科学计算用数字电子计算机的字长与速度、内存的匹配关系的讨论[J].数值计算与计算机应用,1980,1:181-192.

共引文献6

1杨灿群,杨学军,易会战,李春江.80位浮点运算的编译实现与优化[J].计算机工程与科学,2009,31(1):154-158. 被引量：2
2张晓霞,郝一正,邵京云,袁国兴.高分辨率数值计算研究[J].计算机工程与科学,2011,33(6):102-107.
3赵高义,郑启龙.BWDSP104X字节寻址模式扩展及64位数据运算模拟实现[J].计算机工程,2016,42(8):14-18. 被引量：1
4马旭.超高精度计算程序设计实例[J].计算机工程与应用,2017,53(14):51-55. 被引量：2
5李超,焦义文,傅诗媛,高泽夫,毛飞龙.基于GPU的数字下变频累积误差控制方法[J].系统工程与电子技术,2023,45(4):965-972. 被引量：2
6宇波,禹国军,王艺,李敬法,陈宇杰,孙东亮.CFD/NHT教学中若干易混淆概念的综合辨析教学方法[J].力学与实践,2023,45(4):920-927. 被引量：1

同被引文献11

1郭磊,唐玉华,周杰,董亚卓.基于FPGA的Cholesky分解细粒度并行结构与实现[J].计算机研究与发展,2011,48(S1):258-265. 被引量：4
2刘青昆,聂晓娜,马丽,宫利东.Cholesky分解并行算法的性能评测[J].辽宁师范大学学报（自然科学版）,2009,32(1):58-60. 被引量：5
3石斌斌,王展,钱林杰,程翥,皇甫堪.一种基于分块下三角分解的子空间GNSS抗干扰方法[J].国防科技大学学报,2011,33(2):157-162. 被引量：2
4魏婵娟,张春水,刘健.一种基于Cholesky分解的快速矩阵求逆方法设计[J].电子设计工程,2014,22(1):159-161. 被引量：22
5张错玲.基于MATLAB的Cholesky分解法解线性方程组[J].长春师范学院学报（自然科学版）,2014,33(5):4-8. 被引量：2
6董李梅.基于空时联合抗干扰算法的复矩阵求逆[J].电讯技术,2015,55(7):792-796. 被引量：4
7刘书勇,林俊宇,吴艳霞,张博为.基于矩阵三角化分解的Cholesky分解及FPGA并行结构设计[J].清华大学学报（自然科学版）,2016,56(9):963-968. 被引量：7
8胡铁乔,张毛毛,李阳波.可配置Cholesky分解矩阵求逆的FPGA实现[J].中国民航大学学报,2017,35(4):7-10. 被引量：10
9齐志强.基于Cholesky分解的自适应抗干扰算法[J].火力与指挥控制,2019,44(4):150-153. 被引量：4
10陈晓东,李世平,何国强.基于FPGA的Cholesky分解矩阵求逆[J].现代雷达,2019,41(10):58-61. 被引量：9

引证文献2

1陈晓东,李世平,何国强.基于FPGA的Cholesky分解矩阵求逆[J].现代雷达,2019,41(10):58-61. 被引量：9
2朱鹏,叶树霞,杨晓飞.基于浮点数的Cholesky分解FPGA实现[J].计算机与数字工程,2023,51(4):759-762.

二级引证文献9

1周金强,凤继锋.基于FPGA的复数矩阵求逆设计[J].现代计算机,2020,26(15):83-87. 被引量：5
2笪涵,胡圣波.基于Cholesky矩阵分解的贝叶斯压缩感知信号处理[J].贵州师范大学学报（自然科学版）,2021,39(1):72-76.
3高彦钊,王建明,雷志勇,张宇,陶常勇.分布式机会阵雷达拟态信号处理方法[J].现代雷达,2021,43(11):1-8. 被引量：2
4王彬彬,易卿武,高铭,盛传贞,应俊俊,杨建雷,赵精博.基于SVD和Cholesky求逆方法的精密单点定位研究[J].西安邮电大学学报,2022,27(2):32-39. 被引量：6
5王卫江,张拓锋,蒋荣堃,李泽英,王晓华,谭志昕,薛丞博.ESPRIT算法广义逆矩阵求解的快速FPGA实现[J].北京理工大学学报,2022,42(11):1200-1206. 被引量：1
6高彦钊,陶常勇.信号处理与深度学习硬件加速的一致性计算结构[J].国防科技大学学报,2023,45(2):112-120. 被引量：3
7张奇昌,李智.基于FPGA的改进Cholesky求逆算法设计[J].科学与信息化,2023(9):88-90.
8朱鹏,叶树霞,杨晓飞.基于浮点数的Cholesky分解FPGA实现[J].计算机与数字工程,2023,51(4):759-762.
9安国臣,刘若凡,赵满,袁玉鑫,王晓君.基于现场可编程门阵列的矩阵求逆算法设计[J].科学技术与工程,2024,24(10):4140-4147.

1胡塘,刘文波,于盛林.FIR滤波器的一种新型设计方法[J].现代电子技术,2004,27(21):32-33. 被引量：3
2陈爽,陈雷,孙国欣,刘闪,刘茂华,辛向利.32位DSP乘法器分析与设计[J].电子工程师,2007,33(11):49-51. 被引量：1
3周泉,曹辉,闫博,杨靓.高性能图像匹配电路乘累加性能分析[J].微电子学与计算机,2014,31(8):56-60.
4钱艺,王沁,吴巍,刘金龙.神经网络并行MIMD处理器的研究及实现[J].电子科技大学学报,2008,37(6):904-907.
5国静,李良荣.串并分布式算法的研究及其实现[J].科技信息,2009(2):73-74.
6李世平,陈铠.基于FPGA的全流水浮点乘累加器的设计及实现[J].电子技术与软件工程,2016(2):140-142.
7冯大辉.网站运维之道续谈[J].程序员,2009(3):84-85.
8潘明,叶玉堂,陈东明,蒲亮,陈瑜.AdaBoost高速并行字符识别算法应用[J].计算机工程与设计,2011,32(7):2417-2420.
9黄琼,冯军焕.混合协同过滤个性化推荐算法研究[J].计算机光盘软件与应用,2014,17(4):111-113. 被引量：2
10马小薇.基于压缩感知的OMP图像重构算法改进[J].电子科技,2015,28(4):51-53. 被引量：10

计算机工程与科学

2009年第11期

浏览历史

内容加载中请稍等...

基于高精度乘累加的LU分解加速器的设计被引量：2

参考文献6

二级参考文献2

共引文献6

同被引文献11

引证文献2

二级引证文献9

相关作者

相关机构

相关主题

浏览历史

基于高精度乘累加的LU分解加速器的设计 被引量：2

参考文献6

二级参考文献2

共引文献6

同被引文献11

引证文献2

二级引证文献9

相关作者

相关机构

相关主题

浏览历史

基于高精度乘累加的LU分解加速器的设计被引量：2