-
题名定制VLIW结构实现四精度浮点基本函数
被引量:1
- 1
-
-
作者
雷元武
窦勇
倪时策
周杰
-
机构
国防科学技术大学计算机学院
-
出处
《电子学报》
EI
CAS
CSCD
北大核心
2012年第9期1715-1722,共8页
-
基金
国家自然科学基金(No.61125201)
-
文摘
本文针对科学应用中基本函数种类多、实现复杂、使用频率低的特点,提出一种定制VLIW结构四精度浮点基本函数协处理器(QPC-Processor).该结构通过显示并行技术挖掘基本函数实现算法的并行性,在同一硬件平台上通过元操作的不同组合来计算多种基本函数.同时,本文还提出基本函数元操作序列到定制VLIW指令的映射算法,指导基本函数的设计.最后,在FPGA平台上进行验证.实验结果表明,相对软件实现,单个QPC-Processor能够取得6倍以上的加速比,而且,QFC-Processor在同一硬件平台上实现多种类型的算法,弥补单一算法的不足,获得较高的硬件资源利用率.
-
关键词
四精度浮点算术
超长指令字
基本函数
CORDIC算法
-
Keywords
quadruple precision floating-point arithmetic
very long instruction word(VLIW)
elementary function
CORDIC algorithm
-
分类号
TN302
[电子电信—物理电子学]
-
-
题名基于FPGA的高精度科学计算加速器研究
被引量:10
- 2
-
-
作者
雷元武
窦勇
郭松
-
机构
国防科学技术大学计算机学院
-
出处
《计算机学报》
EI
CSCD
北大核心
2012年第1期112-122,共11页
-
基金
国家"八六三"高技术研究发展计划项目基金(2008AA01A201)
国家自然科学基金重点项目(60833004
61125201)资助~~
-
文摘
探索了FPGA平台加速高精度科学计算应用的能力和灵活性.首先,研究科学计算中最常用的操作——向量内积,提出基于定点操作的精确向量内积算法.以IEEE 754-2008标准的四精度(Quadruple Precision)浮点算术为例,在FPGA平台上设计了一个基于全展开方法的全流水四精度浮点乘累加单元(QPMAC):提出两级存储策略精确存储乘累加和;采用保留进位累加策略减少定点加法器位宽、简化进位处理、优化关键路径;引入累加和划分策略,实现流水吞吐率.最后,在XC5VLX330FPGA芯片上设计一个LU分解和MGS-QR分解加速器原型来验证QPMAC的性能.实验结果表明,与运行在Intel四核处理器上的基于OpenMP的并行算法相比,集成4个QP-MAC单元的加速器能获得42倍到97倍的性能提升,并且能获得更高结果精度和更低能量消耗.
-
关键词
四精度浮点算术
LU分解
MGS-QR分解
FPGA
硬件加速器
E量级计算
-
Keywords
quadruple precision floating-point arithmetic
LU decomposition
MGS-QR decomposition
FPGA
hardware accelerator
ExeScale computation
-
分类号
TP302
[自动化与计算机技术—计算机系统结构]
-