期刊文献+
共找到10篇文章
< 1 >
每页显示 20 50 100
基于多类型计算重写的浮点表达式精度优化方法 被引量:1
1
作者 郝江伟 杨鸿儒 +3 位作者 夏媛媛 刘毅 许瑾晨 庞建民 《计算机科学》 CSCD 北大核心 2024年第4期86-94,共9页
表达式重写是精度优化领域的新兴方法,其核心思想是在不改变表达式精度类型的前提下,将其变换为语义上等价的表达式以尝试提升精度。然而,面对庞大的变换规则和变换空间,如何选取合适的变换策略成为了重写方法的问题所在。针对上述问题... 表达式重写是精度优化领域的新兴方法,其核心思想是在不改变表达式精度类型的前提下,将其变换为语义上等价的表达式以尝试提升精度。然而,面对庞大的变换规则和变换空间,如何选取合适的变换策略成为了重写方法的问题所在。针对上述问题,提出了一个基于多类型计算重写的浮点表达式精度优化方法,支持包括函数计算、四则运算的表达式,并实现了表达式重写工具exprAuto。区别于其他精度优化工具侧重于对子表达式的替换,exprAuto更注重对表达式运算顺序的变换。exprAuto在对表达式化简和数学变换后,通过多项式变换获取不同的计算顺序,并尝试减少运算次数以提升精度,最终生成一个包含不同计算顺序的等价表达式集合,通过排序筛选和误差检测从中选出最终的精度优化结果。文中选取41个FPBench标准集中的表达式和18个常见数学函数的近似多项式作为测试用例,在经exprAuto优化后,所提方法相比原式最大误差降低了45.92%,平均误差降低了34.98%;针对其中的18个近似多项式,相比原式最大误差降低了58.35%,平均误差降低了43.73%。实验结果表明,exprAuto可以有效提升表达式尤其是多项式的精度。 展开更多
关键词 浮点计算 精度优化 重写变换
在线阅读 下载PDF
基于QEMU的SIMD指令替换浮点指令框架
2
作者 刘登峰 李东亚 +2 位作者 柴志雷 周浩杰 丁海峰 《湖南大学学报(自然科学版)》 EI CAS CSCD 北大核心 2024年第8期70-77,共8页
现在,几乎每个处理器架构都已经加入了对SIMD(single instruction multiple data)指令的支持,SIMD指令能同时对一组数据执行相同的操作,通过数据并行来提高处理器的处理性能.但是大部分动态二进制翻译器忽略了本地SIMD指令的利用,而是... 现在,几乎每个处理器架构都已经加入了对SIMD(single instruction multiple data)指令的支持,SIMD指令能同时对一组数据执行相同的操作,通过数据并行来提高处理器的处理性能.但是大部分动态二进制翻译器忽略了本地SIMD指令的利用,而是以软件语言实现来模拟浮点计算.本文提出了一种基于QEMU翻译系统的FP-QEMU框架,FP-QEMU框架采用SIMD指令来优化替换浮点计算指令,并在X86和ARM平台上完成了完整的浮点实现.该框架可以识别动态二进制翻译系统中的浮点计算优化机会并利用SIMD指令来提升系统翻译的性能.采用SPEC 2006作为测试基准,实验表明相比QEMU,FP-QEMU跨平台的ARM应用在X86计算机上运行的最高加速比可达51.5%,平均加速比达到37.42%. 展开更多
关键词 SIMD QEMU 动态二进制翻译 浮点计算
在线阅读 下载PDF
SIMD-to-RVV动态二进制翻译中的跨架构编程模型适配优化
3
作者 赖远明 李亚龙 +3 位作者 胡瀚之 谢梦瑶 王喆 武成岗 《计算机研究与发展》 北大核心 2025年第6期1469-1491,共23页
RISC-V因其开源和模块化设计等特性,已在嵌入式领域取得显著成功,并逐步向高性能计算(HPC)领域拓展.面向HPC的RISC-V硬件(如Sophon SG2042多核处理器)已展现出与x86/ARM同类型产品相当的性能水平,但不完善的软件生态是阻碍其发展的最大... RISC-V因其开源和模块化设计等特性,已在嵌入式领域取得显著成功,并逐步向高性能计算(HPC)领域拓展.面向HPC的RISC-V硬件(如Sophon SG2042多核处理器)已展现出与x86/ARM同类型产品相当的性能水平,但不完善的软件生态是阻碍其发展的最大障碍之一.开发了面向RISC-V的进程级动态二进制翻译(DBT)器RVBT,用于将成熟的x86软件生态移植到RISC-V平台,加速RISC-V在HPC领域的应用进程.针对HPC程序广泛依赖SIMD指令的特性,聚焦于解决SIMD与RVV间显著的编程模型差异导致的翻译性能瓶颈问题,提出了3项创新的优化方案.x86SIMD将数据类型硬编码于操作码,而RVV需动态配置vtype和掩码寄存器,这导致直接翻译产生了大量冗余操作,严重拉低了翻译运行的效率.通过充分利用程序数据类型的局部性,优化方案可删除跨架构适配编程模型导致的冗余设置,混合使用浮点扩展和向量扩展翻译SIMD指令并按需同步数据,大幅提升了SIMD指令的翻译运行效率.3项优化方案具备通用性,也适用于ARM平台的SIMD到RVV的翻译.实验表明,以SPECCPU2006作为测试集,优化方案对csrr,vsetvl,vsetvli指令的平均动态消除率分别达到了100%,100%和56.31%,在浮点测试集上,掩码设置操作的平均动态消除率达到了74.66%,数据的平均动态同步率为67.35%.优化后的RVBT在整点和浮点测试集上的平均运行效率达到了本地执行的47.39%和40.06%,相比优化前的加速比分别为1.21和8.31,并远超QEMU18.84%和4.81%,展现出了应用于部分HPC场景的潜力. 展开更多
关键词 二进制翻译 RISC-V向量扩展 x86SIMD 跨架构编程模型适配 浮点计算 冗余设置消除 混合翻译
在线阅读 下载PDF
用浮点方法为“M—3”机编程序
4
《东北师大学报(哲学社会科学版)》 1960年第3期134-137,共4页
本文目的在于给出“M-3”电子数字计算机上编程序的一种方法——浮点方法并且用这个方法来研究解线代数方程组的双正交法程序设计〔1〕。我们知道,电子数字计算机根据所用的数据范围可以分为定点计算机和浮点计算机。
关键词 电子数字计算 编程序 运算 线代数方程组 程序设计 计算 浮点计算 数字部分 运算器 算子
在线阅读 下载PDF
国产SW26010-Pro处理器上3级BLAS函数众核并行优化 被引量:3
5
作者 胡怡 陈道琨 +5 位作者 杨超 马文静 刘芳芳 宋超博 孙强 史俊达 《软件学报》 EI CSCD 北大核心 2024年第3期1569-1584,共16页
BLAS(basic linear algebra subprograms)是最基本、最重要的底层数学库之一.在一个标准的BLAS库中,BLAS 3级函数涵盖的矩阵-矩阵运算尤为重要,在许多大规模科学与工程计算应用中被广泛调用.另外,BLAS 3级属于计算密集型函数,对充分发... BLAS(basic linear algebra subprograms)是最基本、最重要的底层数学库之一.在一个标准的BLAS库中,BLAS 3级函数涵盖的矩阵-矩阵运算尤为重要,在许多大规模科学与工程计算应用中被广泛调用.另外,BLAS 3级属于计算密集型函数,对充分发挥处理器的计算性能有至关重要的作用.针对国产SW26010-Pro处理器研究BLAS 3级函数的众核并行优化技术.具体而言,根据SW26010-Pro的存储层次结构,设计多级分块算法,挖掘矩阵运算的并行性.在此基础上,基于远程内存访问(remote memory access,RMA)机制设计数据共享策略,提高从核间的数据传输效率.进一步地,采用三缓冲、参数调优等方法对算法进行全面优化,隐藏直接内存访问(direct memory access,DMA)访存开销和RMA通信开销.此外,利用SW26010-Pro的两条硬件流水线和若干向量化计算/访存指令,还对BLAS 3级函数的矩阵-矩阵乘法、矩阵方程组求解、矩阵转置操作等若干运算进行手工汇编优化,提高了函数的浮点计算效率.实验结果显示,所提出的并行优化技术在SW26010-Pro处理器上为BLAS 3级函数带来了明显的性能提升,单核组BLAS 3级函数的浮点计算性能最高可达峰值性能的92%,多核组BLAS 3级函数的浮点计算性能最高可达峰值性能的88%. 展开更多
关键词 BLAS 3级 SW26010-Pro众核处理器 直接内存访问 远程内存访问 浮点计算效率
在线阅读 下载PDF
JPEG2000中9/7离散小波变换二进制系数实现 被引量:14
6
作者 刘在德 郑南宁 +1 位作者 刘跃虎 兰旭光 《西安交通大学学报》 EI CAS CSCD 北大核心 2003年第12期1211-1215,共5页
基于实数的二进制表示法,把CDF(Cohen,DaubechiesandFeauveau)9/7双正交小波基的提升系数化为二进制,采用简单的移位-加操作代替结构复杂的浮点乘法器,从而实现了JPEG2000中9/7离散小波变换的定点计算.相对于浮点计算法,移位-加操作最... 基于实数的二进制表示法,把CDF(Cohen,DaubechiesandFeauveau)9/7双正交小波基的提升系数化为二进制,采用简单的移位-加操作代替结构复杂的浮点乘法器,从而实现了JPEG2000中9/7离散小波变换的定点计算.相对于浮点计算法,移位-加操作最大的优点是计算简单,特别易于超大规模集成电路实现,因而使硬件实时处理图像信号成为可能.实验仿真结果表明:在低压缩比的情况下,用移位-加操作重构的图像,其峰值信噪比(PSNR)只比浮点法低0.10dB,当压缩比增大时,其PSNR值略好于浮点法. 展开更多
关键词 离散小波变换 计算 浮点计算 提升 移位-加操作
在线阅读 下载PDF
两轮驱动移动机器人控制系统的研制 被引量:3
7
作者 李瑞峰 黄超 孙中远 《机械设计与制造》 北大核心 2011年第6期157-159,共3页
描述了两轮驱动移动机器人的控制系统,它以控制芯片TMS320F2812为基础,通过对电机的精确控制来实现移动机器人的左转、右转、前进、后退等功能,在电机控制中,完成了对速度和位置的闭环控制,通过对电机的速度和位置的设定,可以实现移动... 描述了两轮驱动移动机器人的控制系统,它以控制芯片TMS320F2812为基础,通过对电机的精确控制来实现移动机器人的左转、右转、前进、后退等功能,在电机控制中,完成了对速度和位置的闭环控制,通过对电机的速度和位置的设定,可以实现移动机器人的一些基本的运动功能。DSP通过对电机数据进行处理,得到当前移动机器人的位姿坐标,取其中的位置坐标画出实际轨迹图,通过该图来看移动机器人的运动效果。 展开更多
关键词 移动机器人 电机控制 浮点计算 TMS320F2812
在线阅读 下载PDF
基于SIMD扩展部件的长向量超越函数实现方法 被引量:2
8
作者 刘聃 郭绍忠 +1 位作者 郝江伟 许瑾晨 《计算机科学》 CSCD 北大核心 2021年第6期26-33,共8页
基础数学函数库是计算机系统非常关键的软件模块,然而国产申威平台上的长向量超越函数只能依靠循环调用系统标量函数来间接实现,该方法无法充分发挥申威平台SIMD扩展部件的计算性能。为了有效解决此问题,实现了申威平台基于SIMD扩展部... 基础数学函数库是计算机系统非常关键的软件模块,然而国产申威平台上的长向量超越函数只能依靠循环调用系统标量函数来间接实现,该方法无法充分发挥申威平台SIMD扩展部件的计算性能。为了有效解决此问题,实现了申威平台基于SIMD扩展部件底层优化的长向量超越函数,提出了浮点计算融合算法,解决了两分支结构算法难以向量化的问题;提出了基于Estrin算法动态分组的大阶数多项式实现方法,提高了多项式汇编计算的流水性能。这是在国产申威平台上首次实现长向量超越函数库,提供的函数接口包含三角函数、反三角函数、对数函数、指数函数等。实验结果表明,双精度版本最大误差控制在3.5ULP(unit in the last place)以下,单精度版本最大误差控制在0.5ULP以下,该性能与申威平台直接循环调用系统标量函数相比有显著提高,平均加速比为3.71。 展开更多
关键词 基础数学库 向量超越函数 国产平台 流水优化 浮点计算
在线阅读 下载PDF
日本“京”跨越1亿亿次
9
《计算机研究与发展》 EI CSCD 北大核心 2011年第12期2410-2410,共1页
日本RIKEN高级计算科学研究院(AICS)、富士通宣布,世界上最快的超级计算机"京"(K Computer)已经成功提速,Linpack测试的最大计算性能达到了10.51PFlops,也就是每秒钟1.051亿亿次浮点计算,
关键词 日本 LINPACK 超级计算 科学研究院 计算性能 浮点计算 富士通
在线阅读 下载PDF
Design of area and power efficient Radix-4 DIT FFT butterfly unit using floating point fused arithmetic 被引量:2
10
作者 Prabhu E Mangalam H Karthick S 《Journal of Central South University》 SCIE EI CAS CSCD 2016年第7期1669-1681,共13页
In this work, power efficient butterfly unit based FFT architecture is presented. The butterfly unit is designed using floating-point fused arithmetic units. The fused arithmetic units include two-term dot product uni... In this work, power efficient butterfly unit based FFT architecture is presented. The butterfly unit is designed using floating-point fused arithmetic units. The fused arithmetic units include two-term dot product unit and add-subtract unit. In these arithmetic units, operations are performed over complex data values. A modified fused floating-point two-term dot product and an enhanced model for the Radix-4 FFT butterfly unit are proposed. The modified fused two-term dot product is designed using Radix-16 booth multiplier. Radix-16 booth multiplier will reduce the switching activities compared to Radix-8 booth multiplier in existing system and also will reduce the area required. The proposed architecture is implemented efficiently for Radix-4 decimation in time(DIT) FFT butterfly with the two floating-point fused arithmetic units. The proposed enhanced architecture is synthesized, implemented, placed and routed on a FPGA device using Xilinx ISE tool. It is observed that the Radix-4 DIT fused floating-point FFT butterfly requires 50.17% less space and 12.16% reduced power compared to the existing methods and the proposed enhanced model requires 49.82% less space on the FPGA device compared to the proposed design. Also, reduced power consumption is addressed by utilizing the reusability technique, which results in 11.42% of power reduction of the enhanced model compared to the proposed design. 展开更多
关键词 floating-point arithmetic floating-point fused dot product Radix-16 booth multiplier Radix-4 FFT butterfly fast fouriertransform decimation in time
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部