期刊文献+
共找到22篇文章
< 1 2 >
每页显示 20 50 100
一种嵌入式FPU的设计与实现 被引量:3
1
作者 王迎春 经彤 +3 位作者 马婉良 张盛兵 樊晓桠 高德远 《电子学报》 EI CAS CSCD 北大核心 1999年第10期119-121,共3页
本文介绍了自主设计实现的浮点部件NRSFPU(Northwestern Polytechnical University RISCSystem′sFloating Point Unit).为了优化设计规模和速度,在体系结... 本文介绍了自主设计实现的浮点部件NRSFPU(Northwestern Polytechnical University RISCSystem′sFloating Point Unit).为了优化设计规模和速度,在体系结构设计中采用了有效策略,并给出了NRSFPU 中复杂运算指令流程的设计.通过布局布线后的结果看出,该设计规模小,速度高。 展开更多
关键词 浮点部件 fpu NRSfpu 浮点执行部件 FXU
在线阅读 下载PDF
NRS FPU中浮点乘、除运算的合并设计 被引量:2
2
作者 王迎春 高德远 +1 位作者 樊晓桠 牟澄宇 《计算机研究与发展》 EI CSCD 北大核心 2000年第3期313-318,共6页
NRS FPU是西北工业大学航空微电子中心研制的具有自主版权的协处理器.文中面向嵌入式应用描述了 NRS FPU通用路径下浮点乘、除的合并设计.主要讨论了迭代计数器、除索引寄存器与乘数寄存器的合用、BOOTH译码逻辑与... NRS FPU是西北工业大学航空微电子中心研制的具有自主版权的协处理器.文中面向嵌入式应用描述了 NRS FPU通用路径下浮点乘、除的合并设计.主要讨论了迭代计数器、除索引寄存器与乘数寄存器的合用、BOOTH译码逻辑与除法的查找表结合、以及数据缩放与移位部件的共用.并结合具体实现,对浮点除算法中实现较复杂的商位产生算法进行了改进.与其它几种常见的处理器比较显示,NRS FPU规模小、速度高,是嵌入式应用的最佳选择. 展开更多
关键词 BOOTH 浮点处理器 fpu 浮点运算 设计
在线阅读 下载PDF
基于RISC⁃V的五级流水线浮点SoC设计
3
作者 刘兴通 汤永华 +3 位作者 张志鹏 王腾川 荣弘扬 周程堉 《现代电子技术》 北大核心 2025年第14期57-62,共6页
RISC-V是一种开源指令集架构,其高度可定制化的特性在嵌入式系统领域展现出较强的应用潜力与优势。针对目前嵌入式处理器在视频解码和音频处理等方面对浮点数运算的需求,设计一种包含浮点处理单元(FPU)的片上系统(SoC)。SoC中的CPU是基... RISC-V是一种开源指令集架构,其高度可定制化的特性在嵌入式系统领域展现出较强的应用潜力与优势。针对目前嵌入式处理器在视频解码和音频处理等方面对浮点数运算的需求,设计一种包含浮点处理单元(FPU)的片上系统(SoC)。SoC中的CPU是基于RISC-V指令集设计的五级流水线结构,其中包括RV32I基本指令集、M和F扩展指令集,以AXI4-Lite为片内总线并挂载UART、SPI、TIMER等基本外设。在FPGA上对SoC功能进行软硬件协同仿真测试,测试结果显示,CPU CoreMark跑分结果为3.31 CoreMark/MHz,并能完整运行外设程序,实现了完整的SoC功能设计。 展开更多
关键词 RISC-V 浮点处理单元 片上系统 五级流水线 FPGA AXI4-Lite
在线阅读 下载PDF
基于硬件FPU的姿态解算系统设计 被引量:2
4
作者 李伟伟 于纪言 《传感器与微系统》 CSCD 2020年第7期89-91,共3页
为了提高四旋翼飞行器姿态解算的速度和姿态估计的精度,提出了一种基于硬件浮点运算单元(FPU)的姿态解算系统。以STM32F407ZET6和MPU9250等作为实验平台,对惯性测量单元(IMU)传感器原始数据进行滑动平均滤波处理后再进行互补滤波算法计... 为了提高四旋翼飞行器姿态解算的速度和姿态估计的精度,提出了一种基于硬件浮点运算单元(FPU)的姿态解算系统。以STM32F407ZET6和MPU9250等作为实验平台,对惯性测量单元(IMU)传感器原始数据进行滑动平均滤波处理后再进行互补滤波算法计算,利用数字信号处理(DSP)库的硬件FPU对互补滤波算法进行加速。实验结果表明:本系统可将姿态解算的速度提高至800Hz,俯仰角、横滚角、偏航角的精度分别提升至±0.17°,±0.26°,±0.03°,满足小型四旋翼飞行器姿态解算的精确性和快速性要求。 展开更多
关键词 互补滤波 姿态解算 四旋翼飞行器 浮点运算单元(fpu) 四元数 MPU9250传感器
在线阅读 下载PDF
二进制翻译中的X86浮点栈处理 被引量:3
5
作者 谢海斌 武成岗 +1 位作者 崔慧敏 李晶 《计算机研究与发展》 EI CSCD 北大核心 2007年第11期1946-1954,共9页
二进制翻译系统是一种基于软件的跨平台代码迁移系统,它将一种体系结构的二进制代码翻译成另一种体系结构的二进制代码.二进制翻译可以用于解决遗产代码的迁移问题,也可以实现不同硬件平台之间软件的通用.浮点栈的处理已成为以X86为源... 二进制翻译系统是一种基于软件的跨平台代码迁移系统,它将一种体系结构的二进制代码翻译成另一种体系结构的二进制代码.二进制翻译可以用于解决遗产代码的迁移问题,也可以实现不同硬件平台之间软件的通用.浮点栈的处理已成为以X86为源的二进制翻译的研究中的关键性问题之一,如何处理X86浮点栈问题直接关系到以X86为源的二进制翻译系统的性能.针对X86浮点寄存器栈的特征,提出了一种扩展虚拟栈(extending virtual stack)处理方案.它采用归一的方法,保证了每个基本块中的运算所涉及到的浮点寄存器可以直接映射到目标机器中的浮点寄存器,确保了翻译的效率,并利用翻译时的分析避免了在入口处不必要的判断;同时还给出了在基本块入口处判别一个基本块是否会出现浮点栈上溢和下溢的充分必要条件,为生成更加高效的代码提供了条件.实验表明,它能够在保证正确实现其功能的前提下,获得更好的执行效率. 展开更多
关键词 二进制翻译 浮点翻译 X86浮点栈 扩展虚拟栈 归一
在线阅读 下载PDF
高性能并行FFT处理器的设计与实现 被引量:10
6
作者 石长振 杨雪 王贞松 《计算机工程》 CAS CSCD 2012年第2期242-244,247,共4页
提出一种高性能并行快速傅里叶变换(FFT)处理器的设计方案,采用4个蝶形单元进行并行处理,利用改进的无冲突操作数地址映射方式,保证每个周期同时读取和写入16个数据。给出该处理器的FPGA实现,性能评测结果表明,与其他FFT处理器相比,该并... 提出一种高性能并行快速傅里叶变换(FFT)处理器的设计方案,采用4个蝶形单元进行并行处理,利用改进的无冲突操作数地址映射方式,保证每个周期同时读取和写入16个数据。给出该处理器的FPGA实现,性能评测结果表明,与其他FFT处理器相比,该并行FFT处理器的性能较优,能满足实际应用需求。 展开更多
关键词 快速傅里叶变换 并行处理 流水线 块浮点 蝶形单元
在线阅读 下载PDF
可配置高速高精度FFT的硬件实现 被引量:8
7
作者 邓波 戎蒙恬 汤晓峰 《计算机工程》 EI CAS CSCD 北大核心 2006年第17期254-256,282,共4页
提出了一种高速、可变长点、混合基8/4/2、浮点的FFT硬件模块化设计方案。设计方案中,改进了基8/4/2混合基算法,能够处理可变长2N(3≤N≤12)采样点;提出了一种乒乓RAM结构和数据地址的组织,可以同时存、取和处理16个数据,保证处理实时性... 提出了一种高速、可变长点、混合基8/4/2、浮点的FFT硬件模块化设计方案。设计方案中,改进了基8/4/2混合基算法,能够处理可变长2N(3≤N≤12)采样点;提出了一种乒乓RAM结构和数据地址的组织,可以同时存、取和处理16个数据,保证处理实时性;采用了超长流水线浮点执行单元,提高了处理结果的精度。目前,该设计已在FPGA上实现,采样点长4k时处理能力为250MSPS。采用0.18μmCMOS工艺综合,4k点时处理能力可达到800MSPS。 展开更多
关键词 混合基 乒乓RAM 浮点执行单元 流水线
在线阅读 下载PDF
DirectX发展及相关GPU通用计算技术综述 被引量:7
8
作者 田绪红 陈茂资 田金梅 《计算机工程与设计》 CSCD 北大核心 2009年第23期5432-5436,5559,共6页
以DirectX最近几个关键版本的更替为主线,介绍了近年来DirectX及相应的图形处理器(GPU)可编程性的发展。详细阐述了GPU编程模型在DirectX不同版本下的特点与性能,包括着色器架构、着色器语言、浮点纹理格式、程序流程控制等几个方面,以... 以DirectX最近几个关键版本的更替为主线,介绍了近年来DirectX及相应的图形处理器(GPU)可编程性的发展。详细阐述了GPU编程模型在DirectX不同版本下的特点与性能,包括着色器架构、着色器语言、浮点纹理格式、程序流程控制等几个方面,以及编程模型方面的不同特点与性能对GPU通用计算带来的影响,并从软件和硬件两方面分析了这一领域未来的机遇和挑战。 展开更多
关键词 图形处理器 通用计算 DIRECTX 着色器 浮点纹理
在线阅读 下载PDF
软刚臂单点系泊系统静力特性分析 被引量:4
9
作者 李鹏 孙丽萍 +2 位作者 马刚 马荣太 王宏伟 《海洋工程》 CSCD 北大核心 2022年第2期26-35,共10页
软刚臂系泊系统是一种利用压载质量为浮式生产储油装置(FPSO)提供回复力的单点系泊方式。为快速准确地评估多铰接组成的软刚臂系统的受力状态,避免应用高复杂度的有限元软件,进而快速完成优化设计等任务,建立一种静力计算方法十分有必... 软刚臂系泊系统是一种利用压载质量为浮式生产储油装置(FPSO)提供回复力的单点系泊方式。为快速准确地评估多铰接组成的软刚臂系统的受力状态,避免应用高复杂度的有限元软件,进而快速完成优化设计等任务,建立一种静力计算方法十分有必要。因此,针对由刚臂(YOKE)、柔性系泊腿和压载舱组成的刚柔多体系统,以分解组合的方式,提出一种二维静力计算方法,用以研究FPSO软刚臂系泊系统的静力特性。该方法主要依靠软刚臂的几何构型,在有限铰接约束下,形成非线性静力平衡方程,建立了压载舱式水上软刚臂单点系泊系统二维静力平衡计算算法。采用OrcaFlex、SESAM等软件开展了理论和数值对比分析,同时与系泊试验结果开展验证分析。对比结果表明,文中所提方法计算精度较高,可为软刚臂单点系泊系统的研究提供可靠支持。 展开更多
关键词 浮式生产储油装置 单点系泊 软刚臂 静力特性 数值
在线阅读 下载PDF
高吞吐率双模浮点可重构FFT处理器设计实现 被引量:4
10
作者 魏星 黄志洪 杨海钢 《电子与信息学报》 EI CSCD 北大核心 2018年第12期3042-3050,共9页
高吞吐浮点可灵活重构的快速傅里叶变换(FFT)处理器可满足尖端雷达实时成像和高精度科学计算等多种应用需求。与定点FFT相比,浮点运算复杂度更高,使得浮点型FFT的运算吞吐率与其实现面积、功耗之间的矛盾问题尤为突出。鉴于此,为降低运... 高吞吐浮点可灵活重构的快速傅里叶变换(FFT)处理器可满足尖端雷达实时成像和高精度科学计算等多种应用需求。与定点FFT相比,浮点运算复杂度更高,使得浮点型FFT的运算吞吐率与其实现面积、功耗之间的矛盾问题尤为突出。鉴于此,为降低运算复杂度,首先将大点数FFT分解成若干个小点数基2k级联子级实现,提出分别针对128/256/512/1024/2048点FFT的优化混合基算法。同时,结合所提出同时支持单通道单精度和双通道半精度两种浮点模式的新型融合加减与点乘运算单元,首次提出一款高吞吐率双模浮点可变点FFT处理器结构,并在28 nm标准CMOS工艺下进行设计并实现。实验结果表明,单通道单精度和双通道半精度浮点两种模式下的运算吞吐率和输出平均信号量化噪声比分别为3.478 GSample/s, 135 dB和6.957 GSample/s, 60 dB。归一化吞吐率面积比相比于现有其他浮点FFT实现可提高约12倍。 展开更多
关键词 快速傅里叶变换 双模浮点 混合基 融合运算单元
在线阅读 下载PDF
浮式生产装置系泊系统设计 被引量:1
11
作者 刘旭平 周楠 +2 位作者 张阳 杜娟 李俊汲 《船海工程》 北大核心 2019年第1期154-157,共4页
针对用于浅水海域作业的浮式生产装置(FPU)设计多点式系泊系统,分析FPU在位期间在风浪流环境条件综合作用下系泊系统系泊链的疲劳特性,结果表明,所设计的系泊系统能够满足FPU在位期间的寿命要求,可保证油田长期生产开发对系泊系统可靠... 针对用于浅水海域作业的浮式生产装置(FPU)设计多点式系泊系统,分析FPU在位期间在风浪流环境条件综合作用下系泊系统系泊链的疲劳特性,结果表明,所设计的系泊系统能够满足FPU在位期间的寿命要求,可保证油田长期生产开发对系泊系统可靠性的要求。 展开更多
关键词 浮式生产装置 系泊系统 疲劳分析
在线阅读 下载PDF
高吞吐率浮点FFT处理器的FPGA实现研究 被引量:5
12
作者 牟胜梅 杨晓东 《计算机工程与科学》 CSCD 2008年第7期98-99,117,共3页
受浮点操作的长流水线延迟及FPGA片上RAM端口数目的限制,传统FFT处理器的吞吐率通常只能达到每周期输出一个复数结果。本文用FPGA设计并实现了一种高吞吐率的IEEE754标准单精度浮点FFT处理器,通过改进蝶形计算单元的结构并重新组织FPGA... 受浮点操作的长流水线延迟及FPGA片上RAM端口数目的限制,传统FFT处理器的吞吐率通常只能达到每周期输出一个复数结果。本文用FPGA设计并实现了一种高吞吐率的IEEE754标准单精度浮点FFT处理器,通过改进蝶形计算单元的结构并重新组织FPGA片上RAM的访问,该处理器每周期平均可输出约两个复数计算结果,吞吐率约为传统FFT处理器吞吐率的两倍。对于1024点FFT变换,可在(512+10)*10=5220周期内完成。 展开更多
关键词 FPGA FFT蝶形单元 3输入浮点加法器
在线阅读 下载PDF
龙芯2号处理器功能部件设计 被引量:1
13
作者 张戈 齐子初 胡伟武 《计算机研究与发展》 EI CSCD 北大核心 2006年第6期967-973,共7页
功能部件是处理器中进行指令运算的核心单元,它的算法及其实现直接影响到处理器的总体性能.介绍了龙芯2号处理器的功能部件,探讨了从算法到物理设计等不同层次的功能部件设计方法.龙芯2号功能部件分为两个定点ALU和两个浮点ALU实现... 功能部件是处理器中进行指令运算的核心单元,它的算法及其实现直接影响到处理器的总体性能.介绍了龙芯2号处理器的功能部件,探讨了从算法到物理设计等不同层次的功能部件设计方法.龙芯2号功能部件分为两个定点ALU和两个浮点ALU实现,除实现完整的MIPS定、浮点指令集外,还实现了龙芯2号类MMX自定义多媒体指令集以及定点操作在浮点部件(FPU)中的数据通路复用.龙芯2号浮点部件遵照IEEE754和MIPS相关标准,浮点加法4拍完成,浮点乘法5拍完成,浮点除法4~17拍完成.物理设计支持0.18μm工艺下主频500MHz的标准单元实现,浮点单精度峰值性能达到2GFLOPS.双精度峰值性能达到1GFLOPS. 展开更多
关键词 龙芯2号处理器 功能部件设计 浮点部件 多媒体指令集
在线阅读 下载PDF
大尺度空间场景可视化中浮点精度问题研究 被引量:1
14
作者 汪荣峰 廖学军 《计算机工程》 CAS CSCD 北大核心 2011年第16期276-278,共3页
在具有极大数值范围的空间场景中实现可视化时,为避免图形处理器以32 bit单精度浮点表示所产生的"Wobbling"、"Pieces"等现象,提出分组分次绘制的解决方法。针对上述现象产生的原因,将场景中的对象分为大实体和小实... 在具有极大数值范围的空间场景中实现可视化时,为避免图形处理器以32 bit单精度浮点表示所产生的"Wobbling"、"Pieces"等现象,提出分组分次绘制的解决方法。针对上述现象产生的原因,将场景中的对象分为大实体和小实体,根据空间场景的特征和对象之间的关系将场景中的对象分组,设计组内对象的绘制方法。实验结果表明,基于以上方法实现的空间场景可视化图像正确稳定。 展开更多
关键词 空间场景 可视化 浮点精度 图形处理器
在线阅读 下载PDF
IEEE754标准浮点测试向量的生成 被引量:2
15
作者 何立强 《计算机工程》 CAS CSCD 北大核心 2004年第19期38-39,64,共3页
介绍了在IEEE754标准的规定下生成用于浮点功能部件的测试向量的方法,讨论了测试向量在数据通路上的差错覆盖率,并给出了对该方法的一些改进措施。
关键词 IEEE754 测试 测试向量 差错覆盖率 浮点功能部件
在线阅读 下载PDF
智能温室环境测控系统专用CPU设计 被引量:1
16
作者 田祎 颜军 《现代电子技术》 2012年第16期160-163,共4页
智能温室是近年逐步发展起来的一种资源节约型高效农业发展技术,目前国内大多以单片机、通用计算机作为温室系统处理器,由于基于单因子和成本问题,其智能化和效率有待提高。在此通过对目前智能温室控制器的分析研究,提出并设计了一款16... 智能温室是近年逐步发展起来的一种资源节约型高效农业发展技术,目前国内大多以单片机、通用计算机作为温室系统处理器,由于基于单因子和成本问题,其智能化和效率有待提高。在此通过对目前智能温室控制器的分析研究,提出并设计了一款16位的的单总线专用CPU,且专门针对于智能温室测控系统设计了一个浮点运算器和n个Comparray比较器,并使用VHDL语言在QuartusⅡ6.0中进行设计与仿真。所以,该CPU不但具有通用CPU的基本特性,而且更具有在农业温室控制系统领域的特殊性。 展开更多
关键词 测控系统 专用CPU Comparvay比较器 VHDL语言
在线阅读 下载PDF
一种精简结构的浮点蝶形运算单元设计
17
作者 于龙洋 段文伟 李署坚 《电讯技术》 北大核心 2011年第9期73-77,共5页
论述了一种结构精简且高效的浮点数蝶形运算单元设计,单元内部模块的使用效率接近100%。采用串行全流水线结构设计,与并行结构相比节省了75%的硬件资源消耗。利用按时间抽取(DIT)的快速傅里叶变换(FFT)算法,通过VHDL编程实现了以该蝶形... 论述了一种结构精简且高效的浮点数蝶形运算单元设计,单元内部模块的使用效率接近100%。采用串行全流水线结构设计,与并行结构相比节省了75%的硬件资源消耗。利用按时间抽取(DIT)的快速傅里叶变换(FFT)算法,通过VHDL编程实现了以该蝶形单元为基础的1 024点浮点FFT处理器。QUARTUS II中的仿真结果证明了设计的正确性。该设计已成功应用于一种音频信号分析仪的信号处理部分。 展开更多
关键词 信号处理 蝶形运算单元 浮点数 快速傅里叶变换 流水线 按时间抽取
在线阅读 下载PDF
多通道气体流量计算机的研制 被引量:3
18
作者 王健军 杨江 刘涵 《计算机应用》 CSCD 北大核心 2012年第A02期203-205,231,共4页
针对目前流量计算机存在成本过高、计算速度较慢等问题,研制了基于内含矢量浮点单元VFP的S3C6410嵌入式微处理器、Linux操作系统和通过内部串行总线联接多达12个流量采样输入通道的气体流量计算机。主要阐述了该流量计算机的硬件和软件... 针对目前流量计算机存在成本过高、计算速度较慢等问题,研制了基于内含矢量浮点单元VFP的S3C6410嵌入式微处理器、Linux操作系统和通过内部串行总线联接多达12个流量采样输入通道的气体流量计算机。主要阐述了该流量计算机的硬件和软件的设计。测试结果表明所设计的气体流量计算机能满足计量精度和实时性的要求。 展开更多
关键词 流量计算机 S3C6410 矢量浮点单元 压缩因子
在线阅读 下载PDF
一种低延迟高吞吐率的浮点整型乘累加单元 被引量:1
19
作者 沈俊 沈海斌 虞玉龙 《计算机工程》 CAS CSCD 2013年第6期91-94,102,共5页
针对目前浮点运算单元在处理向量点乘运算时存在数据相关性的问题,提出一种低延迟单周期的累加单元结构。该结构用于7级流水的可配置乘累加单元,可兼容双精度浮点、双单精度浮点以及32位有符号数,且能对后置模块进行操作数隔离与门控时... 针对目前浮点运算单元在处理向量点乘运算时存在数据相关性的问题,提出一种低延迟单周期的累加单元结构。该结构用于7级流水的可配置乘累加单元,可兼容双精度浮点、双单精度浮点以及32位有符号数,且能对后置模块进行操作数隔离与门控时钟的低功耗处理。在Viterx-4平台上实验结果表明,该结构具有高性能、低延迟、单周期完成数据吞吐等特点,与使用Xilinx浮点IP的设计面积相比,时间积减少30%以上。 展开更多
关键词 浮点运算单元 乘累加 向量点乘 双精度 双单精度
在线阅读 下载PDF
基于GPU的稀疏矩阵存储格式优化研究 被引量:6
20
作者 杨世伟 蒋国平 +1 位作者 宋玉蓉 涂潇 《计算机工程》 CAS CSCD 北大核心 2019年第9期23-31,39,共10页
稀疏矩阵存储格式中的稀疏矩阵向量乘(SpMV)计算效率低下,且分块行列(BRC)存储格式的计算结果缺少再现性和确定性。为此,提出一种改进的BRCP存储格式。采用不同的二维分块策略,根据矩阵各行非零元素分布的统计特性自适应调节分块参数,提... 稀疏矩阵存储格式中的稀疏矩阵向量乘(SpMV)计算效率低下,且分块行列(BRC)存储格式的计算结果缺少再现性和确定性。为此,提出一种改进的BRCP存储格式。采用不同的二维分块策略,根据矩阵各行非零元素分布的统计特性自适应调节分块参数,提高SpMV在GPU平台上的并行性,并设计基于快速分段求和算法的GPU内核函数,保证计算结果的确定性及其在不同GPU平台上的再现性。实验结果表明,BRCP存储格式具有较高的计算效率,相比BRC存储格式可减少并行环境中的SpMV计算误差,并提高PageRank排序的准确率。 展开更多
关键词 稀疏矩阵向量乘 计算统一设备架构 图形处理器 存储格式 浮点运算
在线阅读 下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部