期刊文献+
共找到43篇文章
< 1 2 3 >
每页显示 20 50 100
NA-ROB:基于RISC-V超标量处理器的改进 被引量:1
1
作者 景超霞 刘杰 +1 位作者 李洪奎 刘红海 《计算机应用研究》 北大核心 2025年第2期519-522,共4页
重排序缓存(ROB)是超标量处理器中的重要模块,用于确保乱序执行的指令能够正确地完成和提交。然而,在大规模超标量处理器中,存在ROB阻塞以及ROB容量有限的问题。为了解决上述问题并提高处理器性能,提出了零寄存器分配策略,通过将没有目... 重排序缓存(ROB)是超标量处理器中的重要模块,用于确保乱序执行的指令能够正确地完成和提交。然而,在大规模超标量处理器中,存在ROB阻塞以及ROB容量有限的问题。为了解决上述问题并提高处理器性能,提出了零寄存器分配策略,通过将没有目的寄存器的指令单独存储来避免占用ROB表项。同时,引入容量可动态调整的缓存结构(AROB),将长延时指令与普通指令分别存储在ROB和AROB中,以降低长延时指令导致的阻塞。改进后的超标量处理器被命名为NA-ROB,经过SPEC 2006基准测试程序的实验评估,结果表明,NA-ROB超标量处理器相比于传统的ROB超标量处理器,平均IPC提升了66%,同时ROB的阻塞概率降低了48%。因此,所提出的改进方法显著提升了处理器的整体性能和效率。 展开更多
关键词 risc-V指令集 超标量处理器 ROB AROB 零寄存器分配策略
在线阅读 下载PDF
基于多操作数的RISC-V指令集设计与功能优化方法
2
作者 张钰儿 席宇浩 刘鹏 《计算机工程与科学》 北大核心 2025年第6期968-975,共8页
RISC-V架构凭借其开放性和模块化的指令集架构(ISA)设计,为特定应用及其软件生态系统的定制指令集成提供了良好支持,使其能够高效处理复杂算法并执行重复性操作。然而,由于操作数数量的限制,为RISC-V处理器设计加速指令仍面临挑战。传... RISC-V架构凭借其开放性和模块化的指令集架构(ISA)设计,为特定应用及其软件生态系统的定制指令集成提供了良好支持,使其能够高效处理复杂算法并执行重复性操作。然而,由于操作数数量的限制,为RISC-V处理器设计加速指令仍面临挑战。传统处理器加速方法通常采用“2输入1输出”模型,这在一定程度上限制了复杂操作的灵活性与执行效率。为突破该限制,提出了一种多操作数增强指令集的设计方法。该方法通过引入多操作数加速机制,突破了传统模型的结构性约束,为多输入多输出任务提供了灵活的指令接口。为验证所提机制的有效性,基于Western Digital开源的RISC-V VeeR EH1处理器核实现了该设计,并在FPGA平台上进行了基准测试,涵盖SHA-256,SHA-1以及FIR/IIR滤波器等典型算法。实验结果表明,在FPGA平台上的逻辑资源开销控制在3%以内的情况下,处理器性能最高提升可达14%。与传统“2输入1输出”加速方法相比,所提出的增强指令集设计能够显著提升RISC-V在复杂任务处理中的性能,展示了其在嵌入式计算和专用加速领域的潜在优势。 展开更多
关键词 risc-V 自定义指令 软硬件协同设计
在线阅读 下载PDF
支持FPGA动态重构的RISC-V扩展指令集设计与实现
3
作者 周炫锦 蔡刚 黄志洪 《计算机工程》 北大核心 2025年第5期229-238,共10页
目前实现动态重构的常用方法是通过片上接口进行配置,一般采用现场可编程门阵列(FPGA)官方提供的动态重构控制知识产权(IP)核,并通过系统总线与处理器相连。这种方法会占用较多静态部分的逻辑资源,并且限制了片上接口的运行频率。针对... 目前实现动态重构的常用方法是通过片上接口进行配置,一般采用现场可编程门阵列(FPGA)官方提供的动态重构控制知识产权(IP)核,并通过系统总线与处理器相连。这种方法会占用较多静态部分的逻辑资源,并且限制了片上接口的运行频率。针对这些问题,提出将FPGA抽象为大规模存储器的设计理念,构建DPRC动态重构控制指令集及配套应用程序编程接口(API),以优化逻辑资源占用量,消除缓冲延迟。指令集的实现以原有RV32IMC为基础,采用微指令序列控制片上接口部分,通过与数据通路紧密耦合来减少逻辑资源使用量,使用参数化多周期方案优化时序并确保通用性。实验结果表明,与传统方法相比,该系统中动态重构功能相关逻辑资源占用量减少84%,频率提高312%。相较于原有处理器,添加扩展指令集后处理器自身资源占用量仅增加5%,最差情况下扩展部分对时钟周期的影响小于0.2 ns,表明该动态重构控制方案具有低成本、高主频的特性。 展开更多
关键词 risc-V指令集 扩展指令集 动态重构 FPGA技术 大规模存储器
在线阅读 下载PDF
面向RISC-V适配开发的x86 built-in函数转换方法 被引量:1
4
作者 丁志远 朱家鑫 +1 位作者 吴国全 王伟 《广西大学学报(自然科学版)》 CAS 北大核心 2024年第3期620-636,共17页
新兴架构RISC-V的生态建设需要将其他架构函数或软件包向RISC-V架构迁移适配。在研究GCC特定架构适配的built-in函数向RISC-V架构迁移时,提出一套x86到RISC-V的built-in函数转换方法,对于非扩展指令集(属非向量类型)built-in函数,采用RI... 新兴架构RISC-V的生态建设需要将其他架构函数或软件包向RISC-V架构迁移适配。在研究GCC特定架构适配的built-in函数向RISC-V架构迁移时,提出一套x86到RISC-V的built-in函数转换方法,对于非扩展指令集(属非向量类型)built-in函数,采用RISC-V架构下相同功能的built-in或标准库函数替代;对于SSE扩展指令集built-in函数,建立数据类型映射和向量函数操作映射实现向RISC-V架构向量扩展函数或标准库函数的迁移,其中RVV函数迁移方式占比67%。实验结果表明:方法迁移的程序功能正确,方法有效。本文方法对其他扩展指令集built-in函数的迁移提供了指导,且与现有工作相比,更易扩展、覆盖面更广。 展开更多
关键词 函数迁移 built-in函数 指令扩展集 risc-V迁移
在线阅读 下载PDF
基于数据流架构的NTT蝶式计算加速
5
作者 石泓博 范志华 +4 位作者 李文明 张志远 穆宇栋 叶笑春 安学军 《计算机研究与发展》 北大核心 2025年第6期1547-1561,共15页
全同态加密(fully homomorphic encryption,FHE)因其在计算全过程中保持数据加密的能力,为云计算等分布式环境中的隐私保护提供了重要支撑,具有广泛的应用前景.然而,FHE在计算过程中普遍存在运算复杂度高、数据局部性差以及并行度受限... 全同态加密(fully homomorphic encryption,FHE)因其在计算全过程中保持数据加密的能力,为云计算等分布式环境中的隐私保护提供了重要支撑,具有广泛的应用前景.然而,FHE在计算过程中普遍存在运算复杂度高、数据局部性差以及并行度受限等问题,导致其在实际应用中的性能严重受限.其中,快速数论变换(number theoretic transform,NTT)作为FHE中关键的基础算子,其性能对整个系统的效率具有决定性影响.针对NTT中的核心计算模式--蝶式(butterfly)计算,提出一种基于数据流计算模型的NTT加速架构.首先,设计面向NTT蝶式计算的RVFHE扩展指令集,定制高效的模乘与模加/模减运算单元,以提升模运算处理效率.其次,提出一种NTT数据重排方法,并结合结构化的蝶式地址生成策略,以降低跨行列数据交换的控制复杂度与访问冲突.最后,设计融合数据流驱动机制的NTT加速架构,通过数据依赖触发方式实现高效的片上调度与数据复用,从而充分挖掘操作级并行性.实验结果表明,与NVIDIA GPU相比,提出的架构获得了8.96倍的性能提升和8.53倍的能效提升;与现有的NTT加速器相比,所提架构获得了1.37倍的性能提升. 展开更多
关键词 数据流 全同态加密 NTT算法 蝶式计算 risc-V指令集
在线阅读 下载PDF
基于RISC-V的图卷积神经网络加速器设计 被引量:4
6
作者 周理 赵祉乔 +2 位作者 潘国腾 铁俊波 赵王 《计算机工程与科学》 CSCD 北大核心 2023年第12期2113-2120,共8页
图卷积神经网络GCN当前主要在PyTorch等深度学习框架上基于GPU实现加速。然而GCN的运算过程包含多层嵌套的矩阵乘法和数据访存操作,使用GPU虽然可以满足实时性需求,但是部署代价大、能效比低。为了提高GCN算法的计算性能并保持软件灵活... 图卷积神经网络GCN当前主要在PyTorch等深度学习框架上基于GPU实现加速。然而GCN的运算过程包含多层嵌套的矩阵乘法和数据访存操作,使用GPU虽然可以满足实时性需求,但是部署代价大、能效比低。为了提高GCN算法的计算性能并保持软件灵活性,提出一种基于RSIC-V SoC的定制GCN加速器,在蜂鸟E203的SoC平台中通过点积运算扩展指令和硬件加速器软硬件协同的方法实现了针对GCN的加速,通过神经网络参数分析确定了从浮点数到32位定点数的硬件量化方案。实验结果表明,在Cora数据集上运行GCN算法时,该加速器没有精度损失,速度最高提高了6.88倍。 展开更多
关键词 risc-V 图卷积神经网络 硬件加速器 指令集
在线阅读 下载PDF
基于RISC的MPEG-4音频解码软件优化 被引量:1
7
作者 梅优良 刘鹏 +1 位作者 周建 陈科明 《浙江大学学报(工学版)》 EI CAS CSCD 北大核心 2007年第4期603-606,692,共5页
为了提高MPEG-4先进音频编码(AAC)的解码效率,提出了在通用32位精简指令集计算机(reduced in-struction set computing,RISC)上实现MPEG-4 AAC低复杂度框架解码的软件优化技术.解码过程可以分成比特流解码部分和运算部分.应用存储器分... 为了提高MPEG-4先进音频编码(AAC)的解码效率,提出了在通用32位精简指令集计算机(reduced in-struction set computing,RISC)上实现MPEG-4 AAC低复杂度框架解码的软件优化技术.解码过程可以分成比特流解码部分和运算部分.应用存储器分层结构加速比特流解码;基于运算过程、对象和乘法运算的优化技术提高运算部分的解码效率.结果表明,在35 MHz的处理器频率上实现了立体声实时解码,提高了解码效率. 展开更多
关键词 MPEG-4 先进音频编码 精简指令集计算机 瞬时噪声整形
在线阅读 下载PDF
基于动态时序裕量压缩的高性能处理器设计
8
作者 连子涵 何卫锋 《计算机工程与科学》 北大核心 2025年第2期219-227,共9页
传统的同步电路设计方法根据静态时序分析得到的关键路径确定工作频率,但是关键路径并不是每个周期都会被激发,在关键路径和实际激发路径之间存在动态时序裕量。为此,提出了一种基于指令级时序裕量压缩的高性能处理器设计方法,旨在最大... 传统的同步电路设计方法根据静态时序分析得到的关键路径确定工作频率,但是关键路径并不是每个周期都会被激发,在关键路径和实际激发路径之间存在动态时序裕量。为此,提出了一种基于指令级时序裕量压缩的高性能处理器设计方法,旨在最大化压缩动态时序裕量从而获得性能提升。搭建了时序分析平台自动化获取指令时序;设计了一种时序编码策略,在不增加硬件开销的基础上将时序信息通过指令编码传递到硬件,并在硬件层设计了时序译码及仲裁电路,根据指令时序编码相应调节时钟周期,从而实现了指令级动态时序裕量压缩。在一款基于RISC-V指令集的超标量处理器上完成所提方法的仿真验证,结果表明,相比传统设计方法,通过该方法最高可获得31%的性能提升。 展开更多
关键词 时序裕量 高性能 处理器 risc-V
在线阅读 下载PDF
基于CISC/RISC的混合指令集构建 被引量:2
9
作者 陈瑞森 《现代电子技术》 2007年第16期49-52,共4页
CISC与RISC是微处理器设计中的2种主要指令体系,他们各具优势,共存共融是其发展方向之一。首先介绍了硬件上基于CISC/RISC的混合架构设计,然后重点具体介绍CISC/RISC混合指令集的构建方法,并以65C02S的指令集为例,通过仿真说明了按该方... CISC与RISC是微处理器设计中的2种主要指令体系,他们各具优势,共存共融是其发展方向之一。首先介绍了硬件上基于CISC/RISC的混合架构设计,然后重点具体介绍CISC/RISC混合指令集的构建方法,并以65C02S的指令集为例,通过仿真说明了按该方法构建的混合指令集在基于CISC/RISC混合架构的硬件上运行具有良好的优势。 展开更多
关键词 CISC risc 指令集 微处理器
在线阅读 下载PDF
基于现场可编程门阵列的RISC处理器设计 被引量:1
10
作者 东野长磊 《计算机工程》 CAS CSCD 北大核心 2011年第11期242-244,共3页
基于现场可编程门阵列(FPGA)平台,设计嵌入式精简指令集计算机(RISC)中央处理器(CPU)。参考无内部互锁流水级微处理器(MIPS)指令集制定原则设计CPU指令集,通过分析指令处理过程构建嵌入式CPU的5级流水线,结合数据前推技术和软件编译方... 基于现场可编程门阵列(FPGA)平台,设计嵌入式精简指令集计算机(RISC)中央处理器(CPU)。参考无内部互锁流水级微处理器(MIPS)指令集制定原则设计CPU指令集,通过分析指令处理过程构建嵌入式CPU的5级流水线,结合数据前推技术和软件编译方法解决流水线相关性问题,并实现CPU的算术逻辑单元、控制单元、指令cache等关键模块设计。验证结果表明,该嵌入式RISC CPU的速度和稳定性均达到设计要求。 展开更多
关键词 现场可编程门阵列 精简指令集计算机处理器 流水线相关性 算术逻辑单元
在线阅读 下载PDF
基于FPGA的32位RISC微处理器设计 被引量:4
11
作者 刘览 郑步生 施慧彬 《数据采集与处理》 CSCD 北大核心 2011年第3期367-373,共7页
提出了一种与MIPS32指令集兼容的32位RISC微处理器(HP-MIPS)的设计方法。在对经典的MIPS体系结构分析之后,对处理器的整体结构进行重新划分,通过增加流水线级数设计出一种拥有8级流水线的微处理器数据路径结构,并且对设计中由于增加流... 提出了一种与MIPS32指令集兼容的32位RISC微处理器(HP-MIPS)的设计方法。在对经典的MIPS体系结构分析之后,对处理器的整体结构进行重新划分,通过增加流水线级数设计出一种拥有8级流水线的微处理器数据路径结构,并且对设计中由于增加流水线级数而引入的流水线数据冲突问题给出了完整的解决方案。此外还设计了一种流水线结构的动态分支预测器用以解决微处理器分支冒险问题,其优点在于既能降低微处理器的CPI,同时又不会使流水线出现局部逻辑拥堵从而降低微处理器的主频。最后给出了设计的综合结果,并对该设计进行了软件仿真和硬件验证。在FPGA芯片上的运行时钟频率可达146.628 MHz。 展开更多
关键词 精简指令集计算机 微处理器 流水线 分支预测
在线阅读 下载PDF
基于SoC-FPGA的RISC-V处理器软硬件系统级平台 被引量:5
12
作者 齐乐 常轶松 +4 位作者 陈欲晓 张旭 陈明宇 包云岗 张科 《计算机研究与发展》 EI CSCD 北大核心 2023年第6期1204-1215,共12页
构建软硬件系统级原型平台是处理器设计硅前测试中必不可少的环节.为适应基于开放指令集RISC-V的开源处理器设计需求,简化现有基于FPGA的处理器系统级原型平台构建方法,提出了一套基于SoC-FPGA的处理器敏捷软硬件原型平台,以实现目标软... 构建软硬件系统级原型平台是处理器设计硅前测试中必不可少的环节.为适应基于开放指令集RISC-V的开源处理器设计需求,简化现有基于FPGA的处理器系统级原型平台构建方法,提出了一套基于SoC-FPGA的处理器敏捷软硬件原型平台,以实现目标软硬件设计的快速部署与系统级原型高效评测.针对上述目标,发掘紧耦合SoC-FPGA器件的潜力,构建了一套RISC-V软核与ARM硬核(SoC侧)之间的信息交互机制.通过共享内存和虚拟核间中断等方法,可使目标RISC-V处理器灵活使用平台丰富的I/O外设资源,并充分利用硬核ARM处理器算力协同运行复杂软件系统.此外,为提升软硬件系统级平台的敏捷性,构建了灵活可配置的云上自动化开发框架.通过对平台上目标RISC-V软核处理器各方面的分析评估,验证了该平台可有效缩短系统级测试的迭代周期,提升RISC-V处理器软硬件原型评测效率. 展开更多
关键词 硅前系统级平台 软硬件全系统评估 risc-V指令集处理器 SoC-FPGA
在线阅读 下载PDF
基于RISC-V的卷积神经网络专用指令集处理器 被引量:5
13
作者 廖汉松 吴朝晖 李斌 《计算机工程》 CAS CSCD 北大核心 2021年第7期196-204,共9页
针对x86和ARM商用架构CPU因专利、授权导致定制成本过高和灵活性不够的问题,面向物联网领域提出一种基于RISC-V开源指令集的卷积神经网络(CNN)专用指令集处理器。通过自定义拓展指令调用加速器对轻量化CNN中的卷积和池化操作进行加速,... 针对x86和ARM商用架构CPU因专利、授权导致定制成本过高和灵活性不够的问题,面向物联网领域提出一种基于RISC-V开源指令集的卷积神经网络(CNN)专用指令集处理器。通过自定义拓展指令调用加速器对轻量化CNN中的卷积和池化操作进行加速,提高终端设备能效。在此过程中,配置CNN各层信息控制加速器进行分组运算,以适应不同大小的输入数据,同时调整加速器的数据通路,对耗时操作进行单独或结合运算,以适应不同的轻量化网络。FPGA平台验证结果表明,该处理器在100 MHz工作频率下推理Squeeze Net网络,耗时约40.89 ms,功耗为1.966 W,较手机处理器单核计算速度更快,与AMD Ryzen7 3700X、NVIDIA RTX2070 Super和Qualcomm Snapdragon 835平台相比,其消耗资源少、功耗低,在性能功耗比上也具有优势。 展开更多
关键词 risc-V指令集 卷积神经网络 领域专用架构 专用指令集处理器 硬件加速
在线阅读 下载PDF
支持RISC-V向量指令的汇编器设计与实现 被引量:2
14
作者 邓平 朱小龙 +1 位作者 孙海燕 任怡 《计算机工程与科学》 CSCD 北大核心 2020年第12期2179-2185,共7页
向量运算可以有效提高计算机的运算效率,减少不必要的硬件开销,随着CPU运算能力的提升和寄存器位数扩展等硬件的进一步发展,向量运算成为实际芯片架构设计中最常用的提高处理器性能的技术。受到业界广泛关注的RISC-V体系结构也借助向量... 向量运算可以有效提高计算机的运算效率,减少不必要的硬件开销,随着CPU运算能力的提升和寄存器位数扩展等硬件的进一步发展,向量运算成为实际芯片架构设计中最常用的提高处理器性能的技术。受到业界广泛关注的RISC-V体系结构也借助向量技术提高性能,但目前开源版本的RISC-V汇编器只支持标量指令程序,不支持向量指令的汇编。基于GNU的Binutils汇编器,设计并实现了支持RISC-V向量指令的汇编器,该汇编器可完成向量指令的汇编和反汇编工作,同时其扩展实现也可以为其他指令模块的扩展支持提供参考。 展开更多
关键词 risc-V 向量指令 指令集 汇编器
在线阅读 下载PDF
基于FPGA快速实现定制化RISC-V处理器 被引量:4
15
作者 陆松 蒋句平 任会峰 《计算机工程与科学》 CSCD 北大核心 2022年第10期1747-1752,共6页
随着RISC-V指令集的流行,出现了一批应用于IoT智能硬件、嵌入式系统、人工智能芯片、安全设备及高性能计算等不同领域的开源和商业IP软核。性能、功耗和面积三者之间的平衡需要指令集可裁剪、易扩展,以及软件开发环境的配套支持。为此,... 随着RISC-V指令集的流行,出现了一批应用于IoT智能硬件、嵌入式系统、人工智能芯片、安全设备及高性能计算等不同领域的开源和商业IP软核。性能、功耗和面积三者之间的平衡需要指令集可裁剪、易扩展,以及软件开发环境的配套支持。为此,按照增加自定义指令、扩展ALU功能单元、连接控制信号和数据通路、FPGA原型验证、定制交叉编译环境和应用程序测试的流程,基于FPGA快速实现了定制化RISC-V处理器。以加速矩阵运算为例,基于FPGA在开源IP蜂鸟E203上设计了一条计算向量内积的自定义指令,并在FPGA上进行了原型验证。应用测试程序表明,定制化的RISC-V处理器的计算性能有显著提升,矩阵乘法运算的性能加速比达到了5.3~7.6。 展开更多
关键词 risc-V 指令集 定制化 处理器 FPGA
在线阅读 下载PDF
以RISC-V为目标的动态二进制翻译代码质量优化方法 被引量:1
16
作者 余子濠 陈璐 +1 位作者 孙凝晖 包云岗 《计算机研究与发展》 EI CSCD 北大核心 2023年第10期2322-2334,共13页
动态二进制翻译是解决一款指令集面临生态系统壁垒问题的主流技术,通过将二进制程序从源指令集翻译成目标指令集,可以在目标指令集的处理器上运行源指令集的应用程序.动态二进制翻译技术的一大挑战是如何生成高质量的目标指令序列,尤其... 动态二进制翻译是解决一款指令集面临生态系统壁垒问题的主流技术,通过将二进制程序从源指令集翻译成目标指令集,可以在目标指令集的处理器上运行源指令集的应用程序.动态二进制翻译技术的一大挑战是如何生成高质量的目标指令序列,尤其当源指令集和目标指令集存在差异时.为探究该问题,以RISC-V64指令集为目标指令集,分析了当RISC-V64,RISC-V32,MIPS32,x86分别作为源指令集时,影响动态二进制翻译技术翻译质量的因素.针对这些因素,分别提出相应优化方法,并借助RISC-V B扩展和RISC-V P扩展中的部分指令提升翻译质量.最后,提出一个新的动态二进制翻译程序DBT-FEMU实现优化.在模拟器和FPGA中的评估数据显示,运行SPEC CPU2006的整数基准程序时,优化方法可使目标程序所执行的动态指令数平均减少57%,平均性能达QEMU-i386的4.12倍. 展开更多
关键词 动态二进制翻译 risc-V 指令集 翻译质量 优化
在线阅读 下载PDF
用于IToF传感器的极低功耗RISC-V专用处理器设计 被引量:4
17
作者 黄正伟 刘宏伟 徐渊 《计算机工程》 CAS CSCD 北大核心 2022年第9期146-154,共9页
IToF深度探测技术是当前主流的3D感知实现方案之一,该技术的核心部件是IToF传感芯片。随着当今社会数字化与智能化进程的加快,各科技领域对IToF传感芯片的需求日益提高,然而IToF传感芯片产能的提升引起了由芯片运行所带来的功耗问题。针... IToF深度探测技术是当前主流的3D感知实现方案之一,该技术的核心部件是IToF传感芯片。随着当今社会数字化与智能化进程的加快,各科技领域对IToF传感芯片的需求日益提高,然而IToF传感芯片产能的提升引起了由芯片运行所带来的功耗问题。针对IToF传感器设计一款基于第五代精简指令集架构(RISC-V)的极低功耗专用处理器IToF-miniRV。IToF-miniRV包含支持RV32I指令集、RV32M指令集和自定义IToF型指令的处理器,以及用于加速深度计算和光幅度运算的IToF硬件加速器。将IToF-miniRV处理器与蜂鸟E203、PULPissimo这两款开源的基于RISC-V的超低功耗处理器分别部署在Xilinx Zynq-7000芯片上,进行FPGA资源使用情况和运行功耗的对比实验,结果表明,相比蜂鸟E203和PULPissimo,IToF-miniRV处理器的FPGA资源使用率分别减少5.2和10.9个百分点,运行功耗分别下降37.6%和89.7%。 展开更多
关键词 光电传感器 硬件加速器 专用处理器 第五代精简指令集架构 现场可编程门阵列
在线阅读 下载PDF
嵌入式RISC-V乱序执行处理器的研究与设计 被引量:8
18
作者 李雨倩 焦继业 +1 位作者 刘有耀 郝振和 《计算机工程》 CAS CSCD 北大核心 2021年第2期261-267,284,共8页
为满足嵌入式设备小面积高性能的需求,设计一种基于开源RISC-V指令集的32位可综合乱序处理器。处理器包括分支预测、相关性处理等关键技术,支持RISC-V基本整数运算、乘除法以及压缩指令集。采用具有顺序单发射、乱序执行、乱序写回等特... 为满足嵌入式设备小面积高性能的需求,设计一种基于开源RISC-V指令集的32位可综合乱序处理器。处理器包括分支预测、相关性处理等关键技术,支持RISC-V基本整数运算、乘除法以及压缩指令集。采用具有顺序单发射、乱序执行、乱序写回等特性的三级流水线结构,运用哈佛体系结构及AHB总线协议,可满足并行访问指令与数据的需求。在Artix-7(XC7A35T-L1CSG324I)FPGA开发板上以50MHz时钟频率完成功能验证,测试功耗为7.9mW。实验结果表明,在SMIC110nm的ASIC技术节点上进行综合分析,并在同等条件下与ARM CortexM3等处理器进行对比,该系统面积减少64%,功耗降低0.57mW,可用于小面积低功耗的嵌入式领域。 展开更多
关键词 risc-V指令集 嵌入式应用 乱序处理器 微体系结构 三级流水线
在线阅读 下载PDF
基于RISC-V浮点指令集FPU的研究与设计 被引量:6
19
作者 潘树朋 刘有耀 +1 位作者 焦继业 李昭 《计算机工程与应用》 CSCD 北大核心 2021年第3期80-86,共7页
针对目前浮点运算软件实现速度慢,不能满足嵌入式处理器实时性要求以及运算种类有限等问题,提出了一种基于RISC-V指令集的浮点处理器,能够执行加法、减法、乘法、除法、平方根、乘累加以及比较运算,完全符合IEEE 754-2008标准。在VCS仿... 针对目前浮点运算软件实现速度慢,不能满足嵌入式处理器实时性要求以及运算种类有限等问题,提出了一种基于RISC-V指令集的浮点处理器,能够执行加法、减法、乘法、除法、平方根、乘累加以及比较运算,完全符合IEEE 754-2008标准。在VCS仿真环境下对浮点处理器进行了功能验证,各模块均能满足正确性要求。将浮点处理器与一款开源处理器核蜂鸟E203集成,使用SMIC 0.18工艺库完成了逻辑综合,并在FPGA上对设计进行了测试。结果表明,该浮点处理器的逻辑门数仅为24200,吞吐量为150 MFLOPS,与已公开文献的设计方案相比,硬件面积分别减少7%、1.5%。综合运行频率可达100 MHz。 展开更多
关键词 浮点处理器 risc-V指令集 微处理器 IEEE 754-2008标准 逻辑综合
在线阅读 下载PDF
基于RISC-V的神经网络卷积算法的研究与优化 被引量:3
20
作者 苗瑞霞 张雪兰 +1 位作者 谭星浩 方华启 《计算机工程与设计》 北大核心 2022年第3期668-676,共9页
为加速嵌入式平台ARM CMSIS-NN上的神经网络卷积算法,提出一种面向开源RISC-V(精简指令级架构第五代)的卷积算法。采用RISC-V的P拓展指令集中特有的8位数据操作指令,优化ARM CMSIS-NN(微处理器软件接口标准)库中因为缺少DSP指令8位数据... 为加速嵌入式平台ARM CMSIS-NN上的神经网络卷积算法,提出一种面向开源RISC-V(精简指令级架构第五代)的卷积算法。采用RISC-V的P拓展指令集中特有的8位数据操作指令,优化ARM CMSIS-NN(微处理器软件接口标准)库中因为缺少DSP指令8位数据操作指令而带来的内存使用效率不高的不足。经实验仿真和下板验证,在蜂鸟E203 FPGA开发板上以16 MHz的时钟频率完成功能验证,与同等实验室实验情况下的arm-cortex-m3等设备相比,性能提升约12倍。 展开更多
关键词 ARM CMSIS-NN risc-V 神经网络卷积算法 DSP指令集 蜂鸟E203 FPGA
在线阅读 下载PDF
上一页 1 2 3 下一页 到第
使用帮助 返回顶部