期刊文献+
共找到2,001篇文章
< 1 2 101 >
每页显示 20 50 100
碳纤维增强树脂复合材料制孔技术研究进展
1
作者 袁艳萍 郭筱然 +2 位作者 王文博 陈磊 汪洋 《北京工业大学学报》 北大核心 2025年第7期835-850,共16页
碳纤维增强树脂复合材料是以碳纤维为增强体、树脂为基体的复合材料,因其质量轻、耐腐蚀、抗疲劳等优良特性,逐渐替代了许多传统金属材料,广泛应用于航空航天、车辆制造、船舶运输等领域。碳纤维增强树脂复合材料的各向异性及非均质特... 碳纤维增强树脂复合材料是以碳纤维为增强体、树脂为基体的复合材料,因其质量轻、耐腐蚀、抗疲劳等优良特性,逐渐替代了许多传统金属材料,广泛应用于航空航天、车辆制造、船舶运输等领域。碳纤维增强树脂复合材料的各向异性及非均质特性给加工带来了极大挑战和困难,尤其是大型复合材料的连接装配避免不了小孔结构的加工,但是孔周围产生的应力集中会显著降低连接件的抗疲劳性能。基于此,该文系统综述了碳纤维增强树脂复合材料的制孔方法及其特点。首先,阐述了不同加工工艺下碳纤维增强树脂复合材料制孔的研究进展,并分析了不同工艺下产生的主要缺陷,包括孔的表面形貌特征(如边沿毛刺、撕裂、热影响区、表面粗糙度等)和孔的侧壁形貌特征(如纤维分层、孔锥度、侧壁粗糙度等)。其次,针对复材层板的强度和破坏模式,综述了孔加工对复材层板性能的影响。最后,总结和讨论了碳纤维增强树脂复合材料制孔技术的发展趋势和前景。 展开更多
关键词 碳纤维增强树脂复合材料 孔加工 缺陷 工艺研究 开孔拉伸 数值模拟
在线阅读 下载PDF
NA-ROB:基于RISC-V超标量处理器的改进 被引量:1
2
作者 景超霞 刘杰 +1 位作者 李洪奎 刘红海 《计算机应用研究》 北大核心 2025年第2期519-522,共4页
重排序缓存(ROB)是超标量处理器中的重要模块,用于确保乱序执行的指令能够正确地完成和提交。然而,在大规模超标量处理器中,存在ROB阻塞以及ROB容量有限的问题。为了解决上述问题并提高处理器性能,提出了零寄存器分配策略,通过将没有目... 重排序缓存(ROB)是超标量处理器中的重要模块,用于确保乱序执行的指令能够正确地完成和提交。然而,在大规模超标量处理器中,存在ROB阻塞以及ROB容量有限的问题。为了解决上述问题并提高处理器性能,提出了零寄存器分配策略,通过将没有目的寄存器的指令单独存储来避免占用ROB表项。同时,引入容量可动态调整的缓存结构(AROB),将长延时指令与普通指令分别存储在ROB和AROB中,以降低长延时指令导致的阻塞。改进后的超标量处理器被命名为NA-ROB,经过SPEC 2006基准测试程序的实验评估,结果表明,NA-ROB超标量处理器相比于传统的ROB超标量处理器,平均IPC提升了66%,同时ROB的阻塞概率降低了48%。因此,所提出的改进方法显著提升了处理器的整体性能和效率。 展开更多
关键词 RISC-V指令集 超标量处理器 ROB AROB 零寄存器分配策略
在线阅读 下载PDF
四级流水线堆栈处理器研究与设计
3
作者 朱恒宇 周永录 +1 位作者 刘宏杰 代红兵 《计算机工程与设计》 北大核心 2025年第1期265-273,共9页
针对现有堆栈处理器主频较低的问题,设计一种16位的四级流水线堆栈处理器ZP16。采用冯诺伊曼结构与J1指令集,具有数据堆栈和返回堆栈两个独立堆栈。四级流水线包括取指、译码、执行和回写。通过合理的结构设计与流水线冲刷技术解决ZP16... 针对现有堆栈处理器主频较低的问题,设计一种16位的四级流水线堆栈处理器ZP16。采用冯诺伊曼结构与J1指令集,具有数据堆栈和返回堆栈两个独立堆栈。四级流水线包括取指、译码、执行和回写。通过合理的结构设计与流水线冲刷技术解决ZP16中流水线冒险问题。实验结果表明,在Xilinx XC7A100T FPGA目标芯片上,ZP16的运行主频稳定在230 MHz。与J1堆栈处理器相比,ZP16流水线加速比为1.3,资源占用率基本相当,功耗增加8%,主频提升130%。与其它同类型堆栈处理器在不同的目标芯片上进行比较,ZP16主频有较为明显的提升。 展开更多
关键词 堆栈处理器 流水线 现场可编程门阵列 主频 加速比 资源占用率 功耗
在线阅读 下载PDF
单边弯针缝合头的分析与设计
4
作者 许景浩 董九志 +2 位作者 孙宁宁 陈云军 李锐 《毛纺科技》 北大核心 2025年第6期98-104,共7页
为了解决传统缝合工艺应用于复合材料预制体时缝合空间与角度受限的问题,基于单边弯针缝合工艺提出一种新型单边弯针缝合头设计方案。通过优化链式线迹并创新性设计弧线回环线迹,实现对多层碳布预制体的贯穿与非贯穿交替缝合,提升铺叠... 为了解决传统缝合工艺应用于复合材料预制体时缝合空间与角度受限的问题,基于单边弯针缝合工艺提出一种新型单边弯针缝合头设计方案。通过优化链式线迹并创新性设计弧线回环线迹,实现对多层碳布预制体的贯穿与非贯穿交替缝合,提升铺叠拼接效率。通过单伺服电机驱动同步传动机构协调2个曲柄摇杆末端弯针与钩线针的精准配合,结合导纱机构与可调压脚机构,确保缝合过程的稳定性。运用接触力学理论并借助Workbench软件对弯针进行力学性能仿真,确定其直径为2.2 mm。最终研制的缝合头可有效突破传统缝合工艺的空间与角度限制,为复合材料预制体高效高质量缝合成型提供技术支撑。 展开更多
关键词 单边弯针缝合工艺 单边弯针缝合头 弯针设计 强度校核
在线阅读 下载PDF
精度动态可调无符号近似乘法器设计
5
作者 刘伟佳 唐溪琴 +4 位作者 李犇 刘康 李阳 刘清惓 尚德龙 《小型微型计算机系统》 北大核心 2025年第11期2790-2797,共8页
近似计算作为一种提高芯片能效的有效方法,已受到工业界和学术界的广泛关注和研究.把近似计算与硬件电路相结合的设计方法,可以在满足更多计算精度的需求下有效提升系统性能、并降低系统功耗,这在可容错应用中具有良好的应用前景.本文... 近似计算作为一种提高芯片能效的有效方法,已受到工业界和学术界的广泛关注和研究.把近似计算与硬件电路相结合的设计方法,可以在满足更多计算精度的需求下有效提升系统性能、并降低系统功耗,这在可容错应用中具有良好的应用前景.本文提出一种精度可调的加法电路,及基于此加法器的精度动态可调的无符号近似乘法器(UAMDAA),通过调整外部精度控制信号,使得UAMDAA近似乘法器可以在8种不同精度模式下工作.UAMDAA近似乘法器在精度最低的工作模式下的面积、功耗和延迟,相比精确乘法器分别降低了60%、58%、27%.并开展了误差分析、硬件开销分析以及该乘法器的图像处理应用分析,实验结果表明,本文提出的UAMDAA近似乘法器和现有的研究成果相比,在精度、硬件指标以及输出图像质量方面具有明显的优势. 展开更多
关键词 近似乘法器 近似计算 近似压缩器 图像处理
在线阅读 下载PDF
面向深度学习编译器的多粒度量化框架支持与优化
6
作者 魏铭康 李嘉楠 +3 位作者 韩林 高伟 赵荣彩 王洪生 《计算机工程》 北大核心 2025年第5期62-72,共11页
随着各大厂商对大模型应用部署需求的激增,深度学习编译器TVM(Tensor Virtual Machine)的单一量化方式精度下降,已无法满足部署需求。设计并构建一种可选粒度的模型量化框架,具体包括逐层与逐通道量化流程的支持,以及阈值搜索与自适应... 随着各大厂商对大模型应用部署需求的激增,深度学习编译器TVM(Tensor Virtual Machine)的单一量化方式精度下降,已无法满足部署需求。设计并构建一种可选粒度的模型量化框架,具体包括逐层与逐通道量化流程的支持,以及阈值搜索与自适应舍入优化算法的实现。首先,基于量化模块“relay.quantize”构建信息标注、阈值校准与量化图实现的框架流程,并添加粒度属性以显式识别量化方式。其次,针对预定义校准方法无法确定有效量化信息的问题,对量化中的阈值校准、权重舍入进行调优,提高量化后模型精度。实验采用ImageNet数据集对视觉网络进行测试,针对MobileNetV1新量化方案将8 bit量化后模型精度损失降低到2.3%,调优后该损失降低到0.7%,实验结果表明多粒度量化框架可有效降低量化误差。 展开更多
关键词 模型量化 模型部署 模型压缩 推理加速 深度学习编译器
在线阅读 下载PDF
微处理器性能分析与优化:基于SPEC CPU2017的对比研究
7
作者 徐晗 郭振江 肖俊华 《高技术通讯》 北大核心 2025年第3期241-249,共9页
运行标准测试程序是进行微处理器设计空间探索的基本手段。横向对比分析国内外主流处理器在标准测试程序场景下的各项性能指标,有助于识别国产处理器的性能瓶颈,为进一步的性能优化指明方向。本文基于SPEC CPU2017对3款微处理器进行同... 运行标准测试程序是进行微处理器设计空间探索的基本手段。横向对比分析国内外主流处理器在标准测试程序场景下的各项性能指标,有助于识别国产处理器的性能瓶颈,为进一步的性能优化指明方向。本文基于SPEC CPU2017对3款微处理器进行同频性能测试和对比分析,分别是龙芯LA464架构的3A5000微处理器、AMD ZEN1架构的R3-1200以及Intel Skylake架构的i3-9100f。根据测试结果,3A5000定点性能与R3-1200基本相同,比i3-9100f低10%左右;3A5000浮点性能相当于另2款微处理器的70%左右。本文从动态指令数和每周期指令数(instruction per cycle,IPC)2个角度对微处理器进行比较和分析。基于SPEC CPU2017的结果显示,3A5000定点动态指令数和浮点动态指令数分别比另2款微处理器多约10%和25%。在3A5000上使用激进的自动向量化编译优化策略、优化立即数乘法编译效率等手段可以将其性能提升10%左右。3A5000的定点IPC比另外2款微处理器高4%左右,浮点IPC低8%左右。发射宽度、执行单元数量、功能和延迟等微结构参数接近是3款微处理器IPC差别较小的主要原因。 展开更多
关键词 SPEC CPU2017 性能分析 龙芯3A5000 向量化 体系结构
在线阅读 下载PDF
支持FPGA动态重构的RISC-V扩展指令集设计与实现
8
作者 周炫锦 蔡刚 黄志洪 《计算机工程》 北大核心 2025年第5期229-238,共10页
目前实现动态重构的常用方法是通过片上接口进行配置,一般采用现场可编程门阵列(FPGA)官方提供的动态重构控制知识产权(IP)核,并通过系统总线与处理器相连。这种方法会占用较多静态部分的逻辑资源,并且限制了片上接口的运行频率。针对... 目前实现动态重构的常用方法是通过片上接口进行配置,一般采用现场可编程门阵列(FPGA)官方提供的动态重构控制知识产权(IP)核,并通过系统总线与处理器相连。这种方法会占用较多静态部分的逻辑资源,并且限制了片上接口的运行频率。针对这些问题,提出将FPGA抽象为大规模存储器的设计理念,构建DPRC动态重构控制指令集及配套应用程序编程接口(API),以优化逻辑资源占用量,消除缓冲延迟。指令集的实现以原有RV32IMC为基础,采用微指令序列控制片上接口部分,通过与数据通路紧密耦合来减少逻辑资源使用量,使用参数化多周期方案优化时序并确保通用性。实验结果表明,与传统方法相比,该系统中动态重构功能相关逻辑资源占用量减少84%,频率提高312%。相较于原有处理器,添加扩展指令集后处理器自身资源占用量仅增加5%,最差情况下扩展部分对时钟周期的影响小于0.2 ns,表明该动态重构控制方案具有低成本、高主频的特性。 展开更多
关键词 RISC-V指令集 扩展指令集 动态重构 FPGA技术 大规模存储器
在线阅读 下载PDF
基于RISC⁃V的五级流水线浮点SoC设计
9
作者 刘兴通 汤永华 +3 位作者 张志鹏 王腾川 荣弘扬 周程堉 《现代电子技术》 北大核心 2025年第14期57-62,共6页
RISC-V是一种开源指令集架构,其高度可定制化的特性在嵌入式系统领域展现出较强的应用潜力与优势。针对目前嵌入式处理器在视频解码和音频处理等方面对浮点数运算的需求,设计一种包含浮点处理单元(FPU)的片上系统(SoC)。SoC中的CPU是基... RISC-V是一种开源指令集架构,其高度可定制化的特性在嵌入式系统领域展现出较强的应用潜力与优势。针对目前嵌入式处理器在视频解码和音频处理等方面对浮点数运算的需求,设计一种包含浮点处理单元(FPU)的片上系统(SoC)。SoC中的CPU是基于RISC-V指令集设计的五级流水线结构,其中包括RV32I基本指令集、M和F扩展指令集,以AXI4-Lite为片内总线并挂载UART、SPI、TIMER等基本外设。在FPGA上对SoC功能进行软硬件协同仿真测试,测试结果显示,CPU CoreMark跑分结果为3.31 CoreMark/MHz,并能完整运行外设程序,实现了完整的SoC功能设计。 展开更多
关键词 RISC-V 浮点处理单元 片上系统 五级流水线 FPGA AXI4-Lite
在线阅读 下载PDF
基于剪枝与量化的ResNet模型硬件加速方法
10
作者 曾烨林 林栎 赵亮 《计算机工程与设计》 北大核心 2025年第6期1601-1608,共8页
为快速、方便、正确地将卷积神经网络部署于嵌入式平台实现硬件加速,并解决在硬件部署时遇到的模型计算量大、占用存储多、部署困难等问题,提出一种基于ResNet模型的通道剪枝结合混合精度量化的方法,将模型压缩后,部署于神经网络处理器(... 为快速、方便、正确地将卷积神经网络部署于嵌入式平台实现硬件加速,并解决在硬件部署时遇到的模型计算量大、占用存储多、部署困难等问题,提出一种基于ResNet模型的通道剪枝结合混合精度量化的方法,将模型压缩后,部署于神经网络处理器(neural processing unit, NPU)实现硬件加速。在传统的模型剪枝和量化基础上,采用通道剪枝结合混合精度量化的方法,在保证模型性能的前提下最大程度压缩网络模型。硬件部署推理实验结果表明,该方法可实现对原始模型压缩7.75倍,模型推理速度提升2.55倍,实验验证了该方法对ResNet模型的压缩和硬件推理加速具有一定效果。 展开更多
关键词 通道剪枝 神经网络处理器 混合精度量化 硬件加速 模型压缩 卷积神经网络 推理加速
在线阅读 下载PDF
微处理器安全推测执行研究
11
作者 余发洪 唐志敏 《高技术通讯》 北大核心 2025年第8期824-836,共13页
幽灵、熔断等瞬态执行攻击打破了基于微处理器的软件逻辑隔离,给信息系统安全带来了巨大挑战。针对基于软件的防御策略有很高的性能开销且需要升级所有已经存在的软件,学术界提出了很多基于硬件或者软硬件结合的防御策略,但都存在不能... 幽灵、熔断等瞬态执行攻击打破了基于微处理器的软件逻辑隔离,给信息系统安全带来了巨大挑战。针对基于软件的防御策略有很高的性能开销且需要升级所有已经存在的软件,学术界提出了很多基于硬件或者软硬件结合的防御策略,但都存在不能覆盖所有已知攻击和高性能开销等问题。本文深入研究瞬态执行攻击,分析总结其行为模式,提出并建立了一种安全推测执行模型,在保留推测执行带来的微处理器性能增益的前提下,消除了其安全隐患。基于安全推测执行模型,设计并实现了一种安全缓存(Cache),能够抵御基于Cache侧信道的瞬态执行攻击。评估结果表明,安全Cache能够达到安全设计目标。与目前最先进的瞬态执行攻击防御研究GhostMinion相比,安全Cache将安全设计带来的单核性能开销降低了19.18%,多核性能开销基本可以忽略不计。 展开更多
关键词 微处理器 安全 缓存侧信道 幽灵攻击 熔断攻击 瞬态执行攻击
在线阅读 下载PDF
基于X86通用硬件平台的高性能5G核心网UPF实现
12
作者 李勇 马建伟 +2 位作者 应晓冬 娄方亮 蔡茹鋆 《中兴通讯技术》 北大核心 2025年第1期58-62,共5页
5G网络应用对核心网用户面网元(UPF)性能提出了更高要求。研究了基于X86通用硬件平台的高性能5G核心网UPF方案,通过利用第三代至强处理器和800系列网络适配器的内置硬件特性,不需要额外的专用硬件加速器,使UPF整机转发吞吐量可达462 Gbi... 5G网络应用对核心网用户面网元(UPF)性能提出了更高要求。研究了基于X86通用硬件平台的高性能5G核心网UPF方案,通过利用第三代至强处理器和800系列网络适配器的内置硬件特性,不需要额外的专用硬件加速器,使UPF整机转发吞吐量可达462 Gbit/s。该方案对动态设备个性化(DDP)技术进行了深度开发,实现了UPF整机转发吞吐量比前代平台提升334.8%、转发延迟降低50.7%的性能突破,并可以有效节省系统总体成本。 展开更多
关键词 5G核心网 UPF 至强处理器 DDP技术
在线阅读 下载PDF
基于RISC-V的超标量处理器的ROB压缩方法 被引量:1
13
作者 王洁 付丹阳 《计算机工程与科学》 CSCD 北大核心 2024年第7期1185-1192,共8页
RISC-V指令集具有灵活可扩展的优势,向量扩展是其扩展指令集之一。在实现向量扩展时需要将向量指令拆分成多条微指令,如果每条微指令都占用一项重排序缓存(ROB),会存在一定的信息冗余,并且会减少CPU中并行执行的指令(in-flight指令)数量... RISC-V指令集具有灵活可扩展的优势,向量扩展是其扩展指令集之一。在实现向量扩展时需要将向量指令拆分成多条微指令,如果每条微指令都占用一项重排序缓存(ROB),会存在一定的信息冗余,并且会减少CPU中并行执行的指令(in-flight指令)数量,影响处理器性能。基于指令与微指令在ROB中的存储解耦方法,使用一个新的队列(RAB)存储每条微指令的目的寄存器的重命名映射关系等信息,每项ROB只存储其对应指令拆分的微指令的公共信息,ROB与RAB分别控制指令与微指令的提交与回滚,减少了存储信息冗余,缓解了由向量指令拆分的微指令过多导致的in-flight指令数量减少问题。在上述方法的基础上,同时实现了标量指令的ROB压缩,在ROB项数不变的情况下,增加了in-flight指令的最大数量。最终的仿真结果表明,此方法有效提高了处理器性能。 展开更多
关键词 RISC-V 超标量 处理器 ROB压缩
在线阅读 下载PDF
基于RISC-V的IOMMU设计
14
作者 王镇道 班贵龙 +1 位作者 胡锦 焦旭峰 《湖南大学学报(自然科学版)》 EI CAS CSCD 北大核心 2024年第6期187-194,共8页
在半导体技术受到管控的背景下,实现芯片的完全自主可控已成为现今半导体技术发展的重点.由于RISC-V具有开源、应用广泛的特性,研究RISC-V架构对于我国微处理器的自主可控具有重要研究意义.在微处理器系统中,由于物理资源的有限性和直... 在半导体技术受到管控的背景下,实现芯片的完全自主可控已成为现今半导体技术发展的重点.由于RISC-V具有开源、应用广泛的特性,研究RISC-V架构对于我国微处理器的自主可控具有重要研究意义.在微处理器系统中,由于物理资源的有限性和直接访问存储可能潜在危害,DMA访问I/O设备时将会受到诸多限制,从而影响访问性能.目前主流的方法是通过将I/O事务虚拟化,可以很好地解决这一问题.本文首次提出了一种基于RISC-V的I/O虚拟化架构,极大地加速了I/O访问进程,仅花费几个时钟周期就可快速完成I/O设备对内存的DMA请求.本设计将来可以作为IP,集成到RISC-V架构的处理器中,加速I/O设备对内存的访问. 展开更多
关键词 虚拟化 缓存 RISC-V
在线阅读 下载PDF
一种异构多核系统动态调度协处理器设计
15
作者 曾树铭 倪伟 《合肥工业大学学报(自然科学版)》 北大核心 2025年第2期185-195,共11页
为研究异构多核片上系统(multi-processor system on chip,MPSoC)在密集并行计算任务中的潜力,文章设计并实现了一种适用于粗粒度数据特征、面向任务级并行应用的异构多核系统动态调度协处理器,采用了片上缓存、任务输出的多级写回管理... 为研究异构多核片上系统(multi-processor system on chip,MPSoC)在密集并行计算任务中的潜力,文章设计并实现了一种适用于粗粒度数据特征、面向任务级并行应用的异构多核系统动态调度协处理器,采用了片上缓存、任务输出的多级写回管理、任务自动映射、通讯任务乱序执行等机制。实验结果表明,该动态调度协处理器不仅能够实现任务级乱序执行等基本设计目标,还具有极低的调度开销,相较于基于动态记分牌算法的调度器,运行多个子孔径距离压缩算法的时间降低达17.13%。研究结果证明文章设计的动态调度协处理器能够有效优化目标场景下的任务调度效果。 展开更多
关键词 动态调度 硬件调度器 异构多核系统 任务级并行 编程模型 片上缓存 片上网络
在线阅读 下载PDF
Posit浮点部件实现
16
作者 陈子钰 何军 +4 位作者 尹飞 颜世云 杨剑新 文周旺 马启皓 《计算机应用》 北大核心 2025年第S1期163-169,共7页
首先,介绍Posit浮点格式及相关研究现状;其次,设计并实现一组Posit浮点运算指令,包含7条算术运算指令、3条比较指令和14条格式转换指令;最后,实现一个能全流水执行的Posit浮点部件,并评估它的实现性。该部件支持Posit(32,2)、Posit(32,3... 首先,介绍Posit浮点格式及相关研究现状;其次,设计并实现一组Posit浮点运算指令,包含7条算术运算指令、3条比较指令和14条格式转换指令;最后,实现一个能全流水执行的Posit浮点部件,并评估它的实现性。该部件支持Posit(32,2)、Posit(32,3)和Posit(32,6)这3种格式,包含5级流水的Posit浮点融合乘加(PFMA)子部件和3级流水的Posit浮点格式转换(PFCVT)子部件。相较于支持FP32格式的浮点部件,所提Posit浮点部件在Posit(32,2)格式下的操作数尾数和结果尾数的最大位宽增加了4 bit,并在Posit(32,6)格式下的指数的动态范围提升了近1 072 decades,显著提高了数据表示范围和灵活性;同时,在Posit(32,6)格式下支持的数据动态范围比FP64大了近524 decades。可见,所提部件可用于探索Posit(32,6)在特定领域和应用中替代FP64的可行性,以减少计算系统的存储、访存和通信开销,从而提高计算能效。 展开更多
关键词 Posit 浮点算术 融合乘加 浮点转换 指令集
在线阅读 下载PDF
R2^(2)FFT算法的FPGA硬件结构优化设计与实现
17
作者 肖海林 杨昱东 +4 位作者 杨紫伊 刘海龙 王玉 张中山 戴晓明 《计算机应用》 北大核心 2025年第8期2637-2645,共9页
针对快速傅里叶变换(FFT)算法处理大规模数据时因消耗大量资源和时间而导致运算速度慢的问题,提出一种基2^(2)快速傅里叶变换(R2^(2)FFT)算法的现场可编程门阵列(FPGA)硬件结构优化设计与实现方法。首先,采用R2^(2)FFT算法构建一种序列... 针对快速傅里叶变换(FFT)算法处理大规模数据时因消耗大量资源和时间而导致运算速度慢的问题,提出一种基2^(2)快速傅里叶变换(R2^(2)FFT)算法的现场可编程门阵列(FPGA)硬件结构优化设计与实现方法。首先,采用R2^(2)FFT算法构建一种序列转换功能与流水线结构相结合的Y形双并行阵列结构,在有效降低硬件乘法器使用数量的同时,增大硬件结构的吞吐量,提高FFT算法在FPGA上的运算速度;其次,通过在R2^(2)FFT流水线的单级运算中利用旋转因子的相关特性,优化片上存储的资源消耗,使存储空间降低约50.00%;最后,在完成N点R2^(2)FFT算法结构优化的基础上,进一步提高硬件结构的可扩展性,即实现2N点和4N点的扩展运算。采用Verilog HDL语言完成硬件设计,并通过Modelsim仿真,使用Vivado2018.3软件将所提方法综合并布局布线,并分析所提方法的性能。实验结果表明,与4种改进的FFT硬件实现方法的运算时间相比,所提方法的运算时间分别降低了75.10%、95.34%、38.49%和49.20%,可见所提方法显著提高了运算速度。同时,所提方法资源消耗适中,消耗占比低,且具有运行功耗低以及可扩展性强的特点。 展开更多
关键词 Y形双并行阵列结构 现场可编程门阵列 基2^(2)快速傅里叶变换 多路径延迟交叉结构流水线 蝶形运算
在线阅读 下载PDF
基于RISC-V指令扩展的双线性对协处理器设计
18
作者 于斌 闵玉新 +2 位作者 张自豪 刘志伟 黄海 《电子与信息学报》 北大核心 2025年第9期3137-3145,共9页
双线性对运算是基于身份的标识密码算法的核心运算,而在边缘设备中实现该运算需要在性能与面积两方面进行折衷。采用指令扩展方式进行软硬件协同设计是具备灵活性和可扩展性的设计方式,但在双线性对运算方面的研究忽略了数据交互过程的... 双线性对运算是基于身份的标识密码算法的核心运算,而在边缘设备中实现该运算需要在性能与面积两方面进行折衷。采用指令扩展方式进行软硬件协同设计是具备灵活性和可扩展性的设计方式,但在双线性对运算方面的研究忽略了数据交互过程的时间损耗。该文结合双线性对算法与软硬件协同设计的特点,提出了适配总线传输的模乘运算模式用于减少数据交互过程中的时间损耗,同时设计适配该模式的模乘单元与阔域运算的时序排布,完成基于国产RISC-V处理器进行素数域运算和扩域运算的自定义指令扩展,并使用C语言调度硬件指令实现软硬件协同设计方案。所设计的协处理器在Xilinx ZYNQ-7000 FPGA平台上实现,共消耗8.3k个Slice与134个数字处理单元(DSP),素数域模乘的执行时间为0.3μs,2次扩域模乘的执行时间为0.6μs,双线性对的执行时间约为17.5 ms。实验结果表明,该文设计的协处理器兼顾性能与面积,与同类设计在性能上相比提升6.7%,能够高效地实现双线性对运算。 展开更多
关键词 RISC-V 双线性对运算 协处理器 模乘
在线阅读 下载PDF
应用于eFPGA的乘加运算单元设计
19
作者 李春锋 卢丽珍 +2 位作者 余彬 舒毅 范迪 《山东科技大学学报(自然科学版)》 北大核心 2025年第2期104-114,共11页
针对当前嵌入式可编程逻辑阵列(eFPGA)中实现神经网络模型时资源利用率低的问题,提出一种新型乘加运算单元设计结构,以提升乘加单元资源利用率,充分发挥eFPGA高空间并行性。乘加运算单元在保留传统eFPGA的数字信号处理单元核心乘加功能... 针对当前嵌入式可编程逻辑阵列(eFPGA)中实现神经网络模型时资源利用率低的问题,提出一种新型乘加运算单元设计结构,以提升乘加单元资源利用率,充分发挥eFPGA高空间并行性。乘加运算单元在保留传统eFPGA的数字信号处理单元核心乘加功能基础上,增加了对常用INT8/16/32量化位宽数据的单指令多数据SIMD运算结构支持,并对位宽扩展后的部分积生成器、压缩树分割方法及并行前缀加法器结构进行了优化,以降低核心乘加单元通路延迟。乘加运算单元采用UMC 28 nm工艺实现,仿真与实验结果表明,乘加单元满足功能正确性要求,在神经网络应用测试电路综合结果上的资源利用率提升1.37~3.05倍。 展开更多
关键词 嵌入式可编程逻辑阵列 数字运算单元 乘加器 BOOTH算法
在线阅读 下载PDF
前言
20
作者 李华伟 哈亚军 姚海龙 《计算机研究与发展》 EI CSCD 北大核心 2024年第6期1349-1350,共2页
处理器芯片是信息系统的控制和算力根基.当前海量应用的不断演进对处理器性能和能效产生了指数级提升的追求,处理器芯片的设计规模和复杂度变得越来越大,设计难度越来越高,现有的层层分解的处理器设计流程已经难以实现全局能效最优.
关键词 处理器芯片 信息系统 处理器性能 设计流程 能效 指数级 设计难度 复杂度
在线阅读 下载PDF
上一页 1 2 101 下一页 到第
使用帮助 返回顶部