期刊文献+
共找到9篇文章
< 1 >
每页显示 20 50 100
面向杂凑密码算法的专用指令加速器的设计与实现
1
作者 王轩 刘勤让 +3 位作者 陈磊 魏帅 范旺 杨恒 《计算机工程与应用》 北大核心 2025年第2期363-371,共9页
物联网的快速发展对嵌入式设备的系统性能和数据安全性的要求越来越高,传统的通用嵌入式处理器对密码算法的实现效率不高,不能很好满足性能需要,此外嵌入式设备还有着低功耗的场景需求。为解决以上问题,在Xilinx ZYNQ ZC706嵌入式开发... 物联网的快速发展对嵌入式设备的系统性能和数据安全性的要求越来越高,传统的通用嵌入式处理器对密码算法的实现效率不高,不能很好满足性能需要,此外嵌入式设备还有着低功耗的场景需求。为解决以上问题,在Xilinx ZYNQ ZC706嵌入式开发平台上设计了一个低功耗的面向杂凑密码算法的专用指令加速器,该加速器包含有取指译码单元、执行单元和数据访存单元,通过多任务数据并行和专用指令实现计算加速;并设计令牌机制解决指令执行时的数据冲突问题;在高层次综合(high-level synthesis,HLS)工具的基础上通过存储优化改进访存机制,有效提高带宽利用率。实验结果表明,加速器的工作频率为100 MHz,该ARM+FPGA方案相较于单ARM方案可达3倍以上的加速效果,而且运行功耗仅为2.23 W,该加速器也可定制化拓展,有较好的灵活性。 展开更多
关键词 嵌入式应用 加速器设计 专用指令 高层次综合 数据并行
在线阅读 下载PDF
中国散裂中子源强流质子加速器设计、研制及调试运行 被引量:5
2
作者 王生 傅世年 +17 位作者 屈化民 张旌 马力 董海义 董岚 金大鹏 康玲 康文 刘华昌 李健 李晓 欧阳华甫 齐欣 孙虹 沈莉 唐靖宇 王庆斌 徐韬光 《原子能科学技术》 EI CAS CSCD 北大核心 2022年第9期1747-1759,共13页
中国散裂中子源(CSNS)是基于强流质子加速器的大科学装置,通过高功率质子束流轰击重金属靶产生高通量中子用于开展中子散射研究,CSNS是世界上第四台、发展中国家第一台脉冲型散裂中子源。CSNS包括高功率强流质子加速器、中子靶站和中子... 中国散裂中子源(CSNS)是基于强流质子加速器的大科学装置,通过高功率质子束流轰击重金属靶产生高通量中子用于开展中子散射研究,CSNS是世界上第四台、发展中国家第一台脉冲型散裂中子源。CSNS包括高功率强流质子加速器、中子靶站和中子谱仪以及相应的配套设施等。加速器由80 MeV负氢直线加速器、1.6 GeV快循环同步加速器及相应的束流输运线组成。CSNS加速器是我国第一台中高能强流高功率质子加速器,本文将介绍CSNS加速器的设计、关键技术、设备研制以及束流调试过程和其中关键问题。 展开更多
关键词 中国散裂中子源 强流加速器 加速器设计 束流调试
在线阅读 下载PDF
机泵一体固液分离机加速器设计探讨
3
作者 冯斌 孟坤六 张平 《石油机械》 北大核心 2000年第2期6-9,共4页
介绍了旋转旋流机泵一体固液分离机的特点和基本分离原理。探讨了机泵一体固液分离机加速器中心孔直径、流道个数、流道截面形状、流道出口面积和流道螺旋角等结构参数对整机分离效果、压力要求和功率消耗的影响。论述了加速器中心孔直... 介绍了旋转旋流机泵一体固液分离机的特点和基本分离原理。探讨了机泵一体固液分离机加速器中心孔直径、流道个数、流道截面形状、流道出口面积和流道螺旋角等结构参数对整机分离效果、压力要求和功率消耗的影响。论述了加速器中心孔直径、加速器向液体提供的能量、推渣速度和推渣压力等相关设计因素,并对旋转旋流机泵一体固液分离样机加速器改进设计前后做了对比试验。结果表明,加速器的优化设计和合理的级数能够成功地实现旋转旋流机泵一体。 展开更多
关键词 固液分离 分离器 加速器设计 机泵一体
在线阅读 下载PDF
面向高能效场景的神经网络结构和加速器协同设计
4
作者 陈维伟 王颖 张磊 《高技术通讯》 CAS 2022年第11期1143-1152,共10页
神经网络算法和深度学习加速器已成为推动深度学习方法应用最重要的两股力量,但目前的神经网络结构设计主要围绕模型精度、计算量等指标,忽略了不同模型在目标加速器上计算效率的差异;而加速器设计一般针对既定的神经网络基准程序进行优... 神经网络算法和深度学习加速器已成为推动深度学习方法应用最重要的两股力量,但目前的神经网络结构设计主要围绕模型精度、计算量等指标,忽略了不同模型在目标加速器上计算效率的差异;而加速器设计一般针对既定的神经网络基准程序进行优化,往往难以覆盖到未来不断迭代进化的神经网络模型,这就容易导致加速器在新的网络架构上表现不佳。本质上,神经网络架构与加速器相对独立的设计流程,导致了两者的设计和优化不匹配,从而无法达到最优的深度学习推理性能。为此,本文提出了一种针对图像分类任务的网络结构和加速器软硬件协同设计的框架,将网络结构和加速器设计融合到统一的设计空间中,并针对设计约束,自动搜索最优协同设计方案,实现了端到端的深度学习推理定制和优化。实验表明,在真实的图像分类数据集和脉动阵列架构上,相对于传统的网络结构和加速器分别独立优化的方法,本文提出的协同设计方法实现了平均40%的能耗降低。 展开更多
关键词 神经网络结构设计 加速器设计 软硬件协同设计 设计空间探索
在线阅读 下载PDF
ReHuff:基于ReRAM的Huffman编码硬件结构设计
5
作者 郑道文 周一开 +2 位作者 唐忆滨 刘博生 武继刚 《计算机工程与科学》 北大核心 2025年第6期988-997,共10页
随着数据量在深度学习等各种应用场景中的迅速增大,通信和存储的硬件开销显著增加。在此背景下,压缩方法的重要性日益提升。哈夫曼编码是目前具备代表性且广泛应用的压缩方法之一,其特点是在不损害数据完整性的前提下,有效压缩数据并节... 随着数据量在深度学习等各种应用场景中的迅速增大,通信和存储的硬件开销显著增加。在此背景下,压缩方法的重要性日益提升。哈夫曼编码是目前具备代表性且广泛应用的压缩方法之一,其特点是在不损害数据完整性的前提下,有效压缩数据并节省存储空间。然而,由于分层内存存储的限制,哈夫曼编码在传统硬件中的解决方案面临着高延迟和高能耗的挑战。提出了一种名为ReHuff的硬件架构,利用阻变随机存储器(ReRAM)实现在内存中直接进行哈夫曼编码。设计了基于ReRAM的哈夫曼编码映射方法,以提取有效数据。针对映射过程中存在的变长编码数据与定长ReRAM块之间的匹配问题,提出了适应架构设计的双阶段变长数据选择与分割方法,整合变长输出以节省能耗并提升ReRAM的利用效率。仿真结果表明,所提出的设计方案的性能与能耗表现均优于代表性基准,在性能方面提高了18.6倍,在能耗方面降低了82.4%。 展开更多
关键词 哈夫曼编码 数据压缩 阻变随机存储器 加速器设计 数据映射
在线阅读 下载PDF
基于多实体的混合设计方法应用研究 被引量:1
6
作者 宋洪侠 《图学学报》 CSCD 北大核心 2018年第6期1200-1206,共7页
目前通常有两种可用的设计方法:自顶向下和自底向上。骨架式自顶向下设计得到了广泛的研究,但过于抽象不易于掌握,且忽略现有资源的应用及零部件间的位置及特征对关联零部件设计的作用;另外自底向上设计脱离设计布局,设计效率低下。为... 目前通常有两种可用的设计方法:自顶向下和自底向上。骨架式自顶向下设计得到了广泛的研究,但过于抽象不易于掌握,且忽略现有资源的应用及零部件间的位置及特征对关联零部件设计的作用;另外自底向上设计脱离设计布局,设计效率低下。为解决两种设计存在的问题,提出了基于三维多实体的模块化混合设计法。首先根据不同产品的结构特点,划分了三维多实体布局类型,并简要介绍了布局方法。然后结合各种情况详细地阐述了混合设计中最重要的参数关联问题,其中重点探讨了如何将设计加速器的设计结果嵌入到智能布局零件中,以此实现末端需求控制前端设计的反求设计思想。最后结合典型设计案例阐述了混合设计法的应用,表明混合设计法是可行且有效的。 展开更多
关键词 多实体布局 混合设计 模块化设计 参数关联 设计加速器 INVENTOR
在线阅读 下载PDF
FAQ-CNN:面向量化卷积神经网络的嵌入式FPGA可扩展加速框架 被引量:8
7
作者 谢坤鹏 卢冶 +4 位作者 靳宗明 刘义情 龚成 陈新伟 李涛 《计算机研究与发展》 EI CSCD 北大核心 2022年第7期1409-1427,共19页
卷积神经网络(convolutional neural network, CNN)模型量化可有效压缩模型尺寸并提升CNN计算效率.然而,CNN模型量化算法的加速器设计,通常面临算法各异、代码模块复用性差、数据交换效率低、资源利用不充分等问题.对此,提出一种面向量... 卷积神经网络(convolutional neural network, CNN)模型量化可有效压缩模型尺寸并提升CNN计算效率.然而,CNN模型量化算法的加速器设计,通常面临算法各异、代码模块复用性差、数据交换效率低、资源利用不充分等问题.对此,提出一种面向量化CNN的嵌入式FPGA加速框架FAQ-CNN,从计算、通信和存储3方面进行联合优化,FAQ-CNN以软件工具的形式支持快速部署量化CNN模型.首先,设计面向量化算法的组件,将量化算法自身的运算操作和数值映射过程进行分离;综合运用算子融合、双缓冲和流水线等优化技术,提升CNN推理任务内部的并行执行效率.然后,提出分级编码与位宽无关编码规则和并行解码方法,支持低位宽数据的高效批量传输和并行计算.最后,建立资源配置优化模型并转为整数非线性规划问题,在求解时采用启发式剪枝策略缩小设计空间规模.实验结果表明,FAQ-CNN能够高效灵活地实现各类量化CNN加速器.在激活值和权值为16 b时,FAQ-CNN的加速器计算性能是Caffeine的1.4倍;在激活值和权值为8 b时,FAQ-CNN可获得高达1.23TOPS的优越性能. 展开更多
关键词 卷积神经网络量化 量化算法解耦 并行编解码 片上资源建模 加速器设计
在线阅读 下载PDF
SAF-CNN:面向嵌入式FPGA的卷积神经网络稀疏化加速框架 被引量:5
8
作者 谢坤鹏 仪德智 +4 位作者 刘义情 刘航 赫鑫宇 龚成 卢冶 《计算机研究与发展》 EI CSCD 北大核心 2023年第5期1053-1072,共20页
传统的卷积神经网络加速器及推理框架在资源约束的FPGA上部署模型时,往往面临设备种类繁多且资源极端受限、数据带宽利用不充分、算子操作类型复杂难以适配且调度不合理等诸多挑战.提出一种面向嵌入式FPGA的卷积神经网络稀疏化加速框架(... 传统的卷积神经网络加速器及推理框架在资源约束的FPGA上部署模型时,往往面临设备种类繁多且资源极端受限、数据带宽利用不充分、算子操作类型复杂难以适配且调度不合理等诸多挑战.提出一种面向嵌入式FPGA的卷积神经网络稀疏化加速框架(sparse acceleration framework of convolutional neural network, SAF-CNN),通过软硬件协同设计的方法,从硬件加速器与软件推理框架2个角度进行联合优化.首先, SAF-CNN构建并行计算阵列,并且设计并行编解码方案,实现单周期多数据的传输,有效减少通信代价.其次,设计细粒度结构化块划分剪枝算法,于输入通道维度进行块内裁剪来获得稀疏且规则的权重矩阵,借此显著降低计算规模和DSP乘法器等资源占用.然后,提出一种兼容深度可分离卷积的输入通道维度动态拓展及运行时调度策略,实现输入通道参数灵活适配与逐通道卷积和逐点卷积的资源复用.最后,提出一种计算图重构及硬件算子融合优化方法,提升硬件执行效率.实验采用2种资源受限的低端FPGA异构平台Intel CycloneV与Xilinx ZU3EG,结果表明SAF-CNN加速器可分别实现76.3GOPS与494.3GOPS的计算性能.与多核CPU相比,SAF-CNN在进行SSD_MobileNetV1目标模型检测时,可实现3.5倍与2.2倍的性能提升,模型推理速度高达26.5fps. 展开更多
关键词 卷积神经网络 模型压缩 计算图 加速器设计 推理框架
在线阅读 下载PDF
面向FPGA部署的CNN-SVM算法研究与实现 被引量:14
9
作者 周彦臻 吴瑞东 +3 位作者 于潇 付平 刘冰 李君宝 《电子测量与仪器学报》 CSCD 北大核心 2021年第4期90-98,共9页
卷积神经网络-支持向量机(CNN-SVM)混合算法结合了CNN特征提取能力和SVM分类性能,在计算复杂度和解决小样本问题上具有一定优势,目前已在故障诊断、医学图像处理等领域得到了一定应用,同时,由于其计算复杂度较低,也引起了边缘计算领域... 卷积神经网络-支持向量机(CNN-SVM)混合算法结合了CNN特征提取能力和SVM分类性能,在计算复杂度和解决小样本问题上具有一定优势,目前已在故障诊断、医学图像处理等领域得到了一定应用,同时,由于其计算复杂度较低,也引起了边缘计算领域的关注。针对边缘计算场景中对算法性能和功耗的要求,提出了一种面向FPGA平台的CNN-SVM算法优化与实现方法。首先,结合FPGA的架构特点,对CNN-SVM算法结构进行了硬件适应性优化,包括模型压缩和分类器核函数的选取。其次,采用了软硬件协同和高层次综合(HLS)设计方法,完成了CNN-SVM算法加速器的设计与实现。实验结果表明,在ZCU102上,加速器的FPS(frames per second)达到了18.33 K,计算速度为1.474 GMAC/s,相对于CPU平台四核Cortex-A57和Ryzen73700x分别实现了23.57和4.92倍加速,相对于Jetson Nano GPU和GTX750平台能耗比分别达到了33.24和50.27。 展开更多
关键词 CNN-SVM算法 FPGA实现 硬件加速器设计 软硬件协同设计
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部