期刊文献+
共找到347篇文章
< 1 2 18 >
每页显示 20 50 100
基于加速区域卷积神经网络的高铁接触网承力索底座裂纹检测研究 被引量:8
1
作者 刘凯 刘志刚 陈隽文 《铁道学报》 EI CAS CSCD 北大核心 2019年第7期43-49,共7页
针对高速铁路接触网支撑结构中承力索底座裂纹的问题,提出一种利用加速区域卷积神经网络与Beamlet变换相结合的图像检测方法。该方法使用加速区域卷积神经网络实现对承力索底座在待检测图像中的识别定位,然后根据定位的承力索底座图像特... 针对高速铁路接触网支撑结构中承力索底座裂纹的问题,提出一种利用加速区域卷积神经网络与Beamlet变换相结合的图像检测方法。该方法使用加速区域卷积神经网络实现对承力索底座在待检测图像中的识别定位,然后根据定位的承力索底座图像特点,通过Radon变换等预处理操作对承力索底座疑似裂纹区域精确定位,最后使用基于Beamlet变换的局部链搜索算法快速得到裂纹信息,实现承力索底座裂纹故障的可靠诊断。实验表明:该方法能在复杂的接触网支撑与悬挂装置图像中准确定位识别承力索底座裂纹故障,对拍摄距离、拍摄角度以及曝光度等因素具有很好的适应性,且具有较高的检测效率。 展开更多
关键词 高铁接触网 承力索底座 加速区域卷积神经网络 BEAMLET变换
在线阅读 下载PDF
轻量化卷积神经网络硬件加速设计及FPGA实现 被引量:1
2
作者 李珍琪 王强 +4 位作者 齐星云 赖明澈 赵言亢 陆亿行 黎渊 《计算机工程与科学》 北大核心 2025年第4期582-591,共10页
近年来,卷积神经网络CNN在计算机视觉等领域取得了显著的成效。然而,通常CNN的网络结构复杂,计算量庞大,难以在计算资源和功耗受限的便携式设备上实现。而FPGA具有较高的并行度、能效比和可重构性,已成为在便携式设备上加速CNN推理最有... 近年来,卷积神经网络CNN在计算机视觉等领域取得了显著的成效。然而,通常CNN的网络结构复杂,计算量庞大,难以在计算资源和功耗受限的便携式设备上实现。而FPGA具有较高的并行度、能效比和可重构性,已成为在便携式设备上加速CNN推理最有效的计算平台之一。设计了一种可配置为不同网络结构的卷积神经网络加速器,并从数据复用、基于行缓存的流水线优化和基于加法树的低延迟卷积技术3个方面对加速器的延迟和功耗进行了优化。以轻量化神经网络YOLOv2-tiny为例,在领航者ZYNQ-7020开发板上构建了一个实时目标检测系统。实验结果表明,整个设计的资源消耗占用为88%,功耗消耗为2.959 W,满足便携设备低硬件消耗及低功耗设计要求,在416×256的图像分辨率下,实现了3.91 fps的检测速度。 展开更多
关键词 卷积神经网络 FPGA加速 加速 便携设备
在线阅读 下载PDF
基于位串行卷积神经网络加速器的运动想象脑电信号识别系统
3
作者 程筱舒 王忆文 +2 位作者 娄鸿飞 丁玮然 李平 《电子科技大学学报》 北大核心 2025年第3期321-332,共12页
准确识别运动想象脑电信号是神经科学和生物医学工程领域的重要挑战。设计了基于位串行卷积神经网络加速器的脑电信号识别系统,充分利用其小体积、低能耗和高实时性的优势。从软件层面,介绍了脑电数据的预处理、特征提取及分类过程,并... 准确识别运动想象脑电信号是神经科学和生物医学工程领域的重要挑战。设计了基于位串行卷积神经网络加速器的脑电信号识别系统,充分利用其小体积、低能耗和高实时性的优势。从软件层面,介绍了脑电数据的预处理、特征提取及分类过程,并采用格拉姆角场转换将一维信号映射为二维特征图供网络处理。在硬件层面,提出了列暂存数据流和固定乘数原位串行乘法器等方法,在FPGA上实现了位串行卷积神经网络加速器的原型验证。实验表明,基于位串行LeNet-5加速器的FPGA实现对BCI竞赛Ⅳ数据集2a和2b的分类平均准确率分别达到95.68%和97.32%,kappa值分别为0.942和0.946,展现出的优异性为运动想象脑电信号识别的高效实现提供了思路。 展开更多
关键词 脑机接口 运动想象 卷积神经网络 硬件加速 格拉姆角场
在线阅读 下载PDF
基于Zynq的卷积神经网络加速器设计
4
作者 孟凡开 张峰 +1 位作者 李淼 张多利 《合肥工业大学学报(自然科学版)》 北大核心 2025年第7期904-909,共6页
针对卷积神经网络(convolutional neural network,CNN)嵌入式部署资源开销大、运行速度慢等问题,文章提出一种以Tiny-YOLOv3作为算法模型的CNN硬件加速器。首先,基于Tiny-YOLOv3网络各层的特性和要求设计CNN加速器实现方案,将权重系数... 针对卷积神经网络(convolutional neural network,CNN)嵌入式部署资源开销大、运行速度慢等问题,文章提出一种以Tiny-YOLOv3作为算法模型的CNN硬件加速器。首先,基于Tiny-YOLOv3网络各层的特性和要求设计CNN加速器实现方案,将权重系数按位分割,面向单bit权重设计卷积加速器,通过逐位实施达到处理速度和识别率的高效平衡;然后,采用查表选择法实现卷积算子的乘加运算,设计一款6×3×16的三维加速器计算阵列,可单周期完成288个卷积窗口计算;最后,在Xilinx Zynq UltraScale+MPSoC系列芯片上对设计的CNN加速器进行性能测试。实验结果表明,该CNN加速器在200 MHz频率下具有518.4 GOPS的算力,比现有的解决方案性能提高了约63%。 展开更多
关键词 卷积神经网络(CNN) Tiny-YOLOv3网络模型 硬件加速 流水阵列 并行运算
在线阅读 下载PDF
基于二维卷积神经网络的结构加速度数据异常检测研究 被引量:1
5
作者 麻胜兰 钟建坤 +1 位作者 刘昱昊 郑翔 《建筑科学与工程学报》 北大核心 2025年第1期112-120,共9页
为提高结构加速度数据异常检测的效率和准确率,提出基于二维卷积神经网络(2D-CNN)的结构加速度数据异常检测方法。通过二维桁架数值模型验证了所提方法的有效性,并研究了2D-CNN卷积层数和加速度噪声水平对数据异常检测效果的影响。结果... 为提高结构加速度数据异常检测的效率和准确率,提出基于二维卷积神经网络(2D-CNN)的结构加速度数据异常检测方法。通过二维桁架数值模型验证了所提方法的有效性,并研究了2D-CNN卷积层数和加速度噪声水平对数据异常检测效果的影响。结果表明:提出的结构加速度数据异常检测方法能快速准确区分加速度数据异常类型,异常检测的准确率可达97%以上;对于包含信息复杂、数据规模大的样本,采用4层以上的2D-CNN有助于提高加速度数据异常检测的准确率,采用5层卷积层的2D-CNN对数据异常辨识精度可达98%;当加速度信噪比大于1时,数据异常检测准确率均在90%以上,当加速度信噪比为10时,准确率在97%以上,所提方法具有良好的容噪性和鲁棒性;采用2D-CNN的数据异常检测方法可为传感器网络的有效运行提供技术支持。 展开更多
关键词 结构健康监测 二维卷积神经网络 桁架结构 深度学习 加速 数据异常检测
在线阅读 下载PDF
面向低资源芯片的高效自适应卷积神经网络加速器
6
作者 庞明义 魏祥麟 +2 位作者 张云祥 王斌 庄建军 《计算机科学》 北大核心 2025年第4期94-100,共7页
文中提出了一种面向非GPU类低资源芯片的自适应卷积神经网络加速器(Adaptive Convolutional Neural Network Accelerator,ACNNA),其可根据硬件平台资源约束和卷积神经网络结构自适应生成对应的硬件加速器。通过可重构特性,ACNNA可有效... 文中提出了一种面向非GPU类低资源芯片的自适应卷积神经网络加速器(Adaptive Convolutional Neural Network Accelerator,ACNNA),其可根据硬件平台资源约束和卷积神经网络结构自适应生成对应的硬件加速器。通过可重构特性,ACNNA可有效加速包括卷积层、池化层、激活层和全连接层在内的各种网络层组合。首先,设计了一种资源折叠式多通道处理引擎(Processing Engine,PE)阵列,将理想化卷积结构进行折叠以节省资源,在输出通道上展开以支持并行计算。其次,采用多级存储与乒乓缓存机制对流水线进行优化,有效提升数据处理效率。然后,提出了一种多级存储下的资源复用策略,结合设计空间探索算法,针对网络参数调度硬件资源分配,使低资源芯片可部署层次更深且参数更多的网络模型。以LeNet5和VGG16网络模型为例,在Ultra96 V2开发板上对ACNNA进行了验证。结果显示,采用ACNNA部署的VGG16最低仅消耗了原网络4%的资源量。在100MHz主频下,LeNet5加速器在2.05W的功耗下计算速率达0.37 GFLOPS;VGG16加速器在2.13W的功耗下计算速率达1.55 GFLOPS。与现有工作相比,所提方法的FPS提升超过83%。 展开更多
关键词 硬件加速 卷积神经网络 设计空间探索策略 现场可编程门阵列
在线阅读 下载PDF
基于加权多层卷积神经网络模型的冬奥会场区滑坡易发性评价 被引量:1
7
作者 胡文杰 李峰 +1 位作者 张梅东 刘文龙 《工程地质学报》 北大核心 2025年第3期949-958,共10页
开展冬奥会地区滑坡易发性评价对于冬奥会场馆的运维风险管理具有重要意义。本文以冬奥会6个区县为研究对象,从地形地貌、地质构造、水文、人类活动和土壤植被5个方面构建冬奥会地区滑坡易发性评价指标体系,针对易发性因子权重需反复多... 开展冬奥会地区滑坡易发性评价对于冬奥会场馆的运维风险管理具有重要意义。本文以冬奥会6个区县为研究对象,从地形地貌、地质构造、水文、人类活动和土壤植被5个方面构建冬奥会地区滑坡易发性评价指标体系,针对易发性因子权重需反复多次调整的繁琐过程、过多的池化层造成特征信息大量丢失等问题,提出影响因子权重自适应学习、扩张卷积层替换池化层的加权多层卷积神经网络(Weighted Multi-CNN,WM-CNN)用于滑坡易发性预测。运用加权多层卷积神经网络、一维卷积神经网络(CNN-1D)、卷积神经网络(CNN)、支持向量机(SVM)、随机森林模型(RF)分别构建该区域的滑坡易发性评价模型。对冬奥会地区进行滑坡易发性区划,并通过受试者工作特征曲线(ROC)。结果表明,WM-CNN模型预测效果最好,高于CNN-1D模型的0.835、CNN模型的0.877、SVM模型的0.819、RF模型的0.884。此外,研究区域极高易发区和高易发区集中在北京的延庆区,大多分布在道路两侧和山谷地带。国家跳台滑雪中心和延庆奥运村位于中等易发区,滑坡风险较大,因此需要重点监控。 展开更多
关键词 冬奥会区域 加权多层 卷积神经网络 深度学习 滑坡易发性
在线阅读 下载PDF
基于融合卷积神经网络的车辆多目标检测方法 被引量:1
8
作者 曹佳 郑秋梅 段泓舟 《激光杂志》 北大核心 2025年第1期208-213,共6页
在实际场景中,车辆目标往往会被其他车辆、建筑物等对象遮挡,背景也可能非常复杂,为了保障检测精度,提出一种基于融合卷积神经网络的车辆多目标检测方法。采用激光雷达采集车辆目标图像,将采集的车辆行驶图像根据其车道线特征划分为两... 在实际场景中,车辆目标往往会被其他车辆、建筑物等对象遮挡,背景也可能非常复杂,为了保障检测精度,提出一种基于融合卷积神经网络的车辆多目标检测方法。采用激光雷达采集车辆目标图像,将采集的车辆行驶图像根据其车道线特征划分为两侧区域,将车道线以内的区域作为车辆多目标检测初始感兴趣区域(ROI),在ROI中采用车底阴影假设区域分割法获取车辆检测目标的假设区域。在原始卷积神经网络的基础上作进一步优化,设计可变形卷积神经网络(DF-R-CNN)模型,将得到的假设区域作为网络模型所需的车辆多目标检测候选区域,通过该模型实现车辆多目标的精准检测。实验结果表明,所提方法的召回率最高值达到了85%,损失函数最低值约为1.8,说明其具有较高的检测精度和检测效果。 展开更多
关键词 卷积神经网络 车道线划分 感兴趣区域ROI 可变形卷积神经网络 车辆多目标检测
在线阅读 下载PDF
基于神经网络的驻波加速结构单腔频率计算方法研究
9
作者 赵静远 杨誉 +4 位作者 李丹阳 秦成 雷瀚 杨京鹤 朱志斌 《原子能科学技术》 北大核心 2025年第S2期489-497,共9页
电子直线加速器中加速结构的调谐至关重要,其关键在于准确获得各单腔频率。针对驻波加速结构,本文提出了一种结合神经网络与信赖域优化算法的单腔频率计算方法,利用腔链的反射系数可计算各单腔频率值。通过对S波段、C波段加速腔链进行... 电子直线加速器中加速结构的调谐至关重要,其关键在于准确获得各单腔频率。针对驻波加速结构,本文提出了一种结合神经网络与信赖域优化算法的单腔频率计算方法,利用腔链的反射系数可计算各单腔频率值。通过对S波段、C波段加速腔链进行单腔和整管仿真,验证了该方法的可行性。之后对实际加速腔链开展了单腔及整管测试,该方法得到的大部分单腔频率计算值与实测值的偏差均在1 MHz以下,对于加速结构的测试调配可以起到较好的指导作用。 展开更多
关键词 驻波加速结构 调谐方法 卷积神经网络 信赖域
在线阅读 下载PDF
基于片上系统的可配置卷积神经网络加速器的设计与实现 被引量:2
10
作者 张立国 杨红光 +1 位作者 金梅 申前 《高技术通讯》 CAS 北大核心 2024年第7期744-754,共11页
针对现阶段卷积神经网络(CNN)加速器的设计只能部署在单一现场可编程门阵列(FPGA)平台、不支持硬件平台升级迭代的问题,设计了一种基于片上系统(SoC)的可配置CNN加速器。该加速器具备以下2个特点:(1)在电路设计中将数据位宽、中间缓存... 针对现阶段卷积神经网络(CNN)加速器的设计只能部署在单一现场可编程门阵列(FPGA)平台、不支持硬件平台升级迭代的问题,设计了一种基于片上系统(SoC)的可配置CNN加速器。该加速器具备以下2个特点:(1)在电路设计中将数据位宽、中间缓存空间大小、乘法器阵列(MAC)并行度作为一种可选配置参数,通过调整资源使用量,使得该加速器能够适配不同FPGA硬件;(2)提出了动态数据复用的策略,通过对比数据传输过程中不同复用方式下的总参数量差异,动态地选择复用方法,以减少数据传输的等待时间,提高乘法器阵列利用率。该方案在ZCU104板卡上进行了实验,实验结果表明,当数据位宽选择8、乘法器阵列并行度选择1024、核心运算模块工作在180 MHz时,卷积运算阵列峰值吞吐量为180 GOPs,功耗为3.75 W,能效比达到47.97 GOPs·W^(-1),对于VGG16网络,其卷积层的平均乘法器阵列利用率达到84.37%。 展开更多
关键词 卷积神经网络(CNN) 现场可编程门阵列(FPGA) CNN加速 可配置 异构加速
在线阅读 下载PDF
基于卷积神经网络的岩渣分类算法及其FPGA加速
11
作者 陈昌川 王新立 +5 位作者 朱嘉琪 张天骐 尹淑娟 王珩 魏琦 乔飞 《传感技术学报》 CAS CSCD 北大核心 2024年第1期80-88,共9页
全断面岩石掘进机在道路掘进过程中,刀盘挤压切削岩体容易产生刀盘磨损及损坏,从而造成经济损失,因此需要检测刀盘磨损的理论和技术来指导施工。岩渣是掘进过程的直接产物,携带丰富的信息,能够反映当前的施工状况,因此可以通过岩渣识别... 全断面岩石掘进机在道路掘进过程中,刀盘挤压切削岩体容易产生刀盘磨损及损坏,从而造成经济损失,因此需要检测刀盘磨损的理论和技术来指导施工。岩渣是掘进过程的直接产物,携带丰富的信息,能够反映当前的施工状况,因此可以通过岩渣识别利用这些信息间接实现对刀盘的监测。提出了一种基于卷积神经网络的岩渣识别算法,在岩渣数据集上实现了96.5%的分类准确率。随后为了便于FPGA硬件部署,提出一种网络压缩方法,将网络规模压缩到原始网络的2.28%,同时分类准确率相比原网络仅下降了0.9%。最后使用OpenCL技术在Intel Arria 10 GX1150平台上实现了算法部署,达到了224.54 GOP/s的吞吐率以及11.23 GOP/s/W的能效比。 展开更多
关键词 岩渣分类 FPGA 卷积神经网络 OPENCL 硬件加速
在线阅读 下载PDF
基于FPGA的卷积神经网络和视觉Transformer通用加速器 被引量:2
12
作者 李天阳 张帆 +2 位作者 王松 曹伟 陈立 《电子与信息学报》 EI CAS CSCD 北大核心 2024年第6期2663-2672,共10页
针对计算机视觉领域中基于现场可编程逻辑门阵列(FPGA)的传统卷积神经网(CNN)络加速器不适配视觉Transformer网络的问题,该文提出一种面向卷积神经网络和Transformer的通用FPGA加速器。首先,根据卷积和注意力机制的计算特征,提出一种面... 针对计算机视觉领域中基于现场可编程逻辑门阵列(FPGA)的传统卷积神经网(CNN)络加速器不适配视觉Transformer网络的问题,该文提出一种面向卷积神经网络和Transformer的通用FPGA加速器。首先,根据卷积和注意力机制的计算特征,提出一种面向FPGA的通用计算映射方法;其次,提出一种非线性与归一化加速单元,为计算机视觉神经网络模型中的多种非线性和归一化操作提供加速支持;然后,在Xilinx XCVU37P FPGA上实现了加速器设计。实验结果表明,所提出的非线性与归一化加速单元在提高吞吐量的同时仅造成很小的精度损失,ResNet-50和ViT-B/16在所提FPGA加速器上的性能分别达到了589.94 GOPS和564.76 GOPS。与GPU实现相比,能效比分别提高了5.19倍和7.17倍;与其他基于FPGA的大规模加速器设计相比,能效比有明显提高,同时计算效率较对比FPGA加速器提高了8.02%~177.53%。 展开更多
关键词 计算机视觉 卷积神经网络 TRANSFORMER FPGA 硬件加速
在线阅读 下载PDF
基于异构平台的卷积神经网络加速系统设计 被引量:5
13
作者 秦文强 吴仲城 +1 位作者 张俊 李芳 《计算机工程与科学》 CSCD 北大核心 2024年第1期12-20,共9页
在计算和存储资源受限的嵌入式设备上部署卷积神经网络,存在执行速度慢、计算效率低、功耗高的问题。提出了一种基于异构平台的新型卷积神经网络加速架构,设计并实现了基于MobileNet的轻量化卷积神经网络加速系统。首先,为降低硬件资源... 在计算和存储资源受限的嵌入式设备上部署卷积神经网络,存在执行速度慢、计算效率低、功耗高的问题。提出了一种基于异构平台的新型卷积神经网络加速架构,设计并实现了基于MobileNet的轻量化卷积神经网络加速系统。首先,为降低硬件资源消耗以及数据传输成本,采用动态定点数量化和批标准化融合的设计方法,对网络模型进行了优化,并降低了加速系统的硬件设计复杂度;其次,通过实现卷积分块、并行卷积计算、数据流优化,有效提高了卷积运算效率和系统吞吐率。在PYNQ-Z2平台上的实验结果表明,此加速系统实现的MobileNet网络推理加速方案对单幅图像的识别时间为0.18 s,系统功耗为2.62 W,相较于ARM单核处理器加速效果提升了128倍。 展开更多
关键词 现场可编程门阵列(FPGA) Vivado高层次综合 卷积神经网络 异构平台 硬件加速
在线阅读 下载PDF
面向多核向量加速器的卷积神经网络推理和训练向量化方法 被引量:1
14
作者 陈杰 李程 刘仲 《计算机工程与科学》 CSCD 北大核心 2024年第4期580-589,共10页
随着以卷积神经网络为代表的深度学习得到广泛应用,神经网络模型中的计算量也急速增长,推动了深度学习加速器的发展。如何针对加速器硬件的体系结构特性进行加速和优化神经网络模型的性能成为研究热点。针对自主设计的多核向量加速器FT-... 随着以卷积神经网络为代表的深度学习得到广泛应用,神经网络模型中的计算量也急速增长,推动了深度学习加速器的发展。如何针对加速器硬件的体系结构特性进行加速和优化神经网络模型的性能成为研究热点。针对自主设计的多核向量加速器FT-M7004上的VGG网络模型推理和训练算法,分别提出了卷积、池化和全连接等核心算子的向量化映射方法,采用SIMD向量化、DMA双缓冲传输和权值共享等优化策略,充分发挥了向量加速器的体系结构优势,取得了较高的计算效率。实验结果表明,在FT-M7004平台上,卷积层推理和训练的平均计算效率分别达到了86.62%和69.63%;全连接层推理和训练的平均计算效率分别达到了93.17%和81.98%;VGG网络模型在FT-M7004上的推理计算效率超过GPU平台20%以上。 展开更多
关键词 多核向量加速 卷积神经网络 推理算法 训练算法
在线阅读 下载PDF
面向稀疏卷积神经网络的CGRA加速器研究 被引量:1
15
作者 谭龙 严明玉 +3 位作者 吴欣欣 李文明 吴海彬 范东睿 《高技术通讯》 CAS 北大核心 2024年第2期173-186,共14页
本文针对规模日益增长和演变迅速的稀疏卷积神经网络(CNN)应用,提出一款高能效且灵活的加速结构DyCNN来提升其性能和能效。DyCNN基于兼具灵活性和高能效的粗粒度可重构架构(CGRA)设计,可以利用其指令的高并行性来高效支持CNN的操作。Dy... 本文针对规模日益增长和演变迅速的稀疏卷积神经网络(CNN)应用,提出一款高能效且灵活的加速结构DyCNN来提升其性能和能效。DyCNN基于兼具灵活性和高能效的粗粒度可重构架构(CGRA)设计,可以利用其指令的高并行性来高效支持CNN的操作。DyCNN使用基于数据感知的指令动态过滤机制来滤除各计算单元中由于稀疏CNN中权值静态稀疏性和激活值动态稀疏性产生的大量无效计算和访存指令,使它们能像执行稠密网络一样高效复用一组指令。此外DyCNN利用基于负载感知的动静结合负载调度策略解决了稀疏导致的负载不均衡问题。实验结果表明,DyCNN运行稀疏CNN与运行密集CNN相比实现了平均1.69倍性能提升和3.04倍能效提升,比先进的GPU(cuSPARSE)和Cambricon-X上的解决方案分别实现了2.78倍、1.48倍性能提升和35.62倍、1.17倍能效提升。 展开更多
关键词 稀疏卷积神经网络(CNN) 专用加速结构 粗粒度可重构架构(CGRA) 动态指令过滤 动态负载调度
在线阅读 下载PDF
基于RISC-Ⅴ的深度可分离卷积神经网络加速器 被引量:1
16
作者 曹希彧 陈鑫 魏同权 《计算机学报》 EI CAS CSCD 北大核心 2024年第11期2536-2551,共16页
人工智能时代,RISC-Ⅴ作为一种新兴的开源精简指令集架构,因其低功耗、模块化、开放性和灵活性等优势,使之成为一种能够适应不断发展的深度学习模型和算法的新平台.但是在硬件资源及功耗受限环境下,基础的RISC-Ⅴ处理器架构无法满足卷... 人工智能时代,RISC-Ⅴ作为一种新兴的开源精简指令集架构,因其低功耗、模块化、开放性和灵活性等优势,使之成为一种能够适应不断发展的深度学习模型和算法的新平台.但是在硬件资源及功耗受限环境下,基础的RISC-Ⅴ处理器架构无法满足卷积神经网络对高性能计算的需求.为了解决这一问题,本文设计了一个基于RISC-Ⅴ的轻量化深度可分离卷积神经网络加速器,旨在弥补RISC-Ⅴ处理器的卷积计算能力的不足.该加速器支持深度可分离卷积中的两个关键算子,即深度卷积和点卷积,并能够通过共享硬件结构提高资源利用效率.深度卷积计算流水线采用了高效的Winograd卷积算法,并使用2×2数据块组合拼接成4×4数据片的方式来减少传输数据冗余.同时,通过拓展RISC-Ⅴ处理器端指令,使得加速器能够实现更灵活的配置和调用.实验结果表明,相较于基础的RISC-Ⅴ处理器,调用加速器后的点卷积和深度卷积计算取得了显著的加速效果,其中点卷积加速了104.40倍,深度卷积加速了123.63倍.与此同时,加速器的性能功耗比达到了8.7GOPS/W.本文的RISC-Ⅴ处理器结合加速器为资源受限环境下卷积神经网络的部署提供了一个高效可行的选择. 展开更多
关键词 神经网络 深度可分离卷积 RISC-Ⅴ Winograd快速卷积 硬件加速
在线阅读 下载PDF
轻量级卷积神经网络的硬件加速方法 被引量:1
17
作者 吕文浩 支小莉 童维勤 《计算机工程与设计》 北大核心 2024年第3期699-706,共8页
为提升轻量级卷积神经网络在硬件平台的资源利用效率和推理速度,基于软硬件协同优化的思想,提出一种面向FPGA平台的轻量级卷积神经网络加速器,并针对网络结构的特性设计专门的硬件架构。与多级并行策略结合,设计一种统一的卷积层计算单... 为提升轻量级卷积神经网络在硬件平台的资源利用效率和推理速度,基于软硬件协同优化的思想,提出一种面向FPGA平台的轻量级卷积神经网络加速器,并针对网络结构的特性设计专门的硬件架构。与多级并行策略结合,设计一种统一的卷积层计算单元。为降低模型存储成本、提高加速器的吞吐量,提出一种基于可微阈值的选择性移位量化方案,使计算单元能够以硬件友好的形式执行计算。实验结果表明,在Arria 10 FPGA平台上部署的MobileNetV2加速器能够达到311 fps的推理速度,相比CPU版本实现了约9.3倍的加速比、GPU版本约3倍的加速比。在吞吐量方面,加速器能够实现98.62 GOPS。 展开更多
关键词 软硬件协同优化 现场可编程门阵列 轻量级卷积神经网络 移位量化 并行计算 硬件加速 开放式计算语言
在线阅读 下载PDF
面向YOLO神经网络的数据流架构优化研究 被引量:2
18
作者 穆宇栋 李文明 +5 位作者 范志华 吴萌 吴海彬 安学军 叶笑春 范东睿 《计算机学报》 北大核心 2025年第1期82-99,共18页
YOLO目标检测算法具有速度快、精度高、结构简单、性能稳定等优点,因此在多种对实时性要求较高的场景中得到广泛应用。传统的控制流架构在执行YOLO神经网络时面临计算部件利用率低、功耗高、能效较低等挑战。相较而言,数据流架构的执行... YOLO目标检测算法具有速度快、精度高、结构简单、性能稳定等优点,因此在多种对实时性要求较高的场景中得到广泛应用。传统的控制流架构在执行YOLO神经网络时面临计算部件利用率低、功耗高、能效较低等挑战。相较而言,数据流架构的执行模式与神经网络算法匹配度高,更能充分挖掘其中的数据并行性。然而,在数据流架构上部署YOLO神经网络时面临三个问题:(1)数据流架构的数据流图映射并不能结合YOLO神经网络中卷积层卷积核较小的特点,造成卷积运算数据复用率过低的问题,并进一步降低计算部件利用率;(2)数据流架构在算子调度时无法利用算子间结构高度耦合的特点,导致大量数据重复读取;(3)数据流架构上的数据存取与执行高度耦合、串序执行,导致数据存取延迟过高。为解决这些问题,本文设计了面向YOLO神经网络的数据流加速器DFU-Y。首先,结合卷积嵌套循环的执行模式,本文分析了小卷积核卷积运算的数据复用特征,并提出了更有利于执行单元内部数据复用的数据流图映射算法,从而整体提升卷积运行效率;然后,为充分利用结构耦合的算子间的数据复用,DFU-Y提出数据流图层次上的算子融合调度机制以减少数据存取次数、提升神经网络运行效率;最后,DFU-Y通过双缓存解耦合数据存取与执行,从而并行执行数据存取与运算,掩盖了程序间的数据传输延迟,提高了计算部件利用率。实验表明,相较数据流架构(DFU)和GPU(NVIDIA Xavier NX),DFU-Y分别获得2.527倍、1.334倍的性能提升和2.658倍、3.464倍的能效提升;同时,相较YOLO专用加速器(Arria-YOLO),DFU-Y在保持较好通用性的同时,达到了其性能的72.97%、能效的87.41%。 展开更多
关键词 YOLO算法 数据流架构 数据流图优化 卷积神经网络 神经网络加速
在线阅读 下载PDF
基于深度卷积神经网络的汽车图像分类算法与加速研究 被引量:5
19
作者 黄佳美 张伟彬 熊官送 《现代电子技术》 北大核心 2024年第7期140-144,共5页
在非法占用公交车道违规车辆等领域的边缘计算与识别中,针对基于深度卷积神经网络的图像物体分类算法模型算力需求大与边缘设备部署后有限资源的突出矛盾,如何设计边缘计算设备的加速单元以保证分类算法的精度与实时性具有重要意义。针... 在非法占用公交车道违规车辆等领域的边缘计算与识别中,针对基于深度卷积神经网络的图像物体分类算法模型算力需求大与边缘设备部署后有限资源的突出矛盾,如何设计边缘计算设备的加速单元以保证分类算法的精度与实时性具有重要意义。针对上述问题,提出一种基于深度卷积神经网络的公交分类算法,该方法在现场可编程逻辑门阵列上实现了公交车图像分类算法的加速。通过基于迁移学习方法对ResNet50预训练模型进行微调,采用嵌入式端的推理加速实现对模型的推理,并对FPGA加速方案进行推理部署实现。结果表明,该算法具有硬件配置灵活、信息处理加速快的优点,这为实现神经网络在嵌入式平台的高效、高速应用提供了有效解决方案。 展开更多
关键词 图像分类 边缘计算 卷积神经网络 迁移学习 ResNet50模型 加速推理
在线阅读 下载PDF
基于FPGA的稀疏卷积神经网络加速器设计 被引量:1
20
作者 李宁 肖昊 《电子测量技术》 北大核心 2024年第5期1-8,共8页
剪枝是一种减少卷积神经网络权重和计算量的有效方法,为CNN的高效部署提供了解决方案。但是,剪枝后的稀疏CNN中权重的不规则分布使硬件计算单元之间的计算负载各不相同,降低了硬件的计算效率。文章提出一种细粒度的CNN模型剪枝方法,该... 剪枝是一种减少卷积神经网络权重和计算量的有效方法,为CNN的高效部署提供了解决方案。但是,剪枝后的稀疏CNN中权重的不规则分布使硬件计算单元之间的计算负载各不相同,降低了硬件的计算效率。文章提出一种细粒度的CNN模型剪枝方法,该方法根据硬件加速器的架构将整体权重分成若干个局部权重组,并分别对每一组局部权重进行独立剪枝,得到的稀疏CNN在加速器上实现了计算负载平衡。此外,设计一种具有高效PE结构和稀疏度可配置的稀疏CNN加速器并在FPGA上实现,该加速器的高效PE结构提升了乘法器的吞吐率,同时可配置性使其可灵活地适应不同稀疏度的CNN计算。实验结果表明,提出的剪枝算法可将CNN的权重参数减少50%~70%,同时精度损失不到3%。相比于密集型加速器,提出的加速器最高可实现3.65倍的加速比;与其他的稀疏型加速器研究相比,本研究的加速器在硬件效率上提升28%~167%。 展开更多
关键词 卷积神经网络 硬件加速 稀疏计算 FPGA
在线阅读 下载PDF
上一页 1 2 18 下一页 到第
使用帮助 返回顶部