期刊文献+
共找到19篇文章
< 1 >
每页显示 20 50 100
基于GPU的Winograd卷积算法并行化
1
作者 王鑫 甄雪茹 《计算机应用研究》 北大核心 2025年第8期2446-2451,共6页
针对现代卷积神经网络中计算负荷过重的问题,提出一种基于GPU的创新性Winograd并行卷积算法。该算法利用负载均衡的任务映射、优化数据加载策略以隐藏延迟,并结合动态填充方法,充分挖掘Winograd卷积算法与GPU架构的协同效应。实验结果表... 针对现代卷积神经网络中计算负荷过重的问题,提出一种基于GPU的创新性Winograd并行卷积算法。该算法利用负载均衡的任务映射、优化数据加载策略以隐藏延迟,并结合动态填充方法,充分挖掘Winograd卷积算法与GPU架构的协同效应。实验结果表明,在经典卷积神经网络模型ResNet的多个卷积层上,提出的算法优于NVIDIA cuDNN 8.3.0库中的标准Winograd卷积算法,在Turing架构的RTX 2080Ti GPU上实现高达2.46的加速比,并且保持较高的计算准确性。与基于GPU的标准Winograd卷积算法相比,该算法显著提升了卷积计算效率。 展开更多
关键词 winograd算法 并行计算 CUDA 卷积神经网络
在线阅读 下载PDF
申威26010众核处理器上Winograd卷积算法的研究与优化 被引量:2
2
作者 武铮 金旭 安虹 《计算机研究与发展》 EI CSCD 北大核心 2024年第4期955-972,共18页
卷积作为深度学习中被频繁使用的关键部分,其并行算法的研究已成为高性能计算领域中的热门话题.随着我国自主研发的申威26010众核处理器在人工智能领域的快速发展,对面向该处理器的高性能并行卷积算法提出了迫切的需求.针对申威26010处... 卷积作为深度学习中被频繁使用的关键部分,其并行算法的研究已成为高性能计算领域中的热门话题.随着我国自主研发的申威26010众核处理器在人工智能领域的快速发展,对面向该处理器的高性能并行卷积算法提出了迫切的需求.针对申威26010处理器的架构特征以及Winograd卷积算法的计算特性,提出了一种高性能并行卷积算法——融合Winograd卷积算法.该算法不同于依赖官方GEMM(general matrix multiplication)库接口的传统Winograd卷积算法,定制的矩阵乘实现使得该算法的执行过程变得可见,且能够更好地适应现实中常见卷积运算.整个算法由输入的Winograd变换、卷积核的Winograd变换、核心运算和输出的Winograd逆变换4部分构成,这4个部分并不是单独执行而是融合到一起执行.通过实时地为核心运算提供需要的变换后数据,并将计算结果及时地逆变换得到最终的输出数据,提高了算法执行过程中的数据局部性,极大地降低了整体的访存开销.同时,为该算法设计了合并的Winograd变换模式、DMA(direct memory access)双缓冲、片上存储的强化使用、输出数据块的弹性处理以及指令重排等优化方案.最终的实验结果表明,在VGG网络模型的总体卷积测试中,该算法性能是传统Winograd卷积算法的7.8倍.同时,抽取典型卷积神经网络模型中的卷积进行测试,融合Winograd卷积算法能够在所有的卷积场景中发挥明显高于传统Winograd卷积算法的性能.其中,最大能够发挥申威26010处理器峰值性能的116.21%,平均能够发挥峰值性能的93.14%. 展开更多
关键词 深度学习 winograd卷积 高性能计算 并行算法 申威处理器
在线阅读 下载PDF
基于Winograd算法的目标检测加速器设计与优化 被引量:2
3
作者 李斌 齐延荣 周清雷 《电子学报》 EI CAS CSCD 北大核心 2022年第10期2387-2397,共11页
卷积神经网络(Convolutional Neural Networks,CNN)已被广泛应用于图像处理领域.基于CNN的目标检测模型,如YOLO,已被证明在许多应用中是最先进的.CNN对计算能力和内存带宽要求极高,通常需要部署到专用硬件平台,FPGA因其高性能、低功耗... 卷积神经网络(Convolutional Neural Networks,CNN)已被广泛应用于图像处理领域.基于CNN的目标检测模型,如YOLO,已被证明在许多应用中是最先进的.CNN对计算能力和内存带宽要求极高,通常需要部署到专用硬件平台,FPGA因其高性能、低功耗和可重配置性成为CNN的有效硬件加速器.以往的基于FPGA的目标检测加速器主要采用传统卷积算法,然而,传统卷积算法的高运算复杂度限制了加速器的性能.基于此,本文设计了一种基于Winograd算法的目标检测加速器.考虑到各模块间的联系,采用模块融合策略融合卷积层和池化层模块,降低数据移动次数,减少片外存储器访问次数,提高加速器整体性能.以YOLO2模型为例,对数据访问模式、池化内核、参数重排序、数据通路优化进行分析设计,并部署在U280板卡上.实验结果表明,量化后mAP降低了0.96%,性能达249.65 GOP/s,是Xilinx官网所给数据的4.4倍. 展开更多
关键词 目标检测 FPGA winograd算法 模块融合 YOLO2
在线阅读 下载PDF
基于深度学习加速模型的杂乱目标实时视觉检测方法 被引量:1
4
作者 余永维 陈天皓 +1 位作者 杜柳青 方荣 《农业机械学报》 北大核心 2025年第5期617-624,共8页
在农业机械自动装配产线上,其嵌入式控制平台片上资源极其有限,而基于卷积神经网络的深度学习检测系统参数量过大,难以直接移植于嵌入式平台,为此,本文提出一种基于改进ResNet18-SSD(Single shot multi-box detector)和现场可编程门阵列... 在农业机械自动装配产线上,其嵌入式控制平台片上资源极其有限,而基于卷积神经网络的深度学习检测系统参数量过大,难以直接移植于嵌入式平台,为此,本文提出一种基于改进ResNet18-SSD(Single shot multi-box detector)和现场可编程门阵列(Field programmable gate array,FPGA)加速引擎的深度学习实时检测方法。为了降低参数量的同时提高检测模型准确性,提出基于ResNet18-SSD的深度学习快速检测模型,利用优化改进后的ResNet18网络替换SSD模型的VGG16前置网络,引入多分支同构结构和非对称并行残差结构,使其能适应遮挡、光线昏暗等复杂场景;在满足检测精度需求的情况下,采用动态定点量化的方式,对模型数据量进行缩减,以提高检测模型执行效率。针对改进ResNet18-SSD模型中消耗资源严重的卷积层,提出一种基于Winograd算法的FPGA加速引擎,提高模型检测实时性,通过软硬件协同设计,从硬件加速器与软件网络轻量化两个角度进行联合优化,实现轻量化、加速性能及复杂场景下准确性三者之间的平衡。在Xilinx FPGA嵌入式平台的实验结果表明,本文方法检测准确率达到93.5%,当工作频率为100 MHz时,单幅图像检测时间为80.232 ms,满足实时性需求。 展开更多
关键词 目标检测 FPGA 动态定点量化 winograd算法
在线阅读 下载PDF
基于SVD-Winograd快速变换的半盲水印算法 被引量:1
5
作者 裴小根 马磊 +1 位作者 刘江 燕明 《计算机应用》 CSCD 北大核心 2010年第8期2164-2166,共3页
目前多数基于傅里叶变换域的方法,其抗几何攻击性能虽很好,嵌入的信息量也很大,但存在抗剪切攻击能力较差的问题,针对这一问题提出了一种基于奇异值分解与Winograd快速傅里叶变换相结合的半盲水印算法。在奇异值分解过程中,先将奇异值... 目前多数基于傅里叶变换域的方法,其抗几何攻击性能虽很好,嵌入的信息量也很大,但存在抗剪切攻击能力较差的问题,针对这一问题提出了一种基于奇异值分解与Winograd快速傅里叶变换相结合的半盲水印算法。在奇异值分解过程中,先将奇异值分解的对角矩阵与Winograd快速傅里叶变换中分解的对角阵进行矩阵相与,产生一新对角矩阵。再将数字水印嵌入到新对角矩阵中,最后通过相关运算提取水印。实验结果表明,该方法可获得较好的图像视觉效果,对剪切、噪声、旋转等攻击皆具有较好的鲁棒性。 展开更多
关键词 奇异值分解 winograd快速变换 半盲水印算法
在线阅读 下载PDF
一种有效的Winograd付里叶变换并行算法
6
作者 顾卫刚 张德富 沈守声 《电子学报》 EI CAS CSCD 北大核心 1992年第2期46-50,共5页
本文提出一种有效的Winograd付里叶变换并行算法,该算法具有处理器间负载平衡,并行计算效率高等特点。
关键词 并行算法 付里叶变换 负载平衡
在线阅读 下载PDF
面向飞腾多核处理器的Winograd快速卷积算法优化 被引量:11
7
作者 王庆林 李东升 +2 位作者 梅松竹 赖志权 窦勇 《计算机研究与发展》 EI CSCD 北大核心 2020年第6期1140-1151,共12页
随着深度学习的快速发展,卷积神经网络已广泛应用于计算机视觉、自然语言处理等人工智能领域中.Winograd快速卷积算法因能有效降低卷积神经网络中卷积操作的计算复杂度而受到广泛关注.随着国防科技大学自主研制的飞腾多核处理器在智能... 随着深度学习的快速发展,卷积神经网络已广泛应用于计算机视觉、自然语言处理等人工智能领域中.Winograd快速卷积算法因能有效降低卷积神经网络中卷积操作的计算复杂度而受到广泛关注.随着国防科技大学自主研制的飞腾多核处理器在智能领域的推广应用,对面向飞腾多核处理器的高性能卷积实现提出了强烈需求.针对飞腾多核处理器的体系结构特征与Wingorad快速卷积算法的计算特点,提出了一种高性能并行Winograd快速卷积算法.该算法不依赖通用矩阵乘库函数,由卷积核转换、输入特征图转换、逐元素乘、输出特征图逆变换等4个部分构成,融合设计了4个部分的数据操作,并设计了与之配套的数据布局、多级并行数据转换算法与多级并行矩阵乘算法,实现访存性能以及算法整体性能的提升.在两款飞腾多核处理器上的测试结果显示,与开源库ACL和NNPACK中的Winograd快速卷积实现相比,该算法分别能获得1.05~16.11倍与1.66~16.90倍的性能加速;集成到开源框架Mxnet后,该算法使得VGG16网络的前向计算获得了3.01~6.79倍的性能加速. 展开更多
关键词 多核CPU 深度学习 卷积神经网络 winograd算法 并行算法
在线阅读 下载PDF
基于Winograd稀疏算法的卷积神经网络加速器设计与研究 被引量:1
8
作者 徐睿 马胜 +2 位作者 郭阳 黄友 李艺煌 《计算机工程与科学》 CSCD 北大核心 2019年第9期1557-1566,共10页
随着卷积神经网络得到愈加广泛的应用,针对其复杂运算的定制硬件加速器得到越来越多的重视与研究。但是,目前定制硬件加速器多采用传统的卷积算法,并且缺乏对神经网络稀疏性的支持,从而丧失了进一步改进硬件,提升硬件性能的空间。重新... 随着卷积神经网络得到愈加广泛的应用,针对其复杂运算的定制硬件加速器得到越来越多的重视与研究。但是,目前定制硬件加速器多采用传统的卷积算法,并且缺乏对神经网络稀疏性的支持,从而丧失了进一步改进硬件,提升硬件性能的空间。重新设计一款卷积神经网络加速器,该加速器基于Winograd稀疏算法,该算法被证明有效降低了卷积神经网络的计算复杂性,并可以很好地适应稀疏神经网络。通过硬件实现该算法,本文的设计可以在减少硬件资源的同时,获得相当大的计算效率。实验表明,相比于传统算法,该加速器设计方案将运算速度提升了近4.15倍;从乘法器利用率的角度出发,相比现有的其他方案,该方案将利用率最多提高了近9倍。 展开更多
关键词 卷积神经网络 加速器 winograd算法 稀疏网络
在线阅读 下载PDF
基于FPGA的Winograd算法卷积神经网络加速器设计与实现 被引量:1
9
作者 牛朝旭 孙海江 《液晶与显示》 CAS CSCD 北大核心 2023年第11期1521-1530,共10页
为实现卷积神经网络在低功耗、边缘计算等场景中的加速计算,设计了一种基于现场可编程门阵列(FPGA)的Winograd算法卷积神经网络加速器。首先,将图像数据和权重数据量化为8位定点数,并设计了硬件卷积计算过程中的量化流程,提升了数据传... 为实现卷积神经网络在低功耗、边缘计算等场景中的加速计算,设计了一种基于现场可编程门阵列(FPGA)的Winograd算法卷积神经网络加速器。首先,将图像数据和权重数据量化为8位定点数,并设计了硬件卷积计算过程中的量化流程,提升了数据传输速度和计算速度。接着,设计了输入数据缓存复用模块,将多输入通道数据融合后传输,复用了行重叠数据。然后设计了Winograd流水线卷积模块,实现列数据的组合复用,从而最大化重用了片上数据,降低了片上数据存储的占用和带宽压力。最后将加速器在Xilinx的ZCU104开发板上部署。经过实验验证,加速器的卷积层计算性能达到354.5 GOPS,片上DSP计算效率达到0.69,与相关研究相比,实现了1.6倍以上的提升。该加速器能够以高能效比完成基于VGG-16网络的遥感图像分类任务。 展开更多
关键词 卷积神经网络 现场可编程门阵列 winograd算法 流水线 并行计算
在线阅读 下载PDF
基于二维Winograd算法的深流水线5×5卷积方法 被引量:1
10
作者 黄程程 董霄霄 李钊 《计算机应用》 CSCD 北大核心 2021年第8期2258-2264,共7页
针对二维Winograd卷积算法中存储器带宽需求过高、计算复杂度高、设计探索周期漫长、级联的卷积存在层间计算延迟等问题,提出一种基于二维Winograd算法的双缓冲区5×5卷积层设计方法。首先使用列缓冲结构完成数据布局,以重用相邻分... 针对二维Winograd卷积算法中存储器带宽需求过高、计算复杂度高、设计探索周期漫长、级联的卷积存在层间计算延迟等问题,提出一种基于二维Winograd算法的双缓冲区5×5卷积层设计方法。首先使用列缓冲结构完成数据布局,以重用相邻分块之间的重叠数据,降低存储器带宽需求;然后精确搜索并复用Winograd算法加法计算过程中重复的中间计算结果,来降低加法运算量,从而减小加速器系统的能耗开销和设计面积;最后根据Winograd算法计算过程来完成6级流水线结构的设计,并实现针对5×5卷积的高效率计算。实验结果表明,这种5×5卷积的计算方法在基本不影响卷积神经网络(CNN)预测准确率的前提下,与传统卷积相比降低了83%的乘法运算量,加速倍率为5.82;该方法与级联3×3二维Winograd卷积组成5×5卷积的方法相比降低了12%的乘法运算量,降低了约24.2%的存储器带宽需求,并减少了20%的运算时间。 展开更多
关键词 卷积神经网络 现场可编程逻辑门阵列 winograd算法 双缓冲区 深流水线
在线阅读 下载PDF
基于3D-Winograd的快速卷积算法设计及FPGA实现 被引量:1
11
作者 林珂玉 姜宏旭 +1 位作者 张永华 丛容子 《北京航空航天大学学报》 EI CAS CSCD 北大核心 2021年第9期1900-1907,共8页
近年来,卷积神经网络(CNN)已被计算机视觉任务广泛采用。由于FPGA的高性能、能效和可重新配置性,已被认为是最有前途的CNN硬件加速器,但是受FPGA计算能力、存储资源的限制,基于传统Winograd算法计算三维卷积的FPGA解决方案性能还有提升... 近年来,卷积神经网络(CNN)已被计算机视觉任务广泛采用。由于FPGA的高性能、能效和可重新配置性,已被认为是最有前途的CNN硬件加速器,但是受FPGA计算能力、存储资源的限制,基于传统Winograd算法计算三维卷积的FPGA解决方案性能还有提升的空间。首先,研究了适用于三维运算的Winograd算法一维展开过程;然后,通过增加一次性输入特征图和卷积块的维度大小、低比特量化权重和输入数据等方法改善CNN在FPGA上的运行性能。优化思路包括使用移位代替部分除法的方法、分tile方案、二维到三维扩展及低比特量化等4个部分。相对传统的二维Winograd算法,优化算法每个卷积层的时钟周期数减少了7倍左右,相较传统滑窗卷积算法平均每个卷积层减少7倍左右。通过研究,证明了基于一维展开的3D-Winograd算法可以大大减少运算复杂度,并改善在FPGA运行CNN的性能。 展开更多
关键词 卷积神经网络(CNN) FPGA winograd 卷积算法 快速算法
在线阅读 下载PDF
Winograd快速卷积相关研究综述 被引量:5
12
作者 童敢 黄立波 《计算机科学与探索》 CSCD 北大核心 2022年第5期959-971,共13页
卷积神经网络(CNN)已经被广泛应用到各个领域并发挥了重要作用。卷积算子是卷积神经网络的基础组件,同时也是最耗时的部分。近年来,研究者提出了包括基于FFT和Winograd的若干种快速卷积算法。其中Winograd卷积因大幅减少了卷积中乘法操... 卷积神经网络(CNN)已经被广泛应用到各个领域并发挥了重要作用。卷积算子是卷积神经网络的基础组件,同时也是最耗时的部分。近年来,研究者提出了包括基于FFT和Winograd的若干种快速卷积算法。其中Winograd卷积因大幅减少了卷积中乘法操作且占用内存更小而迅速成为小卷积核的卷积算子上快速卷积实现的首选。但目前相关工作聚焦于算法的一般化、拓展和各类体系结构上的实现,还没有研究者对Winograd卷积算法作系统性的总结。为了给后续研究者提供详细的参考依据,对Winograd卷积引入以来的相关工作进行了总结。首先阐述了Winograd最小滤波算法及Winograd卷积的引入,介绍了Winograd卷积的一般化与拓展,并对比了现有实现之间的差异;从稀疏剪枝、低精度与量化、数值稳定性这三方面介绍了Winograd卷积的优化工作,并详细介绍了相关具体方法的优缺点;对各类体系结构上的实现和优化进行了分类总结,比较了各平台上实现可用的通用优化方法,并介绍了Winograd卷积的实际应用;最后对内容进行了简要总结,分析了现有研究的局限性,并对未来可能的方向进行了初步展望。 展开更多
关键词 winograd卷积 快速卷积算法 卷积神经网络(CNN) 卷积优化
在线阅读 下载PDF
基于Winograd算法的高效神经网络加速器及FPGA实现 被引量:2
13
作者 王帅帅 陈强 +1 位作者 郭剑博 肖昊 《合肥工业大学学报(自然科学版)》 CAS 北大核心 2023年第12期1659-1665,共7页
为了加速卷积神经网络(convolutional neural networks,CNN)的推断过程,文章采用Winograd算法,基于现场可编程门阵列(field programmable gate array,FPGA)设计一种高效CNN加速器。为解决Winograd算法转置后的数据位宽与数字信号处理单... 为了加速卷积神经网络(convolutional neural networks,CNN)的推断过程,文章采用Winograd算法,基于现场可编程门阵列(field programmable gate array,FPGA)设计一种高效CNN加速器。为解决Winograd算法转置后的数据位宽与数字信号处理单元(digital signal processing,DSP)位宽失配问题,文章提出部分积切割方法,充分利用DSP实现单周期多输出功能;为降低片上内存占用率,设计一种输入特征图可复用的数据流完成片内外数据交互。所设计的加速器在XCKU060板卡上部署,其吞吐率和每个DSP运算效率分别达2.358×10^(12)OPs和1.15×10^(9)OPs。结果表明该文提出的加速方法有效提升CNN加速器运算单元效率。 展开更多
关键词 卷积神经网络(CNN) winograd算法 现场可编程门阵列(FPGA) 处理单元 并行架构
在线阅读 下载PDF
基于Cache优化的大点数FFT在TS201上的实现 被引量:8
14
作者 马潇 高立宁 +1 位作者 刘腾飞 金烨 《电子与信息学报》 EI CSCD 北大核心 2013年第7期1774-1778,共5页
该文针对现有大点数快速傅里叶变换(FFT)在TS201处理器上的实现没有充分考虑Cache丢失对执行效率影响的问题,提出了改进型Winograd算法的实现方法。该改进型方法通过优化行列读取方法,最大程度利用Cache的读写特点,避免了三次显性转置;... 该文针对现有大点数快速傅里叶变换(FFT)在TS201处理器上的实现没有充分考虑Cache丢失对执行效率影响的问题,提出了改进型Winograd算法的实现方法。该改进型方法通过优化行列读取方法,最大程度利用Cache的读写特点,避免了三次显性转置;并通过重构蝶形运算,隐藏了乘铰链因子。实例测试与现有处理方法对比结果表明,Cache优化的大点数FFT执行速度有了明显提高,可用于雷达处理系统中的脉冲压缩的快速实现。 展开更多
关键词 雷达信号处理 脉冲压缩 TS201 CACHE winograd算法 大点数FFT
在线阅读 下载PDF
基于变模与自更新密钥矩阵的高效RFID安全认证协议 被引量:1
15
作者 王艳 雷雪梅 高通 《密码学报》 CSCD 2022年第2期210-222,共13页
为构建适合低成本标签且高效、安全的RFID认证协议,本文基于传统密钥矩阵加密算法,提出一种可实现标签认证过程中密钥矩阵的模参数在线更新的变模密钥矩阵加密算法,通过矩阵初等变换方法使得密钥矩阵可以实现自更新,以进一步弱化明文与... 为构建适合低成本标签且高效、安全的RFID认证协议,本文基于传统密钥矩阵加密算法,提出一种可实现标签认证过程中密钥矩阵的模参数在线更新的变模密钥矩阵加密算法,通过矩阵初等变换方法使得密钥矩阵可以实现自更新,以进一步弱化明文与密文的相关性,相比传统密钥矩阵加密算法提高了安全性.在密钥矩阵的加解密过程中引入Winograd算法,仅增加少量加法运算,可大幅度减少乘法运算数量,减小了标签认证过程的计算量.计算结果表明,当明文长度n大于8时,使用Winograd算法后的安全协议加解密过程的的乘法运算次数比普通矩阵乘法次数减少近50%.此外,可根据不同的应用场景,选择不同的模p值,提高特定应用场景下的协议安全性.通过BAN逻辑化分析以及协议安全性分析,证明了本文协议能够有效防范RFID系统常受到的多种典型攻击. 展开更多
关键词 RFID安全协议 变模密钥矩阵 winograd算法 BAN逻辑
在线阅读 下载PDF
快速卷积算法的综述研究 被引量:12
16
作者 李创 刘宗林 +3 位作者 刘胜 李勇 徐雪刚 夏一民 《计算机工程与科学》 CSCD 北大核心 2021年第10期1711-1719,共9页
卷积神经网络是深度学习算法应用最广泛的方向之一,目前卷积神经网络的应用不仅仅是停留在科技领域,已经扩展到医学、军事等领域,并且已在相关领域发挥着巨大的作用。卷积是卷积神经网络中最为核心的一部分,卷积运算占整个网络70%以上... 卷积神经网络是深度学习算法应用最广泛的方向之一,目前卷积神经网络的应用不仅仅是停留在科技领域,已经扩展到医学、军事等领域,并且已在相关领域发挥着巨大的作用。卷积是卷积神经网络中最为核心的一部分,卷积运算占整个网络70%以上的时间,所以针对卷积运算的加速研究就显得十分重要。首先介绍近年来的卷积算法,并对其复杂度进行分析,总结了这些算法各自的优点和不足,最后对其理论研究和应用领域可能存在的突破进行了探讨和展望。 展开更多
关键词 卷积 深度学习 winograd算法 快速傅里叶变换
在线阅读 下载PDF
面向GPU计算平台的神经网络卷积性能优化 被引量:7
17
作者 李茂文 曲国远 +1 位作者 魏大洲 贾海鹏 《计算机研究与发展》 EI CSCD 北大核心 2022年第6期1181-1191,共11页
图像检测、识别任务已经被应用在越来越多的生产生活场景中,基于卷积神经网络的方法凭借着精度高的特点被广泛应用.但是卷积神经网络存在着权重参数多、对算力要求高的问题,算力有限且型号多样的边缘计算设备使得这些应用在使用中受限.... 图像检测、识别任务已经被应用在越来越多的生产生活场景中,基于卷积神经网络的方法凭借着精度高的特点被广泛应用.但是卷积神经网络存在着权重参数多、对算力要求高的问题,算力有限且型号多样的边缘计算设备使得这些应用在使用中受限.在跨平台上运行高性能代码,以及基于GPU的卷积神经网络优化愈发重要.针对卷积神经网络中的卷积规模和其他通用矩阵乘(general matrix multiplication,GEMM)方法的不足,根据分块规模、分支执行、访存和计算比例,提出了一种针对卷积神经网络规模优化的GEMM优化方法,将其应用于Winograd算法,并结合算子合并,实现对卷积进一步优化.同时基于遍历的自调优选择性能最优的卷积算子,结合离线编译、内存池、16 b量化、网络规模裁剪等方法,来提升卷积神经网络的性能.最后在AMD V1605B平台上进行实验验证算法的效果,通过和其他GEMM算法以及深度学习网络的性能进行对比,验证了该方法能够获得比GEMM算法和Winograd算法更好的加速效果,并能有效地加速卷积神经网络. 展开更多
关键词 通用矩阵乘 winograd算法 卷积神经网络 性能优化 GPU
在线阅读 下载PDF
CNN景象匹配算法的加速设计与FPGA实现
18
作者 王晓峰 李超然 +4 位作者 路坤锋 栾天娇 姚娜 周辉 谢宇嘉 《计算机科学》 CSCD 北大核心 2023年第11期8-14,共7页
基于卷积神经网络的景象匹配算法较传统方法具有更高的匹配精度、更好的适应性以及更强的抗干扰能力。但是,该算法有海量的计算与存储需求,导致在边缘端部署存在巨大困难。为了提升计算实时性,文中设计并实现了一种高效的边缘端加速计... 基于卷积神经网络的景象匹配算法较传统方法具有更高的匹配精度、更好的适应性以及更强的抗干扰能力。但是,该算法有海量的计算与存储需求,导致在边缘端部署存在巨大困难。为了提升计算实时性,文中设计并实现了一种高效的边缘端加速计算方案。在分析算法的计算特性与整体架构的基础上,基于Winograd快速卷积方法,设计了一种面向特征匹配层的专用加速器,并提出了利用专用加速器与深度学习处理器流水线式计算特征匹配层和特征提取网络的整体加速方案。在Xilinx的ZCU102开发板上进行实验发现,专用加速器的峰值算力达到576 GOPS,实际算力达422.08 GOPS,DSP的使用效率达4.5 Ope-ration/clock。加速计算系统的峰值算力达1600 GOPS,将CNN景象匹配算法的吞吐时延降低至157.89 ms。实验结果表明,该加速计算方案能高效利用FPGA的计算资源,实现CNN景象匹配算法的实时计算。 展开更多
关键词 加速计算 景象匹配算法 深度学习 FPGA winograd算法 专用加速器
在线阅读 下载PDF
基于帧间数据复用的稀疏CNN加速器设计
19
作者 洪起润 王琴 《计算机工程》 CAS CSCD 北大核心 2023年第12期55-62,70,共9页
卷积神经网络(CNN)被广泛应用于目标检测等任务场景中。然而,传统的CNN加速器只对单帧图像进行加速处理,没有对视频任务中连续帧之间存在的数据冗余特性进行加速处理。目前利用帧间数据复用的CNN加速器存在稀疏度低、模型规模大以及计... 卷积神经网络(CNN)被广泛应用于目标检测等任务场景中。然而,传统的CNN加速器只对单帧图像进行加速处理,没有对视频任务中连续帧之间存在的数据冗余特性进行加速处理。目前利用帧间数据复用的CNN加速器存在稀疏度低、模型规模大以及计算复杂度高的缺点。为解决上述问题,通过可学习步长的低精度量化方法提高差分帧的稀疏度,提出量化因子2的幂次约束实现一个硬件友好的量化方法。使用Winograd算法降低卷积算子的计算复杂度,并在此基础上提出输入通道位图压缩方案,利用激活和权重的稀疏性跳过无效的零值计算。基于YOLOv3-tiny网络,使用ImageNet ILSVRC2015 VID部分数据集和DAC2020数据集,在现场可编程门阵列(FPGA)平台上对所提出的量化方法和稀疏CNN加速器进行验证。实验结果表明,在平均精度均值损失小于2%的条件下,该量化方法实现了4 bit位宽的全整形量化。得益于帧间数据复用,所设计的稀疏加速器实现了814.2×10^(9)operation/s的性能和201.1×10^(9)operation/s/W的能效比,与其他基于FPGA的同类型加速器相比,所设计的加速器提供了1.77~8.99倍的性能提升以及1.91~5.56倍的能效比提升。 展开更多
关键词 卷积神经网络 低精度量化 帧间数据复用 winograd算法 加速器 现场可编程门阵列
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部