期刊文献+
共找到7篇文章
< 1 >
每页显示 20 50 100
面向飞腾处理器平台的快速卷积算法优化
1
作者 赵亚飞 杨耀功 +1 位作者 王永刚 魏继增 《上海理工大学学报》 CAS CSCD 北大核心 2024年第6期610-619,共10页
为解决卷积神经网络难以在计算资源受限设备上部署的问题,面向国产FT-2000/4多核处理器提出一种高性能的快速卷积算法FastInfer。采用分块策略优化通用矩阵乘法,将处理器访问频率高的数据存入更靠近处理器的缓存中,从而提高计算过程中... 为解决卷积神经网络难以在计算资源受限设备上部署的问题,面向国产FT-2000/4多核处理器提出一种高性能的快速卷积算法FastInfer。采用分块策略优化通用矩阵乘法,将处理器访问频率高的数据存入更靠近处理器的缓存中,从而提高计算过程中的访存效率。配合分块方案设计实现高性能的矩阵乘法微内核,使用向量外积运算更新数据,提高计算访存比,实现最大程度掩盖访存指令的延迟。最终实验结果表明,FastInfer在FT-2000/4处理器上的峰值计算性能达到99.56 GFLOPS。在不同输入规模的通用矩阵乘法测试中,FastInfer性能是OpenBLAS算法的1.07倍和1.52倍。在卷积测试中,FastInfer性能是ARM Compute Library算法的1.32倍,实现了在FT-2000/4多核处理器上的高性能卷积计算。 展开更多
关键词 深度学习 快速卷积算法 并行计算 通用矩阵乘法
在线阅读 下载PDF
Winograd快速卷积相关研究综述 被引量:5
2
作者 童敢 黄立波 《计算机科学与探索》 CSCD 北大核心 2022年第5期959-971,共13页
卷积神经网络(CNN)已经被广泛应用到各个领域并发挥了重要作用。卷积算子是卷积神经网络的基础组件,同时也是最耗时的部分。近年来,研究者提出了包括基于FFT和Winograd的若干种快速卷积算法。其中Winograd卷积因大幅减少了卷积中乘法操... 卷积神经网络(CNN)已经被广泛应用到各个领域并发挥了重要作用。卷积算子是卷积神经网络的基础组件,同时也是最耗时的部分。近年来,研究者提出了包括基于FFT和Winograd的若干种快速卷积算法。其中Winograd卷积因大幅减少了卷积中乘法操作且占用内存更小而迅速成为小卷积核的卷积算子上快速卷积实现的首选。但目前相关工作聚焦于算法的一般化、拓展和各类体系结构上的实现,还没有研究者对Winograd卷积算法作系统性的总结。为了给后续研究者提供详细的参考依据,对Winograd卷积引入以来的相关工作进行了总结。首先阐述了Winograd最小滤波算法及Winograd卷积的引入,介绍了Winograd卷积的一般化与拓展,并对比了现有实现之间的差异;从稀疏剪枝、低精度与量化、数值稳定性这三方面介绍了Winograd卷积的优化工作,并详细介绍了相关具体方法的优缺点;对各类体系结构上的实现和优化进行了分类总结,比较了各平台上实现可用的通用优化方法,并介绍了Winograd卷积的实际应用;最后对内容进行了简要总结,分析了现有研究的局限性,并对未来可能的方向进行了初步展望。 展开更多
关键词 Winograd卷积 快速卷积算法 卷积神经网络(CNN) 卷积优化
在线阅读 下载PDF
卷积型小波变换实现及机械早期故障诊断应用 被引量:6
3
作者 罗荣 田福庆 +1 位作者 李克玉 丁庆喜 《振动与冲击》 EI CSCD 北大核心 2013年第7期64-69,共6页
为消除Mallat算法存在的频率折叠等固有缺陷对机械故障诊断的不利影响,提出采用卷积型小波变换进行机械故障诊断。推导卷积型小波变换快速分解算法,给出基于滤波器组的递归分解实现方法;针对滚动轴承早期故障诊断与定量识别难题及共振... 为消除Mallat算法存在的频率折叠等固有缺陷对机械故障诊断的不利影响,提出采用卷积型小波变换进行机械故障诊断。推导卷积型小波变换快速分解算法,给出基于滤波器组的递归分解实现方法;针对滚动轴承早期故障诊断与定量识别难题及共振解调法与冲击脉冲法的不足,提出将卷积型小波变换与共振解调法、冲击脉冲法相结合的新方法对滚动轴承早期故障进行诊断与定量识别,给出具体实现过程。仿真实验与实例分析表明:卷积型小波变换能消除Mallat算法固有缺陷对机械故障诊断的不利影响,较内积型小波变换更适合机械故障诊断。该方法可有效对滚动轴承早期故障诊断与定量识别,具有一定应用价值。 展开更多
关键词 MALLAT算法 卷积型小波变换及快速算法 共振解调法 冲击脉冲法
在线阅读 下载PDF
基于深度卷积神经网络的糖尿病视网膜病变分期及病灶检测 被引量:13
4
作者 谢云霞 黄海于 胡建斌 《计算机应用》 CSCD 北大核心 2020年第8期2460-2464,共5页
针对糖尿病视网膜病变(DR)图像分辨率过大、病灶特征过于分散难以获取以及正负难易样本不平衡而导致DR分期精确率一直无法得到有效提高的问题,提出了改进的基于快速区域的卷积神经网络(Faster R-CNN)和子图分割相结合的DR分期方法。首先... 针对糖尿病视网膜病变(DR)图像分辨率过大、病灶特征过于分散难以获取以及正负难易样本不平衡而导致DR分期精确率一直无法得到有效提高的问题,提出了改进的基于快速区域的卷积神经网络(Faster R-CNN)和子图分割相结合的DR分期方法。首先,使用子图分割解决视盘区域对于病灶识别的干扰问题;其次,在特征提取阶段使用深度残差网络以解决病灶在高分辨率眼底图像中占比小而导致的特征难以获取的问题;最后,在感兴趣区域(ROI)生成时采用在线困难样本挖掘(OHEM)方法解决正负难易样本不平衡的问题。在国际公开数据集EyePACS进行DR分期实验,所提方法在DR病分期中精确率0期达到94.83%,1期达到86.84%,2期达到94.00%,3期达到87.21%,4期达到82.96%。实验结果表明,改进后的Faster R-CNN能对DR图像高效分期并自动标注出病灶。 展开更多
关键词 糖尿病视网膜病变 目标检测 基于快速区域的卷积神经网络算法 子图分割 在线困难样本挖掘
在线阅读 下载PDF
YOLO检测网络的FPGA加速计算模型的研究 被引量:4
5
作者 裴颂文 汪显荣 《小型微型计算机系统》 CSCD 北大核心 2022年第8期1681-1686,共6页
FPGA(Field Programmable Gate Array)凭借其高并行和可定制化的特点,可以解决目标检测网络结构复杂、计算量大和存储开销高等问题.本文基于FPGA验证平台研究并实现了YOLO(You Only Look Once)系列神经网络的加速计算模型.首先采用动态... FPGA(Field Programmable Gate Array)凭借其高并行和可定制化的特点,可以解决目标检测网络结构复杂、计算量大和存储开销高等问题.本文基于FPGA验证平台研究并实现了YOLO(You Only Look Once)系列神经网络的加速计算模型.首先采用动态定点量化方法降低了数据存储和传输量.然后针对YOLO模型中两类计算开销大的典型卷积层,采用了流水线,循环展开,模块融合等策略分别实现了基于Winograd和GEMM的快速卷积计算引擎,提高加速计算效率.实验结果表明,本文在PYNQ-Z1验证平台上获得的计算性能达到64.9 GOP/s,比基于典型滑动窗口卷积计算方法的性能提高了2.15倍. 展开更多
关键词 FPGA YOLO 快速卷积算法 并行计算 流水线
在线阅读 下载PDF
基于帧间相似性的目标检测FPGA加速器设计 被引量:2
6
作者 李晟召 王琴 《计算机工程与设计》 北大核心 2023年第6期1885-1892,共8页
为解决视频目标检测应用上的神经网络硬件加速问题,提出一种基于视频应用中连续输入之间高度相似性的YOLO卷积网络FPGA加速器。提出增量计算与快速卷积算法结合的优化方法,使用增量计算以跳过连续输入间相似部分的卷积运算;使用快速卷... 为解决视频目标检测应用上的神经网络硬件加速问题,提出一种基于视频应用中连续输入之间高度相似性的YOLO卷积网络FPGA加速器。提出增量计算与快速卷积算法结合的优化方法,使用增量计算以跳过连续输入间相似部分的卷积运算;使用快速卷积算法增加并行计算资源的利用效率。实验结果表明,加速器算力约为238 GOP/s,增量计算以及快速卷积算法为加速器分别提供1.31倍与2.11倍的加速比,相较于同类网络加速器,DSP效率上有1.90倍到5.43倍的提升。 展开更多
关键词 卷积网络加速器 视频目标检测 连续输入相似性 并行计算 增量计算 快速卷积算法 高计算资源效率
在线阅读 下载PDF
基于FPGA与退化YOLO的手机镜片缺陷检测系统 被引量:3
7
作者 王习东 王国鹏 +3 位作者 王保昌 张浩 冯文杰 杨业泉 《电子测量技术》 北大核心 2022年第18期10-17,共8页
针对镜片缺陷检测采用图像处理法和神经网络法存在时延高、功耗高和检测缺陷类别较少等问题,设计了一种基于FPGA与退化YOLO的软硬协同检测系统。系统中使用卷积层代替YOLO网络的重排序层进行网络退化,并映射到FPGA上;采用动态量化、模... 针对镜片缺陷检测采用图像处理法和神经网络法存在时延高、功耗高和检测缺陷类别较少等问题,设计了一种基于FPGA与退化YOLO的软硬协同检测系统。系统中使用卷积层代替YOLO网络的重排序层进行网络退化,并映射到FPGA上;采用动态量化、模块融合、双缓冲流水线、循环展开和分块等优化策略,设计可动态配置的加速IP,其中的卷积计算模块分别实现了基于Winograd和GEMM的快速卷积算法。实验结果表明,本系统的加速IP在PYNQ-Z2上获得了51.89 GOP/s的计算性能,比基于典型滑动窗口卷积计算方法的性能提高了0.76倍,加速单张图像的时延为433 ms,功耗为1.07 W,与Core i5-10500 CPU相比,能效是其365.27倍,实现了小型设备对手机镜片低时延、低功耗的多缺陷检测。 展开更多
关键词 FPGA YOLOv2 手机镜片检测 软硬协同检测 快速卷积算法
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部