期刊导航
期刊开放获取
上海教育软件发展有限公..
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
7
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
面向飞腾处理器平台的快速卷积算法优化
1
作者
赵亚飞
杨耀功
+1 位作者
王永刚
魏继增
《上海理工大学学报》
CAS
CSCD
北大核心
2024年第6期610-619,共10页
为解决卷积神经网络难以在计算资源受限设备上部署的问题,面向国产FT-2000/4多核处理器提出一种高性能的快速卷积算法FastInfer。采用分块策略优化通用矩阵乘法,将处理器访问频率高的数据存入更靠近处理器的缓存中,从而提高计算过程中...
为解决卷积神经网络难以在计算资源受限设备上部署的问题,面向国产FT-2000/4多核处理器提出一种高性能的快速卷积算法FastInfer。采用分块策略优化通用矩阵乘法,将处理器访问频率高的数据存入更靠近处理器的缓存中,从而提高计算过程中的访存效率。配合分块方案设计实现高性能的矩阵乘法微内核,使用向量外积运算更新数据,提高计算访存比,实现最大程度掩盖访存指令的延迟。最终实验结果表明,FastInfer在FT-2000/4处理器上的峰值计算性能达到99.56 GFLOPS。在不同输入规模的通用矩阵乘法测试中,FastInfer性能是OpenBLAS算法的1.07倍和1.52倍。在卷积测试中,FastInfer性能是ARM Compute Library算法的1.32倍,实现了在FT-2000/4多核处理器上的高性能卷积计算。
展开更多
关键词
深度学习
快速卷积算法
并行计算
通用矩阵乘法
在线阅读
下载PDF
职称材料
Winograd快速卷积相关研究综述
被引量:
5
2
作者
童敢
黄立波
《计算机科学与探索》
CSCD
北大核心
2022年第5期959-971,共13页
卷积神经网络(CNN)已经被广泛应用到各个领域并发挥了重要作用。卷积算子是卷积神经网络的基础组件,同时也是最耗时的部分。近年来,研究者提出了包括基于FFT和Winograd的若干种快速卷积算法。其中Winograd卷积因大幅减少了卷积中乘法操...
卷积神经网络(CNN)已经被广泛应用到各个领域并发挥了重要作用。卷积算子是卷积神经网络的基础组件,同时也是最耗时的部分。近年来,研究者提出了包括基于FFT和Winograd的若干种快速卷积算法。其中Winograd卷积因大幅减少了卷积中乘法操作且占用内存更小而迅速成为小卷积核的卷积算子上快速卷积实现的首选。但目前相关工作聚焦于算法的一般化、拓展和各类体系结构上的实现,还没有研究者对Winograd卷积算法作系统性的总结。为了给后续研究者提供详细的参考依据,对Winograd卷积引入以来的相关工作进行了总结。首先阐述了Winograd最小滤波算法及Winograd卷积的引入,介绍了Winograd卷积的一般化与拓展,并对比了现有实现之间的差异;从稀疏剪枝、低精度与量化、数值稳定性这三方面介绍了Winograd卷积的优化工作,并详细介绍了相关具体方法的优缺点;对各类体系结构上的实现和优化进行了分类总结,比较了各平台上实现可用的通用优化方法,并介绍了Winograd卷积的实际应用;最后对内容进行了简要总结,分析了现有研究的局限性,并对未来可能的方向进行了初步展望。
展开更多
关键词
Winograd
卷积
快速卷积算法
卷积
神经网络(CNN)
卷积
优化
在线阅读
下载PDF
职称材料
卷积型小波变换实现及机械早期故障诊断应用
被引量:
6
3
作者
罗荣
田福庆
+1 位作者
李克玉
丁庆喜
《振动与冲击》
EI
CSCD
北大核心
2013年第7期64-69,共6页
为消除Mallat算法存在的频率折叠等固有缺陷对机械故障诊断的不利影响,提出采用卷积型小波变换进行机械故障诊断。推导卷积型小波变换快速分解算法,给出基于滤波器组的递归分解实现方法;针对滚动轴承早期故障诊断与定量识别难题及共振...
为消除Mallat算法存在的频率折叠等固有缺陷对机械故障诊断的不利影响,提出采用卷积型小波变换进行机械故障诊断。推导卷积型小波变换快速分解算法,给出基于滤波器组的递归分解实现方法;针对滚动轴承早期故障诊断与定量识别难题及共振解调法与冲击脉冲法的不足,提出将卷积型小波变换与共振解调法、冲击脉冲法相结合的新方法对滚动轴承早期故障进行诊断与定量识别,给出具体实现过程。仿真实验与实例分析表明:卷积型小波变换能消除Mallat算法固有缺陷对机械故障诊断的不利影响,较内积型小波变换更适合机械故障诊断。该方法可有效对滚动轴承早期故障诊断与定量识别,具有一定应用价值。
展开更多
关键词
MALLAT
算法
卷积
型小波变换及
快速
算法
共振解调法
冲击脉冲法
在线阅读
下载PDF
职称材料
基于深度卷积神经网络的糖尿病视网膜病变分期及病灶检测
被引量:
13
4
作者
谢云霞
黄海于
胡建斌
《计算机应用》
CSCD
北大核心
2020年第8期2460-2464,共5页
针对糖尿病视网膜病变(DR)图像分辨率过大、病灶特征过于分散难以获取以及正负难易样本不平衡而导致DR分期精确率一直无法得到有效提高的问题,提出了改进的基于快速区域的卷积神经网络(Faster R-CNN)和子图分割相结合的DR分期方法。首先...
针对糖尿病视网膜病变(DR)图像分辨率过大、病灶特征过于分散难以获取以及正负难易样本不平衡而导致DR分期精确率一直无法得到有效提高的问题,提出了改进的基于快速区域的卷积神经网络(Faster R-CNN)和子图分割相结合的DR分期方法。首先,使用子图分割解决视盘区域对于病灶识别的干扰问题;其次,在特征提取阶段使用深度残差网络以解决病灶在高分辨率眼底图像中占比小而导致的特征难以获取的问题;最后,在感兴趣区域(ROI)生成时采用在线困难样本挖掘(OHEM)方法解决正负难易样本不平衡的问题。在国际公开数据集EyePACS进行DR分期实验,所提方法在DR病分期中精确率0期达到94.83%,1期达到86.84%,2期达到94.00%,3期达到87.21%,4期达到82.96%。实验结果表明,改进后的Faster R-CNN能对DR图像高效分期并自动标注出病灶。
展开更多
关键词
糖尿病视网膜病变
目标检测
基于
快速
区域的
卷积
神经网络
算法
子图分割
在线困难样本挖掘
在线阅读
下载PDF
职称材料
YOLO检测网络的FPGA加速计算模型的研究
被引量:
4
5
作者
裴颂文
汪显荣
《小型微型计算机系统》
CSCD
北大核心
2022年第8期1681-1686,共6页
FPGA(Field Programmable Gate Array)凭借其高并行和可定制化的特点,可以解决目标检测网络结构复杂、计算量大和存储开销高等问题.本文基于FPGA验证平台研究并实现了YOLO(You Only Look Once)系列神经网络的加速计算模型.首先采用动态...
FPGA(Field Programmable Gate Array)凭借其高并行和可定制化的特点,可以解决目标检测网络结构复杂、计算量大和存储开销高等问题.本文基于FPGA验证平台研究并实现了YOLO(You Only Look Once)系列神经网络的加速计算模型.首先采用动态定点量化方法降低了数据存储和传输量.然后针对YOLO模型中两类计算开销大的典型卷积层,采用了流水线,循环展开,模块融合等策略分别实现了基于Winograd和GEMM的快速卷积计算引擎,提高加速计算效率.实验结果表明,本文在PYNQ-Z1验证平台上获得的计算性能达到64.9 GOP/s,比基于典型滑动窗口卷积计算方法的性能提高了2.15倍.
展开更多
关键词
FPGA
YOLO
快速卷积算法
并行计算
流水线
在线阅读
下载PDF
职称材料
基于帧间相似性的目标检测FPGA加速器设计
被引量:
2
6
作者
李晟召
王琴
《计算机工程与设计》
北大核心
2023年第6期1885-1892,共8页
为解决视频目标检测应用上的神经网络硬件加速问题,提出一种基于视频应用中连续输入之间高度相似性的YOLO卷积网络FPGA加速器。提出增量计算与快速卷积算法结合的优化方法,使用增量计算以跳过连续输入间相似部分的卷积运算;使用快速卷...
为解决视频目标检测应用上的神经网络硬件加速问题,提出一种基于视频应用中连续输入之间高度相似性的YOLO卷积网络FPGA加速器。提出增量计算与快速卷积算法结合的优化方法,使用增量计算以跳过连续输入间相似部分的卷积运算;使用快速卷积算法增加并行计算资源的利用效率。实验结果表明,加速器算力约为238 GOP/s,增量计算以及快速卷积算法为加速器分别提供1.31倍与2.11倍的加速比,相较于同类网络加速器,DSP效率上有1.90倍到5.43倍的提升。
展开更多
关键词
卷积
网络加速器
视频目标检测
连续输入相似性
并行计算
增量计算
快速卷积算法
高计算资源效率
在线阅读
下载PDF
职称材料
基于FPGA与退化YOLO的手机镜片缺陷检测系统
被引量:
3
7
作者
王习东
王国鹏
+3 位作者
王保昌
张浩
冯文杰
杨业泉
《电子测量技术》
北大核心
2022年第18期10-17,共8页
针对镜片缺陷检测采用图像处理法和神经网络法存在时延高、功耗高和检测缺陷类别较少等问题,设计了一种基于FPGA与退化YOLO的软硬协同检测系统。系统中使用卷积层代替YOLO网络的重排序层进行网络退化,并映射到FPGA上;采用动态量化、模...
针对镜片缺陷检测采用图像处理法和神经网络法存在时延高、功耗高和检测缺陷类别较少等问题,设计了一种基于FPGA与退化YOLO的软硬协同检测系统。系统中使用卷积层代替YOLO网络的重排序层进行网络退化,并映射到FPGA上;采用动态量化、模块融合、双缓冲流水线、循环展开和分块等优化策略,设计可动态配置的加速IP,其中的卷积计算模块分别实现了基于Winograd和GEMM的快速卷积算法。实验结果表明,本系统的加速IP在PYNQ-Z2上获得了51.89 GOP/s的计算性能,比基于典型滑动窗口卷积计算方法的性能提高了0.76倍,加速单张图像的时延为433 ms,功耗为1.07 W,与Core i5-10500 CPU相比,能效是其365.27倍,实现了小型设备对手机镜片低时延、低功耗的多缺陷检测。
展开更多
关键词
FPGA
YOLOv2
手机镜片检测
软硬协同检测
快速卷积算法
在线阅读
下载PDF
职称材料
题名
面向飞腾处理器平台的快速卷积算法优化
1
作者
赵亚飞
杨耀功
王永刚
魏继增
机构
天津大学智能与计算学部
飞腾信息技术有限公司
出处
《上海理工大学学报》
CAS
CSCD
北大核心
2024年第6期610-619,共10页
基金
国家自然科学基金资助项目(61402321)
天津市自然科学基金资助项目(23JCYBJC01770)
2024年第一批天津市制造业高质量发展专项资金资助项目(24ZGNGX00020)。
文摘
为解决卷积神经网络难以在计算资源受限设备上部署的问题,面向国产FT-2000/4多核处理器提出一种高性能的快速卷积算法FastInfer。采用分块策略优化通用矩阵乘法,将处理器访问频率高的数据存入更靠近处理器的缓存中,从而提高计算过程中的访存效率。配合分块方案设计实现高性能的矩阵乘法微内核,使用向量外积运算更新数据,提高计算访存比,实现最大程度掩盖访存指令的延迟。最终实验结果表明,FastInfer在FT-2000/4处理器上的峰值计算性能达到99.56 GFLOPS。在不同输入规模的通用矩阵乘法测试中,FastInfer性能是OpenBLAS算法的1.07倍和1.52倍。在卷积测试中,FastInfer性能是ARM Compute Library算法的1.32倍,实现了在FT-2000/4多核处理器上的高性能卷积计算。
关键词
深度学习
快速卷积算法
并行计算
通用矩阵乘法
Keywords
deep learning
fast convolution algorithm
parallel computing
general matrix multiplication
分类号
TP391.41 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
Winograd快速卷积相关研究综述
被引量:
5
2
作者
童敢
黄立波
机构
国防科技大学计算机学院
出处
《计算机科学与探索》
CSCD
北大核心
2022年第5期959-971,共13页
基金
国家自然科学基金(61872374)。
文摘
卷积神经网络(CNN)已经被广泛应用到各个领域并发挥了重要作用。卷积算子是卷积神经网络的基础组件,同时也是最耗时的部分。近年来,研究者提出了包括基于FFT和Winograd的若干种快速卷积算法。其中Winograd卷积因大幅减少了卷积中乘法操作且占用内存更小而迅速成为小卷积核的卷积算子上快速卷积实现的首选。但目前相关工作聚焦于算法的一般化、拓展和各类体系结构上的实现,还没有研究者对Winograd卷积算法作系统性的总结。为了给后续研究者提供详细的参考依据,对Winograd卷积引入以来的相关工作进行了总结。首先阐述了Winograd最小滤波算法及Winograd卷积的引入,介绍了Winograd卷积的一般化与拓展,并对比了现有实现之间的差异;从稀疏剪枝、低精度与量化、数值稳定性这三方面介绍了Winograd卷积的优化工作,并详细介绍了相关具体方法的优缺点;对各类体系结构上的实现和优化进行了分类总结,比较了各平台上实现可用的通用优化方法,并介绍了Winograd卷积的实际应用;最后对内容进行了简要总结,分析了现有研究的局限性,并对未来可能的方向进行了初步展望。
关键词
Winograd
卷积
快速卷积算法
卷积
神经网络(CNN)
卷积
优化
Keywords
Winograd convolution
fast convolution algorithm
convolutional neural network(CNN)
convolution optimization
分类号
TP183 [自动化与计算机技术—控制理论与控制工程]
在线阅读
下载PDF
职称材料
题名
卷积型小波变换实现及机械早期故障诊断应用
被引量:
6
3
作者
罗荣
田福庆
李克玉
丁庆喜
机构
海军工程大学兵器工程系
出处
《振动与冲击》
EI
CSCD
北大核心
2013年第7期64-69,共6页
文摘
为消除Mallat算法存在的频率折叠等固有缺陷对机械故障诊断的不利影响,提出采用卷积型小波变换进行机械故障诊断。推导卷积型小波变换快速分解算法,给出基于滤波器组的递归分解实现方法;针对滚动轴承早期故障诊断与定量识别难题及共振解调法与冲击脉冲法的不足,提出将卷积型小波变换与共振解调法、冲击脉冲法相结合的新方法对滚动轴承早期故障进行诊断与定量识别,给出具体实现过程。仿真实验与实例分析表明:卷积型小波变换能消除Mallat算法固有缺陷对机械故障诊断的不利影响,较内积型小波变换更适合机械故障诊断。该方法可有效对滚动轴承早期故障诊断与定量识别,具有一定应用价值。
关键词
MALLAT
算法
卷积
型小波变换及
快速
算法
共振解调法
冲击脉冲法
Keywords
Mallat algorithm
convolution wavelet transformation and its fast decomposition algorithm
resonancedemodulation
shock pulse method
分类号
TH113.1 [机械工程—机械设计及理论]
在线阅读
下载PDF
职称材料
题名
基于深度卷积神经网络的糖尿病视网膜病变分期及病灶检测
被引量:
13
4
作者
谢云霞
黄海于
胡建斌
机构
西南交通大学信息科学与技术学院
爱尔眼科成都东区爱尔眼科医院
出处
《计算机应用》
CSCD
北大核心
2020年第8期2460-2464,共5页
文摘
针对糖尿病视网膜病变(DR)图像分辨率过大、病灶特征过于分散难以获取以及正负难易样本不平衡而导致DR分期精确率一直无法得到有效提高的问题,提出了改进的基于快速区域的卷积神经网络(Faster R-CNN)和子图分割相结合的DR分期方法。首先,使用子图分割解决视盘区域对于病灶识别的干扰问题;其次,在特征提取阶段使用深度残差网络以解决病灶在高分辨率眼底图像中占比小而导致的特征难以获取的问题;最后,在感兴趣区域(ROI)生成时采用在线困难样本挖掘(OHEM)方法解决正负难易样本不平衡的问题。在国际公开数据集EyePACS进行DR分期实验,所提方法在DR病分期中精确率0期达到94.83%,1期达到86.84%,2期达到94.00%,3期达到87.21%,4期达到82.96%。实验结果表明,改进后的Faster R-CNN能对DR图像高效分期并自动标注出病灶。
关键词
糖尿病视网膜病变
目标检测
基于
快速
区域的
卷积
神经网络
算法
子图分割
在线困难样本挖掘
Keywords
Diabetic Retinopathy(DR)
object detection
Faster Region-based Convolutional Neural Network(Faster R-CNN)algorithm
subgraph segmentation
Online Hard Example Mining(OHEM)
分类号
TP391.41 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
YOLO检测网络的FPGA加速计算模型的研究
被引量:
4
5
作者
裴颂文
汪显荣
机构
上海理工大学光电信息与计算机工程学院
中国科学院计算技术研究所计算机体系结构国家重点实验室
复旦大学上海市数据科学重点实验室
出处
《小型微型计算机系统》
CSCD
北大核心
2022年第8期1681-1686,共6页
基金
国家自然科学基金项目(61975124)资助
上海市自然科学基金项目(20ZR1438500)资助
+1 种基金
上海市科委科技行动计划专项基金项目(19DZ2301100,20DZ2303500)资助
上海市数据科学重点实验室开放课题项目(2020090600003)资助.
文摘
FPGA(Field Programmable Gate Array)凭借其高并行和可定制化的特点,可以解决目标检测网络结构复杂、计算量大和存储开销高等问题.本文基于FPGA验证平台研究并实现了YOLO(You Only Look Once)系列神经网络的加速计算模型.首先采用动态定点量化方法降低了数据存储和传输量.然后针对YOLO模型中两类计算开销大的典型卷积层,采用了流水线,循环展开,模块融合等策略分别实现了基于Winograd和GEMM的快速卷积计算引擎,提高加速计算效率.实验结果表明,本文在PYNQ-Z1验证平台上获得的计算性能达到64.9 GOP/s,比基于典型滑动窗口卷积计算方法的性能提高了2.15倍.
关键词
FPGA
YOLO
快速卷积算法
并行计算
流水线
Keywords
FPGA
YOLO
fast convolution algorithm
parallel computing
pipeline
分类号
TP391 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
基于帧间相似性的目标检测FPGA加速器设计
被引量:
2
6
作者
李晟召
王琴
机构
上海交通大学微纳电子学系
出处
《计算机工程与设计》
北大核心
2023年第6期1885-1892,共8页
基金
国家科技部重点研发计划基金项目(2018YFA0701500)。
文摘
为解决视频目标检测应用上的神经网络硬件加速问题,提出一种基于视频应用中连续输入之间高度相似性的YOLO卷积网络FPGA加速器。提出增量计算与快速卷积算法结合的优化方法,使用增量计算以跳过连续输入间相似部分的卷积运算;使用快速卷积算法增加并行计算资源的利用效率。实验结果表明,加速器算力约为238 GOP/s,增量计算以及快速卷积算法为加速器分别提供1.31倍与2.11倍的加速比,相较于同类网络加速器,DSP效率上有1.90倍到5.43倍的提升。
关键词
卷积
网络加速器
视频目标检测
连续输入相似性
并行计算
增量计算
快速卷积算法
高计算资源效率
Keywords
convolution neural network accelerator
video object detection
similarity in consecutive inputs
parallel computation
incremental operation
fast convolution algorithm
high computing resource efficiency
分类号
TP183 [自动化与计算机技术—控制理论与控制工程]
在线阅读
下载PDF
职称材料
题名
基于FPGA与退化YOLO的手机镜片缺陷检测系统
被引量:
3
7
作者
王习东
王国鹏
王保昌
张浩
冯文杰
杨业泉
机构
三峡大学计算机与信息学院
三峡大学理学院
三峡大学电气与新能源学院
出处
《电子测量技术》
北大核心
2022年第18期10-17,共8页
基金
国家自然科学基金面上项目(52179136)资助。
文摘
针对镜片缺陷检测采用图像处理法和神经网络法存在时延高、功耗高和检测缺陷类别较少等问题,设计了一种基于FPGA与退化YOLO的软硬协同检测系统。系统中使用卷积层代替YOLO网络的重排序层进行网络退化,并映射到FPGA上;采用动态量化、模块融合、双缓冲流水线、循环展开和分块等优化策略,设计可动态配置的加速IP,其中的卷积计算模块分别实现了基于Winograd和GEMM的快速卷积算法。实验结果表明,本系统的加速IP在PYNQ-Z2上获得了51.89 GOP/s的计算性能,比基于典型滑动窗口卷积计算方法的性能提高了0.76倍,加速单张图像的时延为433 ms,功耗为1.07 W,与Core i5-10500 CPU相比,能效是其365.27倍,实现了小型设备对手机镜片低时延、低功耗的多缺陷检测。
关键词
FPGA
YOLOv2
手机镜片检测
软硬协同检测
快速卷积算法
Keywords
FPGA
YOLOv2
mobile phone lens detection
software and hardware collaborative detection
fast convolution algorithm
分类号
TP391 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
面向飞腾处理器平台的快速卷积算法优化
赵亚飞
杨耀功
王永刚
魏继增
《上海理工大学学报》
CAS
CSCD
北大核心
2024
0
在线阅读
下载PDF
职称材料
2
Winograd快速卷积相关研究综述
童敢
黄立波
《计算机科学与探索》
CSCD
北大核心
2022
5
在线阅读
下载PDF
职称材料
3
卷积型小波变换实现及机械早期故障诊断应用
罗荣
田福庆
李克玉
丁庆喜
《振动与冲击》
EI
CSCD
北大核心
2013
6
在线阅读
下载PDF
职称材料
4
基于深度卷积神经网络的糖尿病视网膜病变分期及病灶检测
谢云霞
黄海于
胡建斌
《计算机应用》
CSCD
北大核心
2020
13
在线阅读
下载PDF
职称材料
5
YOLO检测网络的FPGA加速计算模型的研究
裴颂文
汪显荣
《小型微型计算机系统》
CSCD
北大核心
2022
4
在线阅读
下载PDF
职称材料
6
基于帧间相似性的目标检测FPGA加速器设计
李晟召
王琴
《计算机工程与设计》
北大核心
2023
2
在线阅读
下载PDF
职称材料
7
基于FPGA与退化YOLO的手机镜片缺陷检测系统
王习东
王国鹏
王保昌
张浩
冯文杰
杨业泉
《电子测量技术》
北大核心
2022
3
在线阅读
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部