基于树莓派的高效卷积优化方法

Optimization Method of Efficient Convolution Based on Raspberry Pi

在线阅读下载PDF

导出

摘要针对卷积神经网络(CNN)的巨大参数量和计算量而导致在树莓派等低功耗的边缘设备模型推理过程中产生耗时较大的问题,对网络上现有的开源推理框架进行了深入研究及对比分析,发现这些都属于通用型推理框架,并不能针对树莓派设备进行极致推理优化。因此,提出了基于RoofLine模型的定量分析方法,从访存和运算二个维度对Mobilenet等移动端网络架构模型进行卷积推理优化。研究采用了计算图优化方法,利用算子融合和内存重排做推理预处理,从而减少推理过程的计算量和访存开销;同时针对每一层的卷积参数量和特性,提出了9宫格分块策略和NEON指令流水线级别的优化。实验表明,所提出的优化方法在不同的分辨率下,相比腾讯的开源框架NCNN、阿里MNN和商汤PPL.NN在推理速度上取得了高于3倍的性能优化。 In response to the problem of time-consuming in reasoning process of low-power edge devices such as Raspberry Pi due to the huge number of parameters and calculation amount of convolutional neural network(CNN),an in-depth study and comparative analysis of the existing open source reasoning framework on the network found that these are general reasoning frameworks,which cannot be optimized for the ultimate reasoning of Raspberry PI devices.Therefore,we propose a quantitative analysis method based on the RoofLine model to optimize the convolutional reasoning of mobile terminal network architecture models such as Mobilenet from two dimensions of memory access and operation.Firstly,by using the computational graph optimization method,operator fusion and memory arrangement as inference preprocessing,the amount of computation and memory access overhead in the inference process are reduced.Secondly,according to the CNN parameters and characteristics of each layer,the 9-grid block strategy and the optimization of NEON instruction pipeline are proposed.Experiments show that the proposed method achieves more than three times performance optimization under different resolutions in inferencing speed compared with Tencent's open-source framework NCNN,Alibaba MNN and Sensetime PPL.NN.

作者郭晓龙牛晋宇杜永萍 GUO Xiao-long;NIU Jin-yu;DU Yong-ping(School of Information Technology,Beijing University of Technology,Beijing 100124,China)

机构地区北京工业大学信息学部

出处《计算机技术与发展》 2023年第5期96-104,共9页 Computer Technology and Development

基金国家重点研发计划(2018YFC1900804,2019YFC1906002)。

关键词深度学习模型推理加速计算图优化算子融合卷积优化移动端推理框架 deep learning model inference acceleration computational graph optimization operator fusion convolution optimization mobile inference framework

分类号 TP303 [自动化与计算机技术—计算机系统结构]

作者简介郭晓龙(1983-),男,硕士研究生,研究方向为深度学习模型推理加速;通讯作者:杜永萍(1977-),女,博士,教授,研究方向为模式识别与智能信息处理。

引文网络
相关文献

参考文献6

1张承龙,曹华伟,王国波,郝沁汾,张洋,叶笑春,范东睿.面向高通量计算机的图算法优化技术[J].计算机研究与发展,2020,57(6):1152-1163. 被引量：11
2张潇,支天.面向多核处理器的机器学习推理框架[J].计算机研究与发展,2019,56(9):1977-1987. 被引量：6
3王一超,廖秋承,左思成,谢锐,林新华.一种ARM处理器面向高性能计算的性能评估[J].计算机科学,2019,46(8):95-99. 被引量：5
4贺爱香,顾乃杰,苏俊杰.基于多核ARM体系结构的基础函数优化方法[J].计算机工程,2018,44(5):47-52. 被引量：5
5廖继荣,董海涛.利用循环展开最大化软件流水线性能(英文)[J].纯粹数学与应用数学,2004,20(3):285-290. 被引量：3
6冉德成,吴东,钱磊.面向深度学习推理的矩阵乘法加速器设计[J].计算机工程,2019,45(10):40-45. 被引量：2

二级参考文献32

1金丽,包志华,陈海进.基于ARM嵌入式系统的C程序优化设计方法[J].南通大学学报（自然科学版）,2006,5(3):61-64. 被引量：8
2Rau B R. Iterative modulo scheduling: an algorithm for software pipelining loops[C]. Proceedings of 27th international symposium on Micro-architecture, ACM Press, 1994, 63-74.
3Mahlke S ,Lin D,Chen W, Hank R,Bringmann R. Effective compiler support for predicated execution using the hyperblock[C]. Proceedings of 25th International Symposium on Microarchitecture, IEEE Computer Society, 1992, 45～54.
4Chen Ding. Master's thesis: Improving software pipelining with unroll-and-jam and memory reuse analysis[M]. Michigan: Michigan Technological University, 1996.
5Trimaran Consortium. TRIMARAN: An Infrastructure for Research in Instruction Level Parallelism[M]. http://www.trimaran.org.
6Kathail V, Schlansker M, Ra R. Rau. Hpl-pd architecture specification: Version 1.1. Technical Report HPL-9380[M].Palo Alto: Hewlett Packard Laboratories, 2000.
7P. van der Mark et al. Using Iterative Compilation for Managing Software Pipeline-Unrolling Trade-offs[C]. Proceedings of the 4th workshop on Software and Compilers for Embedded Systems, 1999.
8顾乃杰,李凯,陈国良,吴超.基于龙芯2F体系结构的BLAS库优化[J].中国科学技术大学学报,2008,38(7):854-859. 被引量：13
9田翔,周凡,陈耀武,刘莉,陈耀.基于FPGA的实时双精度浮点矩阵乘法器设计[J].浙江大学学报（工学版）,2008,42(9):1611-1615. 被引量：21
10谢川,贺玲玲.基于ARM处理器的软件优化设计[J].微计算机信息,2009,25(11):164-166. 被引量：2

共引文献25

1许春冬,刘亦晴.基于DM642的H.264视频编码优化[J].江西理工大学学报,2010,31(5):44-47. 被引量：1
2沙萍,敬石心.关于分段函数的原函数存在性的讨论[J].沈阳工业学院学报,2000,19(1):81-84. 被引量：3
3陈纪孝,李勇.软件流水循环缓冲的设计与实现[J].计算机科学,2013,40(4):35-37. 被引量：4
4刘闯,何峰,肖兮,董小社,张兴军.计算流体力学程序单核指令级优化方法[J].西安交通大学学报,2018,52(12):77-83.
5刘建友,蒋春霞.一种基于高通量计算机的图算法优化技术[J].信息与电脑,2020,32(22):69-71. 被引量：1
6王利伟,玄志武,徐洪洲,刘学.Windows环境下遥测数据并行拼接处理方法研究[J].电子设计工程,2021,29(2):10-15.
7王正行,曾令将.基于飞腾M6678的向量数学库优化技术研究[J].舰船电子工程,2021,41(3):102-106. 被引量：3
8孟慧玲,王耀彬,李凌,杨洋,王欣夷,刘志勤.TACLeBench中内核程序循环级推测并行性分析[J].计算机应用,2021,41(9):2652-2657.
9于海心,王晶,李晓锋.基于改进RMS算法的多核嵌入式系统总线周期调度表优化设计[J].火炮发射与控制学报,2021,42(3):71-75. 被引量：3
10丁艳,张海文,孙永彦.基于多网格技术的电网工程造价数据信息分析方法研究[J].电子设计工程,2021,29(19):35-39. 被引量：5

1董温淑.深耕大模型, 一个AI先行者的9年实践[J].财经天下,2023(7):62-65.
2孙苏勇.图像分类训练推理一体化平台的设计与实现[J].福建电脑,2023,39(5):71-76.
3陈永祺,顾茜,林郁.基于PP-PicoDet的半自动标注烟丝异物检测研究[J].中国烟草学报,2023,29(2):11-21. 被引量：5
4刘翀豪,潘理虎,杨帆,张睿.改进YOLOv5的轻量化口罩检测算法[J].计算机工程与应用,2023,59(7):232-241. 被引量：8
5王凡,冯立强,曹荣强.大数据驱动的海洋人工智能服务平台设计与应用[J].数据与计算发展前沿,2023,5(2):73-85. 被引量：7
6范维,胡建超,王巧华,汤文权.基于深度学习的移动端缺陷蛋检测系统研究[J].农业机械学报,2023,54(3):411-420. 被引量：6
7谢坤鹏,仪德智,刘义情,刘航,赫鑫宇,龚成,卢冶.SAF-CNN:面向嵌入式FPGA的卷积神经网络稀疏化加速框架[J].计算机研究与发展,2023,60(5):1053-1072. 被引量：5
8付强,王红成.基于可分离卷积和注意力机制的晶圆缺陷检测[J].计算机系统应用,2023,32(5):20-27. 被引量：4
9吴国超,王豹,鲍文月.基于开源框架的WebGIS平台关键问题研究[J].城市勘测,2023(2):45-48. 被引量：4
10郑伟,姚远,刘乐源,常玉清,王姝.基于贝叶斯网络的制粉系统安全控制方法[J].控制工程,2023,30(3):560-569. 被引量：1

计算机技术与发展

2023年第5期

浏览历史

内容加载中请稍等...

基于树莓派的高效卷积优化方法

参考文献6

二级参考文献32

共引文献25

相关作者

相关机构

相关主题

浏览历史