CPU-GPU系统中基于剖分的全局性能优化方法被引量：10

Profiling Based Optimization Method for CPU-GPU Heterogeneous Parallel Processing System

在线阅读下载PDF

导出

摘要针对将应用移植到CPU-GPU异构并行系统上时优化策略各自分散、没有一个全局的指导思想的问题,提出了一种基于剖分的全局性能优化方法.该方法由优化策略库、剖分工具库和策略配置模块组成.优化策略库将应用移植到异构并行系统上的性能优化过程划分为访存级、内核加速级和数据划分级3级优化;针对3级优化剖分工具库提供了3级剖分机制,通过运行时的剖分技术获取剖分信息;策略配置模块根据所获取的信息指导用户在每级优化中选择合适的优化策略.实验证明,基于剖分的全局性能优化方法可以明确地指导将应用移植到CPU-GPU异构并行系统上的全局优化过程,利用该优化方法后,以矩阵相乘和傅里叶变换为例的应用性能提升明显,最终性能相对于访存级优化最高可提高30%左右. A profiling based optimization method for CPU-GPU heterogeneous parallel processing system is proposed to address the problem that the present optimization strategies get sectional thus failed to guide a global optimization.It is composed of the optimization strategy library,the profiling tool library,and the strategy deploy module,and the optimization strategy library divides the performance promotion process into a three-level optimization,including the memory-access level,the kernel-speedup level,and the data-partition level.The profiling tool library realizes three-level profiling mechanisms towards three-level optimizations to obtain application information,and the strategy deploy module guides users to choose an adaptive strategy with the information obtained by profiling tool library.Experimental results show that the proposed one is able to guide the optimization process of applications transplanted to heterogeneous parallel system.The performance for matrix multiplication and fast Fourier transform are improved obviously,and the final performance is heightened by 30% compared with the memory-level optimization.

作者张保董小社白秀秀曹海军刘超梅一多

机构地区西安交通大学电子与信息工程学院

出处《西安交通大学学报》 EI CAS CSCD 北大核心 2012年第2期17-23,共7页 Journal of Xi'an Jiaotong University

基金国家高技术研究发展计划资助项目(2009AA01A135 2009AA01Z108) 中央高校基本科研业务费专项资金资助项目(08142007)

关键词 CPU-GPU异构并行系统全局优化 3级优化 3级剖分 CPU-GPU heterogeneous parallel system global optimization third-level optimization third-level profiling

分类号 TP399 [自动化与计算机技术—计算机应用技术]

作者简介张保（1987-），男，硕士生；董小社（通信作者），男，教授，博士生导师．

引文网络
相关文献

参考文献10

1吴恩华.图形处理器用于通用计算的技术、现状及其挑战[J].软件学报,2004,15(10):1493-1504. 被引量：141
2李治平.油气层渗流力学[J].西南石油学院学报,2000,.
3Da Motta E P,Hill A D. Selective matrix acidizing of horizontal wells. SPE27399,1993
4陈武,张明泉,曾高峰,张乃欣.气井时间利用分析[J].天然气工业,2003,23(3):47-48. 被引量：11
5张保,曹海军,董小社,李丹,胡雷钧.面向图形处理器重叠通信与计算的数据划分方法[J].西安交通大学学报,2011,45(4):1-5. 被引量：5
6YANG Yi, XIANG Ping, KONG Jingfei, et al. A GPGPU compiler for memory optimization and parallelism management[C]//Proceedings of the 2010 ACM SIGPLAN Conference on Programming Language Design and Implementation. New York, USA: ACM, 2010: 86-97.
7MALONY A D, BIERSDORFF S, MAYANGLAMBAM S. An experimental approach to performance measurement of heterogeneous parallel applications using CUDA[C]//Proeeedings of the 24th ACM International Conference on Supercomputing. New York, USA: ACM, 2010; 127-136.
8BAGHSORKHI S S, DELAHAYE M, PATEL S J, et al. An adaptive performance modeling tool for GPU architectures[C]//Proceedings of the 15th ACM SIGPLAN Symposium on Principles and Practice of Parallel Programming. New York, USA: ACM, 2010. 105 -114.
9NVIDIA Corporation. NVIDIA CUDA Programming guide[EB/OL].[2010-07-15]. http://www. nvidia. com/obj ect/cuda_home_new. html.
10董小社,冯国富,王旭昊,冯景华,胡雷钧.基于Cell多核处理器的层次化运行时支持技术[J].计算机研究与发展,2010,47(4):561-570. 被引量：2

二级参考文献30

1吴恩华,柳有权.基于图形处理器(GPU)的通用计算[J].计算机辅助设计与图形学学报,2004,16(5):601-612. 被引量：227
2吴恩华.图形处理器用于通用计算的技术、现状及其挑战[J].软件学报,2004,15(10):1493-1504. 被引量：141
3袁伟,张云泉,孙家昶,李玉成.国产万亿次机群系统NPB性能测试分析[J].计算机研究与发展,2005,42(6):1079-1084. 被引量：13
4胡伟武,赵继业,钟石强,杨旭,Elio Guidetti,吴永强.Implementing a 1GHz Four-Issue Out-of-Order Execution Microprocessor in a Standard Cell ASIC Methodology[J].Journal of Computer Science & Technology,2007,22(1):1-14. 被引量：14
5石油工业计划司组织编写.石油工业统计[M].北京：石油工业出版社,1985..
6孙守航杨灿群李春江王锋.OpenMP C编译器在Cell上的实现[J].计算机科学,2007,34(9):22-25.
7Kahle,et al.The cell processor architecture[C]//The 38th Annual IEEE/ACM Int Symp on Micro-Architecture(MICRO-38).New York:ACM,2005:3-3.
8Gschwind M.Chip multiprocessing and the cell broadband engine[C]//Proc of ACM Computing Frontiers 2006.New York:ACM,2006:1-8.
9Williams S,Shalf J,Oliker L,et al.The potential of the cell processor for scientific computing[C]//Proc of the 3rd Conf on Computing Frontiers.New York:ACM,2006:9-20.
10Knight T J,Park J Y,Ren M,et al.Compilation for explicitly managed memory hierarchies[C]//Proc of the 12th ACM SIGPLAN Symp on Principles and Practice of Parallel Programming (PPoPP'07).New York:ACM,2007:226-236.

共引文献155

1刘波,王博亮,谢杰镇.应用于生物膜组织的虚拟手术仿真技术研究[J].中国数字医学,2007,2(11):37-40. 被引量：1
2张军,易成,王邦平,李晓峰.GPU加速的鲁棒性人脸2.5D重建方法[J].四川大学学报（工程科学版）,2009,41(4):155-162.
3刘伟峰,赵改善,孔祥宁,蔡杰雄,张兵.基于多GPU的三维Kirchhoff积分法体偏移[J].华中科技大学学报（自然科学版）,2011,39(S1):110-114.
4刘伟峰,王永胜,张天雷,张兵.使用GPU模拟地震波传播的性能研究[J].系统仿真学报,2009,21(S1):170-174. 被引量：3
5鲍春波,王博亮.基于半边结构的膜组织触觉仿真[J].学术问题研究,2006,0(2):104-109.
6刘晓旭,胡永全,赵金洲.水平井酸化压力场与流速场分布计算研究[J].天然气工业,2004,24(8):56-58. 被引量：9
7张建勋,刘全利,陈庄.基于可编程GPU的快速体绘制技术[J].重庆大学学报（自然科学版）,2005,28(7):67-70. 被引量：9
8吴国付.美国港口管理体制考察[J].交通企业管理,2005,20(11):54-55. 被引量：1
9柳有权,刘学慧,吴恩华.基于GPU带有复杂边界的三维实时流体模拟[J].软件学报,2006,17(3):568-576. 被引量：54
10方建文,于金辉,马文龙.图形硬件加速的实时水面绘制[J].计算机工程与应用,2006,42(15):86-88. 被引量：2

同被引文献78

1吴恩华.图形处理器用于通用计算的技术、现状及其挑战[J].软件学报,2004,15(10):1493-1504. 被引量：141
2胡峰,胡保生.并行计算技术与并行算法综述[J].电脑与信息技术,1999,7(5):47-59. 被引量：10
3熊超.基于GPU的连续波雷达频谱分析与谱峰搜索技术研究[D].长沙,国防科学技术大学,2011.
4B汉.基于CPU + GPU的影像匹配高效能异构并行技术研究[D].武汉:武汉大学,2011:91 -92.
5ZHU Xiaoqian,LIU Xin,MENG Xiangfei,et al.Performance analysis and optimization of gyrokinetic torodial code on TH-1A supercomputer[C]// Proceedings of 2nd International Conference on Electrical and Control Engineering.Piscataway,NJ,USA:IEEE,2011:6027-6031.
6FENG Xiaowen,JIN Hai,ZHENG Ran,et al.Optimization of sparse matrix-vector multiplication with variant CSR on GPUs[C]//Proceedings of 17th IEEE International Conference on Parallel and Distributed Systems (ICPADS).Piscataway,NJ,USA:IEEE,2011:165-172.
7WU Haicheng,DIAMOS G,Wang Jin,et al.Optimizing data warehousing applications for GPUs using kernel fusion/fission[C]// Proceedings of IEEE 26th International Parallel and Distributed Processing Symposium,Workshops & PhD Forum (IPDPSW).Piscataway,NJ,USA:IEEE,2011:2433-2442.
8WOLF M E,LAM M S.A loop transformation theory and an algorithm to maximize parallelism[J].IEEE Trans on Parallel Distrib Syst,1991,2(4):452-471.
9WOLF M E,LAM M S.A data locality optimizing algorithm[C]//Proceedings of the ACM SIGPLAN' 91Conference on Programming Language Design and Implementation (PLDI).Washington,DC,USA:ACM,1991:30-44.
10SMITH M D,RAMSEY N,HOLLOWAY G H.A generalized algorithm for graph-coloring register allocation[C]// Proceedings of the ACM SIGPLAN 2004 Conference on Programming Language Design and Implementation (PLDI).Washington,DC,USA:ACM,2004:277-288.

引证文献10

1詹洪陈,袁杰.图像处理的GPU加速技术研究[J].现代电子技术,2012,35(20):87-90. 被引量：2
2王寅峰,邓果丽,许志良.MIC商用并行编程性能优化分析[J].深圳信息职业技术学院学报,2013,11(1):87-93.
3秦华,周沫,察豪,沈括.基于GPU加速的雷达信号处理并行技术[J].舰船科学技术,2013(7):77-82. 被引量：12
4李亮,王恩东,朱正东,颜康,张保,董小社.应用动态生成树的GPU显存数据复用优化[J].西安交通大学学报,2013,47(10):44-50. 被引量：1
5马永军,袁赢,李灏.面向CPU+GPU异构平台的模板匹配目标识别并行算法[J].天津科技大学学报,2014,29(4):48-52. 被引量：2
6巨涛,朱正东,董小社.异构众核系统及其编程模型与性能优化技术研究综述[J].电子学报,2015,43(1):111-119. 被引量：13
7王寅峰,王龙翔.一种基于V^3模型的内存数据库性能分析研究[J].计算机技术与发展,2015,25(6):77-83. 被引量：2
8朱正东,刘袁,魏洪昌,颜康,王寅峰,董小社.面向CPU-GPU架构的源到源自动映射方法[J].计算机工程与应用,2015,51(21):41-47. 被引量：2
9彭培,张云雷,李轲,席泽敏.基于CPU/GPU处理器的雷达脉冲压缩算法并行机制研究[J].舰船电子工程,2017,37(10):30-32. 被引量：8
10魏洪昌,朱正东,董小社,宁洁.面向CPU-GPU源到源编译系统的渐近拟合优化方法[J].计算机工程与应用,2016,52(21):30-35. 被引量：1

二级引证文献40

1刘凡美.基于GPU加速的多投影融合新算法的实现[J].电子技术与软件工程,2013(19):204-206. 被引量：1
2鲍军鹏,杨科,周静.卫星时序数据挖掘节点级并行与优化方法[J].北京航空航天大学学报,2018,44(12):2470-2478. 被引量：7
3刘江林.基于小波变换的雷达图像处理技术及仿真[J].舰船科学技术,2015,37(4):211-214. 被引量：6
4马可,郗蕴天,张开生,高剑.基于嵌入式平台的软件雷达设计[J].舰船科学技术,2016,38(2):117-120.
5汤媛媛,周海芳,方民权,申小龙.基于CPU/GPU异构模式的高光谱遥感影像数据处理研究与实现[J].计算机科学,2016,43(2):47-50. 被引量：6
6李薛剑,陈豪,朱凯.基于DTPS算法的异构集群优化策略[J].实验室研究与探索,2016,35(3):126-129.
7王成刚.一种非组合的电磁目标快速识别算法[J].电讯技术,2016,56(5):490-494.
8岳峻松,刘赛,聂庆节,张磊,胡楠,徐雪菲.一种基于物理级的关系数据库数据复制模型研究[J].计算机与现代化,2016(5):106-110. 被引量：5
9巨涛,张兴军,陈衡,董小社.面向众核系统的线程分组映射方法[J].西安交通大学学报,2016,50(10):57-63. 被引量：1
10商哲然,谭贤四,曲智国,王红,丰骁.基于GPU的RFT算法并行化[J].雷达科学与技术,2016,14(5):505-509. 被引量：5

1舒祥波.一种自适应遗传算法的聚类分析及应用[J].信息技术,2011,35(4):190-192. 被引量：5
2唐滔,杨学军.异构系统编程方法综述[J].计算机工程与科学,2012,34(3):29-34. 被引量：1
3魏洪昌,朱正东,董小社,宁洁.面向CPU-GPU源到源编译系统的渐近拟合优化方法[J].计算机工程与应用,2016,52(21):30-35. 被引量：1
4徐仙伟,杨雁莹,曹霁.一种改进的粒子群优化算法[J].长春工程学院学报（自然科学版）,2015,16(4):100-103.
5唐宏,冯平,陈镜伯,陈杰睿,朱建疆.萤火虫算法优化SVR参数在短期电力负荷预测中的应用[J].西华大学学报（自然科学版）,2017,36(1):35-38. 被引量：7
6屈宜丽,蓝才会,任志国.CPU/GPU异构并行系统研究综述[J].自动化与仪器仪表,2016(4):25-26. 被引量：6
7刘宏伟,罗卫兵,胡健生,李德梅.基于蚁群-免疫算法的无线Mesh网QoS路由算法[J].计算机系统应用,2015,24(9):191-195. 被引量：1
8赵世韬.任务并行编程模型研究与进展[J].电子技术与软件工程,2016(12):165-165.
9王婷,许可,王娜,宋俊德.云计算环境下可扩展的服务器优化选择策略[J].北京邮电大学学报,2014,37(S1):83-86. 被引量：3
10赵鹏军.基于差分扰动的混合蛙跳算法[J].计算机应用,2010,30(10):2575-2577. 被引量：14

西安交通大学学报

2012年第2期

浏览历史

内容加载中请稍等...

CPU-GPU系统中基于剖分的全局性能优化方法被引量：10

参考文献10

二级参考文献30

共引文献155

同被引文献78

引证文献10

二级引证文献40

相关作者

相关机构

相关主题

浏览历史

CPU-GPU系统中基于剖分的全局性能优化方法 被引量：10

参考文献10

二级参考文献30

共引文献155

同被引文献78

引证文献10

二级引证文献40

相关作者

相关机构

相关主题

浏览历史

CPU-GPU系统中基于剖分的全局性能优化方法被引量：10