分块内存的数据分布优化被引量：1

Data Distribution Optimization on Block Memory

在线阅读下载PDF

导出

摘要为了提高访存效率,提供可以与计算流水线并行执行的多个独立的访存流水线,魂芯DSP片上存储器设计时采用分块内存结构,并在核内提供多个独立的地址生成单元用于访存操作.针对分块内存的结构特点,编译器对程序中的存储访问构建关于变量的冲突图,对分块内存进行存储块分配,优化数据在分块内存的分布.以数据在分块内存的优化分布为基础,指导程序中访存操作在地址生成单元的优化分配,使得编译器生成的代码可以最大程度地挖掘程序中数据访问的并行性.实验表明,基于分块内存的数据分配分布优化为其它优化如地址寄存器的分簇、访存向量化、软件流水等经典优化提供了良好基础,保证了编译器生成的代码可以充分发挥魂芯DSP提供的指令级并行能力. To improve the efficiency of memory access and provide multiple memory access pipeline which can be executed independ- ently in parallel with computing pipeline,BWDSP adopts block memory architecture and multiple address generation units. Therefore BWDSP compiler constructs conflict graph on memory access for program variables, and does block allocation to optimize data distri- bution on blocked memories. Based on this ,optimal allocation is finished for program memory access on address generation units, so that codes generated by compiler can maximize the data parallelism implied in programs. Experiments show that data distribution opti- mization provides a good prerequisite for other classic optimizations such as clustering on address register, memory access vectorization and software pipelining,to ensure radically that the codes can give full play to instruction-level parallelism equipped by BWDSP.

作者王向前洪一郑启龙

机构地区合肥工业大学计算机与信息学院中国电子科技集团公司第三十八研究所中国科学技术大学计算机科学与技术学院

出处《小型微型计算机系统》 CSCD 北大核心 2015年第4期815-819,共5页 Journal of Chinese Computer Systems

基金国家"核心电子器件高端通用芯片及基础软件产品"重大专项(2012ZX01034001-001)资助

关键词分块内存地址生成单元冲突图数据分布 block memory address generation unit conflict graph data distribution

分类号 TP314 [自动化与计算机技术—计算机软件与理论]

作者简介王向前，男，1985年生，博士研究生，研究方向为编译器设计与优化。E-mail：forward@mail．ustc．edu．cn 洪一．男，1963年生，教授，博士生导师，主要研究方向为信号处理器体系结构设计。郑启龙，男，1969年生，副教授，研究方向为并行计算与并行编译．

引文网络
相关文献

参考文献4

1郑启龙,卢世贤,洪兴勇,陈元,夏霏.DSP分块内存和多AGU的编译指示优化[J].小型微型计算机系统,2012,33(3):582-586. 被引量：3
2雷一鸣,洪一,徐云,姜海涛.一种基于寄存器压力的VLIWDSP分簇算法[J].计算机应用,2010,30(1):274-276. 被引量：9
3魏帅,赵荣彩,姚远.面向SLP的多重循环向量化[J].软件学报,2012,23(7):1717-1728. 被引量：13
4李文龙,陈彧,林海波,汤志忠.3种提高软件流水有效性的算法:比较和结合[J].软件学报,2005,16(10):1822-1832. 被引量：2

二级参考文献36

1DESOLI G. Instruction assignment for clustered VLIW DSP compilers: A new approach[ EB/OL]. [ 2009 - 06 - 20]. http://www. hpl. hp. com/techreports/98/HPL-98-13, pdf.
2LAPINSKII V, JACOME M F, VECIANA G A. Cluster assignment for high performance embedded VLIW processors[ J]. ACM Transactions on Design Automation of Electronic Systems, 2002, 7(3) : 430 - 454.
3HWU W W. The IMPACT Research Group[ EB/OL]. [ 2009 - 03 - 15]. http://impact, crhc. illinois, edu/.
4RAU B R. Iterative modulo scheduling: An algorithm for software pipelining loops[ C]//Proceedings of the 27th International Symposium on Microarchitecture. New York: ACM, 1994:63 - 74.
5CHOW F. Register allocation by priority-based coloring[ J]. ACM SIGPLAN Notices, 1984, 19(6) : 222 -232.
6PHILIP B. Gibbons Efficient instruction scheduling for a pipelined architecture[ J]. ACM SIGPLAN Notices, 1986, 21 (7) : 11 - 16.
7The Institute for Integrated Signal Processing Systems . DSPstone [ EB/OL]. [ 2009 -03 -20]. http://www, ert. rwth-aaehen, de/ Projekte/Tools/DSPSTONE/dspstone htmt.
8Josep L, Eduard A, Mateo V. Quantitative evaluation of register pressure on software pipelined loops. Int'l Journal of Parallel Programming, 1998,26(2):121-142.
9Smelyanskiy M, Tyson GS, Davidson ES. Register Queues: A new hardware/software approach to efficient software pipelining. In:Hurson AR, ed. Proc. of the 2000 Int'l Conf. on Parallel Architecture and Compilation Techniques. IEEE Press, 2000.
10Akturan C, Jacome MF. RS-FDRA: A register sensitive software pipelining algorithm for embedded VLIW processors. In: Madson J, Henkel J, Hu XBS, eds. Proc. of the 9th Int'l Symp. on Hardware/Software Codesigh. New York: ACM Press, 2001.

共引文献21

1郭元曦,桑恩方,王继胜.MUSIC算法在分布式并行处理机上的实现研究[J].电子技术应用,2007,33(1):112-114. 被引量：4
2林传文,顾乃杰,雷一鸣,洪一.分簇VLIW DSP的SIMD编译优化[J].中国科学技术大学学报,2011,41(8):708-714. 被引量：3
3郑启龙,卢世贤,洪兴勇,陈元,夏霏.DSP分块内存和多AGU的编译指示优化[J].小型微型计算机系统,2012,33(3):582-586. 被引量：3
4冯玉谦,郑启龙,卢世贤,陈思灵,付和萍.基于IMPACT的嵌入式汇编设计与实现[J].计算机系统应用,2012,21(9):87-91. 被引量：1
5陈思灵,郑启龙,冯玉谦,付和萍.支持SIMD与簇间双字传输体系下的VLIW DSP分簇算法[J].计算机系统应用,2012,21(10):100-104.
6冯玉谦,郑启龙,陈思灵,付和萍.针对多簇架构的软件流水调度框架设计与实现[J].计算机系统应用,2013,22(2):76-79.
7侯永生,赵荣彩,高伟,高伟.非正规化循环的单指令多数据向量化[J].计算机应用,2013,33(11):3149-3154. 被引量：1
8赵博,赵荣彩,李雁冰,高伟.类型转换语句的SLP发掘方法[J].计算机科学,2014,41(11):16-21. 被引量：2
9赵博,赵荣彩,徐金龙,高伟.渐进式智能回溯向量化代码调优方法[J].计算机科学,2015,42(1):50-53.
10丁陈飞,郑启龙,徐华叶,付和萍,陈元.多簇超长指令字DSP复数运算的编译优化[J].计算机应用与软件,2015,32(2):14-17. 被引量：3

同被引文献11

1张建华,张楠.基于混沌的RFID双向认证协议[J].铁道学报,2013(7):85-89.
2赵海,欧阳元新,熊璋.用于RFID中间件的主存数据库索引结构[J].西南民族大学学报(自然科学版),2014,40(4):531-536.
3唐军,卢正新.支持内存数据库索引缓存优化的CST树的设计与实现[J].计算机与数字工程,2010,38(1):173-176. 被引量：3
4刘勇,奚建清,黄东平,贾连印,苗德成.图形处理器上内存数据库索引T-树的研究[J].华南理工大学学报（自然科学版）,2013,41(3):22-28. 被引量：3
5吕鹏,蒋平,吴钦章.一种T-树的优化设计与实现方法[J].计算机工程,2013,39(8):5-8. 被引量：2
6龚华明,阴躲芬.基于T^＊树的RFID数据缓存的研究与实现[J].计算机与数字工程,2013,41(12):1967-1969. 被引量：1
7罗元剑,姜建国,王思叶,景翔,丁昶,张珠君,张艳芳.基于有限状态机的RFID流数据过滤与清理技术[J].软件学报,2014,25(8):1713-1728. 被引量：20
8陈毅红,冯全源,谈文蓉,陈建英,曲小媚,王新辉.物联网中RFID多标签识别技术研究综述[J].西南民族大学学报（自然科学版）,2014,40(5):719-723. 被引量：1
9董绍婵,周敏奇,张蓉,周傲英.内存数据索引：以处理器为核心的性能优化技术[J].华东师范大学学报（自然科学版）,2014(5):192-206. 被引量：1
10薛世帅,刘丹,徐展,李建红.有源RFID标签安全文件系统的设计[J].计算机工程与应用,2014,50(24):47-49. 被引量：2

引证文献1

1张博,盛魁,陈继祥,董辉.一种改进的内存索引算法在中药追溯数据处理中的应用[J].通化师范学院学报,2016,37(6):70-73.

1郑启龙,卢世贤,洪兴勇,陈元,夏霏.DSP分块内存和多AGU的编译指示优化[J].小型微型计算机系统,2012,33(3):582-586. 被引量：3
2王娇.基于人工免疫算法的传感器节点布置策略[J].电子测量技术,2015,38(6):97-99. 被引量：9
3刘玉英,史旺旺.一种基于遗传算法的无线传感器网络节点优化方法[J].传感技术学报,2009,22(6):869-872. 被引量：13
4张悦.一种32位存储系统的地址生成单元设计[J].湖南第一师范学报,2008,8(3):169-172.
5吴军.笔记本电脑的原理与维修(九)[J].家电检修技术（资料版）,2007(5):41-42.
6靳立忠,常桂然,贾杰.基于差分进化算法的移动传感器网络节点的分布优化[J].控制与决策,2010,25(12):1857-1860. 被引量：12
7胡文翔,蔡政,郭伟玮,吴银锋.面向RS-485控制网络的Modbus协议扩展及应用[J].自动化仪表,2013,34(4):59-61. 被引量：18
8林瑞金,卓清寅.遗传算法在排课系统中的应用[J].厦门理工学院学报,2010,18(4):38-42.
9刘海龙,张凤斌,席亮.基于协同进化的免疫检测器分布优化算法[J].计算机工程,2013,39(11):154-157. 被引量：3
10闻英友,姜月秋,赵林亮,王光兴.传感器网络中基于树的感知器分布优化[J].通信学报,2005,26(3):1-6. 被引量：11

小型微型计算机系统

2015年第4期

浏览历史

内容加载中请稍等...

分块内存的数据分布优化被引量：1

参考文献4

二级参考文献36

共引文献21

同被引文献11

引证文献1

相关作者

相关机构

相关主题

浏览历史

分块内存的数据分布优化 被引量：1

参考文献4

二级参考文献36

共引文献21

同被引文献11

引证文献1

相关作者

相关机构

相关主题

浏览历史

分块内存的数据分布优化被引量：1