题名 指令级并行编译器的数据预取及优化方法
被引量:8
1
作者
连瑞琦
张兆庆
乔如良
机构
中国科学院计算技术研究所
出处
《计算机学报》
EI
CSCD
北大核心
2000年第6期576-584,共9页
文摘
微处理器芯片的处理能力越来越强 .但是 ,存储器的速度却远远不能与其匹配 ,造成了整个系统的性能不理想 .为解决这个问题 ,编译器发展了局部性优化、数据预取等多种技术 .文中将介绍一种用于 IL P(Instructionlevel Parallelism)优化编译器的数据预取技术以及一种利用寄存器堆减少主存访问次数、对程序进行优化的方法 .利用它们可以提高平均存储性能 。
关键词
数据预取
寄存器堆
预取优化
指令级并行 编译器
Keywords
data prefetching, temporal locality, register file, prefetching optimization
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
题名 密码协处理器指令级并行编译研究
被引量:2
2
作者
高飞
李红燕
张永福
机构
解放军信息工程大学电子技术学院
上海第二工业大学
出处
《计算机应用研究》
CSCD
北大核心
2010年第5期1633-1637,共5页
文摘
立足于处理器体系结构的研究,结合可重构设计技术以确保密码处理的灵活性是密码协处理器研究的重要方法,其中如何提升密码协处理器的性能是至关重要的问题。基于VLIW体系结构以及可重构设计技术,设计专用指令密码协处理器。编译器作为密码协处理器的重要组成部分,重点研究了密码协处理器指令级并行编译技术,通过提高指令级并行度来提升密码协处理器的性能。
关键词
密码协处理器
超长指令 字
可重构计算
指令级并行
指令 调度
Keywords
cipher coprocessor
very long instruction word(VLIW)
reconfigurable computing
instruction level parallelism
instruction scheduling
分类号
TP309
[自动化与计算机技术—计算机系统结构]
题名 指令级并行程序执行模型
被引量:1
3
作者
乔林
汤志忠
容红波
张赤红
机构
清华大学计算机科学与技术系
出处
《计算机学报》
EI
CSCD
北大核心
1999年第5期476-480,共5页
基金
国家自然科学基金
文摘
提出了一种形式化的指令级并行程序执行模型(Instruction-LevelParalelProgramExecutionModel,ILPPEM).ILPPEM不仅可以描述程序实际执行过程的行为,也可以描述编译和执行时不确定的时间变化所造成的可行执行过程的行为;同时提出了程序执行的同构概念,并证明了可行程序执行必与一个实际程序执行同构,从而为并行程序编译和验证提供了理论依据.
关键词
指令级并行 性
程序执行
并行 程序
编译程序
Keywords
Instruction level parallelism, very long instruction word, program execution, feasible program execution, isomorphism of program executions.
分类号
TP314
[自动化与计算机技术—计算机软件与理论]
题名 指令级并行的多媒体数据实时处理
4
作者
杨士强
慕岩
钟玉琢
喻丹
张春林
机构
清华大学计算机科学与技术系
出处
《高技术通讯》
EI
CAS
CSCD
1998年第4期6-11,共6页
基金
863计划资助项目
文摘
讨论了指令级并行运算环境中多媒体数据处理的实现方法和性能。围绕MMX技术,提出了面向数据流的并行程序开发方法,实现和测试了典型的多媒体数据处理算法,研究了指令级并行计算环境下不同算法的实现技巧,评估了各自的性能。针对MMX技术,提出了改进建议。
关键词
指令级并行
MMX技术
多媒体
数据处理
Keywords
ILP, MMX, Multimedia, Realtime processing, Data flow
分类号
TP274.2
[自动化与计算机技术—检测技术与自动化装置]
TP391
[自动化与计算机技术—计算机应用技术]
题名 提高VLIW指令级并行性的基本策略与技术
5
作者
王新辉
彭巨
张宝华
机构
北京科技大学计算机系
出处
《计算机工程与应用》
CSCD
北大核心
2000年第9期13-16,共4页
基金
文章得到"863项目-高性能CPU芯片的研究与开发"主题的资助。
文摘
文章概述了VLIW体系结构特征,分析了在VLIW体系结构下开发指令级并行性的技术难点,针对影响 VLIW体系指令级并行性的因素阐述了一些基本的实现策略和实现技术。
关键词
VLIW
指令级并行 性
计算机
体系结构
微处理器
Keywords
VLIW, ILP, Parallelism, Relation, Simulator
分类号
TP303
[自动化与计算机技术—计算机系统结构]
题名 指令级并行中谓词分析技术的研究
被引量:2
6
作者
芦运照
张兆庆
连瑞琦
机构
中国科学院计算技术研究所
出处
《计算机学报》
EI
CSCD
北大核心
2003年第10期1337-1342,共6页
基金
国家"八六三"高技术研究发展计划软件重大专项 ( 2 0 0 2AA1Z2 10 4
2 0 0 1AA1110 61)资助
文摘
谓词支持是IA 6 4体系结构的新特征 ,它为发掘指令级并行提供了更多的机会 ,同时给编译器的设计者增加了难度 .谓词是条件执行的依据 ,是提高指令级并行的新途径 .该文介绍在ORC(IA 6 4OpenResearchCompiler)中首次设计实现的基于谓词划分图的谓词分析技术及其在指令调度中的应用 .利用谓词分析技术建立了谓词关系数据库、指令调度查询谓词关系数据库提高指令级并行 .文章着重论述了谓词关系数据库的核心———谓词划分图的建立 ,在谓词划分图的基础上实现了谓词关系的计算和查询 ,实际结果表明谓词分析技术有显著优化效果 .
关键词
指令级并行
谓词分析
谓词关系数据库
IA-64
体系结构
Keywords
Computer architecture
Optimization
Program compilers
Relational database systems
分类号
TP311.132
[自动化与计算机技术—计算机软件与理论]
题名 指令级并行之发展与展望
7
作者
胡良校
陈耀强
方滨兴
胡铭曾
机构
哈尔滨工业大学计算机科学与工程系
香港城市大学电脑科学系
出处
《计算机科学》
CSCD
北大核心
1997年第4期20-24,共5页
文摘
所谓指令级并行性又称细拉度并行,主要是相对粗拉度并行而言的,后者是指存在于程序(主要是进程或线程间)的并行性。顾名思义。
关键词
指令级并行 性
处理器
推测式执行
计算机
Keywords
Instruction-level parallelism,Fine-grain parallelism,Superscalar,VLIW
分类号
TP301
[自动化与计算机技术—计算机系统结构]
题名 光互连指令级并行计算结构模型
8
作者
罗金平
周兴铭
陈书明
机构
国防科技大学计算机学院并行与分布处理实验室
出处
《电子学报》
EI
CAS
CSCD
北大核心
2000年第11期96-98,共3页
基金
国防预研基金
文摘
指令级并行处理技术在计算机系统中十分关键 .目前部分指令级并行处理技术已经非常成熟 ,但这些技术复杂度太高 ,且实现的并行度有限 .本文从VLSI和光互连技术发展出发 ,提出一种光互连指令级并行计算结构模型 ;这种模型重新考虑计算机的软硬件界面 ,充分利用编译器提供的并行信息 。
关键词
计算机体系结构
指令级并行 处理
光互连
Keywords
computer architecture
ILP
optical interconnection,WDM(wavelength division multiplexing)
分类号
TP338.6
[自动化与计算机技术—计算机系统结构]
题名 用虚拟寄存器技术开发Java处理器的指令级并行性
9
作者
王显著
李三立
黄震春
机构
清华大学计算机科学与技术系
出处
《计算机学报》
EI
CSCD
北大核心
1998年第12期1112-1118,共7页
基金
国家攀登计划资助
文摘
本文讨论了开发Java处理器的指令级并行性的策略,提出了采用虚拟寄存器技术的Java处理器(VRJP)结构,并给出了判断相关性和管理虚拟寄存器的方法.分析和实验表明,VRJP能够有效地开发Java程序的指令级并行性,提高Java程序的执行效率.在VRJP中,大多数虚拟寄存器都不需要对应的物理寄存器,大大降低了物理寄存器的访问频率.
关键词
虚拟寄存器
JAVA处理器
指令级并行 性
Keywords
Virtual register, Java processor, Java virtual machine, instruction-level parallelism
分类号
TP332
[自动化与计算机技术—计算机系统结构]
TP312Ja
[自动化与计算机技术—计算机软件与理论]
题名 基于硬件事件的并行程序指令级性能模型与应用
10
作者
罗红兵
武林平
机构
北京应用物理与计算数学研究所高性能计算中心
出处
《计算机工程与科学》
CSCD
北大核心
2013年第11期175-181,共7页
基金
国家863计划资助项目(2012AA01A309)
文摘
当前,应用程序持续运行性能与高性能计算机峰值性能的差距有扩大的趋势,许多实际应用程序的性能通常只能达到机器峰值性能的5%~10%,甚至更低,如何优化并行应用成为高性能计算领域关注的焦点.从如何利用硬件事件进行程序指令级优化入手,提出一种基于硬件事件的性能模型,揭示出程序性能与程序特征、微处理器特征的关系.基于该性能模型,在Intel Xeon微处理器平台上对Euler等程序进行优化,gas1dapproxy等性能热点模块的执行时间可以缩短12%~61%.性能优化实验表明:使用该性能模型可以降低用户进行指令级并行性能优化的难度,指导用户选择正确的性能优化方向.
关键词
性能分析
性能优化
性能模型
指令级并行
Keywords
performance analysis
performance optimization
performance model
instruction level parallelism
分类号
TP302
[自动化与计算机技术—计算机系统结构]
TP38
[自动化与计算机技术—计算机系统结构]
题名 LU分解在众核结构仿真器上的指令级调度研究
被引量:5
11
作者
余磊
刘志勇
宋风龙
叶笑春
机构
中国科学院计算技术研究所
中国科学院研究生院
出处
《系统仿真学报》
CAS
CSCD
北大核心
2011年第12期2603-2610,共8页
基金
国家“九七三”重点基础研究发展规划项目(2005CB321600)
国家自然科学基金重点项目(60736012)
+4 种基金
国家自然科学基金(61070025)
国家“八六三”高技术研究发展计划项目基金(2009AA01Z103)
国家杰出青年科学基金(60925009)
国际合作欧盟MULTICUBE项目(FP7-216693)
北京市自然科学基金(4092044)
文摘
随着集成电路工艺的发展,众核处理器体系结构逐渐成为计算机体系结构设计者的研究热点。众核体系结构通过任务级的并行来提升整个处理器的性能。然而,指令级的并行性仍然是众核设计者需要认真考虑的问题。对浮点运算效率和加速比进行了形式化描述,验证了进行指令级调度的必要性。对处理器核内流水线进行详细分析,指出了指令级调度的一般性问题。提出了在众核结构上使用指令级调度和软件流水的方法。针对Splash2程序集里的LU分解算法,使用众核结构的硬件支持,在Scratched Pad Memory(SPM)上给出了调度指令的方案。在众核仿真器Godson-T上仿真了经过指令级调度后的算法,当使用64个线程处理512×512的矩阵时,程序性能达到调度前性能的4倍。
关键词
计算机体系结构
众核
加速比
指令级并行
LU分解
Keywords
computer architecture
many-core
speedup
instruction level parallelism
LU decomposition
分类号
TP301
[自动化与计算机技术—计算机系统结构]
题名 分簇结构超长指令字DSP编译器的设计与实现
被引量:7
12
作者
胡定磊
陈书明
刘春林
机构
国防科技大学计算机学院
出处
《小型微型计算机系统》
CSCD
北大核心
2006年第2期348-353,共6页
基金
国家"八六三"高技术研究发展计划基金项目(2004AA1Z1040)资助
文摘
超长指令字(VLIW)是高端DSP普遍采用的体系结构,VLIWDSP在硬件上没有调度和冲突判决的机制,其性能的发挥完全依靠编译器的优化效果.基于可重定向编译基础设施IMPACT,为分簇VLIWDSPYHFT-D4设计与实现了优化编译器.其中着重讨论了可重定向信息的定义、代码注释、SIMD指令的支持、分簇寄存器分配以及指令级并行开发和资源冲突解决等内容.实验结果表明该编译器可以达到较好的优化效果.
关键词
VLIW
DSP
编译器
分簇寄存器分配
指令级并行
Keywords
VLIW DSP
compiler
clustered register allocation
ILP
分类号
TP311.1
[自动化与计算机技术—计算机软件与理论]
题名 基于Trace-Cache的多级动态优化框架设计
被引量:4
13
作者
唐遇星
邓鹍
周兴铭
机构
国防科学技术大学计算机学院
出处
《电子学报》
EI
CAS
CSCD
北大核心
2005年第11期1946-1951,共6页
基金
国家自然科学基金(No.90307001)
文摘
对指令集进行扩展和添加新功能部件是提高处理器性能的有效途径.为了充分利用新的体系结构扩展,已有应用必需经过全新的优化编译.对于跨体系结构优化而言,二进制翻译已经被证明是一种行之有效的技术.本文结合trace技术和动态二进制翻译优化技术,提出一种多级动态优化框架结构,无需静态重新优化编译,在程序动态运行期间,引入多级动态优化方法和扩展指令调度.模拟结果显示该结构具有能有效形成大尺寸的指令调度窗口,准确选择热点代码及优化方法,有效提升旧有应用性能的优点,并有实现灵活,可扩展好等特点.
关键词
TRACE
动态优化
指令 调度
指令级并行
Keywords
trace
dynamic optimization
instruction scheduling
ILP
分类号
TP363
[自动化与计算机技术—计算机系统结构]
题名 协作式全局指令调度与寄存器分配
被引量:3
14
作者
吴承勇
连瑞琦
张兆庆
乔如良
机构
中国科学院计算技术研究所高性能计算机研究中心
出处
《计算机学报》
EI
CSCD
北大核心
2000年第5期493-499,共7页
文摘
指令级并行是现代高性能处理器的重要特征 .对于发挥这类处理器所具有的并行处理能力来说 ,编译器有至关重要的影响 .文中讨论指令级并行编译中的核心问题——全局指令调度与寄存器分配 ,并以作者为一种新型的显式并行体系结构微处理器研制的编译系统为背景 ,介绍了此类编译器后端设计中面临的指令调度与寄存器分配的时序问题 。
关键词
指令级并行
全局指令 调度
寄存器分配
编译系统
Keywords
instruction level parallelism, global instruction scheduling, instant register allocation
分类号
TP314
[自动化与计算机技术—计算机软件与理论]
TP332
[自动化与计算机技术—计算机系统结构]
题名 基于MIPS体系的扩展指令融合技术
被引量:2
15
作者
陈文智
姜振宇
吴帆
机构
浙江大学计算机科学与技术学院
出处
《计算机学报》
EI
CSCD
北大核心
2008年第11期1888-1897,共10页
文摘
MIPS作为RISC体系的典型代表,不能避免代码密度不高和指令域的有效利用程度低的缺陷,使得程序体积膨胀.文中将MIPS指令集扩展为exMIPS ISA,并提出一种基于MIPS体系的指令融合技术.它在解码阶段对预取指令扫描并转换成exMIPS ISA,将符合融合条件的相邻两条或多条exMIPS ISA指令压缩合并.一条"融合指令"的执行,等效于多条被融合的指令同时发射执行,不仅提升了CPU性能,也提升了指令域的有效利用率和代码密度.SimpleScalar模拟平台的实验结果显示可获得较大的性能提升.
关键词
指令 融合
代码压缩
MIPS指令 集扩展
指令级并行
SIMPLESCALAR
Keywords
instruction fusion
code compression
MIPS instruction set extention
ILP
SimpleScalar
分类号
TP314
[自动化与计算机技术—计算机软件与理论]
题名 一种超椭圆曲线密码处理器并行结构设计
被引量:2
16
作者
方跃坚
沈晴霓
吴中海
机构
北京大学信息科学技术学院
北京大学软件与微电子学院
出处
《计算机研究与发展》
EI
CSCD
北大核心
2013年第11期2383-2388,共6页
基金
国家科技重大专项课题(2012ZX03002022)
国家自然科学基金重点项目(61232005
61073156)
文摘
提出了一种超椭圆曲线密码处理器并行结构设计.处理器由多个具有相同结构的核组成,每个核由一个控制器、一个寄存器文件、一个运算单元组成.多个独立的核之间通过寄存器共享进行通信来协作完成复杂运算.每个运算单元执行自定义多操作数指令A(B+C)+D,并在指令产生过程和执行时对指令进行灵活配置.该设计可以实现核之间的指令级并行处理和不同指令执行阶段的流水线处理.在FPGA上的实验结果表明,与以往研究相比,该设计可以实现对超椭圆曲线密码点乘运算更高的加速.
关键词
超椭圆曲线密码系统
并行 结构
自定义指令
指令级并行
流水线技术
FPGA
Keywords
hyperellitic curve cryptosystems(HECC)
parallel architecture
customized instruction
instruction level parallelsim (ILP)
pipeline
field programmable gate array (FPGA
分类号
TP302.1
[自动化与计算机技术—计算机系统结构]
TN402
[电子电信—微电子学与固体电子学]
题名 关于并行程序设计方法的分析与研究
被引量:1
17
作者
王文义
赵建建
王若雨
机构
中原工学院并行处理技术研究所
河南电力职工大学网络信息中心
出处
《郑州大学学报(工学版)》
CAS
北大核心
2009年第2期80-83,共4页
基金
河南省基础与前沿技术研究项目(082300410300)
文摘
并行程序设计与并行计算机的体系结构密切相关,因此其复杂性要远远大于串行程序设计.介绍了数据分解和循环体依赖等概念,提出了一个cache利用率和并行计算机有效速度的近似关系模型.通过该模型和一个实例,阐述了在并行程序设计中降低和拆解计算目标中数据依赖的方法过程,从而达到尽可能多地发掘指令级并行性,提高cache利用率即提高并行系统有效速度的目的.
关键词
循环体依赖
Cache利用率
循环展开
指令级并行
Keywords
loop-carried dependence
cache using ratio
loop unrolling
instruction-level parallelism
分类号
TP311.11
[自动化与计算机技术—计算机软件与理论]
题名 推测执行中值预测与指令重用技术的研究与分析
被引量:1
18
作者
冀蓉
周宏伟
张民选
陈怒兴
机构
国防科技大学计算机学院
出处
《计算机工程与科学》
CSCD
2005年第11期98-101,共4页
基金
国家自然科学基金资助项目(60273069)
文摘
值预测和指令重用是通过开发程序执行结果的冗余来解决数据相关的两种不同的新技术。本文首先从这两种新技术的原理出发,深入剖析了它们的技术特性,然后研究了它们与微体系结构其它特征间的相互影响,最后评估了这些技术对微处理器性能的影响。
关键词
指令级并行
值预测
指令 重用
重定向
推断
值预测袁
Keywords
ILP
VP
IR
forwarcling
speculation
VPT
分类号
TP303
[自动化与计算机技术—计算机系统结构]
题名 高性能科学计算的并行程序设计方法研究
被引量:2
19
作者
王文义
董绍静
机构
郑州大学计算机科学与技术系
肯塔基大学计算中心
出处
《计算机工程》
CAS
CSCD
北大核心
2002年第12期83-85,95,共4页
文摘
由不同高性能RISC处理器及其构成的超级计算机系统,其基准性能和体系结构是不尽相同的,而且一种计算机体系结构的寿命也就只有3~5年时间,这将使得大多数付出巨大代价且在特定平台上开发成功的高性能科学计算程序往往会因为机型的改变而不能运行或不能很好运行,因此,人们迫切需要通用化程序,文中通过对在几种主流超级计算机上大量的测试数据的分析,指出了消息传递模式与指令级并行性对提高并行程序通用化程度的重要影响,同时也对利用网络化虚拟集群计算机资源从事高性能科学计算的可行性进行了讨论。
关键词
高性能科学计算
并行 程序设计方法
通用化
消息传递模式
消息传递模式
指令级并行 性
RISC处理器
计算机
Keywords
High performance science computing;Portable;Massage passing mode;Global networked virtual cluster supercomputer;Instruction-level parallelism
分类号
TP311.11
[自动化与计算机技术—计算机软件与理论]
题名 基于DSP的多媒体数据并行处理的研究
20
作者
陈川
余松煜
机构
上海交通大学图象通信与信息处理研究所
出处
《计算机工程与应用》
CSCD
北大核心
2003年第9期102-104,111,共4页
文摘
讨论了多媒体数据并行处理技术的结构和实现方法,并分析了DSP的指令级流水线结构、开发方法和实现技巧,同时在分析和重组数据流的基础上,给出了利用指令级并行流水线优化视频处理中DCT变换算法和运动搜索算法的实例。研究结果表明:采用指令级并行处理技术可以大大加快系统的处理速度,具有较大的实用价值。
关键词
指令级并行
DSP
流水线
DCT
运动估计
Keywords
ILP,DSP,Pipeline,DCT,ME
分类号
TP338.6
[自动化与计算机技术—计算机系统结构]