-
题名一种面向数据流程序的软件流水并行化方法
被引量:5
- 1
-
-
作者
魏海涛
于俊清
余华飞
秦明康
-
机构
华中科技大学计算机科学与技术学院
华中科技大学网络与计算中心
-
出处
《计算机学报》
EI
CSCD
北大核心
2011年第5期889-898,共10页
-
基金
中国博士后科学基金(20100480899)
中国科学院计算技术研究所国家重点实验室开放基金和IBM X10Innovation基金资助~~
-
文摘
数据流编程被广泛应用于多媒体、图像处理和信号处理等领域.多核处理器为数据流程序提供了强大并行计算资源,如何利用多核处理器的并行性以提高数据流程序性能,对满足媒体处理等实时性需求具有重要意义.基于多核处理器提出了一种面向数据流程序的软件流水并行化方法,利用整数线性规划理论对软件流水中的计算、通信资源和流水线执行阶段等进行统一的形式化建模,在最大化流水线计算速率的同时最小化通信开销;同时对存储资源进行了形式化建模,提高存储访问的性能.通过设计数据流编程语言DFBrook,在Cell处理器实现了上述方法.实验结果表明,该软件流水并行方法比其它方法在提高数据流程序性能的同时,降低了通信开销.
-
关键词
数据流程序
多核处理器
软件流水
并行
-
Keywords
data flow programs
multi-core processor
software pipelining
parallelism
-
分类号
TP319
[自动化与计算机技术—计算机软件与理论]
-
-
题名面向X10的数据流程序编译优化算法
被引量:1
- 2
-
-
作者
刘小宪
魏海涛
于俊清
-
机构
华中科技大学计算机科学与技术学院
华中科技大学网络与计算中心
-
出处
《小型微型计算机系统》
CSCD
北大核心
2013年第10期2239-2245,共7页
-
基金
高等学校博士学科点专项科研基金项目(20120142110089)资助
国家"八六三"高技术研究发展计划项目(2012AA010902)资助
-
文摘
数据流编程作为一种编程模式已被广泛应用到各个领域.然而,多核体系结构的不同使得数据流程序在不同平台上移植困难.X10作为一种新型并行编程语言,为不同的多核体系结构提供了统一的并行计算环境.如何利用X10语言的特性来提高数据流程序的效率已成为目前研究工作的一大难点.本文设计并实现了一个面向X10的编译优化系统,该系统确立了三种优化算法:针对X10语言的代码生成优化减少了生成的X10代码量;针对同步数据流图的任务划分优化在负载均衡的基础上,避免了死锁的产生,同时减少了通信开销;针对底层硬件资源的通信优化在机器间通信、机器内部线程间通信、线程内部通信方面进行了区分和优化,减少了通信开销.实验结果表明,设计的三种编译优化算法都获得了较大的性能提升.
-
关键词
X10
数据流程序
编译优化
并行计算
-
Keywords
X10
data flow programs
compiler optimization
parallel computing
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名一种面向众核架构的数据流编译框架
被引量:2
- 3
-
-
作者
魏海涛
秦明康
于俊清
范东睿
-
机构
华中科技大学计算机科学与技术学院
华中科技大学网络与计算中心
中国科学院计算技术研究所计算机体系结构国家重点实验室
-
出处
《计算机学报》
EI
CSCD
北大核心
2014年第7期1560-1569,共10页
-
基金
国家"八六三"高技术研究发展计划重点项目(2012AA010902)
高等学校博士学科点专项科研基金(20120142110089)
+1 种基金
中国科学院计算技术研究所国家重点实验室开放基金
IBM X10 Innovation基金资助~~
-
文摘
数据流编程模型将程序设计与媒体处理相结合,已大量应用到各个领域.众核处理器已经成为主流和工业标准,如何利用众核架构的特性来提高流应用执行性能已成为目前研究工作的一大难点.文中提出了一个高效的流编译框架来优化流应用的执行,该框架包含3个优化策略:设计一个最优的软件流水调度方法;提出一个高效的数据存储分配算法;并采用合理的众核间的映射策略,减小通信以及同步的开销.文中在Godson-T上实现了该编译器框架,实验结果表明,该方法比优化前有较大性能改进.
-
关键词
编译框架
数据流程序
众核处理器
软件流水
并行
-
Keywords
compilation framework; data flow programs
many-core processor
software pipelining
parallelism
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名数据流计算机系统
- 4
-
-
作者
汪成为
-
出处
《系统工程与电子技术》
EI
1983年第9期14-20,共7页
-
文摘
几十年来,计算机的软、硬件研究人员都在致力于提高计算机系统的处理率,而提高处理率的关键是充分发掘和利用计算机系统中的同时性(simultaneity),或者说是尽力提高其并行处理的能力。但是,在现有的各种计算机系统中都存在着某些相互依赖的约束,我们把它简称为相关性,相关性是提高并行处理能力的障碍和阻力。 概括说来,在计算机系统中存在着三种相关性,即数据相关、控制相关和资源相关。前两种相关是程序中的相互约束,后一种相关是执行这一程序的计算机系统在资源上的相互约束。
-
关键词
数据流计算机
处理率
程序计数器
第五代计算机
数据流程序
并行处理
数据处理
模拟计算机
存贮器
存储器
处理器
数据流程图
指令计数器
-
分类号
G6
[文化科学—教育学]
-
-
题名阵列众核处理器上的高效归并排序算法
被引量:6
- 5
-
-
作者
石嵩
李宏亮
朱巍
-
机构
江南计算技术研究所
-
出处
《计算机研究与发展》
EI
CSCD
北大核心
2016年第2期362-373,共12页
-
基金
国家"八六三"高技术研究发展计划基金项目(2014AA01A301)
"核高基"国家科技重大专项基金项目(2013zx0102-8001-001-001)~~
-
文摘
排序是计算机科学中最基本的问题之一,随着众核处理器结构的不断发展,设计众核结构上的高效排序算法具有重要意义.众核处理器的一个重要方向是阵列众核处理器,根据阵列众核处理器的结构特点,提出了2种面向阵列众核结构的高效归并排序算法,通过利用DMA(direct memory access)多缓冲机制提高访存效率、深度平衡归并策略保持众多核心之间的负载均衡、SIMD(single instruction multiple data)归并方法提高归并计算效率以及片上交换归并策略提高片上数据重用率,大幅度提高了阵列众核处理器的排序性能.在异构融合阵列众核处理器DFMC(deeply-fused many-core)原型系统的实验结果表明,算法排序速度达647MKeys/s(million keys per second),其排序效率(排序速度/峰值性能)是NVIDIA GPU上最快的归并排序算法(GTX580平台)的3.3倍,是Intel Xeon Phi上最快的归并排序算法的2.7倍.最后,建立了阵列众核处理器上归并排序算法的性能分析模型,利用该模型分析了主要结构参数与算法性能的关系,对阵列众核处理器的研究有一定的指导意义.
-
关键词
阵列众核
归并排序
排序网络
单指令多数据流
单程序多数据流
片上通信
-
Keywords
array-based manycore
merge sort
sort network
SIMD
SPMD
on-chip communication
-
分类号
TP302
[自动化与计算机技术—计算机系统结构]
-
-
题名基于工作站群机的并行虚拟机PVM分析
被引量:3
- 6
-
-
作者
崔振乾
吴中海
叶澄清
-
机构
浙江大学计算机系
-
出处
《计算机工程》
CAS
CSCD
北大核心
1995年第S1期232-237,共6页
-
文摘
PVM代表并行虚拟机即Parallel Virtual Machine,是一种基于工作站网络群机的异构并行软件环境,本文详细地分析了其体系结构、计算模型、内部实现机制、用户编程接口,并指出了它的应用前景及存在的缺陷。
-
关键词
消息传递
虚拟机
任务
PVM服务器
单程序多数据流(SPMD)
TCP/IP
-
Keywords
message passing / virtual machine/ task /PVM daemon / single program multidata stream/ TCP/IP
-
分类号
TP338.6
[自动化与计算机技术—计算机系统结构]
-
-
题名共享指令缓存XOR散列索引的研究与设计
被引量:2
- 7
-
-
作者
刘骁
唐勇
郑方
丁亚军
-
机构
江南计算技术研究所
-
出处
《计算机学报》
EI
CSCD
北大核心
2019年第11期2499-2511,共13页
-
基金
国家重点研发计划(2016YFB0200500)资助~~
-
文摘
SPMD(Single Program Multiple Data)是高性能领域的主要工作模式之一,该模式下邻近核心执行相同的程序块,但根据处理数据或控制流的差异,临近核心的指令流并不完全相同.L1 ICache(Instruction Cache)共享技术通过将邻近核心的L1 ICache共享,能有效利用众核处理器SPMD工作模式的特点,同时能缓解片上资源紧张的问题.但共享结构会带来访问冲突,对性能有不利影响.本文基于排队网络对共享ICache的访问冲突进行了理论分析,该理论分析依据核心对共享ICache体的访问特性进行建模,避免了直接抽象物理节点导致的模型访存特性模糊问题.根据理论推导的指令缓存性能损失原因,本文设计了面向共享L1 ICache的低访问冲突XOR散列函数.函数的设计综合考虑搜索了代价和工程实现复杂性,在保证散列线性空间随机散列能力的前提下,对附加延迟、功耗开销进行控制.该散列函数基于异或操作,通过调整ICache排队网络模型的节点转换概率,降低了共享L1 ICache的访问冲突.实验结果表明,在指令缓存总容量为32 KB的四核心簇上,使用XOR散列的共享L1 ICache结构较私有L1 ICache结构性能平均优化11%,较使用低位交错策略的共享L1 ICache结构性能平均优化8%,较使用面向跨步访存散列策略的共享L1 ICache结构性能平均优化3.2%.
-
关键词
单程序多数据流模型
指令缓存
众核处理器
排队网络模型
XOR散列函数
-
Keywords
single program multiple data
instruction cache
many-core processor
queueing network
XOR-hash function
-
分类号
TP302
[自动化与计算机技术—计算机系统结构]
-