-
题名阵列众核处理器上的高效归并排序算法
被引量:6
- 1
-
-
作者
石嵩
李宏亮
朱巍
-
机构
江南计算技术研究所
-
出处
《计算机研究与发展》
EI
CSCD
北大核心
2016年第2期362-373,共12页
-
基金
国家"八六三"高技术研究发展计划基金项目(2014AA01A301)
"核高基"国家科技重大专项基金项目(2013zx0102-8001-001-001)~~
-
文摘
排序是计算机科学中最基本的问题之一,随着众核处理器结构的不断发展,设计众核结构上的高效排序算法具有重要意义.众核处理器的一个重要方向是阵列众核处理器,根据阵列众核处理器的结构特点,提出了2种面向阵列众核结构的高效归并排序算法,通过利用DMA(direct memory access)多缓冲机制提高访存效率、深度平衡归并策略保持众多核心之间的负载均衡、SIMD(single instruction multiple data)归并方法提高归并计算效率以及片上交换归并策略提高片上数据重用率,大幅度提高了阵列众核处理器的排序性能.在异构融合阵列众核处理器DFMC(deeply-fused many-core)原型系统的实验结果表明,算法排序速度达647MKeys/s(million keys per second),其排序效率(排序速度/峰值性能)是NVIDIA GPU上最快的归并排序算法(GTX580平台)的3.3倍,是Intel Xeon Phi上最快的归并排序算法的2.7倍.最后,建立了阵列众核处理器上归并排序算法的性能分析模型,利用该模型分析了主要结构参数与算法性能的关系,对阵列众核处理器的研究有一定的指导意义.
-
关键词
阵列众核
归并排序
排序网络
单指令多数据流
单程序多数据流
片上通信
-
Keywords
array-based manycore
merge sort
sort network
SIMD
SPMD
on-chip communication
-
分类号
TP302
[自动化与计算机技术—计算机系统结构]
-
-
题名基于工作站群机的并行虚拟机PVM分析
被引量:3
- 2
-
-
作者
崔振乾
吴中海
叶澄清
-
机构
浙江大学计算机系
-
出处
《计算机工程》
CAS
CSCD
北大核心
1995年第S1期232-237,共6页
-
文摘
PVM代表并行虚拟机即Parallel Virtual Machine,是一种基于工作站网络群机的异构并行软件环境,本文详细地分析了其体系结构、计算模型、内部实现机制、用户编程接口,并指出了它的应用前景及存在的缺陷。
-
关键词
消息传递
虚拟机
任务
PVM服务器
单程序多数据流(SPMD)
TCP/IP
-
Keywords
message passing / virtual machine/ task /PVM daemon / single program multidata stream/ TCP/IP
-
分类号
TP338.6
[自动化与计算机技术—计算机系统结构]
-
-
题名共享指令缓存XOR散列索引的研究与设计
被引量:2
- 3
-
-
作者
刘骁
唐勇
郑方
丁亚军
-
机构
江南计算技术研究所
-
出处
《计算机学报》
EI
CSCD
北大核心
2019年第11期2499-2511,共13页
-
基金
国家重点研发计划(2016YFB0200500)资助~~
-
文摘
SPMD(Single Program Multiple Data)是高性能领域的主要工作模式之一,该模式下邻近核心执行相同的程序块,但根据处理数据或控制流的差异,临近核心的指令流并不完全相同.L1 ICache(Instruction Cache)共享技术通过将邻近核心的L1 ICache共享,能有效利用众核处理器SPMD工作模式的特点,同时能缓解片上资源紧张的问题.但共享结构会带来访问冲突,对性能有不利影响.本文基于排队网络对共享ICache的访问冲突进行了理论分析,该理论分析依据核心对共享ICache体的访问特性进行建模,避免了直接抽象物理节点导致的模型访存特性模糊问题.根据理论推导的指令缓存性能损失原因,本文设计了面向共享L1 ICache的低访问冲突XOR散列函数.函数的设计综合考虑搜索了代价和工程实现复杂性,在保证散列线性空间随机散列能力的前提下,对附加延迟、功耗开销进行控制.该散列函数基于异或操作,通过调整ICache排队网络模型的节点转换概率,降低了共享L1 ICache的访问冲突.实验结果表明,在指令缓存总容量为32 KB的四核心簇上,使用XOR散列的共享L1 ICache结构较私有L1 ICache结构性能平均优化11%,较使用低位交错策略的共享L1 ICache结构性能平均优化8%,较使用面向跨步访存散列策略的共享L1 ICache结构性能平均优化3.2%.
-
关键词
单程序多数据流模型
指令缓存
众核处理器
排队网络模型
XOR散列函数
-
Keywords
single program multiple data
instruction cache
many-core processor
queueing network
XOR-hash function
-
分类号
TP302
[自动化与计算机技术—计算机系统结构]
-