题名 阵列众核处理器上的高效归并排序算法
被引量:6
1
作者
石嵩
李宏亮
朱巍
机构
江南计算技术研究所
出处
《计算机研究与发展》
EI
CSCD
北大核心
2016年第2期362-373,共12页
基金
国家"八六三"高技术研究发展计划基金项目(2014AA01A301)
"核高基"国家科技重大专项基金项目(2013zx0102-8001-001-001)~~
文摘
排序是计算机科学中最基本的问题之一,随着众核处理器结构的不断发展,设计众核结构上的高效排序算法具有重要意义.众核处理器的一个重要方向是阵列众核处理器,根据阵列众核处理器的结构特点,提出了2种面向阵列众核结构的高效归并排序算法,通过利用DMA(direct memory access)多缓冲机制提高访存效率、深度平衡归并策略保持众多核心之间的负载均衡、SIMD(single instruction multiple data)归并方法提高归并计算效率以及片上交换归并策略提高片上数据重用率,大幅度提高了阵列众核处理器的排序性能.在异构融合阵列众核处理器DFMC(deeply-fused many-core)原型系统的实验结果表明,算法排序速度达647MKeys/s(million keys per second),其排序效率(排序速度/峰值性能)是NVIDIA GPU上最快的归并排序算法(GTX580平台)的3.3倍,是Intel Xeon Phi上最快的归并排序算法的2.7倍.最后,建立了阵列众核处理器上归并排序算法的性能分析模型,利用该模型分析了主要结构参数与算法性能的关系,对阵列众核处理器的研究有一定的指导意义.
关键词
阵列众核
归并排序
排序网络
单指令多数据流
单程序多数据流
片上通信
Keywords
array-based manycore
merge sort
sort network
SIMD
SPMD
on-chip communication
分类号
TP302
[自动化与计算机技术—计算机系统结构]
题名 阵列众核结构上的一种多层分区Hash连接算法
2
作者
石嵩
宁永波
李宏亮
郑方
机构
江南计算技术研究所
出处
《计算机科学》
CSCD
北大核心
2016年第3期18-22,共5页
文摘
连接是数据查询处理中最耗时、使用最频繁的操作之一,对提高连接操作的速率具有重要意义。阵列众核处理器是一类重要的众核处理器,具有强大的并行能力,可用来加速并行计算。基于阵列众核处理器的结构,设计和优化了一种高效的多层分区Hash连接算法。该算法通过多层划分的策略大大降低了主存访问次数,通过分区重排方法有效消除了数据倾斜的影响,获得了很高的性能。在异构融合阵列众核处理器DFMC(Deeply-Fused Many Core)原型系统上的实验结果表明,DFMC上多层分区Hash连接算法的性能是CPU-GPU耦合结构上最快的连接算法的8.0倍,表明利用阵列众核处理器加速数据查询应用具有优势。
关键词
阵列众核
Hash连接
数据倾斜
并行算法
Keywords
Array-based manycore
Hash join
Data skew
Parallel algorithm
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
题名 一种多线程阵列众核处理器的二级Cache划分机制
被引量:1
3
作者
陈逸飞
朱蕾
李宏亮
机构
江南计算技术研究所
出处
《计算机工程与科学》
CSCD
北大核心
2019年第3期400-408,共9页
文摘
阵列众核处理器由于其较高的计算性能和能效比已经广泛应用于高性能计算领域。而要构建未来高性能计算系统处理器必须解决严峻的"访存墙"挑战以及核心协同问题。通常的阵列处理器,其核心多采用单线程结构,以减少开销,但是对访存提出了较高的要求。引入硬件同时多线程技术,针对实验中单核心多线程二级Cache利用率较低的问题,提出了一种共享二级Cache划分机制。经实验模拟,通过上述优化的共享二级Cache划分机制,二级指令Cache失效率下降18.59%,数据Cache失效率下降6.60%,整体CPI性能提升达到10.1%。
关键词
阵列众核 处理器
同时多线程
共享二级Cache划分机制
Keywords
array-based many-core processor
simultaneous multithreading
shared L2 cache partitioning mechanism
分类号
TP303
[自动化与计算机技术—计算机系统结构]
题名 一种阵列众核处理器的多级指令缓存结构
4
作者
陈逸飞
李宏亮
刘骁
高红光
机构
江南计算技术研究所
出处
《计算机工程与科学》
CSCD
北大核心
2018年第4期571-579,共9页
基金
国家863计划(2015AA01A301)
国家"核高基"重大专项(2013ZX01028001001001)
文摘
阵列众核处理器由于其较高的计算性能和能效比已经被广泛应用于高性能计算领域。而要构建未来高性能计算系统处理器必须解决严峻的"访存墙"挑战以及核心协同问题。通常的阵列处理器中,核心多采用单线程结构,以减少开销,但是对访存提出了较高的要求。在阵列众核处理器中,在单核心中引入硬件同时多线程技术,针对实验中一级指令缓存命中率随着线程数增加而显著降低的问题,提出了一种面向阵列众核处理器的冗余指令缓存存储结构,基于该结构,提出采用FIFO及类LRU替换策略。通过上述优化的高速缓存结构设计,经实验模拟,双线程整体指令Cache失效率降低了25.2%,整体CPI性能提升了30.2%。
关键词
阵列众核 处理器
同时多线程
冗余指令缓存
Keywords
array-based many-core processor
simultaneous multithreading
redundancy instruction Cache
分类号
TP302
[自动化与计算机技术—计算机系统结构]
题名 以访存为中心的阵列众核处理器核心流水线设计
被引量:2
5
作者
张昆
郑方
谢向辉
机构
数学工程与先进计算国家重点实验室
出处
《计算机工程与科学》
CSCD
北大核心
2017年第12期2167-2175,共9页
基金
国家863计划(2015AA01A301)
国家自然科学基金(91430214)
文摘
传统的流水线设计是以转移指令为中心的,大量逻辑资源被用于提高处理器转移预测的能力,以保证向流水线发射和执行部件提供充足的指令流。在阵列众核处理器中提出了一种以访存为中心的核心流水线设计。通过提高访存装载指令在流水线中的执行优先级,以及访存装载指令的预测执行机制,可以有效减少顺序流水线因访存延迟所带来的停顿,提高流水线性能和能效比。测试结果表明,以4KB容量的装载指令访存地址表为例,访存为中心的流水线设计可以带来8.6%的流水线性能提升和7%的流水线能效比提高。
关键词
众 核 处理器
核 心流水线
访存优化
阵列众核
Keywords
many-core processor
core pipeline
optimization of memory accesses
array many-coreprocessors
分类号
TP302
[自动化与计算机技术—计算机系统结构]