期刊文献+
共找到11篇文章
< 1 >
每页显示 20 50 100
GPU异构系统中的存储层次和负载均衡策略研究 被引量:12
1
作者 马安国 成玉 +1 位作者 唐遇星 邢座程 《国防科技大学学报》 EI CAS CSCD 北大核心 2009年第5期38-43,共6页
GPU体系结构的革新和相应开发平台的发展使得GPU广泛地应用于科学计算领域。通过深入地分析GPU体系结构和存储层次的优缺点以及GPU上的关键性能特征,阐明了GPU体系结构、编程模型和存储层次之间的关系。针对GPU异构系统上的应用映射提... GPU体系结构的革新和相应开发平台的发展使得GPU广泛地应用于科学计算领域。通过深入地分析GPU体系结构和存储层次的优缺点以及GPU上的关键性能特征,阐明了GPU体系结构、编程模型和存储层次之间的关系。针对GPU异构系统上的应用映射提出三种基本负载均衡优化策略:预取、流化、任务划分。试验结果揭示了不同的优化因子与优化效率之间的具体关联。 展开更多
关键词 GPGPU 存储层次 负载均衡策略 流计算 任务划分
在线阅读 下载PDF
LRU-Assist:一种高效的Cache漏流功耗控制算法 被引量:6
2
作者 张承义 张民选 +1 位作者 邢座程 王永文 《电子学报》 EI CAS CSCD 北大核心 2006年第9期1626-1630,共5页
随着集成电路制造工艺进入超深亚微米阶段,漏电流功耗在微处理器总功耗中所占的比例越来越大,在开发新的低漏流工艺和电路技术之外,如何在体系结构级控制和优化漏流功耗成为业界研究的热点.Cache在微处理器中面积最大,是进行漏流控制的... 随着集成电路制造工艺进入超深亚微米阶段,漏电流功耗在微处理器总功耗中所占的比例越来越大,在开发新的低漏流工艺和电路技术之外,如何在体系结构级控制和优化漏流功耗成为业界研究的热点.Cache在微处理器中面积最大,是进行漏流控制的首要部件.LRU是组相联Cache最常用的替换算法,而研究发现,访存操作命中LRU后半区的概率很低.LRU-Assist算法以Drowsy Cache、Cache Decay等控制策略为基础,在保证处理器性能不受影响的前提下,利用既有的LRU信息把Cache的关闭率平均提高了15%,大大降低了漏电流功耗. 展开更多
关键词 微处理器 cache功耗 漏电流 LRU-assist
在线阅读 下载PDF
高性能微处理器TLB的优化设计 被引量:2
3
作者 陈海燕 邓让钰 邢座程 《国防科技大学学报》 EI CAS CSCD 北大核心 2004年第4期10-14,共5页
虚拟存储是现代微处理器系统必不可少的存储模式。在虚存模式下,虚拟地址到物理地址的变换是流水线中最频繁的核心服务,容易处于决定处理器时钟周期的关键路径上。为加快虚存的访问,现代高性能微处理器实现了一种硬件地址映射结构:转换... 虚拟存储是现代微处理器系统必不可少的存储模式。在虚存模式下,虚拟地址到物理地址的变换是流水线中最频繁的核心服务,容易处于决定处理器时钟周期的关键路径上。为加快虚存的访问,现代高性能微处理器实现了一种硬件地址映射结构:转换后援缓冲器(简称TLB);在分析TLB传统的地址映射机制的基础上,提出了基于虚区域和Cache块标记的预验证技术,结果表明该技术优化了TLB的设计,避免了TLB访问时延成为访存的瓶颈。 展开更多
关键词 虚拟存储 TLB 地址变换 预验证 Cache块标记
在线阅读 下载PDF
利用预测器降低令牌协议的通信量 被引量:1
4
作者 付桂涛 赵天磊 +2 位作者 黄平 汤先拓 邢座程 《国防科技大学学报》 EI CAS CSCD 北大核心 2012年第6期14-19,共6页
令牌协议采用广播方式发送一致性消息,导致网络通信量大,限制了协议的扩展能力。提出预测的方法有效地消除令牌协议中的无用消息,从而降低了通信量。根据应用程序的读写失效比例提出3种预测策略。实验结果显示,采用512项的Owner预测器... 令牌协议采用广播方式发送一致性消息,导致网络通信量大,限制了协议的扩展能力。提出预测的方法有效地消除令牌协议中的无用消息,从而降低了通信量。根据应用程序的读写失效比例提出3种预测策略。实验结果显示,采用512项的Owner预测器平均降低3.8%的连接通信量,Sharer预测器和Hybrid预测器分别平均降低了11%和7%的连接通信量。预测方法可以有效地降低令牌协议的通信量,提升令牌协议的扩展能力。 展开更多
关键词 令牌协议 一致性协议 预测器 通信量 广播
在线阅读 下载PDF
优化迁移共享的自适应令牌协议
5
作者 付桂涛 赵天磊 +1 位作者 唐川 邢座程 《上海交通大学学报》 EI CAS CSCD 北大核心 2013年第1期49-54,共6页
针对写作废的一致性协议在处理迁移特征时需要2次访问的特征,提出了一种自适应的令牌协议,根据数据的读/写处理器和数据的令牌信息判断数据是否具有迁移特征.如果数据具有迁移特征,则请求者的状态变为可以避免迁移访问序列中出现写访问... 针对写作废的一致性协议在处理迁移特征时需要2次访问的特征,提出了一种自适应的令牌协议,根据数据的读/写处理器和数据的令牌信息判断数据是否具有迁移特征.如果数据具有迁移特征,则请求者的状态变为可以避免迁移访问序列中出现写访问的状态MG,从而消除了迁移特征中的写作废次数.结果表明,所提出的自适应令牌协议在读访问时获取了数据所有权,避免了部分写失效的产生,从而使得平均失效延迟降低5%,通信量平均降低9%. 展开更多
关键词 访问特征 迁移 写作废 自适应协议
在线阅读 下载PDF
一种低功耗预比较TLB结构 被引量:2
6
作者 侯进永 邢座程 《国防科技大学学报》 EI CAS CSCD 北大核心 2006年第5期84-89,共6页
介绍了一种低功耗TLB结构。这种结构的思想是基于程序局部性原理,结合Block Buffering[1]技术,并对CAM结构进行改造,提出一种预比较TLB结构,实现低功耗的TLB。并且采用Simplescalar 3.0模拟该TLB结构和几种传统的TLB结构的失效率。通过... 介绍了一种低功耗TLB结构。这种结构的思想是基于程序局部性原理,结合Block Buffering[1]技术,并对CAM结构进行改造,提出一种预比较TLB结构,实现低功耗的TLB。并且采用Simplescalar 3.0模拟该TLB结构和几种传统的TLB结构的失效率。通过改进的CACTI3[2]模拟结果显示:提出的TLB结构比FA-TLB平均功耗×延迟降低约85%,比Micro-TLB降低80%,比Victim-TLB降低66%,比Bank-TLB降低66%以上。从而,所提出的TLB结构可以达到降低功耗的目的。 展开更多
关键词 TLB 低功耗 CAM BLOCK BUFFER
在线阅读 下载PDF
室温下单电子晶体管3种临界尺寸的确定 被引量:1
7
作者 陈小保 邢座程 隋兵才 《国防科技大学学报》 EI CAS CSCD 北大核心 2013年第3期99-103,共5页
为使单电子晶体管达到实际应用的地步,开展室温条件下相关研究成为必然。从正统理论出发,推导、计算出室温条件下单电子晶体管能否正常工作的库仑岛临界尺寸:存储器件为6.5nm,逻辑器件为1.5nm;本文还推导和计算出单电子晶体管室温下发... 为使单电子晶体管达到实际应用的地步,开展室温条件下相关研究成为必然。从正统理论出发,推导、计算出室温条件下单电子晶体管能否正常工作的库仑岛临界尺寸:存储器件为6.5nm,逻辑器件为1.5nm;本文还推导和计算出单电子晶体管室温下发生能量量子化效应的临界尺寸:4.7nm,并对这3种临界尺寸进行了验证和分析。另外,通过比较分析本文还得出了室温条件下,所有逻辑器件均必须考虑能量量子化效应,所有存储器件应尽量考虑能量量子化效应的结论。分析结果表明,库仑岛临界尺寸的确定对单电子晶体管的实际应用具有重要意义。 展开更多
关键词 单电子晶体管 正统理论 能量量子化 临界尺寸 室温
在线阅读 下载PDF
高速5端口寄存器文件的设计与实现
8
作者 谭全林 陈迅 +1 位作者 邢座程 李少青 《微电子学与计算机》 CSCD 北大核心 2009年第1期42-44,47,共4页
为了加快处理器对数据的存取速度,采用0.13μm、8层(Al)金属布线N阱COMS工艺设计实现了一款290ps读访问延迟、16字11位、4读1写的特殊寄存器文件.它应用在流处理器中,读操作是用差分灵敏放大器实现,和写操作共用一个时钟周期,当读写地... 为了加快处理器对数据的存取速度,采用0.13μm、8层(Al)金属布线N阱COMS工艺设计实现了一款290ps读访问延迟、16字11位、4读1写的特殊寄存器文件.它应用在流处理器中,读操作是用差分灵敏放大器实现,和写操作共用一个时钟周期,当读写地址一致时,数据从旁路输出.本寄存器文件在频率为1GHz,1.2V,50℃的典型情况下经过多个周期的测试都可以准确地工作,平均功耗为14.75mW,达到了高速低功耗的设计目标. 展开更多
关键词 寄存器文件 灵敏放大器 多端口 旁路输出
在线阅读 下载PDF
带复位的高性能译码器设计
9
作者 陈建梅 王延宁 +1 位作者 陈迅 邢座程 《微电子学与计算机》 CSCD 北大核心 2009年第1期217-220,共4页
译码器是寄存器文件中的关键部件.为了实现高性能的寄存器文件,结合寄存器文件的设计,实现了一款带复位的高性能译码器,并分析了这款译码器的性能和功能.设计中,使用了偏斜逻辑的设计方法,有效地提高了译码器的速度.同时,采用特殊的复... 译码器是寄存器文件中的关键部件.为了实现高性能的寄存器文件,结合寄存器文件的设计,实现了一款带复位的高性能译码器,并分析了这款译码器的性能和功能.设计中,使用了偏斜逻辑的设计方法,有效地提高了译码器的速度.同时,采用特殊的复位电路,可以精确地控制字线维持时间,降低功耗.在0.13μm工艺下对译码器进行模拟分析并与传统的译码器进行比较,结果表明,相对于传统静态译码器,该译码器的速度增加了43.24%,延时为210ps,相对于传统动态译码器,平均功耗降低了37.56%. 展开更多
关键词 译码器 复位功能 偏斜逻辑 寄存器文件
在线阅读 下载PDF
64位整数加法器的设计与实现
10
作者 谭全林 邢座程 +1 位作者 李少青 陈延仓 《微电子学与计算机》 CSCD 北大核心 2009年第2期32-35,共4页
为了提高算术逻辑部件的性能,采用多米诺逻辑和偏斜逻辑门的电路结构,结合并行前缀加法器的优点,设计实现了一款64位高性能整数加法器.根据需要,设计了一种符号扩展电路,使之能够处理带符号操作数的加减法,符号扩展结果可以进行溢出判断... 为了提高算术逻辑部件的性能,采用多米诺逻辑和偏斜逻辑门的电路结构,结合并行前缀加法器的优点,设计实现了一款64位高性能整数加法器.根据需要,设计了一种符号扩展电路,使之能够处理带符号操作数的加减法,符号扩展结果可以进行溢出判断.模拟结果表明:在0.13μmCMOS的工艺条件下,关键路径的延时为630ps功耗为21.6mW,达到了高速低功耗的设计目标. 展开更多
关键词 并行前缀加法器 多米诺逻辑 偏斜逻辑 功耗延时积
在线阅读 下载PDF
Scalability of 3D deterministic particle transport on the Intel MIC architecture 被引量:2
11
作者 王庆林 刘杰 +1 位作者 龚春叶 邢座程 《Nuclear Science and Techniques》 SCIE CAS CSCD 2015年第5期88-97,共10页
The key to large-scale parallel solutions of deterministic particle transport problem is single-node computation performance. Hence, single-node computation is often parallelized on multi-core or many-core computer ar... The key to large-scale parallel solutions of deterministic particle transport problem is single-node computation performance. Hence, single-node computation is often parallelized on multi-core or many-core computer architectures. However, the number of on-chip cores grows quickly with the scale-down of feature size in semiconductor technology. In this paper, we present a scalability investigation of one energy group time-independent deterministic discrete ordinates neutron transport in 3D Cartesian geometry(Sweep3D) on Intel's Many Integrated Core(MIC) architecture, which can provide up to 62 cores with four hardware threads per core now and will own up to 72 in the future. The parallel programming model, Open MP, and vector intrinsic functions are used to exploit thread parallelism and vector parallelism for the discrete ordinates method, respectively. The results on a 57-core MIC coprocessor show that the implementation of Sweep3 D on MIC has good scalability in performance. In addition, the application of the Roofline model to assess the implementation and performance comparison between MIC and Tesla K20 C Graphics Processing Unit(GPU) are also reported. 展开更多
关键词 计算机体系结构 可扩展性 粒子输运 三维几何 英特尔 麦克风 离散坐标法 计算性能
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部