期刊导航
期刊开放获取
上海教育软件发展有限公..
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
26
篇文章
<
1
2
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
基于混合粒子群优化的CMP线程调度方法
被引量:
1
1
作者
李静梅
张博
《计算机工程》
CAS
CSCD
2012年第20期113-115,共3页
为提高片上多核处理器(CMP)架构中线程调度的执行效率,发挥CMP的并行性能,提出一种基于混合粒子群优化算法的线程调度方法。根据设计的线程调度模型,利用有向无环图表述线程及线程间的相互依赖关系,并采用改进的混合粒子群算法对其进行...
为提高片上多核处理器(CMP)架构中线程调度的执行效率,发挥CMP的并行性能,提出一种基于混合粒子群优化算法的线程调度方法。根据设计的线程调度模型,利用有向无环图表述线程及线程间的相互依赖关系,并采用改进的混合粒子群算法对其进行合理调度。实验结果表明,该方法的执行效率优于现有的遗传算法,能有效地降低任务的执行时间,充分发挥多核架构的优势。
展开更多
关键词
片上多核处理器
线程调度
粒子群优化算法
全局最优
局部最优
有向无环图
调度方法
在线阅读
下载PDF
职称材料
基于CMP的高密度计算机多目标设计方法
被引量:
5
2
作者
刘宇航
祝明发
+1 位作者
崔吉顺
肖利民
《系统工程与电子技术》
EI
CSCD
北大核心
2012年第4期806-812,共7页
面向高端应用的高效能计算机一般具有高性能、高集成度、高热密度、高复杂性的特点,其研制是一项复杂的系统工程。每一环节,存在功能、性能、可靠性等相互制约但需同时兼顾的多个目标。在实践中这些方面的权衡设计如何以有序的方式展开...
面向高端应用的高效能计算机一般具有高性能、高集成度、高热密度、高复杂性的特点,其研制是一项复杂的系统工程。每一环节,存在功能、性能、可靠性等相互制约但需同时兼顾的多个目标。在实践中这些方面的权衡设计如何以有序的方式展开,是一个亟待解决的关键问题。提出了可靠性与功能、性能权衡的设计方法,并应用到一款基于国产多核处理器的16路高密度计算机的自主研制中,软件仿真分析和系统实测验证了该权衡设计方法的有效性。
展开更多
关键词
高密度计算机
高能效
多目标
权衡
协同设计
片上多核
在线阅读
下载PDF
职称材料
CMP中基于目录的协作Cache设计方案
被引量:
1
3
作者
赵小雨
吴俊敏
+2 位作者
隋秀峰
王庆波
唐轶轩
《计算机工程》
CAS
CSCD
北大核心
2010年第21期283-285,共3页
片上多处理器中二级Cache的设计和管理是影响其性能的关键因素之一。在私有二级Cache的基础上,提出一种基于集中式一致性目录的协作Cache设计方案,通过有效地管理片上存储资源来优化处理器的性能,从而使该协作Cache具有平均访存延迟小、...
片上多处理器中二级Cache的设计和管理是影响其性能的关键因素之一。在私有二级Cache的基础上,提出一种基于集中式一致性目录的协作Cache设计方案,通过有效地管理片上存储资源来优化处理器的性能,从而使该协作Cache具有平均访存延迟小、Cache缺失率低、可扩展性好等优点。实验结果显示,与共享二级Cache设计相比,协作Cache可以将4核处理器的吞吐量平均提高13.5%,而其硬件开销约为8.1%。
展开更多
关键词
协作Cache
集中式一致性目录
片上多处理器
流感知
在线阅读
下载PDF
职称材料
环连接CMP模拟器:Godson-Ring
4
作者
曹非
《计算机工程与应用》
CSCD
2013年第9期13-18,49,共7页
片上互连结构和cache一致性协议是片上多核处理器(CMP)设计的关键。为了探索使用环形互连结构CMP的cache一致性协议设计空间,需要使用对环形互连结构和cache一致性协议进行精确模拟的CMP模拟器平台。Godson-Ring是一个环连接CMP的用户...
片上互连结构和cache一致性协议是片上多核处理器(CMP)设计的关键。为了探索使用环形互连结构CMP的cache一致性协议设计空间,需要使用对环形互连结构和cache一致性协议进行精确模拟的CMP模拟器平台。Godson-Ring是一个环连接CMP的用户态模拟器平台,采用功能和时序相分离的模拟方式,使用了事件驱动和执行驱动相结合的方法,周期精确地模拟了环形互连结构和cache一致性协议的硬件行为。该模拟器具有速度快和灵活性高的特点,能模拟多种cache一致性协议,可以快速、有效地探索环连接CMP的cache一致性协议设计空间。
展开更多
关键词
环
片上多核处理器
CACHE一致性协议
模拟器
在线阅读
下载PDF
职称材料
片上多核处理器共享资源分配与调度策略研究综述
被引量:
9
5
作者
王磊
刘道福
+2 位作者
陈云霁
陈天石
李玲
《计算机研究与发展》
EI
CSCD
北大核心
2013年第10期2212-2227,共16页
对于片上多核处理器,如何在多线程间公平有效地分配调度有限的共享资源是一个很重要的问题.随着处理器核规模的增长,多线程对于系统中有限的共享资源的争夺将愈发激烈,由此导致的对于系统性能的影响也将更加显著.为了缓解乃至解决这一问...
对于片上多核处理器,如何在多线程间公平有效地分配调度有限的共享资源是一个很重要的问题.随着处理器核规模的增长,多线程对于系统中有限的共享资源的争夺将愈发激烈,由此导致的对于系统性能的影响也将更加显著.为了缓解乃至解决这一问题,除了增加可用共享资源外,一个能够公平有效地在多线程间分配共享资源的调度算法也至关重要.在各类共享资源中,对于系统性能有着最大影响的是共享缓存和动态随机存储器(dynamic random-access memory,DRAM)系统.对于共享缓存,可以通过缓存分区来降低由于线程间的争夺所带来的影响;对于DRAM系统,可以采取适当的调度算法来调节各个线程发出的访存请求的服务优先级,从而改善系统性能.首先分别以系统吞吐量和公平性为优化目标介绍了一系列对共享缓存的分区调度算法,并针对缓存分区粒度过大的问题给出了相关解决方案.然后从利用线程的访存行为特征和借鉴网络路由算法等多个角度介绍了DRAM的调度算法.研究了从全局出发的联合调度算法,以解决针对不同共享资源的调度算法间相互矛盾的问题.最后从不同角度对于今后的研究进行了展望.
展开更多
关键词
片上多核处理器
多线程
共享缓存
缓存分区
访存调度
在线阅读
下载PDF
职称材料
一种分片式多核处理器的用户级模拟器
被引量:
6
6
作者
黄琨
马可
+2 位作者
曾洪博
张戈
章隆兵
《软件学报》
EI
CSCD
北大核心
2008年第4期1069-1080,共12页
随着片上晶体管资源的增多和互连线延迟的加大,分片式多核微处理器已成为多核处理器设计的新方向.为了对这种新型处理器进行体系结构的深入研究和设计空间的探索,设计并实现了针对分片式多核处理器的用户级多核性能模拟器.该多核模拟器...
随着片上晶体管资源的增多和互连线延迟的加大,分片式多核微处理器已成为多核处理器设计的新方向.为了对这种新型处理器进行体系结构的深入研究和设计空间的探索,设计并实现了针对分片式多核处理器的用户级多核性能模拟器.该多核模拟器在龙芯2号单处理器核的基础上,完整地模拟了基于目录的Cache一致性协议和存储转发式片上互联网络的结构模型,详细地刻画了由于系统乱序处理各种请求应答和请求之间的冲突而造成的时序特性,可以通过运行各种串行或并行的工作负载对多核处理器的各种重要性能指标加以评估,为多核处理器的结构设计提供了快速、灵活、高效的研究平台.
展开更多
关键词
分片式
cmp
(
chip
multiprocessor)
模拟器
片上网络
性能分析
龙芯2号微处理器
在线阅读
下载PDF
职称材料
面向低功耗的多核处理器Cache设计方法
被引量:
2
7
作者
方娟
郭媚
+1 位作者
杜文娟
雷鼎
《计算机应用》
CSCD
北大核心
2013年第9期2404-2409,共6页
针对多核处理器下的共享二级缓存(L2 Cache)提出了一种面向低功耗的Cache设计方案(LPD)。在LPD方案中,分别通过低功耗的共享Cache混合划分算法(LPHP)、可重构Cache算法(CRA)和基于Cache划分的路预测算法(WPP-L2)来达到降低Cache功耗的目...
针对多核处理器下的共享二级缓存(L2 Cache)提出了一种面向低功耗的Cache设计方案(LPD)。在LPD方案中,分别通过低功耗的共享Cache混合划分算法(LPHP)、可重构Cache算法(CRA)和基于Cache划分的路预测算法(WPP-L2)来达到降低Cache功耗的目的,同时保证系统的性能良好。在LPHP和CRA中,程序运行时动态地关闭Cache中空闲的Cache列,节省了对空闲列的访问功耗。在WPP-L2中,利用路预测技术在Cache访问前给出预测路信息,预测命中时则可用最短的访问延时和最少的访问功耗完成Cache访问;预测失效时,则结合Cache划分策略,降低由路预测失效导致的额外功耗开销。通过SPEC2000测试程序验证,与传统使用最近最少使用(LRU)替换策略的共享L2 Cache相比,本方案提出的三种算法虽然对程序执行时间稍有影响,但分别节省了20.5%、17%和64.6%的平均L2 Cache访问功耗,甚至还提高了系统吞吐率。实验表明,所提方法在保持系统性能的同时可以显著降低多核处理器的功耗。
展开更多
关键词
片上多核处理器
二级缓存
动态划分
低功耗
性能
在线阅读
下载PDF
职称材料
基于缓存行为特征的线程数据预取距离控制策略
被引量:
2
8
作者
黄艳
张启坤
+1 位作者
段赵磊
古志民
《电子与信息学报》
EI
CSCD
北大核心
2015年第7期1633-1638,共6页
针对目前大多数面向指针应用程序的线程数据预取方法在预取距离控制方面的不足,该文提出一种基于缓存行为特征的数据预取距离控制策略。该策略利用指针应用程序执行时的数据缓存特征构建预取距离控制模型,以避免共享缓存污染,降低系统...
针对目前大多数面向指针应用程序的线程数据预取方法在预取距离控制方面的不足,该文提出一种基于缓存行为特征的数据预取距离控制策略。该策略利用指针应用程序执行时的数据缓存特征构建预取距离控制模型,以避免共享缓存污染,降低系统资源竞争,并通过忽略对部分非循环依赖数据预取平衡帮助线程与主线程间的执行任务,提高线程数据预取的时效性。实验结果表明,通过该策略控制线程数据预取距离能进一步提高线程预取性能。
展开更多
关键词
片上多处理器
线程预取
帮助线程
预取率
预取距离
在线阅读
下载PDF
职称材料
面向多核处理器的空间数据库索引性能分析
被引量:
2
9
作者
吴烨
熊伟
+1 位作者
蔡蕾
景宁
《计算机科学与探索》
CSCD
2011年第8期707-718,共12页
空间数据库索引是提高空间查询性能的重要方法,片上多核处理器的出现,在提高数据库性能的同时,也给空间索引结构提出了新的挑战。面向多核处理器,还缺乏对各种主要空间数据库索引结构和性能的综合实验比较,从而无法定量分析影响索引性...
空间数据库索引是提高空间查询性能的重要方法,片上多核处理器的出现,在提高数据库性能的同时,也给空间索引结构提出了新的挑战。面向多核处理器,还缺乏对各种主要空间数据库索引结构和性能的综合实验比较,从而无法定量分析影响索引性能的重要因素。针对目前主流的共享cache多核处理器,对R树、HilbertR树、四叉树及CR树在内存中的性能进行了测试,分析了不同处理器硬件、不同索引结点大小、不同选择率、不同输入数据等多种因素对索引性能的影响。实验表明,在多核环境下,为了提高空间索引性能,必须充分利用多核处理器的硬件特性。
展开更多
关键词
多核处理器
空间索引
cache敏感
在线阅读
下载PDF
职称材料
Linux系统中多核实时调度平台的设计
被引量:
2
10
作者
黄姝娟
朱怡安
赵聪
《计算机工程》
CAS
CSCD
2012年第11期225-227,246,共4页
为使各种实时调度算法能够在Linux环境中得到运行和验证,设计一种Linux系统中的公共多核调度平台。该平台由调度模块和跟踪测试模块组成,调度模块实现系统调用、调度处理以及同步功能,跟踪测试模块实现日志和跟踪功能。测试结果表明,该...
为使各种实时调度算法能够在Linux环境中得到运行和验证,设计一种Linux系统中的公共多核调度平台。该平台由调度模块和跟踪测试模块组成,调度模块实现系统调用、调度处理以及同步功能,跟踪测试模块实现日志和跟踪功能。测试结果表明,该平台可正确显示调度算法的运行结果。
展开更多
关键词
片上多核处理器
多核调度平台
实时任务
调度算法
调度模型
在线阅读
下载PDF
职称材料
基于WCET的多核共享资源冲突分析与约束研究
被引量:
1
11
作者
甘志华
古志民
+1 位作者
安立奎
赵鑫
《计算机科学》
CSCD
北大核心
2014年第8期19-24,54,共7页
随着片上多核处理器在嵌入式实时系统中的应用,片上共享资源给任务的WCET分析带来诸多挑战,使得对多核共享资源冲突问题的研究变得非常重要。依据研究的目标,可以把目前已有的研究分为面向共享资源冲突分析和面向共享资源冲突约束两大...
随着片上多核处理器在嵌入式实时系统中的应用,片上共享资源给任务的WCET分析带来诸多挑战,使得对多核共享资源冲突问题的研究变得非常重要。依据研究的目标,可以把目前已有的研究分为面向共享资源冲突分析和面向共享资源冲突约束两大类。对于面向共享资源冲突分析问题,探讨了不同共享资源冲突产生的原因,概括和比较了典型的冲突分析方法的优势和局限性;对于面向共享资源冲突约束问题,给出了其主要的研究内容,并评述和分析了几种主流的冲突约束方法。最后针对目前的研究状况指出了一些研究方向。
展开更多
关键词
片上多核处理器
最坏执行时间
冲突分析
冲突约束
在线阅读
下载PDF
职称材料
高密度集成与单芯片多核系统及其研究进展
被引量:
2
12
作者
李东生
高明伦
《半导体技术》
CAS
CSCD
北大核心
2012年第2期89-95,共7页
在体积、重量和功耗有严格约束的情况下,系统小型化遇到多种技术挑战,为了满足高密度计算和小型化的要求,高密度系统集成和单芯片多核处理器至关重要。讨论了高密度集成与单芯片多核处理器技术及其研究进展,其中包括单芯片多核处理器(C...
在体积、重量和功耗有严格约束的情况下,系统小型化遇到多种技术挑战,为了满足高密度计算和小型化的要求,高密度系统集成和单芯片多核处理器至关重要。讨论了高密度集成与单芯片多核处理器技术及其研究进展,其中包括单芯片多核处理器(CMP)、片上网络(NoC)、3D集成电路、高密度封装。提出了CMP的两个发展特征,即小核大数量和层次型簇结构。指出高密度集成设计与高密度封装设计逐渐融合,并为单芯片多核系统的物理实现提供了技术保证,为最终实现高密度计算和小型化系统提供了硬件解决方案。
展开更多
关键词
单芯片多核处理器
3D集成电路
小型化
高密度集成
片上网络
在线阅读
下载PDF
职称材料
选择性循环的并行方法
被引量:
1
13
作者
吴悦
雷超付
杨洪斌
《计算机工程》
CAS
CSCD
北大核心
2010年第9期35-37,40,共4页
针对含有大量循环的串行程序存在的问题,提出一种基于线程级前瞻技术的循环选择方案。该方案对循环进行最优选择后建立一个可并行运行的循环集。对于该集合中的循环,选择并行效率高的代码段作并行处理,以加快串行程序运行速度。实验表明...
针对含有大量循环的串行程序存在的问题,提出一种基于线程级前瞻技术的循环选择方案。该方案对循环进行最优选择后建立一个可并行运行的循环集。对于该集合中的循环,选择并行效率高的代码段作并行处理,以加快串行程序运行速度。实验表明,相对于一般的简单内部循环或外部循环并行方法,该方案使9种基准代码的加速比平均上升23.8%,从而提高串行程序并行运行的效率。
展开更多
关键词
线程级前瞻
循环选择
并行运行
单片多核处理器
在线阅读
下载PDF
职称材料
帮助线程预取技术研究综述
被引量:
3
14
作者
张建勋
古志民
《计算机科学》
CSCD
北大核心
2013年第7期19-23,39,共6页
帮助线程预取是当前多核平台提高非规则数据密集应用预取效果性能的关键技术之一,近年来已成为国内外的研究热点。针对非规则数据密集应用访存规律的非连续局部性特征,帮助线程预取技术利用CMP平台的最后一级共享缓存(LLC)将应用的非连...
帮助线程预取是当前多核平台提高非规则数据密集应用预取效果性能的关键技术之一,近年来已成为国内外的研究热点。针对非规则数据密集应用访存规律的非连续局部性特征,帮助线程预取技术利用CMP平台的最后一级共享缓存(LLC)将应用的非连续局部性转换为瞬时的连续时空局部性(即时局部性),从而达到通过线程级数据预取提高程序性能的目的。归纳了帮助线程预取技术的分类,概括和比较了不同帮助线程实现技术的优势和局限性,深入分析和探讨了现有的几种典型帮助线程技术的预取控制策略。最后从帮助线程实时控制、参数动态选取和优化方面指出了帮助线程预取技术的研究方向。
展开更多
关键词
帮助线程
数据预取
cmp
(
chip
multi-processor
)平台
非规则数据密集应用
在线阅读
下载PDF
职称材料
虚拟企业合作伙伴智能优化选择研究
被引量:
2
15
作者
朱会东
段赵磊
黄艳
《计算机工程与应用》
CSCD
2012年第24期57-61,100,共6页
针对复杂的虚拟企业伙伴选择问题,利用神经网络的推理功能,并结合模糊技术处理不确定因素的优势,实现最优伙伴的确定。通过分析建立了包括成本、技术能力、服务水平等指标的评价体系,采用实例验证了该方法的可行性。
关键词
虚拟企业
合作伙伴
神经网络
评价体系
在线阅读
下载PDF
职称材料
小计算量下非规则数据密集型热函数的性能优化
16
作者
郑宁汉
古志民
孙贤和
《计算机研究与发展》
EI
CSCD
北大核心
2013年第11期2436-2443,共8页
随着云计算的兴起和发展,基于多核的非规则数据密集型应用越来越多,而大量的数据缺失问题导致这类应用的性能严重下降.利用空闲核资源的传统帮助线程方法试图提前将主线程所需要的非规则数据放入共享的最后一级缓存(last layer cache,LL...
随着云计算的兴起和发展,基于多核的非规则数据密集型应用越来越多,而大量的数据缺失问题导致这类应用的性能严重下降.利用空闲核资源的传统帮助线程方法试图提前将主线程所需要的非规则数据放入共享的最后一级缓存(last layer cache,LLC),如果帮助线程相对于主线程具有恰当的运算速度,能在主线程访问之前将有关缺失数据放入LLC中,则热函数的性能可被改进.然而,如果热函数缺乏计算任务(称之为小计算量热函数),使用这样的传统方法就无法构建一个相对于主线程有效预取的帮助线程,其热函数性能的改善将会大大降低.针对源代码级小计算量下非规则数据密集型热函数的性能优化问题,先对帮助线程预取QoS进行了形式化描述.在此基础上,通过引入提前量等参数模型,提出了一种小计算量下热函数的性能优化方法.在Intel Core 2Duo Processor 6550处理器上,通过对科学计算测试程序em3d,mst和SPEC CPU benchmark 2006中的mcf的进行实验,相对于传统方法分别获得了1.97%,31.63%和1.10%的性能提升.
展开更多
关键词
多核处理器
帮助线程
数据预取
小
计算量
非规则数据密集型热函数
在线阅读
下载PDF
职称材料
SimTile:片状多核处理器的高效模拟器(英文)
17
作者
刘涛
季振洲
王庆
《计算机科学与探索》
CSCD
2010年第12期1115-1120,共6页
传统的基于共享总线的多核芯片随着核心数增加产生了瓶颈问题。新型TiledCMP(chip multiprocessor)的结构设计中,片上核心互联网络对提高扩展能力和执行效率起到了重要作用。为了实现低延迟、高带宽的核心通信,高速点对点网络方式的片...
传统的基于共享总线的多核芯片随着核心数增加产生了瓶颈问题。新型TiledCMP(chip multiprocessor)的结构设计中,片上核心互联网络对提高扩展能力和执行效率起到了重要作用。为了实现低延迟、高带宽的核心通信,高速点对点网络方式的片上多核互联结构模拟成为研究的热点。抽象片上Tiled方式16核功能单元结构,设计实现了SimTile模拟器,可提供配置灵活、功能单元齐全的片上多核处理器设计,支持高效率的全局共享缓存、高速片上路由结构。模拟器采用模块化的组件配置方式,片上核心数量与互联网络结构、数据一致性协议、全局寄存器通信与cache共享模式等,均可通过精简的参数调整。实验表明模拟器执行效率较高,为片上多核研究提供了灵活、高效并具备可扩展性的新平台。
展开更多
关键词
片状多核处理器
模拟器
互联结构
数据一致性
在线阅读
下载PDF
职称材料
面向监听一致性协议的并发内存竞争记录算法
18
作者
朱素霞
陈德运
+2 位作者
季振洲
孙广路
张浩
《计算机研究与发展》
EI
CSCD
北大核心
2016年第6期1238-1248,共11页
内存竞争记录是解决多核程序执行不确定性的关键技术,然而现有点到点的内存竞争记录机制带来的硬件开销大,难以应用到实际的片上多核处理器系统中.以降低点到点内存竞争记录方式的硬件开销为出发点,为采用监听一致性协议的片上多核处理...
内存竞争记录是解决多核程序执行不确定性的关键技术,然而现有点到点的内存竞争记录机制带来的硬件开销大,难以应用到实际的片上多核处理器系统中.以降低点到点内存竞争记录方式的硬件开销为出发点,为采用监听一致性协议的片上多核处理器(chip multiprocessor,CMP)系统设计了基于并发记录策略的点到点内存竞争记录算法.该记录算法将两两线程间点到点的内存竞争关系扩展到所有线程,采用分布式记录方法为每个线程记录一个由内存竞争关系的一方构成的内存竞争日志;重演时采用简化的生产者消费者模型,确保了确定性重演的实现,有效降低了硬件消耗和带宽开销.在8核处理器系统中的仿真结果表明,该并发式点到点内存竞争记录算法为每个处理器核添加硬件资源约171B,每千条内存操作指令记录日志大小约2.3B,记录和重演阶段均添加不到1.5%的带宽开销.
展开更多
关键词
片上多核处理器
多核程序
确定性重演
内存竞争记录
内存冲突检测
监听一致性协议
在线阅读
下载PDF
职称材料
多核架构下的数据处理算法优化策略综述
被引量:
7
19
作者
陈伟
杜凌霞
陈红
《计算机科学与探索》
CSCD
2011年第12期1057-1075,共19页
多核处理器,尤其是单芯片多处理器(chip multi-processor,CMP)能够提供强大的共享内存的并行资源,然而单核处理器上的程序和算法并不能充分利用多核架构提供的并行计算资源,因此必须针对多核体系架构特点,对算法进行改进优化,提高算法...
多核处理器,尤其是单芯片多处理器(chip multi-processor,CMP)能够提供强大的共享内存的并行资源,然而单核处理器上的程序和算法并不能充分利用多核架构提供的并行计算资源,因此必须针对多核体系架构特点,对算法进行改进优化,提高算法的执行性能。以优化程序局部性、减少cache访问冲突、提高线程并行度、充分利用单指令多数据流(single instruction multipledata,SIMD)并行和带宽优化等几方面为出发点,归纳和分析了多核处理器上数据处理算法的相关优化策略,并对多核算法进行了总结评述。最后阐述了该领域亟待解决的诸多问题,展望了未来的研究发展方向。
展开更多
关键词
多核
单芯片多处理器(
cmp
)
数据级别并行(DLP)
线程级别并行(TLP)
单指令多数据流(SIMD)
在线阅读
下载PDF
职称材料
多核Cache稀疏目录性能提升方法综述
被引量:
2
20
作者
吴健虢
陈海燕
+2 位作者
刘胜
邓让钰
陈俊杰
《计算机工程与科学》
CSCD
北大核心
2019年第3期385-392,共8页
受限于功耗,十多年前通用微处理器就停止追求更高的主频转而向集成更多处理器核的方向发展;同时,随着晶体管密度按摩尔定律不断提高,单片可集成的处理器核数成倍增长,片上多核、众核处理器已成为高性能微处理器发展的主流。未来千核级...
受限于功耗,十多年前通用微处理器就停止追求更高的主频转而向集成更多处理器核的方向发展;同时,随着晶体管密度按摩尔定律不断提高,单片可集成的处理器核数成倍增长,片上多核、众核处理器已成为高性能微处理器发展的主流。未来千核级通用众核处理器支持共享存储编程模型是一种必然趋势,但传统的Cache一致性目录结构面临着查找延迟高、目录项替换频繁以及硬件代价和功耗可扩展性有限等问题。稀疏目录实现了传统目录结构硬件开销与一致性维护效率的折衷,被认为是众核处理器维护Cache一致性的一种高能效、可扩展结构。综述了近年来提高稀疏目录性能的相关研究与方法,并对其在面积、访问延迟、功耗和实现复杂性等方面进行分析,归纳出这些方法各自的优点和存在的不足,对创新设计未来高性能众核处理器共享存储体系结构具有一定的参考价值。
展开更多
关键词
单片多核
CACHE一致性
稀疏目录
相联度
可扩展
在线阅读
下载PDF
职称材料
题名
基于混合粒子群优化的CMP线程调度方法
被引量:
1
1
作者
李静梅
张博
机构
哈尔滨工程大学计算机科学与技术学院
出处
《计算机工程》
CAS
CSCD
2012年第20期113-115,共3页
基金
国家自然科学基金资助项目(61003036
60873138)
黑龙江省教育厅科学技术研究基金资助项目(12513048)
文摘
为提高片上多核处理器(CMP)架构中线程调度的执行效率,发挥CMP的并行性能,提出一种基于混合粒子群优化算法的线程调度方法。根据设计的线程调度模型,利用有向无环图表述线程及线程间的相互依赖关系,并采用改进的混合粒子群算法对其进行合理调度。实验结果表明,该方法的执行效率优于现有的遗传算法,能有效地降低任务的执行时间,充分发挥多核架构的优势。
关键词
片上多核处理器
线程调度
粒子群优化算法
全局最优
局部最优
有向无环图
调度方法
Keywords
chip
multi-processor
(cmp
)
thread scheduling
Particle Swarm Optimization(PSO) algorithm
global optimum
local optimum
Direct Acyclic Graph(DAG)
scheduling method
分类号
TP273 [自动化与计算机技术—检测技术与自动化装置]
在线阅读
下载PDF
职称材料
题名
基于CMP的高密度计算机多目标设计方法
被引量:
5
2
作者
刘宇航
祝明发
崔吉顺
肖利民
机构
北京航空航天大学计算机学院
出处
《系统工程与电子技术》
EI
CSCD
北大核心
2012年第4期806-812,共7页
基金
国家自然科学基金(60973008)
国家高技术研究发展计划(863)重大项目(2011AA01A205)
+1 种基金
国家科技重大专项(2010ZX01036-001-001)
高等学校博士学科点科研基金(20101102110018)资助课题
文摘
面向高端应用的高效能计算机一般具有高性能、高集成度、高热密度、高复杂性的特点,其研制是一项复杂的系统工程。每一环节,存在功能、性能、可靠性等相互制约但需同时兼顾的多个目标。在实践中这些方面的权衡设计如何以有序的方式展开,是一个亟待解决的关键问题。提出了可靠性与功能、性能权衡的设计方法,并应用到一款基于国产多核处理器的16路高密度计算机的自主研制中,软件仿真分析和系统实测验证了该权衡设计方法的有效性。
关键词
高密度计算机
高能效
多目标
权衡
协同设计
片上多核
Keywords
high-density computer
high power-efficient
multi-objective
trade-off
co-design
chip
multiprocessor
(cmp
)
分类号
TP302 [自动化与计算机技术—计算机系统结构]
在线阅读
下载PDF
职称材料
题名
CMP中基于目录的协作Cache设计方案
被引量:
1
3
作者
赵小雨
吴俊敏
隋秀峰
王庆波
唐轶轩
机构
中国科学技术大学计算机科学与技术学院
中国科学技术大学苏州研究院
IBM中国研究院
出处
《计算机工程》
CAS
CSCD
北大核心
2010年第21期283-285,共3页
基金
国家"863"计划基金资助项目(2008AA01Z111)
IBM大学合作联合研究基金资助项目(JSA200906010)
中国科学技术大学研究生创新基金资助项目(KD2008059)
文摘
片上多处理器中二级Cache的设计和管理是影响其性能的关键因素之一。在私有二级Cache的基础上,提出一种基于集中式一致性目录的协作Cache设计方案,通过有效地管理片上存储资源来优化处理器的性能,从而使该协作Cache具有平均访存延迟小、Cache缺失率低、可扩展性好等优点。实验结果显示,与共享二级Cache设计相比,协作Cache可以将4核处理器的吞吐量平均提高13.5%,而其硬件开销约为8.1%。
关键词
协作Cache
集中式一致性目录
片上多处理器
流感知
Keywords
cooperative cache
central coherence directory
chip
MultiProcessors
(cmp
)
stream aware
分类号
TP302 [自动化与计算机技术—计算机系统结构]
在线阅读
下载PDF
职称材料
题名
环连接CMP模拟器:Godson-Ring
4
作者
曹非
机构
西北工业大学计算机学院
出处
《计算机工程与应用》
CSCD
2013年第9期13-18,49,共7页
基金
国家自然科学基金(No.60736012
No.60773223
+2 种基金
No.61003037
No.61173047)
国家高技术研究发展计划(863)(No.2009AA01Z110)
文摘
片上互连结构和cache一致性协议是片上多核处理器(CMP)设计的关键。为了探索使用环形互连结构CMP的cache一致性协议设计空间,需要使用对环形互连结构和cache一致性协议进行精确模拟的CMP模拟器平台。Godson-Ring是一个环连接CMP的用户态模拟器平台,采用功能和时序相分离的模拟方式,使用了事件驱动和执行驱动相结合的方法,周期精确地模拟了环形互连结构和cache一致性协议的硬件行为。该模拟器具有速度快和灵活性高的特点,能模拟多种cache一致性协议,可以快速、有效地探索环连接CMP的cache一致性协议设计空间。
关键词
环
片上多核处理器
CACHE一致性协议
模拟器
Keywords
ring
chip
multi-processor
(cmp
)
cache coherence protocol
simulator
分类号
TP302 [自动化与计算机技术—计算机系统结构]
在线阅读
下载PDF
职称材料
题名
片上多核处理器共享资源分配与调度策略研究综述
被引量:
9
5
作者
王磊
刘道福
陈云霁
陈天石
李玲
机构
中国科学院计算机系统结构重点实验室
中国科学院大学
龙芯中科技术有限公司
出处
《计算机研究与发展》
EI
CSCD
北大核心
2013年第10期2212-2227,共16页
基金
中国科学院战略性先导科技专项基金项目(XDA06010401-02)
国家自然科学基金项目(61003064
+8 种基金
61100163
61173006
61133004
61173001)
国家"八六三"高技术研究发展计划基金项目(2012AA012202
2012AA010901)
"核高基"国家科技重大专项基金项目(2009ZX01028-002-003
2009ZX01029-001-003
2010ZX01036-001-002)
文摘
对于片上多核处理器,如何在多线程间公平有效地分配调度有限的共享资源是一个很重要的问题.随着处理器核规模的增长,多线程对于系统中有限的共享资源的争夺将愈发激烈,由此导致的对于系统性能的影响也将更加显著.为了缓解乃至解决这一问题,除了增加可用共享资源外,一个能够公平有效地在多线程间分配共享资源的调度算法也至关重要.在各类共享资源中,对于系统性能有着最大影响的是共享缓存和动态随机存储器(dynamic random-access memory,DRAM)系统.对于共享缓存,可以通过缓存分区来降低由于线程间的争夺所带来的影响;对于DRAM系统,可以采取适当的调度算法来调节各个线程发出的访存请求的服务优先级,从而改善系统性能.首先分别以系统吞吐量和公平性为优化目标介绍了一系列对共享缓存的分区调度算法,并针对缓存分区粒度过大的问题给出了相关解决方案.然后从利用线程的访存行为特征和借鉴网络路由算法等多个角度介绍了DRAM的调度算法.研究了从全局出发的联合调度算法,以解决针对不同共享资源的调度算法间相互矛盾的问题.最后从不同角度对于今后的研究进行了展望.
关键词
片上多核处理器
多线程
共享缓存
缓存分区
访存调度
Keywords
chip multi-processor (cmp)
multi-thread
shared caches
cache partitioning
memoryaccess scheduling
分类号
TP302 [自动化与计算机技术—计算机系统结构]
在线阅读
下载PDF
职称材料
题名
一种分片式多核处理器的用户级模拟器
被引量:
6
6
作者
黄琨
马可
曾洪博
张戈
章隆兵
机构
中国科学院计算技术研究所系统结构重点实验室
中国科学技术大学计算机科学与技术系
出处
《软件学报》
EI
CSCD
北大核心
2008年第4期1069-1080,共12页
基金
国家自然科学基金No.60673146
国家杰出青年基金No.60325205
+3 种基金
国家高技术研究发展计划(863)No.2006AA010201
国家重点基础研究发展计划(973)No.2005CB321600
北京市自然科学基金No.4072024
中国科学院计算技术研究所知识创新课题No.20066012~~
文摘
随着片上晶体管资源的增多和互连线延迟的加大,分片式多核微处理器已成为多核处理器设计的新方向.为了对这种新型处理器进行体系结构的深入研究和设计空间的探索,设计并实现了针对分片式多核处理器的用户级多核性能模拟器.该多核模拟器在龙芯2号单处理器核的基础上,完整地模拟了基于目录的Cache一致性协议和存储转发式片上互联网络的结构模型,详细地刻画了由于系统乱序处理各种请求应答和请求之间的冲突而造成的时序特性,可以通过运行各种串行或并行的工作负载对多核处理器的各种重要性能指标加以评估,为多核处理器的结构设计提供了快速、灵活、高效的研究平台.
关键词
分片式
cmp
(
chip
multiprocessor)
模拟器
片上网络
性能分析
龙芯2号微处理器
Keywords
tiled
cmp
(
chip
multiprocessor)
simulator
network on
chip
performance analysis
Godson-2 processor
分类号
TP302 [自动化与计算机技术—计算机系统结构]
在线阅读
下载PDF
职称材料
题名
面向低功耗的多核处理器Cache设计方法
被引量:
2
7
作者
方娟
郭媚
杜文娟
雷鼎
机构
北京工业大学计算机学院
出处
《计算机应用》
CSCD
北大核心
2013年第9期2404-2409,共6页
基金
国家自然科学基金资助项目(61202076)
北京市教委科技计划项目(KM201210005022)
文摘
针对多核处理器下的共享二级缓存(L2 Cache)提出了一种面向低功耗的Cache设计方案(LPD)。在LPD方案中,分别通过低功耗的共享Cache混合划分算法(LPHP)、可重构Cache算法(CRA)和基于Cache划分的路预测算法(WPP-L2)来达到降低Cache功耗的目的,同时保证系统的性能良好。在LPHP和CRA中,程序运行时动态地关闭Cache中空闲的Cache列,节省了对空闲列的访问功耗。在WPP-L2中,利用路预测技术在Cache访问前给出预测路信息,预测命中时则可用最短的访问延时和最少的访问功耗完成Cache访问;预测失效时,则结合Cache划分策略,降低由路预测失效导致的额外功耗开销。通过SPEC2000测试程序验证,与传统使用最近最少使用(LRU)替换策略的共享L2 Cache相比,本方案提出的三种算法虽然对程序执行时间稍有影响,但分别节省了20.5%、17%和64.6%的平均L2 Cache访问功耗,甚至还提高了系统吞吐率。实验表明,所提方法在保持系统性能的同时可以显著降低多核处理器的功耗。
关键词
片上多核处理器
二级缓存
动态划分
低功耗
性能
Keywords
chip
Multi-core Processor
(cmp
)
Level 2 (L2) cache
dynamic partition
low power
performance
分类号
TP393 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
基于缓存行为特征的线程数据预取距离控制策略
被引量:
2
8
作者
黄艳
张启坤
段赵磊
古志民
机构
郑州轻工业学院软件学院
郑州轻工业学院计算机与通信工程学院
北京理工大学计算机学院
出处
《电子与信息学报》
EI
CSCD
北大核心
2015年第7期1633-1638,共6页
基金
国家自然科学基金(61370062)
郑州市科技攻关计划项目(20130725)
博士基金项目(2013BSJJ050)资助课题
文摘
针对目前大多数面向指针应用程序的线程数据预取方法在预取距离控制方面的不足,该文提出一种基于缓存行为特征的数据预取距离控制策略。该策略利用指针应用程序执行时的数据缓存特征构建预取距离控制模型,以避免共享缓存污染,降低系统资源竞争,并通过忽略对部分非循环依赖数据预取平衡帮助线程与主线程间的执行任务,提高线程数据预取的时效性。实验结果表明,通过该策略控制线程数据预取距离能进一步提高线程预取性能。
关键词
片上多处理器
线程预取
帮助线程
预取率
预取距离
Keywords
chip
multi-processor
s
(cmp
)
Threaded prefetching
Helper thread
Prefetch ratio
Prefetch distance
分类号
TP302 [自动化与计算机技术—计算机系统结构]
在线阅读
下载PDF
职称材料
题名
面向多核处理器的空间数据库索引性能分析
被引量:
2
9
作者
吴烨
熊伟
蔡蕾
景宁
机构
国防科学技术大学电子科学与工程学院
出处
《计算机科学与探索》
CSCD
2011年第8期707-718,共12页
基金
国家自然科学基金No.61070035
60902036
+2 种基金
40801160
国家高技术研究发展计划(863)No.2011AA120306
高等学校博士学科点专项科研基金No.20104307110017~~
文摘
空间数据库索引是提高空间查询性能的重要方法,片上多核处理器的出现,在提高数据库性能的同时,也给空间索引结构提出了新的挑战。面向多核处理器,还缺乏对各种主要空间数据库索引结构和性能的综合实验比较,从而无法定量分析影响索引性能的重要因素。针对目前主流的共享cache多核处理器,对R树、HilbertR树、四叉树及CR树在内存中的性能进行了测试,分析了不同处理器硬件、不同索引结点大小、不同选择率、不同输入数据等多种因素对索引性能的影响。实验表明,在多核环境下,为了提高空间索引性能,必须充分利用多核处理器的硬件特性。
关键词
多核处理器
空间索引
cache敏感
Keywords
chip multi-processor (cmp)
spatial index
cache sensitivity
分类号
TP392 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
Linux系统中多核实时调度平台的设计
被引量:
2
10
作者
黄姝娟
朱怡安
赵聪
机构
西北工业大学软件与微电子学院
西北工业大学计算机学院
出处
《计算机工程》
CAS
CSCD
2012年第11期225-227,246,共4页
基金
航空科学基金资助项目(20100753022)
西北工业大学校基础研究基金资助项目(JC20110283)
文摘
为使各种实时调度算法能够在Linux环境中得到运行和验证,设计一种Linux系统中的公共多核调度平台。该平台由调度模块和跟踪测试模块组成,调度模块实现系统调用、调度处理以及同步功能,跟踪测试模块实现日志和跟踪功能。测试结果表明,该平台可正确显示调度算法的运行结果。
关键词
片上多核处理器
多核调度平台
实时任务
调度算法
调度模型
Keywords
chip
Multi-core Processors
(cmp
)
multi-core schedule platform
real-time task
schedule algorithm
schedule model
分类号
TP302 [自动化与计算机技术—计算机系统结构]
在线阅读
下载PDF
职称材料
题名
基于WCET的多核共享资源冲突分析与约束研究
被引量:
1
11
作者
甘志华
古志民
安立奎
赵鑫
机构
北京理工大学计算机学院
河南大学软件学院
出处
《计算机科学》
CSCD
北大核心
2014年第8期19-24,54,共7页
基金
国家自然科学基金(61370062
61070029)资助
文摘
随着片上多核处理器在嵌入式实时系统中的应用,片上共享资源给任务的WCET分析带来诸多挑战,使得对多核共享资源冲突问题的研究变得非常重要。依据研究的目标,可以把目前已有的研究分为面向共享资源冲突分析和面向共享资源冲突约束两大类。对于面向共享资源冲突分析问题,探讨了不同共享资源冲突产生的原因,概括和比较了典型的冲突分析方法的优势和局限性;对于面向共享资源冲突约束问题,给出了其主要的研究内容,并评述和分析了几种主流的冲突约束方法。最后针对目前的研究状况指出了一些研究方向。
关键词
片上多核处理器
最坏执行时间
冲突分析
冲突约束
Keywords
chip multi-processor (cmp)
,Worst case execution time (WCET), Conflict analysis, Constraint conflict
分类号
TP302 [自动化与计算机技术—计算机系统结构]
在线阅读
下载PDF
职称材料
题名
高密度集成与单芯片多核系统及其研究进展
被引量:
2
12
作者
李东生
高明伦
机构
合肥工业大学微电子设计研究所
合肥电子工程学院
出处
《半导体技术》
CAS
CSCD
北大核心
2012年第2期89-95,共7页
基金
国家自然科学基金(61179036)
文摘
在体积、重量和功耗有严格约束的情况下,系统小型化遇到多种技术挑战,为了满足高密度计算和小型化的要求,高密度系统集成和单芯片多核处理器至关重要。讨论了高密度集成与单芯片多核处理器技术及其研究进展,其中包括单芯片多核处理器(CMP)、片上网络(NoC)、3D集成电路、高密度封装。提出了CMP的两个发展特征,即小核大数量和层次型簇结构。指出高密度集成设计与高密度封装设计逐渐融合,并为单芯片多核系统的物理实现提供了技术保证,为最终实现高密度计算和小型化系统提供了硬件解决方案。
关键词
单芯片多核处理器
3D集成电路
小型化
高密度集成
片上网络
Keywords
single-
chip
multi-core processors
(cmp
)
3D integrated circuit
miniaturization
high-density integration (HDC)
network on
chip
(NoC)
分类号
TN47 [电子电信—微电子学与固体电子学]
在线阅读
下载PDF
职称材料
题名
选择性循环的并行方法
被引量:
1
13
作者
吴悦
雷超付
杨洪斌
机构
上海大学计算机工程与科学学院
出处
《计算机工程》
CAS
CSCD
北大核心
2010年第9期35-37,40,共4页
基金
上海市重点学科建设基金资助项目(J50103)
文摘
针对含有大量循环的串行程序存在的问题,提出一种基于线程级前瞻技术的循环选择方案。该方案对循环进行最优选择后建立一个可并行运行的循环集。对于该集合中的循环,选择并行效率高的代码段作并行处理,以加快串行程序运行速度。实验表明,相对于一般的简单内部循环或外部循环并行方法,该方案使9种基准代码的加速比平均上升23.8%,从而提高串行程序并行运行的效率。
关键词
线程级前瞻
循环选择
并行运行
单片多核处理器
Keywords
Thread-Level Speculation(TLS)
loop selection
parallel operation
chip
Multi-core Processors
(cmp
)
分类号
TP311 [自动化与计算机技术—计算机软件与理论]
在线阅读
下载PDF
职称材料
题名
帮助线程预取技术研究综述
被引量:
3
14
作者
张建勋
古志民
机构
北京理工大学计算机学院
天津中医药大学网络中心
出处
《计算机科学》
CSCD
北大核心
2013年第7期19-23,39,共6页
基金
国家自然科学基金项目(61070029)资助
文摘
帮助线程预取是当前多核平台提高非规则数据密集应用预取效果性能的关键技术之一,近年来已成为国内外的研究热点。针对非规则数据密集应用访存规律的非连续局部性特征,帮助线程预取技术利用CMP平台的最后一级共享缓存(LLC)将应用的非连续局部性转换为瞬时的连续时空局部性(即时局部性),从而达到通过线程级数据预取提高程序性能的目的。归纳了帮助线程预取技术的分类,概括和比较了不同帮助线程实现技术的优势和局限性,深入分析和探讨了现有的几种典型帮助线程技术的预取控制策略。最后从帮助线程实时控制、参数动态选取和优化方面指出了帮助线程预取技术的研究方向。
关键词
帮助线程
数据预取
cmp
(
chip
multi-processor
)平台
非规则数据密集应用
Keywords
Helper thread, Data prefetching,
cmp
platfotto, Non-irregular data intensive application
分类号
TP303 [自动化与计算机技术—计算机系统结构]
在线阅读
下载PDF
职称材料
题名
虚拟企业合作伙伴智能优化选择研究
被引量:
2
15
作者
朱会东
段赵磊
黄艳
机构
郑州轻工业学院计算机与通信工程学院
北京理工大学计算机学院
出处
《计算机工程与应用》
CSCD
2012年第24期57-61,100,共6页
基金
教育部-英特尔信息技术专项科研基金(MOE-INTEL-08-10)
文摘
针对复杂的虚拟企业伙伴选择问题,利用神经网络的推理功能,并结合模糊技术处理不确定因素的优势,实现最优伙伴的确定。通过分析建立了包括成本、技术能力、服务水平等指标的评价体系,采用实例验证了该方法的可行性。
关键词
虚拟企业
合作伙伴
神经网络
评价体系
Keywords
linked data structures
chip
Multiprocessors
(cmp
)
helper thread
data prefetching
分类号
TP302 [自动化与计算机技术—计算机系统结构]
在线阅读
下载PDF
职称材料
题名
小计算量下非规则数据密集型热函数的性能优化
16
作者
郑宁汉
古志民
孙贤和
机构
北京理工大学计算机科学与技术学院可扩展计算联合实验室
清华大学计算机科学与技术系
出处
《计算机研究与发展》
EI
CSCD
北大核心
2013年第11期2436-2443,共8页
基金
国家自然科学基金项目(61070029)
教育部-英特尔信息技术专项基金项目(MoE-Intel-08-10)
文摘
随着云计算的兴起和发展,基于多核的非规则数据密集型应用越来越多,而大量的数据缺失问题导致这类应用的性能严重下降.利用空闲核资源的传统帮助线程方法试图提前将主线程所需要的非规则数据放入共享的最后一级缓存(last layer cache,LLC),如果帮助线程相对于主线程具有恰当的运算速度,能在主线程访问之前将有关缺失数据放入LLC中,则热函数的性能可被改进.然而,如果热函数缺乏计算任务(称之为小计算量热函数),使用这样的传统方法就无法构建一个相对于主线程有效预取的帮助线程,其热函数性能的改善将会大大降低.针对源代码级小计算量下非规则数据密集型热函数的性能优化问题,先对帮助线程预取QoS进行了形式化描述.在此基础上,通过引入提前量等参数模型,提出了一种小计算量下热函数的性能优化方法.在Intel Core 2Duo Processor 6550处理器上,通过对科学计算测试程序em3d,mst和SPEC CPU benchmark 2006中的mcf的进行实验,相对于传统方法分别获得了1.97%,31.63%和1.10%的性能提升.
关键词
多核处理器
帮助线程
数据预取
小
计算量
非规则数据密集型热函数
Keywords
chip
multi-core processors
(cmp
)
helper thread
data prefetching
low computingworkload
irregular data intensive hot-slice
分类号
TP311 [自动化与计算机技术—计算机软件与理论]
在线阅读
下载PDF
职称材料
题名
SimTile:片状多核处理器的高效模拟器(英文)
17
作者
刘涛
季振洲
王庆
机构
哈尔滨工业大学计算机学院
出处
《计算机科学与探索》
CSCD
2010年第12期1115-1120,共6页
基金
The National Natural Science Foundation of China under Grant No.60475012~~
文摘
传统的基于共享总线的多核芯片随着核心数增加产生了瓶颈问题。新型TiledCMP(chip multiprocessor)的结构设计中,片上核心互联网络对提高扩展能力和执行效率起到了重要作用。为了实现低延迟、高带宽的核心通信,高速点对点网络方式的片上多核互联结构模拟成为研究的热点。抽象片上Tiled方式16核功能单元结构,设计实现了SimTile模拟器,可提供配置灵活、功能单元齐全的片上多核处理器设计,支持高效率的全局共享缓存、高速片上路由结构。模拟器采用模块化的组件配置方式,片上核心数量与互联网络结构、数据一致性协议、全局寄存器通信与cache共享模式等,均可通过精简的参数调整。实验表明模拟器执行效率较高,为片上多核研究提供了灵活、高效并具备可扩展性的新平台。
关键词
片状多核处理器
模拟器
互联结构
数据一致性
Keywords
Tiled
cmp
(
chip
multi-processor
)
simulator
interconnection
coherence
分类号
TP309 [自动化与计算机技术—计算机系统结构]
在线阅读
下载PDF
职称材料
题名
面向监听一致性协议的并发内存竞争记录算法
18
作者
朱素霞
陈德运
季振洲
孙广路
张浩
机构
哈尔滨理工大学计算机科学与技术学院博士后流动站
哈尔滨理工大学计算机科学与技术学院
哈尔滨工业大学计算机科学与技术学院
中国科学院计算技术研究所
出处
《计算机研究与发展》
EI
CSCD
北大核心
2016年第6期1238-1248,共11页
基金
国家自然科学青年基金项目(61502123)
国家自然科学基金项目(61173024)
+2 种基金
国家"九七三"重点基础研究发展计划基金项目(2011CB302501)
黑龙江省青年科学基金项目(QC2015084)
中国博士后科学基金项目(2015M571429)~~
文摘
内存竞争记录是解决多核程序执行不确定性的关键技术,然而现有点到点的内存竞争记录机制带来的硬件开销大,难以应用到实际的片上多核处理器系统中.以降低点到点内存竞争记录方式的硬件开销为出发点,为采用监听一致性协议的片上多核处理器(chip multiprocessor,CMP)系统设计了基于并发记录策略的点到点内存竞争记录算法.该记录算法将两两线程间点到点的内存竞争关系扩展到所有线程,采用分布式记录方法为每个线程记录一个由内存竞争关系的一方构成的内存竞争日志;重演时采用简化的生产者消费者模型,确保了确定性重演的实现,有效降低了硬件消耗和带宽开销.在8核处理器系统中的仿真结果表明,该并发式点到点内存竞争记录算法为每个处理器核添加硬件资源约171B,每千条内存操作指令记录日志大小约2.3B,记录和重演阶段均添加不到1.5%的带宽开销.
关键词
片上多核处理器
多核程序
确定性重演
内存竞争记录
内存冲突检测
监听一致性协议
Keywords
chip
multiprocessor
(cmp
)
multi-core program
deterministic replay
memory race recording
memory conflict detection
snoop-based coherence protocol
分类号
TP303 [自动化与计算机技术—计算机系统结构]
在线阅读
下载PDF
职称材料
题名
多核架构下的数据处理算法优化策略综述
被引量:
7
19
作者
陈伟
杜凌霞
陈红
机构
中国人民大学数据工程与知识工程教育部重点实验室
中国人民大学信息学院
出处
《计算机科学与探索》
CSCD
2011年第12期1057-1075,共19页
基金
国家高技术研究发展计划(863)No.2008AA01Z120
国家教育部新世纪优秀人才支持计划
国家教育部博士点基金No.20090004110002~~
文摘
多核处理器,尤其是单芯片多处理器(chip multi-processor,CMP)能够提供强大的共享内存的并行资源,然而单核处理器上的程序和算法并不能充分利用多核架构提供的并行计算资源,因此必须针对多核体系架构特点,对算法进行改进优化,提高算法的执行性能。以优化程序局部性、减少cache访问冲突、提高线程并行度、充分利用单指令多数据流(single instruction multipledata,SIMD)并行和带宽优化等几方面为出发点,归纳和分析了多核处理器上数据处理算法的相关优化策略,并对多核算法进行了总结评述。最后阐述了该领域亟待解决的诸多问题,展望了未来的研究发展方向。
关键词
多核
单芯片多处理器(
cmp
)
数据级别并行(DLP)
线程级别并行(TLP)
单指令多数据流(SIMD)
Keywords
multi-core
chip multi-processor (cmp)
data level parallelism (DLP)
thread level parallelism (TLP)
single instruction multiple data (SIMD)
分类号
TP311 [自动化与计算机技术—计算机软件与理论]
在线阅读
下载PDF
职称材料
题名
多核Cache稀疏目录性能提升方法综述
被引量:
2
20
作者
吴健虢
陈海燕
刘胜
邓让钰
陈俊杰
机构
国防科技大学计算机学院
出处
《计算机工程与科学》
CSCD
北大核心
2019年第3期385-392,共8页
基金
国家自然科学基金(61472432)
文摘
受限于功耗,十多年前通用微处理器就停止追求更高的主频转而向集成更多处理器核的方向发展;同时,随着晶体管密度按摩尔定律不断提高,单片可集成的处理器核数成倍增长,片上多核、众核处理器已成为高性能微处理器发展的主流。未来千核级通用众核处理器支持共享存储编程模型是一种必然趋势,但传统的Cache一致性目录结构面临着查找延迟高、目录项替换频繁以及硬件代价和功耗可扩展性有限等问题。稀疏目录实现了传统目录结构硬件开销与一致性维护效率的折衷,被认为是众核处理器维护Cache一致性的一种高能效、可扩展结构。综述了近年来提高稀疏目录性能的相关研究与方法,并对其在面积、访问延迟、功耗和实现复杂性等方面进行分析,归纳出这些方法各自的优点和存在的不足,对创新设计未来高性能众核处理器共享存储体系结构具有一定的参考价值。
关键词
单片多核
CACHE一致性
稀疏目录
相联度
可扩展
Keywords
chip
multi-processor
(
cmp
)
cache coherence
sparse directory
associativity
scalable
分类号
TP303 [自动化与计算机技术—计算机系统结构]
在线阅读
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
基于混合粒子群优化的CMP线程调度方法
李静梅
张博
《计算机工程》
CAS
CSCD
2012
1
在线阅读
下载PDF
职称材料
2
基于CMP的高密度计算机多目标设计方法
刘宇航
祝明发
崔吉顺
肖利民
《系统工程与电子技术》
EI
CSCD
北大核心
2012
5
在线阅读
下载PDF
职称材料
3
CMP中基于目录的协作Cache设计方案
赵小雨
吴俊敏
隋秀峰
王庆波
唐轶轩
《计算机工程》
CAS
CSCD
北大核心
2010
1
在线阅读
下载PDF
职称材料
4
环连接CMP模拟器:Godson-Ring
曹非
《计算机工程与应用》
CSCD
2013
0
在线阅读
下载PDF
职称材料
5
片上多核处理器共享资源分配与调度策略研究综述
王磊
刘道福
陈云霁
陈天石
李玲
《计算机研究与发展》
EI
CSCD
北大核心
2013
9
在线阅读
下载PDF
职称材料
6
一种分片式多核处理器的用户级模拟器
黄琨
马可
曾洪博
张戈
章隆兵
《软件学报》
EI
CSCD
北大核心
2008
6
在线阅读
下载PDF
职称材料
7
面向低功耗的多核处理器Cache设计方法
方娟
郭媚
杜文娟
雷鼎
《计算机应用》
CSCD
北大核心
2013
2
在线阅读
下载PDF
职称材料
8
基于缓存行为特征的线程数据预取距离控制策略
黄艳
张启坤
段赵磊
古志民
《电子与信息学报》
EI
CSCD
北大核心
2015
2
在线阅读
下载PDF
职称材料
9
面向多核处理器的空间数据库索引性能分析
吴烨
熊伟
蔡蕾
景宁
《计算机科学与探索》
CSCD
2011
2
在线阅读
下载PDF
职称材料
10
Linux系统中多核实时调度平台的设计
黄姝娟
朱怡安
赵聪
《计算机工程》
CAS
CSCD
2012
2
在线阅读
下载PDF
职称材料
11
基于WCET的多核共享资源冲突分析与约束研究
甘志华
古志民
安立奎
赵鑫
《计算机科学》
CSCD
北大核心
2014
1
在线阅读
下载PDF
职称材料
12
高密度集成与单芯片多核系统及其研究进展
李东生
高明伦
《半导体技术》
CAS
CSCD
北大核心
2012
2
在线阅读
下载PDF
职称材料
13
选择性循环的并行方法
吴悦
雷超付
杨洪斌
《计算机工程》
CAS
CSCD
北大核心
2010
1
在线阅读
下载PDF
职称材料
14
帮助线程预取技术研究综述
张建勋
古志民
《计算机科学》
CSCD
北大核心
2013
3
在线阅读
下载PDF
职称材料
15
虚拟企业合作伙伴智能优化选择研究
朱会东
段赵磊
黄艳
《计算机工程与应用》
CSCD
2012
2
在线阅读
下载PDF
职称材料
16
小计算量下非规则数据密集型热函数的性能优化
郑宁汉
古志民
孙贤和
《计算机研究与发展》
EI
CSCD
北大核心
2013
0
在线阅读
下载PDF
职称材料
17
SimTile:片状多核处理器的高效模拟器(英文)
刘涛
季振洲
王庆
《计算机科学与探索》
CSCD
2010
0
在线阅读
下载PDF
职称材料
18
面向监听一致性协议的并发内存竞争记录算法
朱素霞
陈德运
季振洲
孙广路
张浩
《计算机研究与发展》
EI
CSCD
北大核心
2016
0
在线阅读
下载PDF
职称材料
19
多核架构下的数据处理算法优化策略综述
陈伟
杜凌霞
陈红
《计算机科学与探索》
CSCD
2011
7
在线阅读
下载PDF
职称材料
20
多核Cache稀疏目录性能提升方法综述
吴健虢
陈海燕
刘胜
邓让钰
陈俊杰
《计算机工程与科学》
CSCD
北大核心
2019
2
在线阅读
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
2
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部