期刊文献+
共找到97篇文章
< 1 2 5 >
每页显示 20 50 100
众核处理器片上同步机制和评估方法研究 被引量:10
1
作者 徐卫志 宋风龙 +3 位作者 刘志勇 范东睿 余磊 张帅 《计算机学报》 EI CSCD 北大核心 2010年第10期1777-1787,共11页
同步机制是片上多核/众核处理器正确执行和协同通信的关键,其效率对处理器的性能非常重要.针对片上众核体系结构,提出并实现了两种粗粒度同步机制和一种细粒度同步机制,即片上专用硬件支持的同步机制、基于原语的片上互斥访问同步机制... 同步机制是片上多核/众核处理器正确执行和协同通信的关键,其效率对处理器的性能非常重要.针对片上众核体系结构,提出并实现了两种粗粒度同步机制和一种细粒度同步机制,即片上专用硬件支持的同步机制、基于原语的片上互斥访问同步机制和基于满空标志位的细粒度同步机制;提出了粗粒度同步机制的评估标准和评估方法,并设计了量化评估程序.以片上同构众核处理器Godson-T模拟器和AMDOpteron商业片上多核处理器为平台,评估比较了提出的硬件支持的同步机制与基于原语的同步机制的性能.结果表明,硬件支持可以使得片上众核处理器的同步机制性能明显提高;在传统基于原语的同步机制中,大部分性能损失是由于负载不平衡和同步点的串行化操作而造成的等待时间. 展开更多
关键词 片上处理器 同步 硬件支持 量化评估 微程序
在线阅读 下载PDF
片上多核处理器存储一致性验证 被引量:13
2
作者 王朋宇 陈云霁 +2 位作者 沈海华 陈天石 张珩 《软件学报》 EI CSCD 北大核心 2010年第4期863-874,共12页
存储一致性验证是片上多核处理器功能验证的重要部分.由于验证并行程序的执行结果是否符合存储一致性模型理论上是NP难问题,现有的验证方法中只能采用一些时间复杂度大于O(n3)的不完全方法.发现在支持写原子性的多处理器系统中,两条执... 存储一致性验证是片上多核处理器功能验证的重要部分.由于验证并行程序的执行结果是否符合存储一致性模型理论上是NP难问题,现有的验证方法中只能采用一些时间复杂度大于O(n3)的不完全方法.发现在支持写原子性的多处理器系统中,两条执行时间不重叠的操作之间存在确定的时间序.通过引入时间序的概念,设计并实现了一种线性时间复杂度的存储一致性验证工具LCHECK.LCHECK利用时间序将验证局部化,使得在表示程序执行结果的有向图中,序关系边的推导和正确性检测都被限定在有限范围内.与现有其他方法相比,LCHECK时间复杂度低,对程序长度和访存地址数没有限制,因此验证效率更高.作为国产片上多核处理器龙芯3号的重要验证工具,LCHECK发现了一些存储系统的设计错误. 展开更多
关键词 存储一致性模型 验证 时间序 片上多处理器 缓存一致性
在线阅读 下载PDF
一种分片式多核处理器的用户级模拟器 被引量:6
3
作者 黄琨 马可 +2 位作者 曾洪博 张戈 章隆兵 《软件学报》 EI CSCD 北大核心 2008年第4期1069-1080,共12页
随着片上晶体管资源的增多和互连线延迟的加大,分片式多核微处理器已成为多核处理器设计的新方向.为了对这种新型处理器进行体系结构的深入研究和设计空间的探索,设计并实现了针对分片式多核处理器的用户级多核性能模拟器.该多核模拟器... 随着片上晶体管资源的增多和互连线延迟的加大,分片式多核微处理器已成为多核处理器设计的新方向.为了对这种新型处理器进行体系结构的深入研究和设计空间的探索,设计并实现了针对分片式多核处理器的用户级多核性能模拟器.该多核模拟器在龙芯2号单处理器核的基础上,完整地模拟了基于目录的Cache一致性协议和存储转发式片上互联网络的结构模型,详细地刻画了由于系统乱序处理各种请求应答和请求之间的冲突而造成的时序特性,可以通过运行各种串行或并行的工作负载对多核处理器的各种重要性能指标加以评估,为多核处理器的结构设计提供了快速、灵活、高效的研究平台. 展开更多
关键词 cmp(chip multiprocessor) 模拟器 片上网络 性能分析 龙芯2号微处理器
在线阅读 下载PDF
片上多核处理器共享资源分配与调度策略研究综述 被引量:9
4
作者 王磊 刘道福 +2 位作者 陈云霁 陈天石 李玲 《计算机研究与发展》 EI CSCD 北大核心 2013年第10期2212-2227,共16页
对于片上多核处理器,如何在多线程间公平有效地分配调度有限的共享资源是一个很重要的问题.随着处理器核规模的增长,多线程对于系统中有限的共享资源的争夺将愈发激烈,由此导致的对于系统性能的影响也将更加显著.为了缓解乃至解决这一问... 对于片上多核处理器,如何在多线程间公平有效地分配调度有限的共享资源是一个很重要的问题.随着处理器核规模的增长,多线程对于系统中有限的共享资源的争夺将愈发激烈,由此导致的对于系统性能的影响也将更加显著.为了缓解乃至解决这一问题,除了增加可用共享资源外,一个能够公平有效地在多线程间分配共享资源的调度算法也至关重要.在各类共享资源中,对于系统性能有着最大影响的是共享缓存和动态随机存储器(dynamic random-access memory,DRAM)系统.对于共享缓存,可以通过缓存分区来降低由于线程间的争夺所带来的影响;对于DRAM系统,可以采取适当的调度算法来调节各个线程发出的访存请求的服务优先级,从而改善系统性能.首先分别以系统吞吐量和公平性为优化目标介绍了一系列对共享缓存的分区调度算法,并针对缓存分区粒度过大的问题给出了相关解决方案.然后从利用线程的访存行为特征和借鉴网络路由算法等多个角度介绍了DRAM的调度算法.研究了从全局出发的联合调度算法,以解决针对不同共享资源的调度算法间相互矛盾的问题.最后从不同角度对于今后的研究进行了展望. 展开更多
关键词 片上多处理器 多线程 共享缓存 缓存分区 访存调度
在线阅读 下载PDF
片上多核处理器验证:挑战、现状与展望 被引量:7
5
作者 郭阳 李思昆 屈婉霞 《计算机辅助设计与图形学学报》 EI CSCD 北大核心 2012年第12期1521-1532,共12页
随着集成电路工艺水平的不断提升以及应用对处理器性能要求的日益增长,验证已成为未来片上多核处理器发展的主要技术瓶颈.文中深入分析了片上多核处理器验证中状态空间大、完备性不足、存储结构与互连网络验证复杂、硅后验证困难等突出... 随着集成电路工艺水平的不断提升以及应用对处理器性能要求的日益增长,验证已成为未来片上多核处理器发展的主要技术瓶颈.文中深入分析了片上多核处理器验证中状态空间大、完备性不足、存储结构与互连网络验证复杂、硅后验证困难等突出问题,系统地总结了片上多核处理器模拟验证、硬件仿真、形式验证、硅后验证等方面的研究进展,并对该领域未来的发展方向进行了分析与展望. 展开更多
关键词 片上多处理器 模拟验证 形式验证 片上网络 集成电路
在线阅读 下载PDF
片上多核处理器Cache一致性协议优化研究综述 被引量:5
6
作者 胡森森 计卫星 +3 位作者 王一拙 陈旭 付文飞 石峰 《软件学报》 EI CSCD 北大核心 2017年第4期1027-1047,共21页
现代晶体管技术在单芯片上集成多个处理器已经成为现实.近年来,随着多核处理器集成核数的不断增加,高速缓存的一致性问题凸显出来,已成为多核处理器的性能瓶颈之一,亟待解决.介绍了片上多核处理器一致性问题的由来.总结了多核时代高速... 现代晶体管技术在单芯片上集成多个处理器已经成为现实.近年来,随着多核处理器集成核数的不断增加,高速缓存的一致性问题凸显出来,已成为多核处理器的性能瓶颈之一,亟待解决.介绍了片上多核处理器一致性问题的由来.总结了多核时代高速缓存一致性协议设计的关键问题,综述了近年来学术界对一致性的研究.从程序访存行为模式、目录组织结构、一致性粒度、一致性协议流量、目录协议的可扩展性等方面,阐述了近年来缓存一致性协议性能优化的方向.对目前片上多核处理器缓存一致性协议设计中存在的问题进行了讨论,并指出了未来进一步研究的方向. 展开更多
关键词 片上多处理器 缓存一致性协议 性能优化
在线阅读 下载PDF
Amdahl定律在层次化片上多核处理器中的扩展 被引量:7
7
作者 陈书明 陈胜刚 尹亚明 《计算机研究与发展》 EI CSCD 北大核心 2012年第1期83-92,共10页
层次化片上多核处理器以紧耦合的多个核构成超节点,对访存和片上通信的局部性有良好支撑,能有效地缓解片上多核中数据通信带来的通信开销.在关于多核处理器的Amdahl开销/性能模型已有的研究基础上,引入片上数据通信延迟作为Amdahl任务... 层次化片上多核处理器以紧耦合的多个核构成超节点,对访存和片上通信的局部性有良好支撑,能有效地缓解片上多核中数据通信带来的通信开销.在关于多核处理器的Amdahl开销/性能模型已有的研究基础上,引入片上数据通信延迟作为Amdahl任务计算开销的新元素,构建了层次化片上多核处理器的Amdahl加速比扩展模型.基于该扩展模型,就层次化片上多核处理器的加速比与超节点配置的关系问题展开研究.模拟分析发现,要获得良好的加速比性能,层次化片上多核处理器需要在超节点数目与超节点的大小(超节点内核的个数)之间作仔细的权衡;对于给定核数目的层次化片上多核处理器,使系统性能最优的超节点大小往往出现在中间某个值而不是最大或者最小,并且该值随着系统规模的变化会发生相应的变化. 展开更多
关键词 层次化结构 片上多处理器 数据通信 性能模型 AMDAHL定律
在线阅读 下载PDF
片上多核处理器容软错误执行模型 被引量:3
8
作者 龚锐 戴葵 王志英 《计算机学报》 EI CSCD 北大核心 2008年第11期2047-2059,共13页
随着工艺的进步,微处理器将面临越来越严重的软错误威胁.文中提出了两种片上多核处理器容软错误执行模型:双核冗余执行模型DCR和三核冗余执行模型TCR.DCR在两个冗余的内核上以一定的时间间距运行两份相同的线程,store指令只有在进行了... 随着工艺的进步,微处理器将面临越来越严重的软错误威胁.文中提出了两种片上多核处理器容软错误执行模型:双核冗余执行模型DCR和三核冗余执行模型TCR.DCR在两个冗余的内核上以一定的时间间距运行两份相同的线程,store指令只有在进行了结果比较以后才能提交.每个内核增加了硬件实现的现场保存与恢复机制,以实现对软错误的恢复.文中选择的现场保存点有利于隐藏现场保存带来的时间开销,并且采用了特殊的机制保证恢复执行和原始执行过程中load数据的一致性.TCR执行模型通过在3个不同的内核上运行相同的线程实现对软错误的屏蔽.在检测到软错误以后,TCR可以进行动态重构,屏蔽被软错误破坏的内核.实验结果表明,与传统的软错误恢复执行模型CRTR相比,DCR和TCR对核间通信带宽的需求分别降低了57.5%和54.2%.在检测到软错误的情况下,DCR的恢复执行带来5.2%的性能开销,而TCR的重构带来的性能开销为1.3%.错误注入实验表明,DCR能够恢复99.69%的软错误,而TCR实现了对SEU(Single Event Upset)型故障的全面屏蔽. 展开更多
关键词 片上多处理器 执行模型 软错误恢复 软错误屏蔽 冗余 冗余
在线阅读 下载PDF
众核处理器片上网络的层次化全局自适应路由机制 被引量:3
9
作者 张洋 王达 +4 位作者 叶笑春 朱亚涛 范东睿 李宏亮 谢向辉 《计算机研究与发展》 EI CSCD 北大核心 2016年第6期1211-1220,共10页
Mesh和环拓扑结构以其实现简单、易于扩展的特点成为众核处理器片上网络应用最为广泛的拓扑结构.应用于Mesh结构中的健忘型路由算法在网络流量较大时影响片上网络的负载均衡,表现在降低吞吐量和增大数据包延迟.自适应算法中的本地自适... Mesh和环拓扑结构以其实现简单、易于扩展的特点成为众核处理器片上网络应用最为广泛的拓扑结构.应用于Mesh结构中的健忘型路由算法在网络流量较大时影响片上网络的负载均衡,表现在降低吞吐量和增大数据包延迟.自适应算法中的本地自适应算法和区域自适应算法均存在不同程度的短视现象,不适合大规模的Mesh结构,而目前全局自适应算法又由于路由计算量大而速度缓慢.提出一种新的层次化全局自适应路由机制,包括一个全局拥塞信息传播网络Roof-Mesh和一个层次化全局自适应路由算法(global hierarchical adaptive routing algorithm,GHARA).通过全局拥塞信息传播网络得到拥塞信息,GHARA采用全网分区逐级计算路由的方式,减少了全局路由的计算步骤,从而减少了平均数据包延迟、提升了饱和带宽.实验结果表明GHARA表现优于其他区域和全局自适应路由算法.在人工注入通信模式下,8×8 Mesh平均饱和带宽比全局自适应算法GCA提高10.7%,16×16Mesh平均饱和带宽比全局自适应算法GCA提高14.7%.在运行真实测试程序集SPLASH-2模式下,数据包延迟最高比GCA提高40%,平均提升14%. 展开更多
关键词 处理器 片上网络 负载均衡 全局拥塞信息传播网络 层次化全局自适应路由算法 Roof-Mesh
在线阅读 下载PDF
三维众核片上处理器存储架构研究 被引量:3
10
作者 李丽 张宇昂 +3 位作者 傅玉祥 潘红兵 韩峰 郑维山 《南京大学学报(自然科学版)》 CAS CSCD 北大核心 2014年第3期330-335,共6页
三维众核片上处理器的研究近年来逐渐引起了学术界的广泛关注.三维集成电路技术可以支持将不同工艺的存储器层集成到一颗芯片上,三维众核片上处理器可以集成更大的片上缓存以及主存储器.研究三维众核片上处理器存储架构,探索了集成SRAM ... 三维众核片上处理器的研究近年来逐渐引起了学术界的广泛关注.三维集成电路技术可以支持将不同工艺的存储器层集成到一颗芯片上,三维众核片上处理器可以集成更大的片上缓存以及主存储器.研究三维众核片上处理器存储架构,探索了集成SRAM L2cache层,DRAM主存储器层等,对三维众核片上处理器性能的影响.从仿真结果可知,相比集成1层L2cache,集成2层L2cache的三维众核片上处理器性能最大提高了55%,平均提高34%.将DRAM主存储器集成到片上最大可以提高三维众核片上处理器80%的系统性能,平均改善34.2%. 展开更多
关键词 三维集成电路 三维片上处理器 非均匀高速缓存 存储器架构
在线阅读 下载PDF
多核处理器片上网络trace压缩方法 被引量:2
11
作者 钱诚 刘道福 陈云霁 《高技术通讯》 CAS CSCD 北大核心 2011年第3期254-260,共7页
针对多核处理器的硅后调试和验证的困难,研究了克服这一困难的重要手段——对处理器片上网络(NOC)的trace信号的抓取。由于片上网络的trace数量庞大,为满足片上存储资源和trace实时导出带宽的限制,需要对trace进行压缩处理。和传... 针对多核处理器的硅后调试和验证的困难,研究了克服这一困难的重要手段——对处理器片上网络(NOC)的trace信号的抓取。由于片上网络的trace数量庞大,为满足片上存储资源和trace实时导出带宽的限制,需要对trace进行压缩处理。和传统的单核或片上系统(SOC)平台不同,多核处理器的应用复杂,因而片上网络trace噪音大,分布复杂,用传统的trace压缩算法不易取得高的压缩率。针对上述特点,提出了一种多核处理器的片上网络trace的压缩方法。该方法对地址信息采用动态提取平稳数据块的方法进行分别压缩,对时间信息采用多粒度和Huffman编码结合来精确压缩,满足了多核处理器调试的需要。相比于传统的压缩算法,该方法更有针对性。多核通用处理器的片上网络trace的压缩实验表明,该方法的压缩率比已有方法高6倍。 展开更多
关键词 TRACE 压缩 片上网络(NOC) 多核处理器
在线阅读 下载PDF
多核堆栈处理器研究与设计
12
作者 刘自昂 周永录 +1 位作者 代红兵 刘宏杰 《计算机工程与设计》 北大核心 2024年第4期1256-1263,共8页
为满足日趋复杂的嵌入式环境对堆栈处理器和Forth技术的应用需求,在单核堆栈处理器模型研究的基础上,设计一种多核堆栈处理器模型。基于J1单核堆栈处理器模型,针对多核目标,增加计时器、中断等功能,形成新的L32单核堆栈处理器模型,并以... 为满足日趋复杂的嵌入式环境对堆栈处理器和Forth技术的应用需求,在单核堆栈处理器模型研究的基础上,设计一种多核堆栈处理器模型。基于J1单核堆栈处理器模型,针对多核目标,增加计时器、中断等功能,形成新的L32单核堆栈处理器模型,并以该单核模型为内核,引入共享总线和十字开关互联方式的Wishbone总线、多端口存储器和面向多任务Forth系统的指令集,建立一种多核堆栈处理器模型L32-MC。利用该多核模型,在FPGA上实现4核和8核的L32-MC原型多核堆栈处理器。实验结果表明,4核和8核的L32-MC原型堆栈处理器满足高性能低功耗的多核处理器设计目标。 展开更多
关键词 多核堆栈处理器 Forth技术 Wishbone片上总线 多端口存储器 指令集 现场可编程门阵列 嵌入式
在线阅读 下载PDF
片上多核处理器共享Cache划分的公平性研究 被引量:1
13
作者 方娟 蒲江 张欣 《计算机工程与设计》 CSCD 北大核心 2010年第15期3413-3415,3517,共4页
公平性是一个关键的优化问题,当系统缺乏公平时,会出现线程饿死和优先级反转等问题。以公平性优化作为研究目标,分析当前共享Cache划分公平性的评价标准,找出了其评价参数和划分策略的不足,提出了一种新的共享Cache划分方案。通过提出... 公平性是一个关键的优化问题,当系统缺乏公平时,会出现线程饿死和优先级反转等问题。以公平性优化作为研究目标,分析当前共享Cache划分公平性的评价标准,找出了其评价参数和划分策略的不足,提出了一种新的共享Cache划分方案。通过提出一个新的多线程公平性评价指标并改进了已有的公平划分策略,从而提高多线程运行的公平性。实验结果表明,该共享Cache划分方案显著提高了系统公平性,并且系统吞吐量也有提高。 展开更多
关键词 片上多处理器 共享CACHE划分 公平性 缺失 评价参数
在线阅读 下载PDF
基于龙芯LA132软核处理器的宇航级SoPC设计 被引量:1
14
作者 刘珍妮 安军社 胡婉如 《电讯技术》 北大核心 2024年第5期772-777,共6页
针对现有星载计算机主控系统灵活性差和在空间辐射环境中存在单粒子翻转等问题,设计了一种灵活性强、可靠性高、自主可控的宇航级片上可编程系统(System-on-Programmable-Chip,SoPC)。该系统将龙芯LA132软核处理器应用于航天领域,降低... 针对现有星载计算机主控系统灵活性差和在空间辐射环境中存在单粒子翻转等问题,设计了一种灵活性强、可靠性高、自主可控的宇航级片上可编程系统(System-on-Programmable-Chip,SoPC)。该系统将龙芯LA132软核处理器应用于航天领域,降低了星载计算机主控系统的体积。为系统存储单元设计实现了一种基于矩阵算法的RS(8,4)码,可在无延迟的情况下实现错误检测与纠正功能,增强了系统的可靠性。测试结果表明,该SoPC系统在Xilinx KCU105硬件平台上可实现单周期内对两个错误符号的检测与纠正,满足宇航级安全性与可靠性的需求,为星载计算机主控系统的小型化提供了一种新的解决方案。 展开更多
关键词 星载计算机 片上可编程系统(SoPC) 处理器 错误检测与纠正(EDAC)
在线阅读 下载PDF
层次化片上多核处理器性能研究
15
作者 侯宁 赵红梅 宋宇鲲 《合肥工业大学学报(自然科学版)》 CAS CSCD 北大核心 2014年第10期1226-1230,共5页
层次化片上多核处理器紧耦合多个处理核构成"簇节点",对访存和片上通信的局部性有良好支撑,能有效地缓解片上多核间数据通信带来的通信开销。文章通过构建精细的层次化片上多核处理器仿真器,利用随机任务模型研究"簇节点... 层次化片上多核处理器紧耦合多个处理核构成"簇节点",对访存和片上通信的局部性有良好支撑,能有效地缓解片上多核间数据通信带来的通信开销。文章通过构建精细的层次化片上多核处理器仿真器,利用随机任务模型研究"簇节点"大小对系统性能的影响。仿真发现,一定系统规模下,要获得良好的系统性能,层次化片上多核处理器需要在"簇节点"数目与"簇节点"的大小(节点内处理核的数目)之间仔细权衡。 展开更多
关键词 层次化结构 片上多处理器 建模 性能分析
在线阅读 下载PDF
适用于多核处理器的簇状片上网络设计 被引量:2
16
作者 尤凯迪 肖瑞瑾 +1 位作者 权衡 虞志益 《计算机工程》 CAS CSCD 北大核心 2011年第21期211-213,共3页
提出一种新型簇状片上网络架构。该架构以二维网状拓扑结构连接各个簇单元,每个簇单元由3个处理器、1个直接访存单元和1个簇共享存储单元组成。基于该架构的多核处理器可以获得更高的通信效率及存储器利用率。在实验系统上实现3 780点... 提出一种新型簇状片上网络架构。该架构以二维网状拓扑结构连接各个簇单元,每个簇单元由3个处理器、1个直接访存单元和1个簇共享存储单元组成。基于该架构的多核处理器可以获得更高的通信效率及存储器利用率。在实验系统上实现3 780点的快速傅里叶变换,结果表明,在快速傅里叶变换应用中存储器的利用率能提升至79.5%。 展开更多
关键词 片上网络 多核处理器 直接内存访问 簇共享存储
在线阅读 下载PDF
片上多核处理器Cache访问均衡性研究 被引量:3
17
作者 王子聪 陈小文 郭阳 《计算机学报》 EI CSCD 北大核心 2019年第11期2403-2416,共14页
随着片上多核处理器(CMP)规模的不断扩大和处理核数的增多,系统对于片上缓存(Cache)在容量和速度方面有了更高的需求.为了能够有效利用Cache资源,非一致Cache体系结构(NUCA)被提出用于支持高容量低延迟的Cache组织结构.另一方面,片上网... 随着片上多核处理器(CMP)规模的不断扩大和处理核数的增多,系统对于片上缓存(Cache)在容量和速度方面有了更高的需求.为了能够有效利用Cache资源,非一致Cache体系结构(NUCA)被提出用于支持高容量低延迟的Cache组织结构.另一方面,片上网络(NoC)由于具备良好的可扩展性,在片上多核处理器的互连方式上具有显著优势.因此,基于片上网络的非一致Cache体系结构逐渐成为未来组织大容量Cache的主流系统架构.在这样的系统架构中,最后一级缓存(LLC)通常在物理上分布于每个处理节点,这些Cache存储体(Bank)在逻辑上共同构成一个统一的共享Cache.当处理核发出Cache访问请求时,其访问时间与请求处理核节点与访问数据所在的Bank节点的距离有关.当距离较近时,访问时间较短;当访问距离较远的Bank时,访问时间较长.因此,当系统规模逐渐增大时,这种访问延迟与网络距离相关的特性会使得不同节点之间的通信距离和通信延迟的差异性逐渐增大.另外,片上网络规模的增大也会使得Cache访问延迟逐渐由网络延迟主导.这种延迟差异性会引起网络报文延迟不均衡问题,导致Cache访问延迟的非一致性进一步增大,因而出现更多的大延迟Cache访问并成为制约系统性能的瓶颈.因此,研究片上多核处理器的Cache访问均衡性对于提升网络性能和系统性能具有积极意义.该文分析了造成Cache访问延迟不均衡的原因,并针对延迟的两个来源:无冲突延迟和竞争延迟,分别提出了非一致存储映射和非一致链路分布的设计方法.通过非一致存储映射,我们根据Cache存储体在网络中的物理位置调节其相应的Cache块映射比例,从而均衡Cache请求平均访问距离;通过合理设计非一致的链路分布,我们依据各条链路上的流量负载为其分配合适的通道数量,从而缓解流量压力较大的链路上的报文竞争.全系统模拟器上的实验表明,采用面向Cache访问均衡性的片上多核处理器能够有效均衡Cache访问延迟,并减少大延迟Cache访问请求的数量.相比于传统的NUCA结构,我们的设计在最大的实验规模(64核)下在延迟均方差、最大延迟和平均延迟上分别平均降低了19.6%、12.8%和6.4%,最大降低了40.8%、29.9%和11.9%.同时在系统性能方面,通过PARSEC应用程序的模拟实验表明,单位周期执行指令数(IPC)平均提升了6.7%,最大提升了14.0%. 展开更多
关键词 片上多处理器 非一致缓存体系结构 片上网络 均衡性 缓存访问
在线阅读 下载PDF
片上多核处理器共享末级缓存动静结合地址映射机制 被引量:1
18
作者 曹非 刘志勇 《计算机科学》 CSCD 北大核心 2012年第8期304-310,共7页
片上多核处理器(CMP)通常采用私有或者共享的末级高速缓存(cache)结构,而共享末级cache一般使用静态地址映射机制。该机制将各处理器临时私有访问的数据映射于分布在其他处理器的末级cache中,使得各处理器对临时私有数据的访问延时增加... 片上多核处理器(CMP)通常采用私有或者共享的末级高速缓存(cache)结构,而共享末级cache一般使用静态地址映射机制。该机制将各处理器临时私有访问的数据映射于分布在其他处理器的末级cache中,使得各处理器对临时私有数据的访问延时增加。针对该问题,提出了一种动静结合的共享末级cache地址映射方法。该方法可将原来静态映射于其他处理器末级cache中的临时私有数据动态映射于访问者处理器的本地末级cache中,减少了大量静态映射所造成的长延时非本地末级cache访问,从而有效降低了整个共享末级cache的访问延时,在提高性能的同时降低了功耗和带宽使用。实验结果表明,动静结合的地址映射方式应用于采用环连接互连结构和侦听顺序环协议的CMP结构时,可获得的平均性能提升为9%,最大性能提升为38%。 展开更多
关键词 片上多处理器 共享末级高速缓存 地址映射机制 侦听顺序环协议
在线阅读 下载PDF
基于FPGA模拟片上多核处理器的新方法
19
作者 陈新科 黄帅 +2 位作者 王焕东 吴瑞阳 曾露 《高技术通讯》 CAS CSCD 北大核心 2014年第7期661-668,共8页
为了解决使用现场可编程门阵列(FPGA)进行大规模片上多核处理器模拟的容量限制难题,提出了一种新颖的FPGA模拟方法。该方法通过混合真实的处理器核与伪造的处理器核,使用1个或2个FPGA即可模拟整个片上多核处理器,而且可以有效克服FPGA... 为了解决使用现场可编程门阵列(FPGA)进行大规模片上多核处理器模拟的容量限制难题,提出了一种新颖的FPGA模拟方法。该方法通过混合真实的处理器核与伪造的处理器核,使用1个或2个FPGA即可模拟整个片上多核处理器,而且可以有效克服FPGA的容量限制问题,同时又不过多损害对多核处理器行为特征的有效模拟。用此方法实现了周期精确的全芯片模拟,并使用流片后的片上多核处理器芯片对此模拟方法进行了有效性验证。实验很容易地实现了50MHz以上的模拟速度,比基于相同设计的软件仿真快10万倍以上。模拟速度的大幅度提升,使得可以启动未经修改的Linux操作系统和运行完整的多用户SPEC CPU2006 train测试集。这种混合真实处理器核与伪造处理器核的模拟方法为片上多核处理器的功能验证和性能评估提供了一种简单高效的途径。 展开更多
关键词 模拟 仿真 模型 现场可编程门阵列(FPGA) 片上多处理器 伪造的处理器
在线阅读 下载PDF
面向多线程应用的片上多核处理器私有LLC优化
20
作者 吴建宇 彭蔓蔓 《计算机工程》 CAS CSCD 北大核心 2015年第1期316-321,共6页
片上多核处理器已逐渐取代传统超标量处理器成为集成电路设计的主流结构,但芯片的存储墙问题依旧是设计的一个难题。CMP通过大容量的末级高速缓存来缓解访存压力。在软件编程模式向多线程并行方式转变的背景下,针对多线程应用在多核处... 片上多核处理器已逐渐取代传统超标量处理器成为集成电路设计的主流结构,但芯片的存储墙问题依旧是设计的一个难题。CMP通过大容量的末级高速缓存来缓解访存压力。在软件编程模式向多线程并行方式转变的背景下,针对多线程应用在多核处理器上的Cache访问特征,提出一种面向私有末级Cache的优化算法,通过硬件缓冲器记录处理器访存地址,从而实现共享数据在Cache间的传递机制,有效降低Cache失效开销。实验结果表明,在硬件开销不超过Cache部件0.1%的情况下,测试用例平均加速比为1.13。 展开更多
关键词 片上多处理器 存储墙 末级Cache 失效开销 缓冲器
在线阅读 下载PDF
上一页 1 2 5 下一页 到第
使用帮助 返回顶部