期刊文献+
共找到8篇文章
< 1 >
每页显示 20 50 100
多核处理器非一致Cache体系结构延迟优化技术研究综述 被引量:4
1
作者 黄安文 高军 张民选 《计算机研究与发展》 EI CSCD 北大核心 2012年第S1期118-124,共7页
非一致Cache体系结构(non-uniform cache architecture,NUCA)为解决多核处理器(chip multi-processor)"存储墙"难题提供了新的设计思路.重点关注面向CMP的NUCA延迟优化技术,在介绍若干典型NUCA模型的基础上,分析大容量Cache... 非一致Cache体系结构(non-uniform cache architecture,NUCA)为解决多核处理器(chip multi-processor)"存储墙"难题提供了新的设计思路.重点关注面向CMP的NUCA延迟优化技术,在介绍若干典型NUCA模型的基础上,分析大容量Cache环境下共享/私有机制中的延迟-容量权衡问题,讨论映射、迁移、复制和搜索等数据管理机制在多核环境下的优缺点.最后,针对基于片上网络(network-on-chip,NoC)互连结构的可扩展CMP体系结构,从NUCA模型优化、数据管理和一致性维护机制3个方面讨论和预测未来CMP NUCA延迟优化领域的发展趋势及面临的挑战性问题. 展开更多
关键词 非一致cache体系结构 多核处理器 片上网络 存储墙 延迟优化
在线阅读 下载PDF
非一致Cache体系结构技术综述 被引量:1
2
作者 吴俊杰 杨学军 《计算机工程与科学》 CSCD 北大核心 2011年第2期51-60,共10页
存储墙问题使得Cache技术的研究始终非常重要。面对日益增长的片上Cache容量,线延迟逐渐成为制约Cache设计的重要因素。为了提供统一的访问延迟,传统的Cache设计方法不得不迁就离处理器最远的Cache Bank的访问时间。为此,研究人员提出... 存储墙问题使得Cache技术的研究始终非常重要。面对日益增长的片上Cache容量,线延迟逐渐成为制约Cache设计的重要因素。为了提供统一的访问延迟,传统的Cache设计方法不得不迁就离处理器最远的Cache Bank的访问时间。为此,研究人员提出了一种非一致Cache结构(NUCA),NUCA几乎成为未来处理器中大容量Cache设计的一种趋势。处理器访问NUCA时,如果在离处理器较近的Bank中发生命中,处理器的等待时间就较短;如果在离处理器较远的Bank中发生命中,处理器的等待时间就较长。本文综述了NUCA技术产生的原因、发展,以及当前最典型的NUCA系统;并且指出了对NUCA技术研究有借鉴的两种多机存储系统技术——NUMA和COMA;最后,提出了NUCA技术研究的关键问题,并给出了相应的解决思路。 展开更多
关键词 一致cache 线延迟 局部性 多核 一致存储访问 cache存储结构
在线阅读 下载PDF
片上非一致Cache体系结构研究 被引量:1
3
作者 贾小敏 黄彩霞 +2 位作者 张民选 孙彩霞 齐树波 《计算机工程与科学》 CSCD 北大核心 2009年第8期93-98,共6页
随着集成电路制造工艺的发展,片上集成大容量Cache成为微处理器的发展趋势。然而,互连线延迟所占比例越来越大,成为大容量Cache的性能瓶颈,因此需要新的Cache体系结构来克服这些问题。非一致Cache体系结构通过在Cache内部支持多级延迟... 随着集成电路制造工艺的发展,片上集成大容量Cache成为微处理器的发展趋势。然而,互连线延迟所占比例越来越大,成为大容量Cache的性能瓶颈,因此需要新的Cache体系结构来克服这些问题。非一致Cache体系结构通过在Cache内部支持多级延迟和数据块迁移来减少Cache的命中时间,提高性能,从而克服互连线延迟对大容量Cache的限制,已经成为微处理器片上存储结构的研究热点。本文回顾了非一致Cache体系结构模型的研究进展,特别是对片上多核处理器中的非一致Cache体系结构模型进行了详细介绍,比较了不同模型的贡献和不足。最后,对非一致Cache体系结构的发展进行了展望。 展开更多
关键词 一致cache结构 多级延迟 块迁移 片上多核
在线阅读 下载PDF
Bowtie 2-NUMA:具有NUMA体系结构适应性的基因序列比对应用
4
作者 王强 孙彦洁 +1 位作者 齐星云 徐佳庆 《计算机工程与科学》 CSCD 北大核心 2024年第12期2117-2127,共11页
Bowtie 2作为生物信息领域使用最广泛的二代测序软件之一,具有计算密集的特点。如何根据多核平台的体系结构进行适应性优化以提高并行效率,成为亟待解决的问题。首先分析了非一致性访存架构的多样性,以及Bowtie 2在多种非一致性访存架... Bowtie 2作为生物信息领域使用最广泛的二代测序软件之一,具有计算密集的特点。如何根据多核平台的体系结构进行适应性优化以提高并行效率,成为亟待解决的问题。首先分析了非一致性访存架构的多样性,以及Bowtie 2在多种非一致性访存架构下内存访问拥塞和最后一级缓存命中率低的结构性瓶颈。然后,基于Bowtie 2在不同非一致性访存平台的表现特点,在复制索引、内存分配以及数据划分3个方面进行优化,提出了Bowtie 2-NUMA。最后,通过实验表明,Bowtie 2-NUMA面向不同计算平台,能够基于体系结构进行适应性优化,实现并行效率的提升。 展开更多
关键词 一致性访存 Bowtie 2 适应性优化 体系结构 内存带宽 最后一级缓存
在线阅读 下载PDF
片上多核处理器Cache访问均衡性研究 被引量:3
5
作者 王子聪 陈小文 郭阳 《计算机学报》 EI CSCD 北大核心 2019年第11期2403-2416,共14页
随着片上多核处理器(CMP)规模的不断扩大和处理核数的增多,系统对于片上缓存(Cache)在容量和速度方面有了更高的需求.为了能够有效利用Cache资源,非一致Cache体系结构(NUCA)被提出用于支持高容量低延迟的Cache组织结构.另一方面,片上网... 随着片上多核处理器(CMP)规模的不断扩大和处理核数的增多,系统对于片上缓存(Cache)在容量和速度方面有了更高的需求.为了能够有效利用Cache资源,非一致Cache体系结构(NUCA)被提出用于支持高容量低延迟的Cache组织结构.另一方面,片上网络(NoC)由于具备良好的可扩展性,在片上多核处理器的互连方式上具有显著优势.因此,基于片上网络的非一致Cache体系结构逐渐成为未来组织大容量Cache的主流系统架构.在这样的系统架构中,最后一级缓存(LLC)通常在物理上分布于每个处理节点,这些Cache存储体(Bank)在逻辑上共同构成一个统一的共享Cache.当处理核发出Cache访问请求时,其访问时间与请求处理核节点与访问数据所在的Bank节点的距离有关.当距离较近时,访问时间较短;当访问距离较远的Bank时,访问时间较长.因此,当系统规模逐渐增大时,这种访问延迟与网络距离相关的特性会使得不同节点之间的通信距离和通信延迟的差异性逐渐增大.另外,片上网络规模的增大也会使得Cache访问延迟逐渐由网络延迟主导.这种延迟差异性会引起网络报文延迟不均衡问题,导致Cache访问延迟的非一致性进一步增大,因而出现更多的大延迟Cache访问并成为制约系统性能的瓶颈.因此,研究片上多核处理器的Cache访问均衡性对于提升网络性能和系统性能具有积极意义.该文分析了造成Cache访问延迟不均衡的原因,并针对延迟的两个来源:无冲突延迟和竞争延迟,分别提出了非一致存储映射和非一致链路分布的设计方法.通过非一致存储映射,我们根据Cache存储体在网络中的物理位置调节其相应的Cache块映射比例,从而均衡Cache请求平均访问距离;通过合理设计非一致的链路分布,我们依据各条链路上的流量负载为其分配合适的通道数量,从而缓解流量压力较大的链路上的报文竞争.全系统模拟器上的实验表明,采用面向Cache访问均衡性的片上多核处理器能够有效均衡Cache访问延迟,并减少大延迟Cache访问请求的数量.相比于传统的NUCA结构,我们的设计在最大的实验规模(64核)下在延迟均方差、最大延迟和平均延迟上分别平均降低了19.6%、12.8%和6.4%,最大降低了40.8%、29.9%和11.9%.同时在系统性能方面,通过PARSEC应用程序的模拟实验表明,单位周期执行指令数(IPC)平均提升了6.7%,最大提升了14.0%. 展开更多
关键词 片上多核处理器 一致缓存体系结构 片上网络 均衡性 缓存访问
在线阅读 下载PDF
面向虚拟共享域划分的自适应迁移与复制机制
6
作者 黄安文 石文强 +1 位作者 高军 张民选 《计算机研究与发展》 EI CSCD 北大核心 2013年第8期1583-1591,共9页
传统数据管理机制无法感知分布式cache布局的非一致访问延迟特性,导致多核处理器大容量cache失效率和命中延迟之间的矛盾日益加剧.此外,单独依靠数据迁移和盲目复制难以解决共享数据块的竞争访问与长延迟命中问题.基于瓦片式多核处理器... 传统数据管理机制无法感知分布式cache布局的非一致访问延迟特性,导致多核处理器大容量cache失效率和命中延迟之间的矛盾日益加剧.此外,单独依靠数据迁移和盲目复制难以解决共享数据块的竞争访问与长延迟命中问题.基于瓦片式多核处理器分布式cache的虚拟共享域划分机制,提出并实现一种域间数据自适应迁移与复制机制,能够协同感知本地目标bank候选牺牲块状态和远程命中块的局部活跃程度,在多个虚拟共享域间对多核竞争访问的共享数据进行动态迁移和复制决策,综合权衡片上长延迟命中和cache容量有效利用率问题,降低平均存储访问延迟.最后,在全系统模拟器中实现虚拟共享域划分和域间共享数据自适应迁移-复制机制,并采用典型测试程序包SPLASH-2评估性能优化情况.实验表明,与传统固定共享域划分机制和同类优化机制相比,自适应迁移与复制机制在不同共享度下均可获得相应性能提升,面积开销可以忽略不计. 展开更多
关键词 非一致cache体系结构 多核处理器 延迟优化 迁移 复制
在线阅读 下载PDF
关于大规模并行处理机系统可扩展性设计 被引量:2
7
作者 卢锡城 《中国工程科学》 2000年第10期105-109,共5页
大规模并行处理系统旨在满足国防和国民经济许多重要应用领域对高性能计算能力的需求。长期以来 ,结构上的可扩性和编程上的友好性一直是并行计算机系统设计中追求的重要而又互相矛盾的两个目标。文章结合研究实践 ,对大规模并行处理机... 大规模并行处理系统旨在满足国防和国民经济许多重要应用领域对高性能计算能力的需求。长期以来 ,结构上的可扩性和编程上的友好性一直是并行计算机系统设计中追求的重要而又互相矛盾的两个目标。文章结合研究实践 ,对大规模并行处理机系统 (MPP) 展开更多
关键词 体系结构 大规模并行处理机 对称多处理机 一致存储访问 可扩展性 设计 并行计算机系统
在线阅读 下载PDF
内存管理系统对NUMA的支持及优化
8
作者 杨梦梦 卢凯 卢锡城 《计算机工程》 EI CAS CSCD 北大核心 2005年第16期80-82,109,共4页
阐述非一致性存储访问(NUMA)体系结构中存储结构的特点,分析该结构对操作系统存储管理子系统的影响,介绍针对NUMA存储结构特点在操作系统存储管理子系统的不连续内存支持、节点存储关系描述、存储资源分配等方面所作的工作和优化技术。... 阐述非一致性存储访问(NUMA)体系结构中存储结构的特点,分析该结构对操作系统存储管理子系统的影响,介绍针对NUMA存储结构特点在操作系统存储管理子系统的不连续内存支持、节点存储关系描述、存储资源分配等方面所作的工作和优化技术。通过实际系统的验证,文中所提出的技术方案较好地支持了NUMA系统复杂存储结构的管理需求,减少了存储访问延迟,提高了系统性能。 展开更多
关键词 操作系统 内存管理 一致性存储访问体系结构 NUMA
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部