期刊文献+
共找到21篇文章
< 1 2 >
每页显示 20 50 100
多GPU系统非一致存储访问优化:研究进展与展望 被引量:1
1
作者 李晨 刘畅 +1 位作者 葛一漩 郭阳 《电子学报》 EI CAS CSCD 北大核心 2024年第5期1783-1800,共18页
随着晶体管缩小速度的减缓,单GPU(Graphics Processing Units)的性能提升已经变得越来越具有挑战性,因此,多GPU系统成为了提高GPU系统性能的主要手段.然而,由于片外物理设计的制约,多GPU系统中处理器间的带宽不均衡导致了非一致存储访问... 随着晶体管缩小速度的减缓,单GPU(Graphics Processing Units)的性能提升已经变得越来越具有挑战性,因此,多GPU系统成为了提高GPU系统性能的主要手段.然而,由于片外物理设计的制约,多GPU系统中处理器间的带宽不均衡导致了非一致存储访问(Non-Uniform Memory Access,NUMA)问题,严重影响多GPU系统的性能.为了减少非一致存储访问所导致的性能损失,本文首先分析了非一致存储访问出现的原因,并对现有的非一致存储访问解决方案进行了对比.针对不同维度的非一致存储访问,本文从减少远程访问流量和提升远程访问性能两个方向出发,对非一致存储访问的优化方案进行了总结.最后,结合这些方案的优缺点,提出了未来多GPU系统非一致存储访问优化的发展方向. 展开更多
关键词 多GPU系统 一致存储访问 GPU访存
在线阅读 下载PDF
多核处理器非一致Cache体系结构延迟优化技术研究综述 被引量:4
2
作者 黄安文 高军 张民选 《计算机研究与发展》 EI CSCD 北大核心 2012年第S1期118-124,共7页
非一致Cache体系结构(non-uniform cache architecture,NUCA)为解决多核处理器(chip multi-processor)"存储墙"难题提供了新的设计思路.重点关注面向CMP的NUCA延迟优化技术,在介绍若干典型NUCA模型的基础上,分析大容量Cache... 非一致Cache体系结构(non-uniform cache architecture,NUCA)为解决多核处理器(chip multi-processor)"存储墙"难题提供了新的设计思路.重点关注面向CMP的NUCA延迟优化技术,在介绍若干典型NUCA模型的基础上,分析大容量Cache环境下共享/私有机制中的延迟-容量权衡问题,讨论映射、迁移、复制和搜索等数据管理机制在多核环境下的优缺点.最后,针对基于片上网络(network-on-chip,NoC)互连结构的可扩展CMP体系结构,从NUCA模型优化、数据管理和一致性维护机制3个方面讨论和预测未来CMP NUCA延迟优化领域的发展趋势及面临的挑战性问题. 展开更多
关键词 一致cache体系结构 多核处理器 片上网络 存储墙 延迟优化
在线阅读 下载PDF
非一致Cache体系结构技术综述 被引量:1
3
作者 吴俊杰 杨学军 《计算机工程与科学》 CSCD 北大核心 2011年第2期51-60,共10页
存储墙问题使得Cache技术的研究始终非常重要。面对日益增长的片上Cache容量,线延迟逐渐成为制约Cache设计的重要因素。为了提供统一的访问延迟,传统的Cache设计方法不得不迁就离处理器最远的Cache Bank的访问时间。为此,研究人员提出... 存储墙问题使得Cache技术的研究始终非常重要。面对日益增长的片上Cache容量,线延迟逐渐成为制约Cache设计的重要因素。为了提供统一的访问延迟,传统的Cache设计方法不得不迁就离处理器最远的Cache Bank的访问时间。为此,研究人员提出了一种非一致Cache结构(NUCA),NUCA几乎成为未来处理器中大容量Cache设计的一种趋势。处理器访问NUCA时,如果在离处理器较近的Bank中发生命中,处理器的等待时间就较短;如果在离处理器较远的Bank中发生命中,处理器的等待时间就较长。本文综述了NUCA技术产生的原因、发展,以及当前最典型的NUCA系统;并且指出了对NUCA技术研究有借鉴的两种多机存储系统技术——NUMA和COMA;最后,提出了NUCA技术研究的关键问题,并给出了相应的解决思路。 展开更多
关键词 一致cache 线延迟 局部性 多核 一致存储访问 cache存储结构
在线阅读 下载PDF
片上非一致Cache体系结构研究 被引量:1
4
作者 贾小敏 黄彩霞 +2 位作者 张民选 孙彩霞 齐树波 《计算机工程与科学》 CSCD 北大核心 2009年第8期93-98,共6页
随着集成电路制造工艺的发展,片上集成大容量Cache成为微处理器的发展趋势。然而,互连线延迟所占比例越来越大,成为大容量Cache的性能瓶颈,因此需要新的Cache体系结构来克服这些问题。非一致Cache体系结构通过在Cache内部支持多级延迟... 随着集成电路制造工艺的发展,片上集成大容量Cache成为微处理器的发展趋势。然而,互连线延迟所占比例越来越大,成为大容量Cache的性能瓶颈,因此需要新的Cache体系结构来克服这些问题。非一致Cache体系结构通过在Cache内部支持多级延迟和数据块迁移来减少Cache的命中时间,提高性能,从而克服互连线延迟对大容量Cache的限制,已经成为微处理器片上存储结构的研究热点。本文回顾了非一致Cache体系结构模型的研究进展,特别是对片上多核处理器中的非一致Cache体系结构模型进行了详细介绍,比较了不同模型的贡献和不足。最后,对非一致Cache体系结构的发展进行了展望。 展开更多
关键词 一致cache结构 多级延迟 块迁移 片上多核
在线阅读 下载PDF
一种访问控制策略非一致性冲突消解方法 被引量:17
5
作者 李瑞轩 鲁剑锋 +2 位作者 李添翼 辜希武 唐卓 《计算机学报》 EI CSCD 北大核心 2013年第6期1210-1223,共14页
针对静态职责分离策略与可用策略并存时由于其互斥的需求可能引发策略非一致性冲突问题,提出了一套基于优先级的冲突消解方法.在综合考虑策略自身严格性以及对整个策略集合的影响力等因素下,提出了一种策略优先级计算方法.定义了策略的... 针对静态职责分离策略与可用策略并存时由于其互斥的需求可能引发策略非一致性冲突问题,提出了一套基于优先级的冲突消解方法.在综合考虑策略自身严格性以及对整个策略集合的影响力等因素下,提出了一种策略优先级计算方法.定义了策略的自身可满足频率和加权冲突面积这两个概念,分别表示策略的自身严格性和该策略对整个策略集合的影响力.在此基础上,根据不同的策略目标,给出了两种基于优先级的策略消解算法:最小代价方法和字典编辑优选方法.实验结果表明,在静态职责分离和可用策略的数量规模不大的情况下,基于优先级的冲突消解方法可以有效地解决策略非一致性冲突问题. 展开更多
关键词 访问控制 静态职责分离 可用策略 一致性冲突 加权冲突面积 自身可满足频率
在线阅读 下载PDF
用于减少远程Cache访问延迟的最后一次写访问预测方法 被引量:1
6
作者 夏军 徐炜遐 +2 位作者 庞征斌 张峻 常俊胜 《国防科技大学学报》 EI CAS CSCD 北大核心 2015年第1期14-20,共7页
为减少远程Cache访问延迟,提高共享存储系统的性能,提出了一种新的基于程序内在写突发特性的最后一次写访问预测方法,并对一个具体的目录协议进行了改造,以支持该预测方法。通过预测Cache块的最后一次写访问并提前对其进行降级,处理器... 为减少远程Cache访问延迟,提高共享存储系统的性能,提出了一种新的基于程序内在写突发特性的最后一次写访问预测方法,并对一个具体的目录协议进行了改造,以支持该预测方法。通过预测Cache块的最后一次写访问并提前对其进行降级,处理器能直接从主存中读取数据,从而减少了远程Cache访问所需的一个网络跳步数。与当前基于指令的预测方法相比,该方法能极大减少存储开销。基准测试程序的评测结果表明,该方法能获得83.1%的预测准确率,并且能提高8.57%的程序执行性能,同时与基于指令的预测方法相比,该方法能分别减少历史踪迹表69%的存储开销和签名表36%的存储开销。 展开更多
关键词 cache一致性协议 远程cache失效 写突发 最后一次写访问 自降级
在线阅读 下载PDF
片上多核处理器Cache访问均衡性研究 被引量:3
7
作者 王子聪 陈小文 郭阳 《计算机学报》 EI CSCD 北大核心 2019年第11期2403-2416,共14页
随着片上多核处理器(CMP)规模的不断扩大和处理核数的增多,系统对于片上缓存(Cache)在容量和速度方面有了更高的需求.为了能够有效利用Cache资源,非一致Cache体系结构(NUCA)被提出用于支持高容量低延迟的Cache组织结构.另一方面,片上网... 随着片上多核处理器(CMP)规模的不断扩大和处理核数的增多,系统对于片上缓存(Cache)在容量和速度方面有了更高的需求.为了能够有效利用Cache资源,非一致Cache体系结构(NUCA)被提出用于支持高容量低延迟的Cache组织结构.另一方面,片上网络(NoC)由于具备良好的可扩展性,在片上多核处理器的互连方式上具有显著优势.因此,基于片上网络的非一致Cache体系结构逐渐成为未来组织大容量Cache的主流系统架构.在这样的系统架构中,最后一级缓存(LLC)通常在物理上分布于每个处理节点,这些Cache存储体(Bank)在逻辑上共同构成一个统一的共享Cache.当处理核发出Cache访问请求时,其访问时间与请求处理核节点与访问数据所在的Bank节点的距离有关.当距离较近时,访问时间较短;当访问距离较远的Bank时,访问时间较长.因此,当系统规模逐渐增大时,这种访问延迟与网络距离相关的特性会使得不同节点之间的通信距离和通信延迟的差异性逐渐增大.另外,片上网络规模的增大也会使得Cache访问延迟逐渐由网络延迟主导.这种延迟差异性会引起网络报文延迟不均衡问题,导致Cache访问延迟的非一致性进一步增大,因而出现更多的大延迟Cache访问并成为制约系统性能的瓶颈.因此,研究片上多核处理器的Cache访问均衡性对于提升网络性能和系统性能具有积极意义.该文分析了造成Cache访问延迟不均衡的原因,并针对延迟的两个来源:无冲突延迟和竞争延迟,分别提出了非一致存储映射和非一致链路分布的设计方法.通过非一致存储映射,我们根据Cache存储体在网络中的物理位置调节其相应的Cache块映射比例,从而均衡Cache请求平均访问距离;通过合理设计非一致的链路分布,我们依据各条链路上的流量负载为其分配合适的通道数量,从而缓解流量压力较大的链路上的报文竞争.全系统模拟器上的实验表明,采用面向Cache访问均衡性的片上多核处理器能够有效均衡Cache访问延迟,并减少大延迟Cache访问请求的数量.相比于传统的NUCA结构,我们的设计在最大的实验规模(64核)下在延迟均方差、最大延迟和平均延迟上分别平均降低了19.6%、12.8%和6.4%,最大降低了40.8%、29.9%和11.9%.同时在系统性能方面,通过PARSEC应用程序的模拟实验表明,单位周期执行指令数(IPC)平均提升了6.7%,最大提升了14.0%. 展开更多
关键词 片上多核处理器 一致缓存体系结构 片上网络 均衡性 缓存访问
在线阅读 下载PDF
片上多核Cache资源管理机制研究 被引量:6
8
作者 贾小敏 张民选 +1 位作者 齐树波 赵天磊 《计算机科学》 CSCD 北大核心 2011年第1期295-301,共7页
随着片上多核成为处理器发展的主流和片上Cache资源的持续增长,Cache资源的管理已成为片上多核的关键问题。介绍了片上多核Cache资源管理的研究进展,依据研究内容将Cache资源的管理分为Cache划分和Cache共享两类。对Cache划分,探讨了其... 随着片上多核成为处理器发展的主流和片上Cache资源的持续增长,Cache资源的管理已成为片上多核的关键问题。介绍了片上多核Cache资源管理的研究进展,依据研究内容将Cache资源的管理分为Cache划分和Cache共享两类。对Cache划分,探讨了其主要组成部分和一般形式,分析和比较了典型的片上多核Cache划分机制。对Cache共享,给出了其主要研究内容,并介绍和比较了几种主流的片上多核Cache共享机制。通过分析,认为软硬件协同管理的页划分应是未来片上多核Cache划分机制的研究重点;而片上多核Cache共享机制的研究则应从目标应用的Cache行为特征着手。 展开更多
关键词 片上多核 cache资源管理 cache划分 cache共享 一致cache
在线阅读 下载PDF
片上多处理器末级Cache优化技术研究 被引量:6
9
作者 李浩 谢伦国 《计算机研究与发展》 EI CSCD 北大核心 2012年第S1期172-179,共8页
片上多核技术的出现给处理器的设计和实现带来很多挑战,片上存储系统的设计就是其中最重要的方面之一.为了缓解日益严峻的存储墙问题,研究者们通常在片上放置大容量末级Cache,片上末级Cache设计和优化技术已成为当前的研究热点.介绍了... 片上多核技术的出现给处理器的设计和实现带来很多挑战,片上存储系统的设计就是其中最重要的方面之一.为了缓解日益严峻的存储墙问题,研究者们通常在片上放置大容量末级Cache,片上末级Cache设计和优化技术已成为当前的研究热点.介绍了片上多处理器(CMP)末级Cache设计面临的挑战,然后分别介绍了以私有设计和共享设计为基础的多种CMP末级Cache优化技术,并对它们进行了比较分析. 展开更多
关键词 片上多处理器 合作式cache 一致访问 数据块复制迁移 cache划分
在线阅读 下载PDF
自主多模式网络性能测试技术
10
作者 吴登勇 谷群 +1 位作者 于英杰 赵鑫 《计算机工程与设计》 北大核心 2025年第8期2219-2225,共7页
为解决网络测试工具兼容性差、测试场景受限、国内无通用自主网络测试工具等问题,设计一种基于ServerClient-Ctrl三端模式的自主多模式网络性测试工具,旨在通过创新的架构、模块设计,提升测试工具的通用性和灵活性,解决行业痛点。基于... 为解决网络测试工具兼容性差、测试场景受限、国内无通用自主网络测试工具等问题,设计一种基于ServerClient-Ctrl三端模式的自主多模式网络性测试工具,旨在通过创新的架构、模块设计,提升测试工具的通用性和灵活性,解决行业痛点。基于国产自主ARM平台及X86平台开展的网络性能测试验证,结果表明该测试工具不仅展现出良好的平台兼容性,还适用于多测试场景,并在测试中能有效提升测试工作效率,为网络测试技术的发展提供了新的思路与方向。 展开更多
关键词 主动测量 带宽 时延 抖动 线程管理 一致性内存访问 TCP/IP卸载引擎 远程直接内存访问
在线阅读 下载PDF
面向众核处理器的阴阳K-means算法优化 被引量:1
11
作者 周天阳 王庆林 +4 位作者 李荣春 梅松竹 尹尚飞 郝若晨 刘杰 《国防科技大学学报》 EI CAS CSCD 北大核心 2024年第1期93-102,共10页
传统阴阳K-means算法处理大规模聚类问题时计算开销十分昂贵。针对典型众核处理器的体系结构特征,提出了一种阴阳K-means算法高效并行加速实现。该实现基于一种新内存数据布局,采用众核处理器中的向量单元来加速阴阳K-means中的距离计算... 传统阴阳K-means算法处理大规模聚类问题时计算开销十分昂贵。针对典型众核处理器的体系结构特征,提出了一种阴阳K-means算法高效并行加速实现。该实现基于一种新内存数据布局,采用众核处理器中的向量单元来加速阴阳K-means中的距离计算,并面向非一致内存访问(non-unified memory access, NUMA)特性进行了针对性的访存优化。与阴阳K-means算法的开源多线程实现相比,该实现在ARMv8和x86众核平台上分别获得了最高约5.6与8.7的加速比。因此上述优化方法在众核处理器上成功实现了对阴阳K-means算法的加速。 展开更多
关键词 K-MEANS 一致内存访问 向量化 众核处理器 性能优化
在线阅读 下载PDF
多核处理器片上存储系统研究 被引量:5
12
作者 黄安文 高军 张民选 《计算机工程》 CAS CSCD 北大核心 2010年第4期4-6,共3页
针对多核处理器计算能力和访存速度间差异不断增大对多核系统性能提升的制约问题,分析几款典型多核处理器存储系统的设计特点,探讨多核处理器片上存储系统发展的关键技术,包括延迟造成的非一致cache访问、核与cache互连形式对访存性能... 针对多核处理器计算能力和访存速度间差异不断增大对多核系统性能提升的制约问题,分析几款典型多核处理器存储系统的设计特点,探讨多核处理器片上存储系统发展的关键技术,包括延迟造成的非一致cache访问、核与cache互连形式对访存性能的束缚以及片上cache设计的复杂化等。 展开更多
关键词 多核 存储系统 非一致cache访问
在线阅读 下载PDF
面向虚拟共享域划分的自适应迁移与复制机制
13
作者 黄安文 石文强 +1 位作者 高军 张民选 《计算机研究与发展》 EI CSCD 北大核心 2013年第8期1583-1591,共9页
传统数据管理机制无法感知分布式cache布局的非一致访问延迟特性,导致多核处理器大容量cache失效率和命中延迟之间的矛盾日益加剧.此外,单独依靠数据迁移和盲目复制难以解决共享数据块的竞争访问与长延迟命中问题.基于瓦片式多核处理器... 传统数据管理机制无法感知分布式cache布局的非一致访问延迟特性,导致多核处理器大容量cache失效率和命中延迟之间的矛盾日益加剧.此外,单独依靠数据迁移和盲目复制难以解决共享数据块的竞争访问与长延迟命中问题.基于瓦片式多核处理器分布式cache的虚拟共享域划分机制,提出并实现一种域间数据自适应迁移与复制机制,能够协同感知本地目标bank候选牺牲块状态和远程命中块的局部活跃程度,在多个虚拟共享域间对多核竞争访问的共享数据进行动态迁移和复制决策,综合权衡片上长延迟命中和cache容量有效利用率问题,降低平均存储访问延迟.最后,在全系统模拟器中实现虚拟共享域划分和域间共享数据自适应迁移-复制机制,并采用典型测试程序包SPLASH-2评估性能优化情况.实验表明,与传统固定共享域划分机制和同类优化机制相比,自适应迁移与复制机制在不同共享度下均可获得相应性能提升,面积开销可以忽略不计. 展开更多
关键词 一致cache体系结构 多核处理器 延迟优化 迁移 复制
在线阅读 下载PDF
关于大规模并行处理机系统可扩展性设计 被引量:2
14
作者 卢锡城 《中国工程科学》 2000年第10期105-109,共5页
大规模并行处理系统旨在满足国防和国民经济许多重要应用领域对高性能计算能力的需求。长期以来 ,结构上的可扩性和编程上的友好性一直是并行计算机系统设计中追求的重要而又互相矛盾的两个目标。文章结合研究实践 ,对大规模并行处理机... 大规模并行处理系统旨在满足国防和国民经济许多重要应用领域对高性能计算能力的需求。长期以来 ,结构上的可扩性和编程上的友好性一直是并行计算机系统设计中追求的重要而又互相矛盾的两个目标。文章结合研究实践 ,对大规模并行处理机系统 (MPP) 展开更多
关键词 体系结构 大规模并行处理机 对称多处理机 一致存储访问 可扩展性 设计 并行计算机系统
在线阅读 下载PDF
基于CPU与GPU的异构模板计算优化研究 被引量:4
15
作者 李博 黄东强 +3 位作者 贾金芳 吴利 王晓英 黄建强 《计算机工程》 CAS CSCD 北大核心 2023年第4期131-137,共7页
模板计算是一类使用固定模板的算法,被广泛应用于图像处理、计算流体动力学模拟等领域,现有的模板计算存在计算并行度弱、缓存命中率低、无法充分利用计算资源等问题。在消息传递接口(MPI)计算模型和跨平台多线程(OpenMP)计算模型的基... 模板计算是一类使用固定模板的算法,被广泛应用于图像处理、计算流体动力学模拟等领域,现有的模板计算存在计算并行度弱、缓存命中率低、无法充分利用计算资源等问题。在消息传递接口(MPI)计算模型和跨平台多线程(OpenMP)计算模型的基础上提出MPI+OpenMP、统一计算设备架构(CUDA)+OpenMP两种混合计算模型。相较于常规的MPI计算模型,MPI+OpenMP计算模型通过使用MPI进行多节点之间的粗粒度通信,使用OpenMP实现进程内部的细粒度并行计算,并结合单指令多数据、非一致内存访问、数据预取、数据分块等技术,提高模板计算过程中的缓存命中率与计算并行能力,加快计算速度。在只采用CUDA进行模板计算时,CPU的计算资源没有得到充分利用,浪费了大量计算资源,CUDA+OpenMP计算模型通过对计算任务的负载划分让CPU也参与到计算中,以减少通信开销及充分利用CPU的多核并行计算能力。实验结果表明,OpenMP+MPI计算模型相较于MPI计算模型的平均加速比为3.67,CUDA+OpenMP计算模型相较于CUDA计算模型的平均加速比为1.26,OpenMP+MPI和CUDA+OpenMP两种计算模型的性能均得到了显著提升。 展开更多
关键词 模板计算 消息传递接口 跨平台多线程 单指令多数据 一致内存访问 统一计算设备架构
在线阅读 下载PDF
CC-NUMA结构下共享变量并行计算的研究
16
作者 李岱峰 许忆南 《计算机工程》 CAS CSCD 北大核心 2004年第B12期89-90,113,共3页
探讨了如何提高CC-NUMA结构下共享变量程序的并行效率。主要介绍了几种有效的负载均衡策略和减少共享存储访问延迟的优化 手段。通过分析可以看出,通过合适的优化方法,CC-NUMA结构下共享变量的应用程序可以取得好的并行效率。
关键词 cache一致均匀存储器访问 负载均衡 任务粒度 访问延迟
在线阅读 下载PDF
基于紧耦合单跳步多平面架构的高端服务器设计 被引量:7
17
作者 王恩东 陈继承 +1 位作者 胡雷钧 公维峰 《高技术通讯》 CAS CSCD 北大核心 2014年第2期111-116,共6页
针对高端服务器设计面临的可扩展性问题,提出了一种紧耦合单跳步多平面(TSMP)体系结构设计方法。该方法采用双侧多平面互连结构,支持8-32路规模无缝扩展;基于两级目录结构的高速缓存一致性实现方法,支持高并发一致性访问和高效冲突处理... 针对高端服务器设计面临的可扩展性问题,提出了一种紧耦合单跳步多平面(TSMP)体系结构设计方法。该方法采用双侧多平面互连结构,支持8-32路规模无缝扩展;基于两级目录结构的高速缓存一致性实现方法,支持高并发一致性访问和高效冲突处理,有效降低一致性访问传输、处理延迟。该方法已应用于浪潮32路K1高端服务器的设计,对设计的系统进行了内存性能、处理性能和可扩展性测试,测试结果表明,采用该设计可使高端服务器的计算、访存性能随系统规模从单路到32路线性增长。K1高端服务器支持基于QPI1.0协议的Intel安腾(Itanium)4核CPU-Tukwila和8核CPU-Polson,是中国研制的首台投入商业化应用的高端服务器。 展开更多
关键词 缓存一致均匀存储访问(CC-NUMA) 紧耦合单跳步多平面(TSMP) QPI协议 cache一致 目录cache
在线阅读 下载PDF
具有节点亲近能力的NUMA调度算法
18
作者 许立 罗军 卢凯 《计算机工程》 EI CAS CSCD 北大核心 2006年第1期99-101,156,共4页
非一致存储访问(Non-UniformMemoryAccess,NUMA)是目前高性能服务器的主流体系结构之一,传统操作系统的调度器由于无法感知复杂NUMA系统的拓扑结构,导致较大的远程节点数据访问开销。该文在深入分析O(1)调度算法对NUMA支持的基础上,提... 非一致存储访问(Non-UniformMemoryAccess,NUMA)是目前高性能服务器的主流体系结构之一,传统操作系统的调度器由于无法感知复杂NUMA系统的拓扑结构,导致较大的远程节点数据访问开销。该文在深入分析O(1)调度算法对NUMA支持的基础上,提出一种基于NUMA拓扑结构的分级调度算法。实验证明,该算法较好地实现了具有节点亲近能力的NUMA调度,提高了数据访问的局部性,优化了系统性能。 展开更多
关键词 一致存储访问 操作系统 分级调度 节点亲近能力
在线阅读 下载PDF
内存管理系统对NUMA的支持及优化
19
作者 杨梦梦 卢凯 卢锡城 《计算机工程》 EI CAS CSCD 北大核心 2005年第16期80-82,109,共4页
阐述非一致性存储访问(NUMA)体系结构中存储结构的特点,分析该结构对操作系统存储管理子系统的影响,介绍针对NUMA存储结构特点在操作系统存储管理子系统的不连续内存支持、节点存储关系描述、存储资源分配等方面所作的工作和优化技术。... 阐述非一致性存储访问(NUMA)体系结构中存储结构的特点,分析该结构对操作系统存储管理子系统的影响,介绍针对NUMA存储结构特点在操作系统存储管理子系统的不连续内存支持、节点存储关系描述、存储资源分配等方面所作的工作和优化技术。通过实际系统的验证,文中所提出的技术方案较好地支持了NUMA系统复杂存储结构的管理需求,减少了存储访问延迟,提高了系统性能。 展开更多
关键词 操作系统 内存管理 一致性存储访问体系结构 NUMA
在线阅读 下载PDF
NUMA结构的高效实时稳定的垃圾回收算法
20
作者 廖彬 傅杰 +4 位作者 靳国杰 王一光 王磊 章隆兵 王剑 《高技术通讯》 CAS CSCD 北大核心 2015年第2期125-134,共10页
针对非一致性内存访问架构(NUMA)在垃圾回收(GC)过程中存在大量的远程内存读写导致GC性能降低的问题,对GC过程的各个阶段进行分析与研究,提出了一种基于NUMA结构的高效实时稳定的GC算法。该算法首先基于NUMA结构改进传统分代GC机... 针对非一致性内存访问架构(NUMA)在垃圾回收(GC)过程中存在大量的远程内存读写导致GC性能降低的问题,对GC过程的各个阶段进行分析与研究,提出了一种基于NUMA结构的高效实时稳定的GC算法。该算法首先基于NUMA结构改进传统分代GC机制的堆空间布局,然后通过控制GC过程中扫描活跃对象阶段的初始根对象选取、动态负载均衡阶段截取任务队列的选取以及复制活跃对象阶段对象复制位置的选取,大大减少GC过程中的远程访问次数。这种改进的GC机制对所有NUMA结构具有通用性。以Godson-3处理器的NUMA平台为例进行的实验结果显示,优化的GC机制极大地缩短了GC的时间,而且提高了应用程序的性能以及稳定性。在SPECjvm2008测试中,GC时间平均缩短了14.6%(GC总时间缩短4.1%-41.58%),应用程序的性能平均提升了4.68%(最高提升17.8%),应用程序的性能稳定性提升了76.2%。 展开更多
关键词 一致性内存访问架构(NUMA) 垃圾回收(GC) 分代GC 活跃对象 根对象 动态负载均衡
在线阅读 下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部