期刊文献+
共找到14篇文章
< 1 >
每页显示 20 50 100
Aware conflict detection of non-uniform memory access system and prevention for transactional memory 被引量:3
1
作者 王睿伯 卢凯 卢锡城 《Journal of Central South University》 SCIE EI CAS 2012年第8期2266-2271,共6页
Most transactional memory (TM) research focused on multi-core processors, and others investigated at the clusters, leaving the area of non-uniform memory access (NUMA) system unexplored. The existing TM implementation... Most transactional memory (TM) research focused on multi-core processors, and others investigated at the clusters, leaving the area of non-uniform memory access (NUMA) system unexplored. The existing TM implementations made significant performance degradation on NUMA system because they ignored the slower remote memory access. To solve this problem, a latency-based conflict detection and a forecasting-based conflict prevention method were proposed. Using these techniques, the NUMA aware TM system was presented. By reducing the remote memory access and the abort rate of transaction, the experiment results show that the NUMA aware strategies present good practical TM performance on NUMA system. 展开更多
关键词 transactional memory non-uniform memory access (numa conflict detection conflict prevention
在线阅读 下载PDF
NUMA感知的云平台负载调度系统
2
作者 娄杰 段宏键 +1 位作者 曹华伟 叶笑春 《高技术通讯》 北大核心 2025年第1期20-36,共17页
随着互联网的高速发展,云计算逐渐走向了云原生时代。在云原生领域中,对容器进行调度与编排的标准系统是Kubernetes。Kubernetes有着开源、可扩展、部署难度低等诸多优点,然而,随着容器化应用的多样化和底层资源的多元化,Kubernetes在... 随着互联网的高速发展,云计算逐渐走向了云原生时代。在云原生领域中,对容器进行调度与编排的标准系统是Kubernetes。Kubernetes有着开源、可扩展、部署难度低等诸多优点,然而,随着容器化应用的多样化和底层资源的多元化,Kubernetes在以非统一存储访问(non-uniform memory access,NUMA)资源为代表的细粒度资源调度方面仍然存在不足,集群中计算资源利用率低、使用不均衡、系统关键资源争用等情况常常发生。本文以Kubernetes系统为基础,探究以NUMA为代表的细粒度资源的优化调度机制,具体研究点如下:(1)建立缓存管理器,对集群中基于容器的典型应用进行性能的建模与特征分析;(2)设计NUMA管理器,实现细粒度资源划分;(3)优化面向细粒度资源调度的算法,细粒度分配NUMA资源。通过NUMA感知的调度优化,本文所提方案提高了系统的关键资源利用率,提升了应用的运行速度,减少了集群中资源的争用以及资源使用上不均衡的现象。 展开更多
关键词 云计算 容器云平台 负载调度 非统一存储访问 资源划分
在线阅读 下载PDF
Bowtie 2-NUMA:具有NUMA体系结构适应性的基因序列比对应用
3
作者 王强 孙彦洁 +1 位作者 齐星云 徐佳庆 《计算机工程与科学》 CSCD 北大核心 2024年第12期2117-2127,共11页
Bowtie 2作为生物信息领域使用最广泛的二代测序软件之一,具有计算密集的特点。如何根据多核平台的体系结构进行适应性优化以提高并行效率,成为亟待解决的问题。首先分析了非一致性访存架构的多样性,以及Bowtie 2在多种非一致性访存架... Bowtie 2作为生物信息领域使用最广泛的二代测序软件之一,具有计算密集的特点。如何根据多核平台的体系结构进行适应性优化以提高并行效率,成为亟待解决的问题。首先分析了非一致性访存架构的多样性,以及Bowtie 2在多种非一致性访存架构下内存访问拥塞和最后一级缓存命中率低的结构性瓶颈。然后,基于Bowtie 2在不同非一致性访存平台的表现特点,在复制索引、内存分配以及数据划分3个方面进行优化,提出了Bowtie 2-NUMA。最后,通过实验表明,Bowtie 2-NUMA面向不同计算平台,能够基于体系结构进行适应性优化,实现并行效率的提升。 展开更多
关键词 非一致性访存 Bowtie 2 适应性优化 体系结构 内存带宽 最后一级缓存
在线阅读 下载PDF
CC-NUMA并行系统通信优化的变换技术
4
作者 陈渝 nudt.edu.cn +2 位作者 李春江 杨学军 陈福接 《软件学报》 EI CSCD 北大核心 2000年第4期507-514,共8页
减少通信开销是并行编译优化的主要目标之一 .该文针对具有 cache一致性的非一致存储访问并行系统 ( CC- NUMA)的特点 ,提出通过结合计算变换和数据变换 ,在统一的代数框架下对并行程序进行通信优化的策略和方法 .通过实验测试 。
关键词 并行编译 通信优化 数据变换 CC-numa
在线阅读 下载PDF
内存管理系统对NUMA的支持及优化
5
作者 杨梦梦 卢凯 卢锡城 《计算机工程》 EI CAS CSCD 北大核心 2005年第16期80-82,109,共4页
阐述非一致性存储访问(NUMA)体系结构中存储结构的特点,分析该结构对操作系统存储管理子系统的影响,介绍针对NUMA存储结构特点在操作系统存储管理子系统的不连续内存支持、节点存储关系描述、存储资源分配等方面所作的工作和优化技术。... 阐述非一致性存储访问(NUMA)体系结构中存储结构的特点,分析该结构对操作系统存储管理子系统的影响,介绍针对NUMA存储结构特点在操作系统存储管理子系统的不连续内存支持、节点存储关系描述、存储资源分配等方面所作的工作和优化技术。通过实际系统的验证,文中所提出的技术方案较好地支持了NUMA系统复杂存储结构的管理需求,减少了存储访问延迟,提高了系统性能。 展开更多
关键词 操作系统 内存管理 非一致性存储访问体系结构 numa
在线阅读 下载PDF
NUMA结构的高效实时稳定的垃圾回收算法
6
作者 廖彬 傅杰 +4 位作者 靳国杰 王一光 王磊 章隆兵 王剑 《高技术通讯》 CAS CSCD 北大核心 2015年第2期125-134,共10页
针对非一致性内存访问架构(NUMA)在垃圾回收(GC)过程中存在大量的远程内存读写导致GC性能降低的问题,对GC过程的各个阶段进行分析与研究,提出了一种基于NUMA结构的高效实时稳定的GC算法。该算法首先基于NUMA结构改进传统分代GC机... 针对非一致性内存访问架构(NUMA)在垃圾回收(GC)过程中存在大量的远程内存读写导致GC性能降低的问题,对GC过程的各个阶段进行分析与研究,提出了一种基于NUMA结构的高效实时稳定的GC算法。该算法首先基于NUMA结构改进传统分代GC机制的堆空间布局,然后通过控制GC过程中扫描活跃对象阶段的初始根对象选取、动态负载均衡阶段截取任务队列的选取以及复制活跃对象阶段对象复制位置的选取,大大减少GC过程中的远程访问次数。这种改进的GC机制对所有NUMA结构具有通用性。以Godson-3处理器的NUMA平台为例进行的实验结果显示,优化的GC机制极大地缩短了GC的时间,而且提高了应用程序的性能以及稳定性。在SPECjvm2008测试中,GC时间平均缩短了14.6%(GC总时间缩短4.1%-41.58%),应用程序的性能平均提升了4.68%(最高提升17.8%),应用程序的性能稳定性提升了76.2%。 展开更多
关键词 非一致性内存访问架构(numa) 垃圾回收(GC) 分代GC 活跃对象 根对象 动态负载均衡
在线阅读 下载PDF
NUMA架构下数据热度的内存数据库日志恢复技术 被引量:5
7
作者 吴刚 阿卜杜热西提·热合曼 +2 位作者 李梁 乔百友 韩东红 《计算机科学与探索》 CSCD 北大核心 2019年第6期941-949,共9页
在内存数据库故障恢复技术中,命令日志是针对内存数据库设计的粗粒度的、轻量级的日志记录方式。但在非统一内存访问(non-uniform memory access,NUMA)体系架构下面向数据的数据库设计中利用命令日志进行故障恢复时,由于数据访问频率不... 在内存数据库故障恢复技术中,命令日志是针对内存数据库设计的粗粒度的、轻量级的日志记录方式。但在非统一内存访问(non-uniform memory access,NUMA)体系架构下面向数据的数据库设计中利用命令日志进行故障恢复时,由于数据访问频率不均衡,导致负责高频数据恢复的CPU线程负载加重,而其他CPU相对空闲。针对这种工作负载不均衡所导致的恢复时间开销增大的情况,提出了NUMA体系架构下基于热度记录的内存数据库日志恢复算法。该算法中,每一条数据的访问次数作为该数据的热度记录下来。在并行恢复时,根据数据热度,将数据比较均衡地划分到各个节点的CPU线程执行恢复操作,以此来提高数据库的恢复速度。实验结果表明,该方案比NUMA架构下的常规恢复方案快,而且数据的热度越高,恢复速度的提升越明显,最高提升了19%。 展开更多
关键词 内存数据库 日志 检查点 故障恢复 非统一内存访问(numa)架构
在线阅读 下载PDF
基于NUMA架构的解释器访存优化设计与实现
8
作者 任彤 傅杰 靳国杰 《高技术通讯》 CAS CSCD 北大核心 2015年第7期661-668,共8页
为了提高非一致内存访问(NUMA)架构虚拟机解释器的访存性能,研究了解释器在NUMA架构下的访存优化技术,提出了一种NUMA架构下的解释器访存优化方案,而且设计并实现了解释器的静态指令分派优化方法和动态指令分派优化方法。根据这一方案... 为了提高非一致内存访问(NUMA)架构虚拟机解释器的访存性能,研究了解释器在NUMA架构下的访存优化技术,提出了一种NUMA架构下的解释器访存优化方案,而且设计并实现了解释器的静态指令分派优化方法和动态指令分派优化方法。根据这一方案虚拟机启动时首先获取NUMA节点信息,并在每个NUMA节点中自动生成解释器所需的全部数据结构;解释器在运行时,通过静态或动态的指令分派技术来实现其执行线程在NUMA节点上访存的局部化。试验结果表明,上述方法能够显著提升解释器在NUMA系统中的性能。在DaCapo测试集上的总体性能提升了8%,最高性能提升幅度高达23%,而且算法实现代价低,适用于绝大多数的NUMA服务器系统。 展开更多
关键词 非一致内存访问(numa) 虚拟机 解释器 响应速度 启动性能 访存优化
在线阅读 下载PDF
NUMA架构的龙芯3A板级设计及工程化技术研究 被引量:1
9
作者 赵东阳 刘瑞 孟英谦 《计算机工程与应用》 CSCD 北大核心 2017年第8期260-266,共7页
针对关键应用对信息处理能力提出的性能要求以及国产化需求,在分析龙芯3A处理器架构特点的基础上,设计了基于NUMA并行处理架构的龙芯3A高性能处理模块,并对抗恶劣环境的关键问题进行了分析和设计,解决了散热、电源监控及供电优化、启动... 针对关键应用对信息处理能力提出的性能要求以及国产化需求,在分析龙芯3A处理器架构特点的基础上,设计了基于NUMA并行处理架构的龙芯3A高性能处理模块,并对抗恶劣环境的关键问题进行了分析和设计,解决了散热、电源监控及供电优化、启动速度等问题。通过测试验证,性能可以满足关键应用对信息处理能力的要求,从而有效解决了龙芯3A访存能力有限的问题。同时对SMP和NUMA架构下,龙芯3A处理器CPU数量的增加对访存性能的提升的关系进行了探讨。 展开更多
关键词 非统一内存访问架构(numa) 龙芯3A VPX COTS
在线阅读 下载PDF
Elastic pointer directory organization for scalable shared memory multiprocessors
10
作者 Yuhang Liu Mingfa Zhu Limin Xiao 《Journal of Systems Engineering and Electronics》 SCIE EI CSCD 2014年第1期158-167,共10页
In the field of supercomputing, one key issue for scal-able shared-memory multiprocessors is the design of the directory which denotes the sharing state for a cache block. A good direc-tory design intends to achieve t... In the field of supercomputing, one key issue for scal-able shared-memory multiprocessors is the design of the directory which denotes the sharing state for a cache block. A good direc-tory design intends to achieve three key attributes: reasonable memory overhead, sharer position precision and implementation complexity. However, researchers often face the problem that gain-ing one attribute may result in losing another. The paper proposes an elastic pointer directory (EPD) structure based on the analysis of shared-memory applications, taking the fact that the number of sharers for each directory entry is typical y smal . Analysis re-sults show that for 4 096 nodes, the ratio of memory overhead to the ful-map directory is 2.7%. Theoretical analysis and cycle-accurate execution-driven simulations on a 16 and 64-node cache coherence non uniform memory access (CC-NUMA) multiproces-sor show that the corresponding pointer overflow probability is reduced significantly. The performance is observed to be better than that of a limited pointers directory and almost identical to the ful-map directory, except for the slight implementation complex-ity. Using the directory cache to explore directory access locality is also studied. The experimental result shows that this is a promis-ing approach to be used in the state-of-the-art high performance computing domain. 展开更多
关键词 DIRECTORY scalabUity memory overhead positioningprecision OVERFLOW cache coherence non uniform memory access(CC-numa).
在线阅读 下载PDF
MPD:结点具有多个并行缓存一致性域的CC-NUMA系统
11
作者 陈继承 赵雅倩 +3 位作者 李一韩 王恩东 史宏志 唐士斌 《计算机研究与发展》 EI CSCD 北大核心 2017年第4期775-786,共12页
大规模高速缓存一致性非均匀存储访问(cache coherence non-uniform memory access,CC-NUMA)系统通常采用两级一致性域方法来降低缓存一致性协议维护开销,提升系统性能.两级一致性域系统中,多个处理器互连,形成结点内一致性域;多个结点... 大规模高速缓存一致性非均匀存储访问(cache coherence non-uniform memory access,CC-NUMA)系统通常采用两级一致性域方法来降低缓存一致性协议维护开销,提升系统性能.两级一致性域系统中,多个处理器互连,形成结点内一致性域;多个结点互连,形成结点间一致性域.然而,受限于处理器直连能力与处理器可识别ID数,系统的单结点规模有限,系统规模的扩展不得不依靠增加结点数来实现,使得大规模CC-NUMA系统的结点间互连复杂度上升,跨结点访问带宽和延迟急剧增长,影响了系统性能的有效扩展.MPD系统通过在结点内构建多个并行缓存一致性域,突破了处理器直连能力与可识别ID数对单结点规模的限制,能够大幅减少结点数量,并将部分结点间访问转化为结点内访问,实现系统性能的有效扩展.理论分析和实验结果表明:采用同规格处理器的32路系统中,结点内4个并行缓存一致性域的MPD系统可实现结点数目减少75%、一致性目录存储开销节省40%以上、平均访问延迟降低约27.9%、系统整体性能提升约14.4%. 展开更多
关键词 CC-numa系统 两级一致性域 并行缓存一致性域 一致性协同芯片 系统可扩展性
在线阅读 下载PDF
通用可伸缩并行神经计算机系统NeuroC的设计和实现
12
作者 张春元 胡守仁 +1 位作者 代葵 张晨曦 《计算机学报》 EI CSCD 北大核心 1997年第6期518-524,共7页
NeuroC是一个通用的并行神经网络计算机系统,它的规模是可以伸缩的.针对神经计算,系统设计了一套具有可选择广播通信能力的非等时访问共享存储器系统.本文首先对神经计算的需求进行了分析,接着讨论了计算单元的选择、存储器... NeuroC是一个通用的并行神经网络计算机系统,它的规模是可以伸缩的.针对神经计算,系统设计了一套具有可选择广播通信能力的非等时访问共享存储器系统.本文首先对神经计算的需求进行了分析,接着讨论了计算单元的选择、存储器的组织与通信的实现,然后介绍了系统硬件的主要结构.文章中还简要地阐述了系统中软件的组成和结构,最后本文对NeuroC的特点进行了总结. 展开更多
关键词 神经计算机 并行处理 NeuroC 神经网络
在线阅读 下载PDF
基于CPU与GPU的异构模板计算优化研究 被引量:4
13
作者 李博 黄东强 +3 位作者 贾金芳 吴利 王晓英 黄建强 《计算机工程》 CAS CSCD 北大核心 2023年第4期131-137,共7页
模板计算是一类使用固定模板的算法,被广泛应用于图像处理、计算流体动力学模拟等领域,现有的模板计算存在计算并行度弱、缓存命中率低、无法充分利用计算资源等问题。在消息传递接口(MPI)计算模型和跨平台多线程(OpenMP)计算模型的基... 模板计算是一类使用固定模板的算法,被广泛应用于图像处理、计算流体动力学模拟等领域,现有的模板计算存在计算并行度弱、缓存命中率低、无法充分利用计算资源等问题。在消息传递接口(MPI)计算模型和跨平台多线程(OpenMP)计算模型的基础上提出MPI+OpenMP、统一计算设备架构(CUDA)+OpenMP两种混合计算模型。相较于常规的MPI计算模型,MPI+OpenMP计算模型通过使用MPI进行多节点之间的粗粒度通信,使用OpenMP实现进程内部的细粒度并行计算,并结合单指令多数据、非一致内存访问、数据预取、数据分块等技术,提高模板计算过程中的缓存命中率与计算并行能力,加快计算速度。在只采用CUDA进行模板计算时,CPU的计算资源没有得到充分利用,浪费了大量计算资源,CUDA+OpenMP计算模型通过对计算任务的负载划分让CPU也参与到计算中,以减少通信开销及充分利用CPU的多核并行计算能力。实验结果表明,OpenMP+MPI计算模型相较于MPI计算模型的平均加速比为3.67,CUDA+OpenMP计算模型相较于CUDA计算模型的平均加速比为1.26,OpenMP+MPI和CUDA+OpenMP两种计算模型的性能均得到了显著提升。 展开更多
关键词 模板计算 消息传递接口 跨平台多线程 单指令多数据 非一致内存访问 统一计算设备架构
在线阅读 下载PDF
基于紧耦合单跳步多平面架构的高端服务器设计 被引量:7
14
作者 王恩东 陈继承 +1 位作者 胡雷钧 公维峰 《高技术通讯》 CAS CSCD 北大核心 2014年第2期111-116,共6页
针对高端服务器设计面临的可扩展性问题,提出了一种紧耦合单跳步多平面(TSMP)体系结构设计方法。该方法采用双侧多平面互连结构,支持8-32路规模无缝扩展;基于两级目录结构的高速缓存一致性实现方法,支持高并发一致性访问和高效冲突处理... 针对高端服务器设计面临的可扩展性问题,提出了一种紧耦合单跳步多平面(TSMP)体系结构设计方法。该方法采用双侧多平面互连结构,支持8-32路规模无缝扩展;基于两级目录结构的高速缓存一致性实现方法,支持高并发一致性访问和高效冲突处理,有效降低一致性访问传输、处理延迟。该方法已应用于浪潮32路K1高端服务器的设计,对设计的系统进行了内存性能、处理性能和可扩展性测试,测试结果表明,采用该设计可使高端服务器的计算、访存性能随系统规模从单路到32路线性增长。K1高端服务器支持基于QPI1.0协议的Intel安腾(Itanium)4核CPU-Tukwila和8核CPU-Polson,是中国研制的首台投入商业化应用的高端服务器。 展开更多
关键词 缓存一致性非均匀存储访问(CC-numa) 紧耦合单跳步多平面(TSMP) QPI协议 CACHE一致性 目录cache
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部