期刊文献+
共找到17篇文章
< 1 >
每页显示 20 50 100
基于新型Cache一致性协议的共享虚拟存储系统 被引量:15
1
作者 胡伟武 施巍松 唐志敏 《计算机学报》 EI CSCD 北大核心 1999年第5期467-475,共9页
介绍了一个基于新型Cache一致性协议的共享虚拟存储系统JIAJIA.与目前国际上具有代表性的共享虚拟存储系统相比,JIAJIA采用了基于NUMA的结构,能够把多个机器的物理地址空间组织成一个更大的共享虚拟地址空间.... 介绍了一个基于新型Cache一致性协议的共享虚拟存储系统JIAJIA.与目前国际上具有代表性的共享虚拟存储系统相比,JIAJIA采用了基于NUMA的结构,能够把多个机器的物理地址空间组织成一个更大的共享虚拟地址空间.此外,JIAJIA实现了一种基于锁的新型一致性协议,通过附带在锁上的write-notice来维护一致性,从而避免了传统的目录协议中由目录引起的存储开销和系统复杂度.利用一些被广泛使用的测试程序,例如SPLASH2和NAS并行程序集,对JIAJIA进行的测试表明,同近期实现的共享虚拟存储系统(如CVM)比较,JIAJIA不仅具有更高的性能,而且可以解决更大规模的问题. 展开更多
关键词 虚拟存储系统 cache 一致性协议 存储器 JIAJIA
在线阅读 下载PDF
基于Cache锁和直接缓存访问的网络处理优化方法 被引量:2
2
作者 苏文 章隆兵 +1 位作者 高翔 苏孟豪 《计算机研究与发展》 EI CSCD 北大核心 2014年第3期681-690,共10页
通过分析计算机系统网络数据处理相关程序的访存行为、局部性特点和系统交互等问题,指出在高速网络环境下传统处理器网络子系统设计存在很大缺陷,并进一步提出一种基于软硬件协同设计的优化方案.该方案具体包括改进的直接缓存访问技术... 通过分析计算机系统网络数据处理相关程序的访存行为、局部性特点和系统交互等问题,指出在高速网络环境下传统处理器网络子系统设计存在很大缺陷,并进一步提出一种基于软硬件协同设计的优化方案.该方案具体包括改进的直接缓存访问技术、关键程序的cache锁策略和相应系统互连结构及一致性协议等.实验表明,与传统方案相比,基于该方案的网络TCP传输带宽提高约48%,极限情况下UDP丢包率下降40%,传输延时降低超过10%.网络测试程序在与SPEC2000测试程序并发执行情况下,网络数据带宽提高约44%.此外还讨论了该优化方案与其他网络优化技术共同使用的基本原则和相应策略. 展开更多
关键词 网络处理 直接缓存访问 cache 系统互联 I O优化
在线阅读 下载PDF
嵌入式移动数据库客户端列Cache方案研究 被引量:2
3
作者 郭鹏 彭蔓蔓 胡慧 《计算机工程与设计》 CSCD 北大核心 2006年第23期4427-4429,4436,共4页
在嵌入式环境中,有效利用客户机端Cache的空间,可以大大降低系统功耗和提高系统的性能。从体系结构级的角度,介绍了一种适应数据广播环境的移动数据库客户机端Cache管理方案——列Cache,并探讨了一种改进的替换和预取策略——带锁的循... 在嵌入式环境中,有效利用客户机端Cache的空间,可以大大降低系统功耗和提高系统的性能。从体系结构级的角度,介绍了一种适应数据广播环境的移动数据库客户机端Cache管理方案——列Cache,并探讨了一种改进的替换和预取策略——带锁的循环淘汰PIX算法,分析了其可行性,试验证明了这种方案的有效性。 展开更多
关键词 数据广播 cache 替换策略 PIX算法 锁操作
在线阅读 下载PDF
Java虚拟机中的动态锁cache优化
4
作者 林传文 顾乃杰 蔡嵩松 《中国科学技术大学学报》 CAS CSCD 北大核心 2013年第4期271-277,共7页
Java虚拟机在运行过程中使用即时编译器编译Java程序的热点方法,然后直接执行热点方法的本地代码.锁cache机制允许Java虚拟机将编译方法的本地代码锁在cache中,以提高编译执行时的指令cache命中率.通过分析Java虚拟机中编译方法的调用规... Java虚拟机在运行过程中使用即时编译器编译Java程序的热点方法,然后直接执行热点方法的本地代码.锁cache机制允许Java虚拟机将编译方法的本地代码锁在cache中,以提高编译执行时的指令cache命中率.通过分析Java虚拟机中编译方法的调用规律,得到编译方法的活跃时间段、平均大小和内存分布情况.基于编译方法的调用规律,给出Java虚拟机中的动态锁cache优化方法.在Java热点方法的活跃期将其本地代码段锁在cache中,以减少cache失效.最后,在龙芯3A的HotSpot虚拟机上实现了动态锁cache优化方法.实验结果表明,Java虚拟机中的动态锁cache优化方法能够使SPECjvm2008运行时的cache失效次数平均降低8.5%,性能平均提升4%. 展开更多
关键词 JAVA虚拟机 cache cache机制 即时编译
在线阅读 下载PDF
OpenSPARC T1处理器Cache的优化研究
5
作者 侯泽君 张多利 +2 位作者 贾鼎成 卢方全 施莹 《合肥工业大学学报(自然科学版)》 CAS CSCD 北大核心 2016年第6期786-789,共4页
文章以OpenSPARC T1处理器为例,分析了片上多线程结构(chip multi-threading,CMT)处理器由于Cache抖动引发的缓存冲突等问题,通过引入空间锁环机制,减少程序中循环体被替换出Cache的概率,降低Cache冲突,从而提高多线程处理器性能。结果... 文章以OpenSPARC T1处理器为例,分析了片上多线程结构(chip multi-threading,CMT)处理器由于Cache抖动引发的缓存冲突等问题,通过引入空间锁环机制,减少程序中循环体被替换出Cache的概率,降低Cache冲突,从而提高多线程处理器性能。结果表明,使用空间锁环机制有效降低了缓存延迟和Cache的失效率。 展开更多
关键词 OpenSPARC T1 处理器 cache 抖动 空间锁环
在线阅读 下载PDF
基于硬件cache锁机制的Java虚拟机即时编译器优化 被引量:3
6
作者 敖琪 蔡嵩松 王剑 《计算机研究与发展》 EI CSCD 北大核心 2012年第S1期185-190,共6页
Java虚拟机即时编译器以方法为单位进行编译,编译器将字节码方法编译成可执行代码,并经过数据cache存入内存中,当再次执行到该代码段时,处理器需要从包含该代码段的内存区域取指令执行,如果该内存区域在数据cache中已经建立映射,就可以... Java虚拟机即时编译器以方法为单位进行编译,编译器将字节码方法编译成可执行代码,并经过数据cache存入内存中,当再次执行到该代码段时,处理器需要从包含该代码段的内存区域取指令执行,如果该内存区域在数据cache中已经建立映射,就可以直接从数据cache中读取数据,读数据的性能就会有大幅度的提高.但是编译生成的大量可执行代码在cache中频繁替换,当生成代码被替换出cache后,代码再次执行时处理器必须访问速度较慢的主存储器,成为编译器的性能瓶颈.设计并实现了硬件cache锁机制,提出了一种软硬件协同设计的即时编译方法.通过该方法,生成代码执行时的cache失效次数降低了6.9%,SPECjvm2008中程序最高获得了17.9%的性能提升,平均性能提升4.2%. 展开更多
关键词 JAVA虚拟机 即时编译器 cache锁机制
在线阅读 下载PDF
用于多核同步优化的cache一致性协议设计
7
作者 陈李维 张广飞 +2 位作者 汪文祥 王焕东 李玲 《高技术通讯》 CAS CSCD 北大核心 2013年第11期1110-1116,共7页
通过对多核同步过程中的访存行为进行分析,提出了一种识别同步类型的方法,并设计了一种实现同步优化的新的cache一致性协议。该协议增加了一个用于记录同步信息的cache状态,通过阻塞的方式可以让多个处理器核串行地完成同步操作,保证同... 通过对多核同步过程中的访存行为进行分析,提出了一种识别同步类型的方法,并设计了一种实现同步优化的新的cache一致性协议。该协议增加了一个用于记录同步信息的cache状态,通过阻塞的方式可以让多个处理器核串行地完成同步操作,保证同步操作中原子指令能够顺利执行成功,从而大大减少由多核同步冲突引发的访存请求数量,将多核同步过程中的访存行为优化到了几乎最好的情况。实验结果表明,通过同步优化,这个新的cache一致性协议能够使多核同步的性能提升到接近最理想的结果。实验表明,相比传统的cache一致性协议,实验中采用的几个标准多核性能测试程序优化后的同步性能提升了1倍,而并行程序整体运行时间降低25%。 展开更多
关键词 同步 栅障 cache一致性协议 片上多核处理器(CMPs)
在线阅读 下载PDF
龙芯3A多核处理器系统级性能优化与分析 被引量:12
8
作者 孟小甫 高翔 +1 位作者 从明 张爽爽 《计算机研究与发展》 EI CSCD 北大核心 2012年第S1期137-142,共6页
多核处理器的性能与系统软件有着密切的联系:操作系统是处理器与应用程序之间的接口,对于充分利用处理器特性和提高应用程序的性能起着极其重要的作用;编译器与处理器体系结构密切相关,一方面要产生处理器支持的二进制代码,另一方面还... 多核处理器的性能与系统软件有着密切的联系:操作系统是处理器与应用程序之间的接口,对于充分利用处理器特性和提高应用程序的性能起着极其重要的作用;编译器与处理器体系结构密切相关,一方面要产生处理器支持的二进制代码,另一方面还要结合处理器特性产生高效运行的代码,其性能好坏直接影响着系统的整体性能.为了提高龙芯3A系统的实际性能,从操作系统和编译器着手,结合龙芯3A微结构特征,进行了一系列有效的优化.这些措施包括CC-NUMA多核操作系统的实现、操作系统二级Cache锁机制、操作系统调度共享二级Cache分配、自动向量化编译和支持预取机制的编译等.实验结果表明,在系统软件中增加对处理器特性的支持,能够充分挖掘体系结构的优势,对系统性能有较大的好处.其性能优化技术对于其他处理器的优化也有一定的借鉴价值. 展开更多
关键词 龙芯3A 自动向量化 预取 cache 性能分析
在线阅读 下载PDF
多核多线程技术综述 被引量:47
9
作者 眭俊华 刘慧娜 +1 位作者 王建鑫 秦庆旺 《计算机应用》 CSCD 北大核心 2013年第A01期239-242,261,共5页
分析了多核CPU和操作系统、并行计算以及多线程设计与开发之间的关系,结合一个新的性能评估算法,从线程并行数量、数据竞争、锁竞争、线程安全、数据传输、存储一致性等方面,详细分析了多核多线程开发中开发技术和存在的问题,并给出了... 分析了多核CPU和操作系统、并行计算以及多线程设计与开发之间的关系,结合一个新的性能评估算法,从线程并行数量、数据竞争、锁竞争、线程安全、数据传输、存储一致性等方面,详细分析了多核多线程开发中开发技术和存在的问题,并给出了对应的措施,最后简要论述和分析了多核多线程技术的发展趋势。 展开更多
关键词 多核CPU 多线程 任务调度 数据共享 锁竞争 线程安全 cache存储一致性
在线阅读 下载PDF
多核平台共享内存操作系统性能瓶颈分析及解决 被引量:3
10
作者 袁清波 赵健博 +1 位作者 陈明宇 孙凝晖 《计算机研究与发展》 EI CSCD 北大核心 2011年第12期2268-2276,共9页
共享内存操作系统使用精心设计的锁来保护各种共享数据,对这些数据的访问需要首先获得对应的锁,当内核中同时有多个流程(系统调用、内核线程或中断处理程序等)试图获得同一个锁时会产生竞争,相关流程越多竞争就越激烈.随着系统中处理单... 共享内存操作系统使用精心设计的锁来保护各种共享数据,对这些数据的访问需要首先获得对应的锁,当内核中同时有多个流程(系统调用、内核线程或中断处理程序等)试图获得同一个锁时会产生竞争,相关流程越多竞争就越激烈.随着系统中处理单元数目的增长,这些流程的数量也在不断增加,此时,对锁的竞争会影响系统的整体性能,甚至成为瓶颈.另一方面,操作系统与应用程序在同一处理器核上交替运行,因为硬件cache容量有限,导致操作系统的代码和数据经常替换掉应用程序的代码和数据.当应用程序重新被调度运行时,需从更慢速的cache,甚至从内存中读取这些代码和数据,从而降低了性能.通过在一台16核AMD节点上的相关测试,以上问题得到了量化验证,并针对这些问题提出了一种异构操作系统模型.在此模型下,应用程序和操作系统分别运行在不同的处理器核上,实验显示这种模式可以有效降低对锁的竞争和对cache的污染. 展开更多
关键词 多核 异构操作系统 锁竞争 cache 性能评测
在线阅读 下载PDF
基于统计分析的指令高速缓存优化技术 被引量:1
11
作者 陈辰 黄凯 +1 位作者 王钰博 严晓浪 《计算机工程》 CAS CSCD 2014年第10期76-80,85,共6页
针对现有高速缓存技术计算方法复杂、适用性差的问题,提出基于统计分析的指令高速缓存优化技术。采用GUN覆盖率分析工具和性能分析工具对代码进行静态分析,降低优化过程中的计算复杂度。在软件代码方面,通过优化的缓存块着色算法、地址... 针对现有高速缓存技术计算方法复杂、适用性差的问题,提出基于统计分析的指令高速缓存优化技术。采用GUN覆盖率分析工具和性能分析工具对代码进行静态分析,降低优化过程中的计算复杂度。在软件代码方面,通过优化的缓存块着色算法、地址段静态锁定、代码段选择性不缓存等技术,提高指令高速缓存的读取效率。给出缓存锁定选择排序公式,用于判断代码段是否锁定或不缓存,有效增加指令高速缓存的利用效率。实验结果表明,该优化技术能使程序执行时间平均减少8%,缓存命中率平均提高23%。 展开更多
关键词 高速缓存 优化的缓存块着色算法 过程排序 缓存锁定 选择性不缓存 缓存锁定选择排序
在线阅读 下载PDF
基于质量控制的FMS故障诊断系统设计 被引量:1
12
作者 胡文彬 周祖德 +2 位作者 陈幼平 邱静 唐丙阳 《计算机工程与应用》 CSCD 北大核心 1997年第8期66-69,共4页
本文针对FMS设备的几种主要故障,从质量控制的角度出发,设计了一个集成诊断系统。详细介绍了系统的设计思想、系统的功能模型、作为诊断系统主体的监测与诊断的硬软件结构以及为满足监测与诊断一体化的智能化信息集成系统的控制流... 本文针对FMS设备的几种主要故障,从质量控制的角度出发,设计了一个集成诊断系统。详细介绍了系统的设计思想、系统的功能模型、作为诊断系统主体的监测与诊断的硬软件结构以及为满足监测与诊断一体化的智能化信息集成系统的控制流程。该系统通过实践验证,表明了其有效性和合理性。 展开更多
关键词 FMS 故障诊断 质量控制 系统设计
在线阅读 下载PDF
嵌入式Flash读取加速技术及实现 被引量:3
13
作者 王钰博 黄凯 +3 位作者 陈辰 冯炯 葛海通 严晓浪 《浙江大学学报(工学版)》 EI CAS CSCD 北大核心 2014年第9期1570-1579,共10页
为了解决低成本和低功耗应用中的嵌入式Flash读取速度问题,提出多种基于缓存结构的嵌入式Flash读取加速技术及实现,包括低频快速访问技术、回填隐藏技术和改进型关键字优先预取策略,以及具有自适应预取功能的缓存锁定技术、预查找技... 为了解决低成本和低功耗应用中的嵌入式Flash读取速度问题,提出多种基于缓存结构的嵌入式Flash读取加速技术及实现,包括低频快速访问技术、回填隐藏技术和改进型关键字优先预取策略,以及具有自适应预取功能的缓存锁定技术、预查找技术等,通过这些技术的整合应用,在提高Flash读取性能的同时,保持较低的功耗.仿真实验证明:在占用资源(缓存容量)较少,频率较低(用于部分低功耗应用)的环境下,这些技术的应用使加速控制器的加速性能与传统的2路组相联缓存相比得到了明显的提升(20%~40%),同时加速控制器中读加速单元的动态功耗与传统2路组相联缓存相比降低了40%左右. 展开更多
关键词 嵌入式FLASH 回填隐藏 关键字优先 缓存锁定 自适应预取 预查找
在线阅读 下载PDF
基于目录的一致性协议浅析 被引量:2
14
作者 袁爱东 董建萍 《计算机工程》 CAS CSCD 北大核心 2004年第B12期80-83,共4页
分布式共享存储体系结构是当今并行计算机的主要发展方向。在注重性能指标的多处理器系统中通常采用硬件手段解决高速缓存一 致性问题。高速缓存的一致性设计成为共享存储多处理器系统的关健技术。直接关系到系统的性能、正确性和可用... 分布式共享存储体系结构是当今并行计算机的主要发展方向。在注重性能指标的多处理器系统中通常采用硬件手段解决高速缓存一 致性问题。高速缓存的一致性设计成为共享存储多处理器系统的关健技术。直接关系到系统的性能、正确性和可用性。该文介绍几种典型的 基于目录的一致性协议,并分析共享存储器多处理器系统中一致性协议的实现技术。 展开更多
关键词 高速缓存 一致性协议 目录 转发请求 死锁
在线阅读 下载PDF
高并发多线程竞争共享资源架构 被引量:17
15
作者 林平荣 陈泽荣 施晓权 《计算机工程与设计》 北大核心 2020年第11期3282-3288,共7页
针对目前高并发场景下多线程竞争共享资源出现的系统性能问题以及共享资源不一致性等问题,提出一种基于数据缓存、分布式锁、消息队列、负载均衡4种技术的高性能系统架构。采用Redis集群实现数据高速缓存和分布式锁操作,利用消息队列实... 针对目前高并发场景下多线程竞争共享资源出现的系统性能问题以及共享资源不一致性等问题,提出一种基于数据缓存、分布式锁、消息队列、负载均衡4种技术的高性能系统架构。采用Redis集群实现数据高速缓存和分布式锁操作,利用消息队列实现通信异步和流量削峰,LVS和Nginx实现高可用的负载均衡。实验结果表明,该架构能有效提升系统性能,保证共享资源的安全性和一致性。 展开更多
关键词 高并发 Redis集群 数据缓存 分布式锁 消息队列 负载均衡
在线阅读 下载PDF
龙芯处理器上的TLB性能优化技术 被引量:1
16
作者 张晓辉 程归鹏 从明 《计算机研究与发展》 EI CSCD 北大核心 2011年第S1期322-327,共6页
TLB(translation look-aside buffer)是分页式虚拟存储系统用于加速虚实地址转换的必不可少的性能优化部件.TLB处于访存的关键路径上,对系统性能有着至关重要的影响.同时TLB失效开销大,是龙芯处理器的系统性能瓶颈.因此,优化系统TLB的... TLB(translation look-aside buffer)是分页式虚拟存储系统用于加速虚实地址转换的必不可少的性能优化部件.TLB处于访存的关键路径上,对系统性能有着至关重要的影响.同时TLB失效开销大,是龙芯处理器的系统性能瓶颈.因此,优化系统TLB的性能对于龙芯处理器系统性能的提升意义重大.实现了龙芯处理器上通过减少TLB失效次数以及降低TLB失效开销的TLB性能优化方法而分别采用的超页技术和软TLB技术,以及结合龙芯3号处理器新增的锁L2cache功能,进一步优化了的软TLB技术. 展开更多
关键词 龙芯处理器 TLB 超页技术 软TLB 锁L2cache 龙芯3号处理器
在线阅读 下载PDF
基于Supersonic的并行分组聚集
17
作者 张兵 孙辉 +3 位作者 范旭 李翠平 陈红 王雯 《计算机应用》 CSCD 北大核心 2016年第1期13-20,共8页
针对在分析型联机分析处理(OLAP)应用中频繁出现的数据密集型操作符——分组聚集耗时较多的问题,提出Cache友好的分组聚集算法对该操作进行性能优化。首先,为充分发挥列存储在数据密集型计算方面的优势,采用基于开源的列存储查询执行引... 针对在分析型联机分析处理(OLAP)应用中频繁出现的数据密集型操作符——分组聚集耗时较多的问题,提出Cache友好的分组聚集算法对该操作进行性能优化。首先,为充分发挥列存储在数据密集型计算方面的优势,采用基于开源的列存储查询执行引擎Supersonic,并在此之上设计Cache友好的分组聚集算法;其次,为加速查询的执行,使用并行技术,将单线程的分组聚集算法改为多线程并行的分组聚集算法。基于Supersonic设计并实现4种并行分组聚集算法:无共享Hash表并行分组聚集(NSHPGA)算法、表锁共享Hash表并行分组聚集(TLSHPGA)算法、桶锁共享Hash表并行分组聚集(BLSHPGA)算法、节点锁共享Hash表并行分组聚集(NLSHPGA)算法,且在不同的分组势集、不同的线程数的情况下,针对上述4种算法做了多组实验。通过对比3种不同粒度的共享Hash表并行分组聚集算法的加速比,得出NLSHPGA算法在加速比和并发度两方面表现最好,部分查询可达到10倍加速比;通过比较NSHPGA算法和NLSHPGA算法的加速比、Cache miss内存使用等情况,得出NLSHPGA算法在分组势集大于8时,加速比超过NSHPGA算法,并且Cache miss更低,使用的内存更少。 展开更多
关键词 并行分组聚集 SUPERSONIC 节点锁 列存储 cache友好
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部