期刊文献+
共找到3篇文章
< 1 >
每页显示 20 50 100
异构环境下MPI程序Cache访问的单机模拟
1
作者 胡晨光 郑启龙 +3 位作者 许胤龙 姚震 姚再勇 张红涛 《计算机工程》 CAS CSCD 北大核心 2007年第14期54-56,共3页
Cache模拟工具可以在单机上模拟运行于异构环境下的并行程序的Cache访问。用户依照自己的需求指定Cache模型参数及替换算法,对每个进程中的某一段进行模拟,使并行程序中每个或每组子进程/线程分别对应一个Cache模型,从而同时得到每个或... Cache模拟工具可以在单机上模拟运行于异构环境下的并行程序的Cache访问。用户依照自己的需求指定Cache模型参数及替换算法,对每个进程中的某一段进行模拟,使并行程序中每个或每组子进程/线程分别对应一个Cache模型,从而同时得到每个或每组子进程/线程的Cache访问参数。使用单机Cache模拟环境降低了并行程序的Cache模拟对实际并行环境的依赖。同时,用户还可以很方便地在其基础上扩展并使用自行开发的替换算法或进程通信模块功能,适应了不同用户对并行程序Cache模拟工具的需要。 展开更多
关键词 cache模拟 MPI程序 异构环境
在线阅读 下载PDF
一种基于Trace精度改进的内存系统模拟器优化方法
2
作者 卢天越 陈荔城 陈明宇 《计算机研究与发展》 EI CSCD 北大核心 2014年第S1期99-104,共6页
随着计算机系统规模的不断增长,计算机系统结构的研究对于如何更有效地利用各个部件的性能显得尤为重要.但是在系统结构的研究中,由于研究对象规模过大,采用模拟器进行模拟测试是一种常用的方法.但是在使用全系统模拟器的时候,将整个系... 随着计算机系统规模的不断增长,计算机系统结构的研究对于如何更有效地利用各个部件的性能显得尤为重要.但是在系统结构的研究中,由于研究对象规模过大,采用模拟器进行模拟测试是一种常用的方法.但是在使用全系统模拟器的时候,将整个系统进行模拟会造成实验效率的降低和模拟器程序的维护困难.因此,使用基于trace输入的模拟器成为了一种提高模拟器效率的常用方法,但是由于trace不能良好地表现计算机系统某些部分的运行特性,难以避免地存在一定的模拟误差.对此,提出了一种基于trace精度改进的内存系统模拟器优化方法,通过增加trace中包含的内容、提高trace的精度并在内存系统模拟器中实现相应的支持机制,从而在不影响模拟器运行效率的情况下提高内存系统模拟器的运行精度. 展开更多
关键词 内存系统模拟 内存trace cache模拟 指令依赖 访存粒度
在线阅读 下载PDF
基于PPR模型的稀疏矩阵向量乘及卷积性能优化研究 被引量:5
3
作者 谢震 谭光明 孙凝晖 《计算机研究与发展》 EI CSCD 北大核心 2021年第3期445-457,共13页
稀疏矩阵向量乘和卷积作为高性能计算的两大计算核心,是非规则和规则访存的典型代表.目前已经做了许多针对性的优化工作,但是对于大量运行着不同指令集和拥有不同计算和访存性能的机器,仍然无法判定在特定的体系结构下导致性能效率无法... 稀疏矩阵向量乘和卷积作为高性能计算的两大计算核心,是非规则和规则访存的典型代表.目前已经做了许多针对性的优化工作,但是对于大量运行着不同指令集和拥有不同计算和访存性能的机器,仍然无法判定在特定的体系结构下导致性能效率无法被完全释放的主要原因及性能瓶颈,同时也很难准确预测出程序在特定机器上可达到的最佳性能.通过使用性能模型方法,建模程序在真实机器上的运行细节,可以得出更加精确的性能预测,并且根据模型输出的反馈信息提出针对性的优化指导.提出了PPR(probability-process-ram)模型,并在一个通用处理器上建模程序内指令执行和数据传输开销,其中包括使用模型预测各种指令数量及内存层次之间的数据传输大小去分析程序各个阶段的性能瓶颈,并且根据模型反馈的信息提出优化方案以及优化后的性能期望.最终使用PPR建模和优化2个计算核心,同时也比较了与常用的Roofline和ECM模型的区别. 展开更多
关键词 性能模型 反馈优化 稀疏矩阵向量乘 卷积 cache模拟
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部