期刊导航
期刊开放获取
上海教育软件发展有限公..
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
3
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
异构环境下MPI程序Cache访问的单机模拟
1
作者
胡晨光
郑启龙
+3 位作者
许胤龙
姚震
姚再勇
张红涛
《计算机工程》
CAS
CSCD
北大核心
2007年第14期54-56,共3页
Cache模拟工具可以在单机上模拟运行于异构环境下的并行程序的Cache访问。用户依照自己的需求指定Cache模型参数及替换算法,对每个进程中的某一段进行模拟,使并行程序中每个或每组子进程/线程分别对应一个Cache模型,从而同时得到每个或...
Cache模拟工具可以在单机上模拟运行于异构环境下的并行程序的Cache访问。用户依照自己的需求指定Cache模型参数及替换算法,对每个进程中的某一段进行模拟,使并行程序中每个或每组子进程/线程分别对应一个Cache模型,从而同时得到每个或每组子进程/线程的Cache访问参数。使用单机Cache模拟环境降低了并行程序的Cache模拟对实际并行环境的依赖。同时,用户还可以很方便地在其基础上扩展并使用自行开发的替换算法或进程通信模块功能,适应了不同用户对并行程序Cache模拟工具的需要。
展开更多
关键词
cache模拟
MPI程序
异构环境
在线阅读
下载PDF
职称材料
一种基于Trace精度改进的内存系统模拟器优化方法
2
作者
卢天越
陈荔城
陈明宇
《计算机研究与发展》
EI
CSCD
北大核心
2014年第S1期99-104,共6页
随着计算机系统规模的不断增长,计算机系统结构的研究对于如何更有效地利用各个部件的性能显得尤为重要.但是在系统结构的研究中,由于研究对象规模过大,采用模拟器进行模拟测试是一种常用的方法.但是在使用全系统模拟器的时候,将整个系...
随着计算机系统规模的不断增长,计算机系统结构的研究对于如何更有效地利用各个部件的性能显得尤为重要.但是在系统结构的研究中,由于研究对象规模过大,采用模拟器进行模拟测试是一种常用的方法.但是在使用全系统模拟器的时候,将整个系统进行模拟会造成实验效率的降低和模拟器程序的维护困难.因此,使用基于trace输入的模拟器成为了一种提高模拟器效率的常用方法,但是由于trace不能良好地表现计算机系统某些部分的运行特性,难以避免地存在一定的模拟误差.对此,提出了一种基于trace精度改进的内存系统模拟器优化方法,通过增加trace中包含的内容、提高trace的精度并在内存系统模拟器中实现相应的支持机制,从而在不影响模拟器运行效率的情况下提高内存系统模拟器的运行精度.
展开更多
关键词
内存系统
模拟
器
内存trace
cache模拟
指令依赖
访存粒度
在线阅读
下载PDF
职称材料
基于PPR模型的稀疏矩阵向量乘及卷积性能优化研究
被引量:
5
3
作者
谢震
谭光明
孙凝晖
《计算机研究与发展》
EI
CSCD
北大核心
2021年第3期445-457,共13页
稀疏矩阵向量乘和卷积作为高性能计算的两大计算核心,是非规则和规则访存的典型代表.目前已经做了许多针对性的优化工作,但是对于大量运行着不同指令集和拥有不同计算和访存性能的机器,仍然无法判定在特定的体系结构下导致性能效率无法...
稀疏矩阵向量乘和卷积作为高性能计算的两大计算核心,是非规则和规则访存的典型代表.目前已经做了许多针对性的优化工作,但是对于大量运行着不同指令集和拥有不同计算和访存性能的机器,仍然无法判定在特定的体系结构下导致性能效率无法被完全释放的主要原因及性能瓶颈,同时也很难准确预测出程序在特定机器上可达到的最佳性能.通过使用性能模型方法,建模程序在真实机器上的运行细节,可以得出更加精确的性能预测,并且根据模型输出的反馈信息提出针对性的优化指导.提出了PPR(probability-process-ram)模型,并在一个通用处理器上建模程序内指令执行和数据传输开销,其中包括使用模型预测各种指令数量及内存层次之间的数据传输大小去分析程序各个阶段的性能瓶颈,并且根据模型反馈的信息提出优化方案以及优化后的性能期望.最终使用PPR建模和优化2个计算核心,同时也比较了与常用的Roofline和ECM模型的区别.
展开更多
关键词
性能模型
反馈优化
稀疏矩阵向量乘
卷积
cache模拟
器
在线阅读
下载PDF
职称材料
题名
异构环境下MPI程序Cache访问的单机模拟
1
作者
胡晨光
郑启龙
许胤龙
姚震
姚再勇
张红涛
机构
中国科学技术大学计算机科学技术系国家高性能计算中心(合肥)
出处
《计算机工程》
CAS
CSCD
北大核心
2007年第14期54-56,共3页
基金
安徽省2005-2006年度自然科学基金资助项目"高性能计算中泛型消息传递接口的研制"(050420205)
文摘
Cache模拟工具可以在单机上模拟运行于异构环境下的并行程序的Cache访问。用户依照自己的需求指定Cache模型参数及替换算法,对每个进程中的某一段进行模拟,使并行程序中每个或每组子进程/线程分别对应一个Cache模型,从而同时得到每个或每组子进程/线程的Cache访问参数。使用单机Cache模拟环境降低了并行程序的Cache模拟对实际并行环境的依赖。同时,用户还可以很方便地在其基础上扩展并使用自行开发的替换算法或进程通信模块功能,适应了不同用户对并行程序Cache模拟工具的需要。
关键词
cache模拟
MPI程序
异构环境
Keywords
cache
simulation
MPI programs
heterogeneous environment
分类号
TP311 [自动化与计算机技术—计算机软件与理论]
在线阅读
下载PDF
职称材料
题名
一种基于Trace精度改进的内存系统模拟器优化方法
2
作者
卢天越
陈荔城
陈明宇
机构
中国科学院计算技术研究所先进计算机系统研究中心
中国科学院大学
出处
《计算机研究与发展》
EI
CSCD
北大核心
2014年第S1期99-104,共6页
基金
国家自然科学基金项目(61272132
61221062)
+1 种基金
国家"九七三"重点基础研究发展计划基金项目(2011CB302502)
中国科学院战略性先导专项课题(XDA06010401)
文摘
随着计算机系统规模的不断增长,计算机系统结构的研究对于如何更有效地利用各个部件的性能显得尤为重要.但是在系统结构的研究中,由于研究对象规模过大,采用模拟器进行模拟测试是一种常用的方法.但是在使用全系统模拟器的时候,将整个系统进行模拟会造成实验效率的降低和模拟器程序的维护困难.因此,使用基于trace输入的模拟器成为了一种提高模拟器效率的常用方法,但是由于trace不能良好地表现计算机系统某些部分的运行特性,难以避免地存在一定的模拟误差.对此,提出了一种基于trace精度改进的内存系统模拟器优化方法,通过增加trace中包含的内容、提高trace的精度并在内存系统模拟器中实现相应的支持机制,从而在不影响模拟器运行效率的情况下提高内存系统模拟器的运行精度.
关键词
内存系统
模拟
器
内存trace
cache模拟
指令依赖
访存粒度
Keywords
memory system simulator
memory trace
cache
simulation
instructions dependency
memory access granularity
分类号
TP391.9 [自动化与计算机技术—计算机应用技术]
TP333 [自动化与计算机技术—计算机系统结构]
在线阅读
下载PDF
职称材料
题名
基于PPR模型的稀疏矩阵向量乘及卷积性能优化研究
被引量:
5
3
作者
谢震
谭光明
孙凝晖
机构
计算机体系结构国家重点实验室(中国科学院计算技术研究所)
中国科学院计算技术研究所
中国科学院大学计算机与控制学院
出处
《计算机研究与发展》
EI
CSCD
北大核心
2021年第3期445-457,共13页
基金
国家重点研发项目(2018YFB0204400)
中国科学院战略性先导科技专项(C类)(XDC05010100)
国家自然科学基金项目(62032023,61972377,61702483)。
文摘
稀疏矩阵向量乘和卷积作为高性能计算的两大计算核心,是非规则和规则访存的典型代表.目前已经做了许多针对性的优化工作,但是对于大量运行着不同指令集和拥有不同计算和访存性能的机器,仍然无法判定在特定的体系结构下导致性能效率无法被完全释放的主要原因及性能瓶颈,同时也很难准确预测出程序在特定机器上可达到的最佳性能.通过使用性能模型方法,建模程序在真实机器上的运行细节,可以得出更加精确的性能预测,并且根据模型输出的反馈信息提出针对性的优化指导.提出了PPR(probability-process-ram)模型,并在一个通用处理器上建模程序内指令执行和数据传输开销,其中包括使用模型预测各种指令数量及内存层次之间的数据传输大小去分析程序各个阶段的性能瓶颈,并且根据模型反馈的信息提出优化方案以及优化后的性能期望.最终使用PPR建模和优化2个计算核心,同时也比较了与常用的Roofline和ECM模型的区别.
关键词
性能模型
反馈优化
稀疏矩阵向量乘
卷积
cache模拟
器
Keywords
performance model
feedback optimization
sparse matrix-vector multiplication
convolu-tion
cache
simulator
分类号
TP391 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
异构环境下MPI程序Cache访问的单机模拟
胡晨光
郑启龙
许胤龙
姚震
姚再勇
张红涛
《计算机工程》
CAS
CSCD
北大核心
2007
0
在线阅读
下载PDF
职称材料
2
一种基于Trace精度改进的内存系统模拟器优化方法
卢天越
陈荔城
陈明宇
《计算机研究与发展》
EI
CSCD
北大核心
2014
0
在线阅读
下载PDF
职称材料
3
基于PPR模型的稀疏矩阵向量乘及卷积性能优化研究
谢震
谭光明
孙凝晖
《计算机研究与发展》
EI
CSCD
北大核心
2021
5
在线阅读
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部