期刊导航
期刊开放获取
上海教育软件发展有限公..
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
2
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
基于高预测性的稀疏矩阵向量乘法并行计算优化
被引量:
2
1
作者
夏天
付格林
+2 位作者
曲劭儒
罗中沛
任鹏举
《计算机研究与发展》
EI
CSCD
北大核心
2023年第9期1973-1987,共15页
稀疏矩阵向量乘法(sparse matrix-vector multiplication,SpMV)是广泛应用于科学计算、工业仿真和智能计算等领域的重要算法,是核心的计算行为之一.在一些应用场景中,需要进行多次的SpMV迭代,以完成精确的数值模拟、线性代数求解和图分...
稀疏矩阵向量乘法(sparse matrix-vector multiplication,SpMV)是广泛应用于科学计算、工业仿真和智能计算等领域的重要算法,是核心的计算行为之一.在一些应用场景中,需要进行多次的SpMV迭代,以完成精确的数值模拟、线性代数求解和图分析收敛等计算要求.受限于SpMV本身的高度随机性和稀疏性所导致的数据局部性极差、缓存效率极低、计算模式非常不规则等问题,导致其计算负载成为当前高性能处理器的优化难点和研究热点.基于现代高性能超标量乱序处理器的架构特征,深入研究SpMV的各类性能瓶颈,并且提出从提升可预测性和降低程序复杂度的角度进行全面的性能优化.其核心思想是:通过构建串行访问的数据结构,提升数据访问的规律性和局部性,大幅度优化数据预取效率和缓存利用效率;通过构建规则的分支跳转条件,提升程序的分支预测准确率,有效提升程序执行效率;通过灵活运用SIMD指令集,有效提升计算资源利用率.通过对以上特性的优化,该方法可以显著缓解性能瓶颈,大幅度提升处理器资源、缓存资源和访存带宽的利用率,并且获得与主流商用计算库MKL相比平均2.6倍的加速比,相比于现有最先进算法获得平均1.3倍的加速比.
展开更多
关键词
矩阵
向量乘法
稀疏矩阵计算
矩阵
格式
分支预测
数据预取
在线阅读
下载PDF
职称材料
稀疏矩阵向量乘法在申威众核架构上的性能优化
被引量:
15
2
作者
李亿渊
薛巍
+4 位作者
陈德训
王欣亮
许平
张武生
杨广文
《计算机学报》
EI
CSCD
北大核心
2020年第6期1037-1051,共15页
计算机数值模拟是现代科学和技术发展的重要触发力量.在数值模拟中,求解大规模稀疏线性方程组是非常重要的一个环节.迭代求解过程中稀疏矩阵向量乘法是耗时最长的计算核心之一,存在严重的数据局部性差、写冲突、负载不均衡等问题.因此,...
计算机数值模拟是现代科学和技术发展的重要触发力量.在数值模拟中,求解大规模稀疏线性方程组是非常重要的一个环节.迭代求解过程中稀疏矩阵向量乘法是耗时最长的计算核心之一,存在严重的数据局部性差、写冲突、负载不均衡等问题.因此,稀疏矩阵向量乘法已经成为了当前性能优化的难点和研究热点.本文面向国产众核处理器架构,以申威26010国产众核处理器为平台,针对稀疏矩阵向量乘法,在线程级和指令级并行层面上进行细粒度的并行算法设计和优化实现.其核心思想是,将众核架构设计精巧的矩阵分层分块技术用于矩阵存储、访问和任务调度,在保证右端向量数据复用的同时有效实现了负载均衡,避免了申威26010上因频繁缓存判断和细粒度访问导致的潜在性能问题.通过对SuiteSparse矩阵集合中的2710个算例的测试,该算法可以获得与主核上的串行算法相比11.7倍的平均加速和55倍的最高加速.
展开更多
关键词
申威众核处理器
并行
计算
矩阵
向量乘法
矩阵
格式
稀疏矩阵计算
在线阅读
下载PDF
职称材料
题名
基于高预测性的稀疏矩阵向量乘法并行计算优化
被引量:
2
1
作者
夏天
付格林
曲劭儒
罗中沛
任鹏举
机构
人机混合增强智能全国重点实验室(西安交通大学)
视觉信息与应用国家工程研究中心(西安交通大学)
西安交通大学人工智能与机器人研究所
出处
《计算机研究与发展》
EI
CSCD
北大核心
2023年第9期1973-1987,共15页
基金
国家重点研发计划项目(2022YFB4500500)
陕西省重点研发计划项目(2022ZDLGY01-08)。
文摘
稀疏矩阵向量乘法(sparse matrix-vector multiplication,SpMV)是广泛应用于科学计算、工业仿真和智能计算等领域的重要算法,是核心的计算行为之一.在一些应用场景中,需要进行多次的SpMV迭代,以完成精确的数值模拟、线性代数求解和图分析收敛等计算要求.受限于SpMV本身的高度随机性和稀疏性所导致的数据局部性极差、缓存效率极低、计算模式非常不规则等问题,导致其计算负载成为当前高性能处理器的优化难点和研究热点.基于现代高性能超标量乱序处理器的架构特征,深入研究SpMV的各类性能瓶颈,并且提出从提升可预测性和降低程序复杂度的角度进行全面的性能优化.其核心思想是:通过构建串行访问的数据结构,提升数据访问的规律性和局部性,大幅度优化数据预取效率和缓存利用效率;通过构建规则的分支跳转条件,提升程序的分支预测准确率,有效提升程序执行效率;通过灵活运用SIMD指令集,有效提升计算资源利用率.通过对以上特性的优化,该方法可以显著缓解性能瓶颈,大幅度提升处理器资源、缓存资源和访存带宽的利用率,并且获得与主流商用计算库MKL相比平均2.6倍的加速比,相比于现有最先进算法获得平均1.3倍的加速比.
关键词
矩阵
向量乘法
稀疏矩阵计算
矩阵
格式
分支预测
数据预取
Keywords
matrix-vector multiplication
sparse matrix computation
matrix format
branch prediction
data prefetching
分类号
TP391 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
稀疏矩阵向量乘法在申威众核架构上的性能优化
被引量:
15
2
作者
李亿渊
薛巍
陈德训
王欣亮
许平
张武生
杨广文
机构
清华大学计算机科学与技术系
国家超级计算无锡中心
出处
《计算机学报》
EI
CSCD
北大核心
2020年第6期1037-1051,共15页
基金
国家电网公司科技项目“适应于电力系统应用的高性能计算技术研究与开发”(合同号:XT71-19-022)资助.
文摘
计算机数值模拟是现代科学和技术发展的重要触发力量.在数值模拟中,求解大规模稀疏线性方程组是非常重要的一个环节.迭代求解过程中稀疏矩阵向量乘法是耗时最长的计算核心之一,存在严重的数据局部性差、写冲突、负载不均衡等问题.因此,稀疏矩阵向量乘法已经成为了当前性能优化的难点和研究热点.本文面向国产众核处理器架构,以申威26010国产众核处理器为平台,针对稀疏矩阵向量乘法,在线程级和指令级并行层面上进行细粒度的并行算法设计和优化实现.其核心思想是,将众核架构设计精巧的矩阵分层分块技术用于矩阵存储、访问和任务调度,在保证右端向量数据复用的同时有效实现了负载均衡,避免了申威26010上因频繁缓存判断和细粒度访问导致的潜在性能问题.通过对SuiteSparse矩阵集合中的2710个算例的测试,该算法可以获得与主核上的串行算法相比11.7倍的平均加速和55倍的最高加速.
关键词
申威众核处理器
并行
计算
矩阵
向量乘法
矩阵
格式
稀疏矩阵计算
Keywords
Sunway many-core architecture
sparse-matrix computation
Sparse Matrix-Vector Multiplication
Matrix format
parallel computing
分类号
TP391 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
基于高预测性的稀疏矩阵向量乘法并行计算优化
夏天
付格林
曲劭儒
罗中沛
任鹏举
《计算机研究与发展》
EI
CSCD
北大核心
2023
2
在线阅读
下载PDF
职称材料
2
稀疏矩阵向量乘法在申威众核架构上的性能优化
李亿渊
薛巍
陈德训
王欣亮
许平
张武生
杨广文
《计算机学报》
EI
CSCD
北大核心
2020
15
在线阅读
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部