期刊导航
期刊开放获取
上海教育软件发展有限公..
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
10
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
面向SW26010-Pro众核处理器的新型矩阵存储格式及稀疏矩阵向量乘(SpMV)算法研究
1
作者
王萃
刘芳芳
+2 位作者
马文静
赵玉文
胡力娟
《计算机学报》
北大核心
2025年第6期1290-1304,共15页
稀疏矩阵向量乘(Sparse Matrix-Vector Multiplication,SpMV)是高性能计算、人工智能大模型领域中的关键操作,其性能通常对应用程序整体性能的提升具有重要影响。高效的稀疏矩阵存储格式是影响SpMV性能的重要因素,然而,现有的稀疏矩阵...
稀疏矩阵向量乘(Sparse Matrix-Vector Multiplication,SpMV)是高性能计算、人工智能大模型领域中的关键操作,其性能通常对应用程序整体性能的提升具有重要影响。高效的稀疏矩阵存储格式是影响SpMV性能的重要因素,然而,现有的稀疏矩阵存储格式主要通过压缩零元素以减少访存,未充分利用非零元素的数值规律,因此仍有进一步压缩和优化的空间。本文通过对压缩稀疏行(Compressed Sparse Row,CSR)存储格式中非零元数组内的重复元素进行进一步的压缩,提出了一种新型的稀疏矩阵存储格式(Further Compressed Sparse Row,FCSR),并设计了从CSR到FCSR格式转换的异构并行算法,以尽量减少格式转换带来的开销。同时,本文面向SW26010-Pro众核处理器,设计了基于FCSR存储格式的SpMV异构并行算法,对SpMV进行了细粒度的任务划分和并行优化设计,探究了五种向量x的间接访存方式,并通过双缓冲技术对算法进行了优化。最后,本文选用SuiteSparse矩阵集中的稀疏矩阵进行了测试,实验结果表明,本文提出的基于FCSR存储格式的异构众核SpMV算法相较于主核版SpMV算法具有明显的性能提升,最高加速比达到43.11,平均加速比为7.56,测试矩阵最高带宽利用率达到了91.13%,平均带宽利用率为26.27%。另外,本文对基于FCSR存储格式和CSR存储格式的SpMV算法性能进行了比较,在两者均得到充分优化的前提下,基于FCSR存储格式的SpMV算法相较于基于CSR存储格式的SpMV算法性能的平均加速比达到1.19。
展开更多
关键词
稀疏矩阵向量乘
SW26010-Pro众核处理器
新型矩阵存储格式
并行优化
双缓冲技术
在线阅读
下载PDF
职称材料
时空图卷积网络的骨架识别硬件加速器设计
2
作者
谭会生
严舒琪
杨威
《电子测量技术》
北大核心
2024年第11期36-43,共8页
随着人工智能技术的不断发展,神经网络的数据规模逐渐扩大,神经网络的计算量也迅速攀升。为了减少时空图卷积神经网络的计算量,降低硬件实现的资源消耗,提升人体骨架识别时空图卷积神经网络(ST-GCN)实际应用系统的处理速度,利用现场可...
随着人工智能技术的不断发展,神经网络的数据规模逐渐扩大,神经网络的计算量也迅速攀升。为了减少时空图卷积神经网络的计算量,降低硬件实现的资源消耗,提升人体骨架识别时空图卷积神经网络(ST-GCN)实际应用系统的处理速度,利用现场可编程门阵列(FPGA),设计开发了一个基于时空图卷积神经网络的骨架识别硬件加速器。通过对原网络模型进行结构优化与数据量化,减少了FPGA实现约75%的计算量;利用邻接矩阵稀疏性的特点,提出了一种稀疏性矩阵乘加运算的优化方法,减少了约60%的乘法器资源消耗。经过对人体骨架识别实验验证,结果表明,在时钟频率100 MHz下,相较于CPU,FPGA加速ST-GCN单元,加速比达到30.53;FPGA加速人体骨架识别,加速比达到6.86。
展开更多
关键词
人体骨架识别
时空图卷积神经网络(ST-GCN)
硬件加速器
现场可编程门阵列(FPGA)
稀疏矩阵乘加运算硬件优化
在线阅读
下载PDF
职称材料
SpMV计算的ARM和FPGA异构加速器设计
3
作者
朱明达
薛济擎
艾纯瑶
《电讯技术》
北大核心
2024年第2期302-309,共8页
针对稀疏矩阵向量乘(Sparse Matrix-Vector Multiplication,SpMV)在边缘端实施效率不高的问题,以稀疏矩阵的存储格式、SpMV的现场可编程门阵列(Field Programmable Gate Array,FPGA)加速为研究对象,提出了一种多端口改进的行压缩存储格...
针对稀疏矩阵向量乘(Sparse Matrix-Vector Multiplication,SpMV)在边缘端实施效率不高的问题,以稀疏矩阵的存储格式、SpMV的现场可编程门阵列(Field Programmable Gate Array,FPGA)加速为研究对象,提出了一种多端口改进的行压缩存储格式(Modified Compressed Sparse Row Format,MCSR)与ARM+FPGA架构任务级数据级硬件优化相结合的加速方法。使用多个端口并行存取数据来提高计算并行度;使用数据流、循环流水实现循环间、循环内的并行加速;使用数组分割、流传输实现数据的细粒度并行缓存与计算;使用ARM+FPGA架构,ARM完成对系统的控制,将计算卸载到FPGA并行加速。实验结果表明,并行加速优化后的ARM+FPGA方案相较于单ARM方案最高可达10倍的加速效果,而且增加的资源消耗在可接受范围内,矩阵规模越大非零值越多加速效果越明显。研究成果在边缘端实施SpMV计算方面有一定实用价值。
展开更多
关键词
稀疏矩阵向量乘(SpMV)
异构加速器
硬件加速
在线阅读
下载PDF
职称材料
基于异构平台的稀疏矩阵向量乘自适应计算优化
被引量:
1
4
作者
李博
黄建强
+1 位作者
黄东强
王晓英
《计算机应用》
CSCD
北大核心
2024年第12期3867-3875,共9页
稀疏矩阵向量乘(SpMV)是一种重要的数值线性代数运算,现有的优化存在预处理及通信时间考虑不全面、存储结构不具有普适性等问题。为了解决这些问题,提出异构平台下SpMV的自适应优化方案。所提方案利用皮尔逊相关系数确定相关度高的特征...
稀疏矩阵向量乘(SpMV)是一种重要的数值线性代数运算,现有的优化存在预处理及通信时间考虑不全面、存储结构不具有普适性等问题。为了解决这些问题,提出异构平台下SpMV的自适应优化方案。所提方案利用皮尔逊相关系数确定相关度高的特征参数,并使用基于梯度提升决策树(GBDT)的极端梯度提升(XGBoost)和轻量级梯度提升(LightGBM)算法训练预测模型,以确定某一稀疏矩阵更优的存储格式。利用网格搜索确定模型训练时更优的模型超参数,使这2种算法选择更适合的存储结构的准确率都超过85%。此外,对于预测存储结构为混合(HYB)格式的稀疏矩阵,在GPU和CPU上分别计算其中的等长列(ELL)与坐标(COO)存储格式部分,建立基于CPU+GPU的并行混合计算模式;同时为小数据量的稀疏矩阵选择硬件平台,提高运算速度。实验结果表明,自适应计算优化相较于cuSPARSE库中的压缩稀疏行(CSR)存储格式计算的平均加速比可以达到1.4,相较于按照HYB和ELL存储格式计算的平均加速比则可以分别达到2.1和2.6。
展开更多
关键词
稀疏矩阵向量乘
自适应优化
皮尔逊相关系数
极端梯度提升
轻量级梯度提升机器学习
在线阅读
下载PDF
职称材料
一种不规则稀疏矩阵的SpMV方法
5
作者
施禹
董攀
张利军
《计算机工程与科学》
CSCD
北大核心
2024年第7期1175-1184,共10页
稀疏矩阵-向量乘法SpMV是高性能计算领域的关键算子之一,在新兴的深度学习领域中有着重要应用。现有SpMV算子通常采用行列相等的稀疏矩阵,而对于不规则形状稀疏矩阵(行数与列数不等)的研究仍存在空缺,值得进一步深入探讨。相比于行列相...
稀疏矩阵-向量乘法SpMV是高性能计算领域的关键算子之一,在新兴的深度学习领域中有着重要应用。现有SpMV算子通常采用行列相等的稀疏矩阵,而对于不规则形状稀疏矩阵(行数与列数不等)的研究仍存在空缺,值得进一步深入探讨。相比于行列相等的稀疏矩阵,不规则形状稀疏矩阵凭借其行数与列数不对等的稀疏特点具有进一步优化的空间。因此,针对这种行数与列数不对等的不规则形状稀疏矩阵建立SpMV性能模型,分析得到其出现性能瓶颈的原因在于缓存和内存之间数据交互的带宽不足。同时做了以下2个方面的优化工作:(1)基于常用稀疏矩阵CSR存储格式,提出新型RCSR存储格式,其针对CSR存储格式中一个制约性能的数组进行了变换和压缩,使得SpMV更加高效;(2)结合国产处理器的SIMD指令扩展设计了基于RCSR格式的SpMV优化算法。在国产飞腾处理器上分别使用规则和不规则稀疏矩阵进行测试,在规则稀疏矩阵的情况下,通过采用RCSR存储格式和SIMD加速指令集,以GFLOPS为性能指标,实现了平均83.35%的性能提升;在不规则稀疏矩阵的情况下,性能提升与行列比相关,在行列不对等加剧时,具有更为明显的优化效果。
展开更多
关键词
稀疏矩阵
不规则矩阵
向量乘法
多核性能
性能优化
在线阅读
下载PDF
职称材料
面向国产申威26010众核处理器的SpMV实现与优化
被引量:
13
6
作者
刘芳芳
杨超
+2 位作者
袁欣辉
吴长茂
敖玉龙
《软件学报》
EI
CSCD
北大核心
2018年第12期3921-3932,共12页
世界首台峰值性能超过100P的超级计算机——神威太湖之光已经研制完成,该超级计算机采用了国产申威异构众核处理器,该处理器不同于现有的纯CPU,CPU-MIC,CPU-GPU架构,采用了主-从核架构,单处理器峰值计算能力为3TFlops/s,访存带宽为130GB...
世界首台峰值性能超过100P的超级计算机——神威太湖之光已经研制完成,该超级计算机采用了国产申威异构众核处理器,该处理器不同于现有的纯CPU,CPU-MIC,CPU-GPU架构,采用了主-从核架构,单处理器峰值计算能力为3TFlops/s,访存带宽为130GB/s.稀疏矩阵向量乘SpMV(sparse matrix-vector multiplication)是科学与工程计算中的一个非常重要的核心函数,众所周知,其是带宽受限型的,且存在间接访存操作.国产申威处理器给稀疏矩阵向量乘的高效实现带来了很大的挑战.针对申威处理器提出了一种CSR格式SpMV操作的通用异构众核并行算法,该算法从任务划分、LDM空间划分方面进行精细设计,提出了一套动静态buffer的缓存机制以提升向量x的访存命中率,提出了一套动静态的任务调度方法以实现负载均衡.另外还分析了该算法中影响SpMV性能的几个关键因素,并开展了自适应优化,进一步提升了性能.采用Matrix Market矩阵集中具有代表性的16个稀疏矩阵进行了测试,相比主核版最高有10倍左右的加速,平均加速比为6.51.通过采用主核版CSR格式SpMV的访存量进行分析,测试矩阵最高可达该处理器实测带宽的86%,平均可达到47%.
展开更多
关键词
稀疏矩阵向量乘
SpMV
申威26010处理器
异构众核并行
自适应优化
在线阅读
下载PDF
职称材料
基于GPU的高性能稀疏矩阵向量乘及CG求解器优化
被引量:
7
7
作者
王迎瑞
任江勇
田荣
《计算机科学》
CSCD
北大核心
2013年第3期46-49,共4页
以有限元/有限差分等为代表的一类数值方法,其总体矩阵常常具有"带状"、稀疏的特点。针对"带状"稀疏矩阵,提出和实现了一种高效的矩阵向量乘存储格式和算法"bDIA"。基于nVidia的GTX280系列GPU对其进行了...
以有限元/有限差分等为代表的一类数值方法,其总体矩阵常常具有"带状"、稀疏的特点。针对"带状"稀疏矩阵,提出和实现了一种高效的矩阵向量乘存储格式和算法"bDIA"。基于nVidia的GTX280系列GPU对其进行了测试,结果显示:与CUSP支持的5种常见稀疏矩阵存储格式和算法相比较,所提出的bDIA格式以及相应的spMV算法的单双精度浮点效率均可以提高1倍以上,并突破了该系列GPU在spMV计算时4%的单精度浮点效率上限和22.2%的双精度浮点效率上限;应用于共轭梯度(CG)与稳定双共轭梯度(BiCGStab)求解器,相对于DIA格式均有1.5倍左右的加速。
展开更多
关键词
带状稀疏矩阵向量乘
bDIA
广义有限元
GPU
CG求解器优化
在线阅读
下载PDF
职称材料
共轭梯度法在GPU及Xeon Phi下的并行优化及比较
被引量:
1
8
作者
黄敏
丁萍
罗海飚
《华南理工大学学报(自然科学版)》
EI
CAS
CSCD
北大核心
2015年第11期35-46,53,共13页
为了充分利用多核处理器的强大计算能力并满足具有高并行度应用的需求,提出一种基于大规模稀疏矩阵特征问题求解的并行共轭梯度算法.对图形处理器(GPU)上的计算,有效利用GPU多层次的存储器体系,采用线程与矩阵映射、数据合并访问、数据...
为了充分利用多核处理器的强大计算能力并满足具有高并行度应用的需求,提出一种基于大规模稀疏矩阵特征问题求解的并行共轭梯度算法.对图形处理器(GPU)上的计算,有效利用GPU多层次的存储器体系,采用线程与矩阵映射、数据合并访问、数据复用等优化手段,并通过高效的线程调度来隐藏全局存储器的高延迟访问;对Xeon Phi处理器上的计算,有效利用Xeon Phi的高并行度计算对数据通信/传递、减少数据依赖、向量化、异步计算等进行优化,并通过高效的线程调度来隐藏全局存储器的高延迟访问.文中还通过实验验证了算法的可行性和正确性,并对比了不同方式下的运行效率,发现共轭梯度法在GPU下比在Xeon Phi下的加速效果更好.
展开更多
关键词
共轭梯度法
图形处理器
XEON
PHI
并行优化
稀疏矩阵向量乘
在线阅读
下载PDF
职称材料
基于PPR模型的稀疏矩阵向量乘及卷积性能优化研究
被引量:
5
9
作者
谢震
谭光明
孙凝晖
《计算机研究与发展》
EI
CSCD
北大核心
2021年第3期445-457,共13页
稀疏矩阵向量乘和卷积作为高性能计算的两大计算核心,是非规则和规则访存的典型代表.目前已经做了许多针对性的优化工作,但是对于大量运行着不同指令集和拥有不同计算和访存性能的机器,仍然无法判定在特定的体系结构下导致性能效率无法...
稀疏矩阵向量乘和卷积作为高性能计算的两大计算核心,是非规则和规则访存的典型代表.目前已经做了许多针对性的优化工作,但是对于大量运行着不同指令集和拥有不同计算和访存性能的机器,仍然无法判定在特定的体系结构下导致性能效率无法被完全释放的主要原因及性能瓶颈,同时也很难准确预测出程序在特定机器上可达到的最佳性能.通过使用性能模型方法,建模程序在真实机器上的运行细节,可以得出更加精确的性能预测,并且根据模型输出的反馈信息提出针对性的优化指导.提出了PPR(probability-process-ram)模型,并在一个通用处理器上建模程序内指令执行和数据传输开销,其中包括使用模型预测各种指令数量及内存层次之间的数据传输大小去分析程序各个阶段的性能瓶颈,并且根据模型反馈的信息提出优化方案以及优化后的性能期望.最终使用PPR建模和优化2个计算核心,同时也比较了与常用的Roofline和ECM模型的区别.
展开更多
关键词
性能模型
反馈优化
稀疏矩阵向量乘
卷积
cache模拟器
在线阅读
下载PDF
职称材料
超大规模电网快速状态估计的实现方法
被引量:
3
10
作者
罗玉春
王毅
+2 位作者
闪鑫
戴则梅
张磊
《中国电力》
CSCD
北大核心
2020年第7期132-140,共9页
随着一体化互联大电网全局分析决策中心的建设,对实时状态估计计算速度提出了更高要求。采用多线程并行计算技术实现了快速分解状态估计信息矩阵的快速计算,在稀疏矩阵节点优化编号及其因子分解过程中采用标准模板库关联容器存储稀疏矩...
随着一体化互联大电网全局分析决策中心的建设,对实时状态估计计算速度提出了更高要求。采用多线程并行计算技术实现了快速分解状态估计信息矩阵的快速计算,在稀疏矩阵节点优化编号及其因子分解过程中采用标准模板库关联容器存储稀疏矩阵。基于新一代调控系统验证环境和实际电网拼接模型算例进行了验证。结果表明:在超大规模电网状态估计中,采用多线程并行计算信息矩阵及其因子分解具有较高的加速比,结合基于关联容器的稀疏矩阵存储格式,能够有效提升编程效率和程序品质以及状态估计的计算效率。
展开更多
关键词
电力系统
状态估计
稀疏矩阵乘法
节点优化编号
因子分解
关联容器
在线阅读
下载PDF
职称材料
题名
面向SW26010-Pro众核处理器的新型矩阵存储格式及稀疏矩阵向量乘(SpMV)算法研究
1
作者
王萃
刘芳芳
马文静
赵玉文
胡力娟
机构
中国科学院软件研究所并行软件与计算科学实验室
中国科学院软件研究所基础软件与系统重点实验室
出处
《计算机学报》
北大核心
2025年第6期1290-1304,共15页
基金
国家重点研发计划(2023YFB3001703)
中国科学院软件研究所自主部署科研类项目(ISCAS-JCMS-202304)资助。
文摘
稀疏矩阵向量乘(Sparse Matrix-Vector Multiplication,SpMV)是高性能计算、人工智能大模型领域中的关键操作,其性能通常对应用程序整体性能的提升具有重要影响。高效的稀疏矩阵存储格式是影响SpMV性能的重要因素,然而,现有的稀疏矩阵存储格式主要通过压缩零元素以减少访存,未充分利用非零元素的数值规律,因此仍有进一步压缩和优化的空间。本文通过对压缩稀疏行(Compressed Sparse Row,CSR)存储格式中非零元数组内的重复元素进行进一步的压缩,提出了一种新型的稀疏矩阵存储格式(Further Compressed Sparse Row,FCSR),并设计了从CSR到FCSR格式转换的异构并行算法,以尽量减少格式转换带来的开销。同时,本文面向SW26010-Pro众核处理器,设计了基于FCSR存储格式的SpMV异构并行算法,对SpMV进行了细粒度的任务划分和并行优化设计,探究了五种向量x的间接访存方式,并通过双缓冲技术对算法进行了优化。最后,本文选用SuiteSparse矩阵集中的稀疏矩阵进行了测试,实验结果表明,本文提出的基于FCSR存储格式的异构众核SpMV算法相较于主核版SpMV算法具有明显的性能提升,最高加速比达到43.11,平均加速比为7.56,测试矩阵最高带宽利用率达到了91.13%,平均带宽利用率为26.27%。另外,本文对基于FCSR存储格式和CSR存储格式的SpMV算法性能进行了比较,在两者均得到充分优化的前提下,基于FCSR存储格式的SpMV算法相较于基于CSR存储格式的SpMV算法性能的平均加速比达到1.19。
关键词
稀疏矩阵向量乘
SW26010-Pro众核处理器
新型矩阵存储格式
并行优化
双缓冲技术
Keywords
sparse
matrix
-vector
multiplication
SW26010-Pro multicore processor
new
sparse
matrix
storage format
parallel
optimization
double buffering technology
分类号
TP301 [自动化与计算机技术—计算机系统结构]
在线阅读
下载PDF
职称材料
题名
时空图卷积网络的骨架识别硬件加速器设计
2
作者
谭会生
严舒琪
杨威
机构
湖南工业大学轨道交通学院
出处
《电子测量技术》
北大核心
2024年第11期36-43,共8页
基金
湖南省学位与研究生教学改革研究项目(2022JGYB183)资助。
文摘
随着人工智能技术的不断发展,神经网络的数据规模逐渐扩大,神经网络的计算量也迅速攀升。为了减少时空图卷积神经网络的计算量,降低硬件实现的资源消耗,提升人体骨架识别时空图卷积神经网络(ST-GCN)实际应用系统的处理速度,利用现场可编程门阵列(FPGA),设计开发了一个基于时空图卷积神经网络的骨架识别硬件加速器。通过对原网络模型进行结构优化与数据量化,减少了FPGA实现约75%的计算量;利用邻接矩阵稀疏性的特点,提出了一种稀疏性矩阵乘加运算的优化方法,减少了约60%的乘法器资源消耗。经过对人体骨架识别实验验证,结果表明,在时钟频率100 MHz下,相较于CPU,FPGA加速ST-GCN单元,加速比达到30.53;FPGA加速人体骨架识别,加速比达到6.86。
关键词
人体骨架识别
时空图卷积神经网络(ST-GCN)
硬件加速器
现场可编程门阵列(FPGA)
稀疏矩阵乘加运算硬件优化
Keywords
human skeleton recognition
spatiotemporal graph convolutional neural network(ST-GCN)
hardware
accelerator
field programmable gate array(FPGA)
hardware optimization of sparse matrix multiplication and addition
分类号
TN791 [电子电信—电路与系统]
在线阅读
下载PDF
职称材料
题名
SpMV计算的ARM和FPGA异构加速器设计
3
作者
朱明达
薛济擎
艾纯瑶
机构
中国石油大学(北京)信息科学与工程学院
出处
《电讯技术》
北大核心
2024年第2期302-309,共8页
基金
中国高校产学研创新基金(2020HYA08001)
中国石油大学(北京)科研基金(2462020YXZZ025)。
文摘
针对稀疏矩阵向量乘(Sparse Matrix-Vector Multiplication,SpMV)在边缘端实施效率不高的问题,以稀疏矩阵的存储格式、SpMV的现场可编程门阵列(Field Programmable Gate Array,FPGA)加速为研究对象,提出了一种多端口改进的行压缩存储格式(Modified Compressed Sparse Row Format,MCSR)与ARM+FPGA架构任务级数据级硬件优化相结合的加速方法。使用多个端口并行存取数据来提高计算并行度;使用数据流、循环流水实现循环间、循环内的并行加速;使用数组分割、流传输实现数据的细粒度并行缓存与计算;使用ARM+FPGA架构,ARM完成对系统的控制,将计算卸载到FPGA并行加速。实验结果表明,并行加速优化后的ARM+FPGA方案相较于单ARM方案最高可达10倍的加速效果,而且增加的资源消耗在可接受范围内,矩阵规模越大非零值越多加速效果越明显。研究成果在边缘端实施SpMV计算方面有一定实用价值。
关键词
稀疏矩阵向量乘(SpMV)
异构加速器
硬件加速
Keywords
sparse
matrix
-vector
multiplication
(SpMV)
heterogeneous accelerator
hardware
acceleration
分类号
TP332.2 [自动化与计算机技术—计算机系统结构]
在线阅读
下载PDF
职称材料
题名
基于异构平台的稀疏矩阵向量乘自适应计算优化
被引量:
1
4
作者
李博
黄建强
黄东强
王晓英
机构
青海大学计算机技术与应用系
青海省智能计算与应用实验室(青海大学)
出处
《计算机应用》
CSCD
北大核心
2024年第12期3867-3875,共9页
基金
青海省应用基础研究计划项目(2022-ZJ-701)
国家自然科学基金资助项目(62062059)。
文摘
稀疏矩阵向量乘(SpMV)是一种重要的数值线性代数运算,现有的优化存在预处理及通信时间考虑不全面、存储结构不具有普适性等问题。为了解决这些问题,提出异构平台下SpMV的自适应优化方案。所提方案利用皮尔逊相关系数确定相关度高的特征参数,并使用基于梯度提升决策树(GBDT)的极端梯度提升(XGBoost)和轻量级梯度提升(LightGBM)算法训练预测模型,以确定某一稀疏矩阵更优的存储格式。利用网格搜索确定模型训练时更优的模型超参数,使这2种算法选择更适合的存储结构的准确率都超过85%。此外,对于预测存储结构为混合(HYB)格式的稀疏矩阵,在GPU和CPU上分别计算其中的等长列(ELL)与坐标(COO)存储格式部分,建立基于CPU+GPU的并行混合计算模式;同时为小数据量的稀疏矩阵选择硬件平台,提高运算速度。实验结果表明,自适应计算优化相较于cuSPARSE库中的压缩稀疏行(CSR)存储格式计算的平均加速比可以达到1.4,相较于按照HYB和ELL存储格式计算的平均加速比则可以分别达到2.1和2.6。
关键词
稀疏矩阵向量乘
自适应优化
皮尔逊相关系数
极端梯度提升
轻量级梯度提升机器学习
Keywords
sparse
matrix
-Vector
multiplication
(SpMV)
adaptive
optimization
Pearson correlation coefficient
eXtreme Gradient Boosting(XGBoost)
Light Gradient Boosting Machine(LightGBM)
分类号
TP311.1 [自动化与计算机技术—计算机软件与理论]
在线阅读
下载PDF
职称材料
题名
一种不规则稀疏矩阵的SpMV方法
5
作者
施禹
董攀
张利军
机构
国防科技大学计算机学院
中国人民解放军
出处
《计算机工程与科学》
CSCD
北大核心
2024年第7期1175-1184,共10页
基金
国防科技重点实验室稳定支持基金(WDZC20235250111)
国家自然科学基金(62002371)
国防科技大学基金(ZK21-17)。
文摘
稀疏矩阵-向量乘法SpMV是高性能计算领域的关键算子之一,在新兴的深度学习领域中有着重要应用。现有SpMV算子通常采用行列相等的稀疏矩阵,而对于不规则形状稀疏矩阵(行数与列数不等)的研究仍存在空缺,值得进一步深入探讨。相比于行列相等的稀疏矩阵,不规则形状稀疏矩阵凭借其行数与列数不对等的稀疏特点具有进一步优化的空间。因此,针对这种行数与列数不对等的不规则形状稀疏矩阵建立SpMV性能模型,分析得到其出现性能瓶颈的原因在于缓存和内存之间数据交互的带宽不足。同时做了以下2个方面的优化工作:(1)基于常用稀疏矩阵CSR存储格式,提出新型RCSR存储格式,其针对CSR存储格式中一个制约性能的数组进行了变换和压缩,使得SpMV更加高效;(2)结合国产处理器的SIMD指令扩展设计了基于RCSR格式的SpMV优化算法。在国产飞腾处理器上分别使用规则和不规则稀疏矩阵进行测试,在规则稀疏矩阵的情况下,通过采用RCSR存储格式和SIMD加速指令集,以GFLOPS为性能指标,实现了平均83.35%的性能提升;在不规则稀疏矩阵的情况下,性能提升与行列比相关,在行列不对等加剧时,具有更为明显的优化效果。
关键词
稀疏矩阵
不规则矩阵
向量乘法
多核性能
性能优化
Keywords
sparse
matrix
irregular
matrix
vector
multiplication
multicore performance
performance
optimization
分类号
TP302.7 [自动化与计算机技术—计算机系统结构]
在线阅读
下载PDF
职称材料
题名
面向国产申威26010众核处理器的SpMV实现与优化
被引量:
13
6
作者
刘芳芳
杨超
袁欣辉
吴长茂
敖玉龙
机构
中国科学院软件研究所并行软件与计算科学实验室
中国科学院大学
计算机科学国家重点实验室(中国科学院软件研究所)
北京大学数学科学学院
国家并行计算机工程技术研究中心
出处
《软件学报》
EI
CSCD
北大核心
2018年第12期3921-3932,共12页
基金
国家重点研发计划(2016YFB0200603)
国家自然科学基金(91530323)~~
文摘
世界首台峰值性能超过100P的超级计算机——神威太湖之光已经研制完成,该超级计算机采用了国产申威异构众核处理器,该处理器不同于现有的纯CPU,CPU-MIC,CPU-GPU架构,采用了主-从核架构,单处理器峰值计算能力为3TFlops/s,访存带宽为130GB/s.稀疏矩阵向量乘SpMV(sparse matrix-vector multiplication)是科学与工程计算中的一个非常重要的核心函数,众所周知,其是带宽受限型的,且存在间接访存操作.国产申威处理器给稀疏矩阵向量乘的高效实现带来了很大的挑战.针对申威处理器提出了一种CSR格式SpMV操作的通用异构众核并行算法,该算法从任务划分、LDM空间划分方面进行精细设计,提出了一套动静态buffer的缓存机制以提升向量x的访存命中率,提出了一套动静态的任务调度方法以实现负载均衡.另外还分析了该算法中影响SpMV性能的几个关键因素,并开展了自适应优化,进一步提升了性能.采用Matrix Market矩阵集中具有代表性的16个稀疏矩阵进行了测试,相比主核版最高有10倍左右的加速,平均加速比为6.51.通过采用主核版CSR格式SpMV的访存量进行分析,测试矩阵最高可达该处理器实测带宽的86%,平均可达到47%.
关键词
稀疏矩阵向量乘
SpMV
申威26010处理器
异构众核并行
自适应优化
Keywords
sparse
matrix
-vector
multiplication
SpMV
Sunway 26010 processor
heterogeneous many-core
adaptive
optimization
分类号
TP303 [自动化与计算机技术—计算机系统结构]
在线阅读
下载PDF
职称材料
题名
基于GPU的高性能稀疏矩阵向量乘及CG求解器优化
被引量:
7
7
作者
王迎瑞
任江勇
田荣
机构
中国科学院计算技术研究所
出处
《计算机科学》
CSCD
北大核心
2013年第3期46-49,共4页
基金
国家自然科学基金项目(11072241
91130026)
+1 种基金
NSFC国家杰出青年科学基金"Exascale计算的基础研究"项目(60925009)
美国橡树岭国家实验室/国家计算科学中心主任基金项目(MAT028)资助
文摘
以有限元/有限差分等为代表的一类数值方法,其总体矩阵常常具有"带状"、稀疏的特点。针对"带状"稀疏矩阵,提出和实现了一种高效的矩阵向量乘存储格式和算法"bDIA"。基于nVidia的GTX280系列GPU对其进行了测试,结果显示:与CUSP支持的5种常见稀疏矩阵存储格式和算法相比较,所提出的bDIA格式以及相应的spMV算法的单双精度浮点效率均可以提高1倍以上,并突破了该系列GPU在spMV计算时4%的单精度浮点效率上限和22.2%的双精度浮点效率上限;应用于共轭梯度(CG)与稳定双共轭梯度(BiCGStab)求解器,相对于DIA格式均有1.5倍左右的加速。
关键词
带状稀疏矩阵向量乘
bDIA
广义有限元
GPU
CG求解器优化
Keywords
B
and
ed
sparse
matrix
-vector
multiplication
, bDIA, GFEM, GPU, CG solver
optimization
分类号
TP301 [自动化与计算机技术—计算机系统结构]
在线阅读
下载PDF
职称材料
题名
共轭梯度法在GPU及Xeon Phi下的并行优化及比较
被引量:
1
8
作者
黄敏
丁萍
罗海飚
机构
华南理工大学软件学院
广州中国科学院软件应用技术研究所智能视频实验室
出处
《华南理工大学学报(自然科学版)》
EI
CAS
CSCD
北大核心
2015年第11期35-46,53,共13页
基金
广东省公益研究与能力建设专项(2014A040401018)
广东省促进科技服务业发展计划项目(2013B040404009)
广东省新媒体与品牌传播创新应用重点实验室资助项目(2013WSYS0002)
文摘
为了充分利用多核处理器的强大计算能力并满足具有高并行度应用的需求,提出一种基于大规模稀疏矩阵特征问题求解的并行共轭梯度算法.对图形处理器(GPU)上的计算,有效利用GPU多层次的存储器体系,采用线程与矩阵映射、数据合并访问、数据复用等优化手段,并通过高效的线程调度来隐藏全局存储器的高延迟访问;对Xeon Phi处理器上的计算,有效利用Xeon Phi的高并行度计算对数据通信/传递、减少数据依赖、向量化、异步计算等进行优化,并通过高效的线程调度来隐藏全局存储器的高延迟访问.文中还通过实验验证了算法的可行性和正确性,并对比了不同方式下的运行效率,发现共轭梯度法在GPU下比在Xeon Phi下的加速效果更好.
关键词
共轭梯度法
图形处理器
XEON
PHI
并行优化
稀疏矩阵向量乘
Keywords
conjugate gradient method
graphics processing unit
Xeon Phi
parallel
optimization
sparse
matrix
-vector
multiplication
分类号
TP391.9 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
基于PPR模型的稀疏矩阵向量乘及卷积性能优化研究
被引量:
5
9
作者
谢震
谭光明
孙凝晖
机构
计算机体系结构国家重点实验室(中国科学院计算技术研究所)
中国科学院计算技术研究所
中国科学院大学计算机与控制学院
出处
《计算机研究与发展》
EI
CSCD
北大核心
2021年第3期445-457,共13页
基金
国家重点研发项目(2018YFB0204400)
中国科学院战略性先导科技专项(C类)(XDC05010100)
国家自然科学基金项目(62032023,61972377,61702483)。
文摘
稀疏矩阵向量乘和卷积作为高性能计算的两大计算核心,是非规则和规则访存的典型代表.目前已经做了许多针对性的优化工作,但是对于大量运行着不同指令集和拥有不同计算和访存性能的机器,仍然无法判定在特定的体系结构下导致性能效率无法被完全释放的主要原因及性能瓶颈,同时也很难准确预测出程序在特定机器上可达到的最佳性能.通过使用性能模型方法,建模程序在真实机器上的运行细节,可以得出更加精确的性能预测,并且根据模型输出的反馈信息提出针对性的优化指导.提出了PPR(probability-process-ram)模型,并在一个通用处理器上建模程序内指令执行和数据传输开销,其中包括使用模型预测各种指令数量及内存层次之间的数据传输大小去分析程序各个阶段的性能瓶颈,并且根据模型反馈的信息提出优化方案以及优化后的性能期望.最终使用PPR建模和优化2个计算核心,同时也比较了与常用的Roofline和ECM模型的区别.
关键词
性能模型
反馈优化
稀疏矩阵向量乘
卷积
cache模拟器
Keywords
performance model
feedback
optimization
sparse
matrix
-vector
multiplication
convolu-tion
cache simulator
分类号
TP391 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
超大规模电网快速状态估计的实现方法
被引量:
3
10
作者
罗玉春
王毅
闪鑫
戴则梅
张磊
机构
南瑞集团(国网电力科学研究院)有限公司
国电南瑞科技股份有限公司
智能电网保护和运行控制国家重点实验室
国网山东省电力公司电力科学研究院
出处
《中国电力》
CSCD
北大核心
2020年第7期132-140,共9页
基金
国家电网公司科技项目(大电网实时数据及网络分析高性能计算技术研究)。
文摘
随着一体化互联大电网全局分析决策中心的建设,对实时状态估计计算速度提出了更高要求。采用多线程并行计算技术实现了快速分解状态估计信息矩阵的快速计算,在稀疏矩阵节点优化编号及其因子分解过程中采用标准模板库关联容器存储稀疏矩阵。基于新一代调控系统验证环境和实际电网拼接模型算例进行了验证。结果表明:在超大规模电网状态估计中,采用多线程并行计算信息矩阵及其因子分解具有较高的加速比,结合基于关联容器的稀疏矩阵存储格式,能够有效提升编程效率和程序品质以及状态估计的计算效率。
关键词
电力系统
状态估计
稀疏矩阵乘法
节点优化编号
因子分解
关联容器
Keywords
power system
state estimation
sparse
matrix
multiplication
bus optimal ordering
triangular factorization
associated container
分类号
TM73 [电气工程—电力系统及自动化]
在线阅读
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
面向SW26010-Pro众核处理器的新型矩阵存储格式及稀疏矩阵向量乘(SpMV)算法研究
王萃
刘芳芳
马文静
赵玉文
胡力娟
《计算机学报》
北大核心
2025
0
在线阅读
下载PDF
职称材料
2
时空图卷积网络的骨架识别硬件加速器设计
谭会生
严舒琪
杨威
《电子测量技术》
北大核心
2024
0
在线阅读
下载PDF
职称材料
3
SpMV计算的ARM和FPGA异构加速器设计
朱明达
薛济擎
艾纯瑶
《电讯技术》
北大核心
2024
0
在线阅读
下载PDF
职称材料
4
基于异构平台的稀疏矩阵向量乘自适应计算优化
李博
黄建强
黄东强
王晓英
《计算机应用》
CSCD
北大核心
2024
1
在线阅读
下载PDF
职称材料
5
一种不规则稀疏矩阵的SpMV方法
施禹
董攀
张利军
《计算机工程与科学》
CSCD
北大核心
2024
0
在线阅读
下载PDF
职称材料
6
面向国产申威26010众核处理器的SpMV实现与优化
刘芳芳
杨超
袁欣辉
吴长茂
敖玉龙
《软件学报》
EI
CSCD
北大核心
2018
13
在线阅读
下载PDF
职称材料
7
基于GPU的高性能稀疏矩阵向量乘及CG求解器优化
王迎瑞
任江勇
田荣
《计算机科学》
CSCD
北大核心
2013
7
在线阅读
下载PDF
职称材料
8
共轭梯度法在GPU及Xeon Phi下的并行优化及比较
黄敏
丁萍
罗海飚
《华南理工大学学报(自然科学版)》
EI
CAS
CSCD
北大核心
2015
1
在线阅读
下载PDF
职称材料
9
基于PPR模型的稀疏矩阵向量乘及卷积性能优化研究
谢震
谭光明
孙凝晖
《计算机研究与发展》
EI
CSCD
北大核心
2021
5
在线阅读
下载PDF
职称材料
10
超大规模电网快速状态估计的实现方法
罗玉春
王毅
闪鑫
戴则梅
张磊
《中国电力》
CSCD
北大核心
2020
3
在线阅读
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部