期刊文献+
共找到4篇文章
< 1 >
每页显示 20 50 100
基于GPU的高效稀疏矩阵存储格式研究 被引量:9
1
作者 程凯 田瑾 马瑞琳 《计算机工程》 CAS CSCD 北大核心 2018年第8期54-60,共7页
针对基于GPU求解大规模稀疏线性方程组的问题,提出一种稀疏矩阵的存储格式HEC,并应用该格式在统一计算设备架构(CUDA)平台上实现不完全LU分解的预条件共轭梯度(ILUCG)法。该存储格式由ELL与CSR格式混合而成,将其以调用GPU kernel的方式... 针对基于GPU求解大规模稀疏线性方程组的问题,提出一种稀疏矩阵的存储格式HEC,并应用该格式在统一计算设备架构(CUDA)平台上实现不完全LU分解的预条件共轭梯度(ILUCG)法。该存储格式由ELL与CSR格式混合而成,将其以调用GPU kernel的方式实现ILUCG法并应用于大型稀疏线性系统的求解中,可提高稀疏矩阵的存储效率,减少稀疏矩阵与向量乘(SpMV)的运算时间。实验结果表明,与目前广泛使用的基于CSR和HYB存储格式并调用CUSPARSE库函数的实现方式相比,该实现方式最优可得10.4%的加速效果,并且具有良好的SpMV运算性能。 展开更多
关键词 图像处理单元 CUSPARSE库 HEC存储格式 稀疏矩阵与向量乘 不完全LU分解 预条件共轭梯度法
在线阅读 下载PDF
准对角矩阵与向量相乘在CPU+GPU异构集群上的实现与优化 被引量:2
2
作者 阳王东 李肯立 《小型微型计算机系统》 CSCD 北大核心 2015年第7期1659-1664,共6页
稀疏矩阵与向量相乘(Sp MV)是科学计算和工程应用中一个重要问题,而且非常适宜进行并行计算,目前在GPU对Sp M V的实现和优化是一个研究热点.针对准对角矩阵存在的一些不规则性,采用CSR+DLA混合存储格式来进行Sp M V计算,能够提高压缩的... 稀疏矩阵与向量相乘(Sp MV)是科学计算和工程应用中一个重要问题,而且非常适宜进行并行计算,目前在GPU对Sp M V的实现和优化是一个研究热点.针对准对角矩阵存在的一些不规则性,采用CSR+DLA混合存储格式来进行Sp M V计算,能够提高压缩的效果.为了发挥CPU多核的并行计算能力,采用一种CPU+GPU混合计算模式,这样可以把混合存储格式不同格式的数据分割到CPU和GPU上,从而提高了资源的利用效能.本文另外还在分析CPU+GPU异构计算模式的特征基础上,提出一些优化策略,能够改进准对角矩阵与向量相乘在异构计算环境中的计算性能. 展开更多
关键词 图形处理芯片 稀疏矩阵 稀疏矩阵与向量相乘 异构计算
在线阅读 下载PDF
一种准对角矩阵的混合压缩算法及其与向量相乘在GPU上的实现 被引量:5
3
作者 阳王东 李肯立 石林 《计算机科学》 CSCD 北大核心 2014年第7期290-296,共7页
稀疏矩阵与向量乘(SpMV)属于科学计算和工程应用中的一种基本运算,其高性能实现与优化是计算科学的研究热点之一。在微分方程的求解过程中会产生大规模的稀疏矩阵,而且很大一部分是一种准对角矩阵。针对准对角矩阵存在的一些不规则性,... 稀疏矩阵与向量乘(SpMV)属于科学计算和工程应用中的一种基本运算,其高性能实现与优化是计算科学的研究热点之一。在微分方程的求解过程中会产生大规模的稀疏矩阵,而且很大一部分是一种准对角矩阵。针对准对角矩阵存在的一些不规则性,提出一种混合对角存储(DIA)和行压缩存储(CSR)格式来进行SpMV计算,对于分割出来的对角线区域之外的离散非零元素采用CSR存储,这样能够克服DIA在不规则情况下存储矩阵的列迅速增加的缺陷,同时对角线采用DIA存储又能充分利用矩阵的对角特征,以减少CSR的行非零元素数目的不均衡现象,并可以通过调整存储对角线的带宽来适应准对角矩阵的不同的离散形式,以获得比DIA和CSR更高的压缩比,减小计算的数据规模。利用CUDA平台在GPU上进行了实验测试,结果表明该方法比DIA和CSR具有更高的加速比。 展开更多
关键词 图形处理芯片 稀疏矩阵 稀疏矩阵与向量相乘 CUDA
在线阅读 下载PDF
基于分块存储格式的稀疏线性系统求解优化 被引量:4
4
作者 程凯 田瑾 +2 位作者 吴飞 汪茹 李洪芹 《计算机应用研究》 CSCD 北大核心 2019年第11期3352-3356,共5页
针对基于GPU求解大规模稀疏线性方程组进行了研究,提出一种稀疏矩阵的分块存储格式HMEC(hybrid multiple ELL and CSR)。通过重排序优化系数矩阵的存储结构,将系数矩阵以一定的比例分块存储,采用ELL与CSR存储格式相结合的方式以适应不... 针对基于GPU求解大规模稀疏线性方程组进行了研究,提出一种稀疏矩阵的分块存储格式HMEC(hybrid multiple ELL and CSR)。通过重排序优化系数矩阵的存储结构,将系数矩阵以一定的比例分块存储,采用ELL与CSR存储格式相结合的方式以适应不同的分块特征,分别使用适用于不对称矩阵的不完全LU分解预处理BiCGStab法和对称正定矩阵的不完全Cholesky分解预处理共轭梯度法求解大规模稀疏线性系统。实验表明,应用HMEC格式存储稀疏矩阵并以调用GPU kernel的方式实现前述两种方法,与其他存储格式的实现方式作比较,最优可分别获得31.89%和17.50%的加速效果。 展开更多
关键词 GPU加速 共轭梯度 稳定双共轭梯度 重排序 HMEC存储格式 稀疏矩阵与向量乘
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部