稀疏线性方程组求解等高性能计算应用常常涉及稀疏矩阵向量乘(SpMV)序列Ax,A2x,…,Asx的计算.上述SpMV序列操作又称为稀疏矩阵幂函数(matrix power kernel,MPK).由于MPK执行多次SpMV且稀疏矩阵保持不变,在缓存(cache)中重用稀疏矩阵,可...稀疏线性方程组求解等高性能计算应用常常涉及稀疏矩阵向量乘(SpMV)序列Ax,A2x,…,Asx的计算.上述SpMV序列操作又称为稀疏矩阵幂函数(matrix power kernel,MPK).由于MPK执行多次SpMV且稀疏矩阵保持不变,在缓存(cache)中重用稀疏矩阵,可避免每次执行SpMV均从主存加载A,从而缓解SpMV访存受限问题,提升MPK性能.但缓存数据重用会导致相邻SpMV操作之间的数据依赖,现有MPK优化多针对单次SpMV调用,或在实现数据重用时引入过多额外开销.提出了缓存感知的MPK(cache-awareMPK,Ca-MPK),基于稀疏矩阵的依赖图,设计了体系结构感知的递归划分方法,将依赖图划分为适合缓存大小的子图/子矩阵,通过构建分割子图解耦数据依赖,根据特定顺序在子矩阵上调度执行SpMV,实现缓存数据重用.测试结果表明,Ca-MPK相对于Intel OneMKL库和最新MPK实现,平均性能提升分别多达约1.57倍和1.40倍.展开更多
在C-RAN(Centralized,Cooperative,Cloud Radio Access Network)无线网络基于转移矩阵的负载预测方法中,虽然该预测矩阵具有稀疏特性,但是现有的技术缺乏对稀疏特性加以利用,从而造成计算复杂。针对此问题,提出了一种基于稀疏性的预测...在C-RAN(Centralized,Cooperative,Cloud Radio Access Network)无线网络基于转移矩阵的负载预测方法中,虽然该预测矩阵具有稀疏特性,但是现有的技术缺乏对稀疏特性加以利用,从而造成计算复杂。针对此问题,提出了一种基于稀疏性的预测矩阵求解算法。该算法对网络状态转移矩阵进行分块迭代,每次等分4块,并分别定义4块矩阵的偏移量。当属于同一行的块矩阵的偏移量有一个是零矩阵时,直接得出所求矩阵对应块的元素全部为零,然后进行下一次迭代;当属于同一行的块矩阵偏移量都不为零矩阵时,通过对矩阵方程组变形处理,转换成迭代格式,然后分块处理。最后,结合仿真定量分析稀疏矩阵稀疏度的临界值问题,给出了稀疏度与计算量之间的关系,并证明了其合理性。仿真结果表明,所提算法能够在不影响预测准确度前提下,降低复杂度。展开更多
文摘稀疏线性方程组求解等高性能计算应用常常涉及稀疏矩阵向量乘(SpMV)序列Ax,A2x,…,Asx的计算.上述SpMV序列操作又称为稀疏矩阵幂函数(matrix power kernel,MPK).由于MPK执行多次SpMV且稀疏矩阵保持不变,在缓存(cache)中重用稀疏矩阵,可避免每次执行SpMV均从主存加载A,从而缓解SpMV访存受限问题,提升MPK性能.但缓存数据重用会导致相邻SpMV操作之间的数据依赖,现有MPK优化多针对单次SpMV调用,或在实现数据重用时引入过多额外开销.提出了缓存感知的MPK(cache-awareMPK,Ca-MPK),基于稀疏矩阵的依赖图,设计了体系结构感知的递归划分方法,将依赖图划分为适合缓存大小的子图/子矩阵,通过构建分割子图解耦数据依赖,根据特定顺序在子矩阵上调度执行SpMV,实现缓存数据重用.测试结果表明,Ca-MPK相对于Intel OneMKL库和最新MPK实现,平均性能提升分别多达约1.57倍和1.40倍.
文摘在C-RAN(Centralized,Cooperative,Cloud Radio Access Network)无线网络基于转移矩阵的负载预测方法中,虽然该预测矩阵具有稀疏特性,但是现有的技术缺乏对稀疏特性加以利用,从而造成计算复杂。针对此问题,提出了一种基于稀疏性的预测矩阵求解算法。该算法对网络状态转移矩阵进行分块迭代,每次等分4块,并分别定义4块矩阵的偏移量。当属于同一行的块矩阵的偏移量有一个是零矩阵时,直接得出所求矩阵对应块的元素全部为零,然后进行下一次迭代;当属于同一行的块矩阵偏移量都不为零矩阵时,通过对矩阵方程组变形处理,转换成迭代格式,然后分块处理。最后,结合仿真定量分析稀疏矩阵稀疏度的临界值问题,给出了稀疏度与计算量之间的关系,并证明了其合理性。仿真结果表明,所提算法能够在不影响预测准确度前提下,降低复杂度。