-
题名LAPACK线性方程求解函数在龙芯3A上的并行化
被引量:1
- 1
-
-
作者
刘斌斌
顾乃杰
任开新
张杰
-
机构
中国科学技术大学计算机科学技术学院
安徽省计算与通信软件重点实验室
中国科学技术大学中科院沈阳计算所网络与通信联合实验室
-
出处
《小型微型计算机系统》
CSCD
北大核心
2014年第5期1085-1089,共5页
-
基金
国家"核高基"重大专项项目(2009ZX01028-002-003-005)资助
-
文摘
针对龙芯3A体系结构,该文通过变量代换或消除、简化依赖关系、增加热点数据副本、并行流水等方法对BLAS函数和LAPACK函数做并行化,基于原LAPACK库的结构层次实现了线性方程求解函数的并行化版本,用户只需设定核数重新编译出LAPACK的多核库便可使用.通过LAPACK自带的性能测试程序进行测试,实验结果表明,在四核模式下,大多数函数加速比达到2以上,部分函数加速比超过了3,所有线性方程求解类函数加速比的算术平均值达到2.04.
-
关键词
lapack
BLAS
龙芯3A
多核
-
Keywords
lapack
BLAS
Loongson 3A
multi-core
-
分类号
TP303
[自动化与计算机技术—计算机系统结构]
-
-
题名PLASMA自适应调优与性能优化的设计与实现
- 2
-
-
作者
吕渐春
张云泉
王婷
肖玄基
-
机构
中国科学院软件所并行计算实验室
中国科学院研究生院
-
出处
《计算机科学》
CSCD
北大核心
2012年第4期282-286,共5页
-
基金
国家"863"曙光6000千万亿次高效能计算机系统研制项目(2009AA01A129)
国家"863"高效能计算机及网格服务重大项目(2009AA01A134)
+5 种基金
国家重大专项核高基项目(2009ZX01036-001-002)
中国科学院知识创新工程重大项目课题(KGCX1-YW-13)
国家重大科研装备研制项目(ZDYZ2008-2)
国家自然科学基金项目(61100073
61133005
61100066)资助
-
文摘
PLASMA是一个高效的线性代数软件包,其数据分布结合分堆、细粒度并行以及乱序执行机制等大大提高了程序的性能。但PLASMA仍然存在一些问题,比如分块大小对程序性能的影响非常大,以及产生了大量的数据拷贝等。通过对比传统的LAPACK和PLASMA的实现机制,分析了PLASMA中存在的优势和不足,介绍了两种弥补PLASMA自身不足的方法。针对PLASMA的架构,经过大量的测试与分析,提出了边缘矩阵的概念并分析了其对性能的影响,据此提出了一种自适应调优的方法。并通过数据拷贝与计算并行的运行方式,进一步提高了PLASMA性能,最后通过大量的测试验证了该优化方法的效果。
-
关键词
lapack
PLASMA
自适应调优
优化
-
Keywords
lapack
PLASMA
Auto-tuning
Optimization
-
分类号
TP302
[自动化与计算机技术—计算机系统结构]
-