期刊文献+
共找到3篇文章
< 1 >
每页显示 20 50 100
2012年中国高性能计算机发展现状分析与展望 被引量:9
1
作者 张云泉 孙家昶 +1 位作者 袁国兴 张林波 《计算机工程与科学》 CSCD 北大核心 2012年第12期1-8,共8页
本文根据2012年11月发布的中国高性能计算机TOP100排行榜的数据,对国内高性能计算机的发展现状从总体性能、制造商、行业领域等方面进行了深入分析。我们发现,中国TOP100的平均Linpack性能与国际TOP500的平均Linpack性能的差距已经从原... 本文根据2012年11月发布的中国高性能计算机TOP100排行榜的数据,对国内高性能计算机的发展现状从总体性能、制造商、行业领域等方面进行了深入分析。我们发现,中国TOP100的平均Linpack性能与国际TOP500的平均Linpack性能的差距已经从原来的半年扩大到一年。在此基础上,根据十一届排行榜积累的性能数据和能够得到的其他公开历史数据,对未来几年中国大陆高性能计算机的发展趋势进行了分析预测。从预测可以看出,峰值为10Petaflops的机器将在2012年到2013年间出现;累计Linpack性能将在2013年到2014年间达到100Petaflops;峰值为100Petaflops的机器将在2014年到2015年间出现;峰值达到Exaflops级的机器将在2017年到2018年间出现。 展开更多
关键词 高性能计算机 TOP100 排行榜 性能 分析
在线阅读 下载PDF
对角线稀疏矩阵的SpMV自适应性能优化 被引量:6
2
作者 孙相征 张云泉 +2 位作者 王婷 李焱 袁良 《计算机研究与发展》 EI CSCD 北大核心 2013年第3期648-656,共9页
稀疏矩阵向量乘(SpMV)是科学计算中常用的内核之一,其运行速率跟非零元分布相关.针对对角线稀疏矩阵,提出了压缩行片段对角(compressed row segment diagonal,CRSD)存储格式.它利用"对角线格式"有效描述矩阵的对角线分布,区... 稀疏矩阵向量乘(SpMV)是科学计算中常用的内核之一,其运行速率跟非零元分布相关.针对对角线稀疏矩阵,提出了压缩行片段对角(compressed row segment diagonal,CRSD)存储格式.它利用"对角线格式"有效描述矩阵的对角线分布,区别于以往通用的计算方法,CRSD通过对给定应用的对角线稀疏矩阵采样再进行特定的优化.并且在软件安装阶段,通过自适应的方法选取适合具体运行平台的最优SpMV实现.在CPU端进行多线程并行化实现时,自适应调优过程中收集的信息还被用于线程间任务划分,以实现负载平衡.同时完成CRSD存储格式在GPU端的实现,并根据GPU端计算与访存的特点进行优化.实验结果表明:在Intel和AMD的多核平台使用相同线程数的情况下,与DIA相比,使用CRSD的加速比可以达到2.37X(平均1.7X);与CSR相比,可以达到4.6X(平均2.1X). 展开更多
关键词 CRSD 自适应性能优化SpMV 对角线格式 对角线稀疏矩阵 GPU 科学应用
在线阅读 下载PDF
基于Julia云平台的交互式深度学习模式 被引量:1
3
作者 唐舸轩 党云龙 +1 位作者 张常有 周艺华 《太原理工大学学报》 CAS 北大核心 2016年第1期85-90,共6页
为降低深度学习程序的开发难度,提出了一种基于Julia云平台的交互式深度学习模式。设计了一套深度学习原语,用Julia实现原语,为Julia程序员提供调用接口,构建交互分析系统;并提供GPU/CPU实现接口,由云端系统根据用户情形自动优选;最后... 为降低深度学习程序的开发难度,提出了一种基于Julia云平台的交互式深度学习模式。设计了一套深度学习原语,用Julia实现原语,为Julia程序员提供调用接口,构建交互分析系统;并提供GPU/CPU实现接口,由云端系统根据用户情形自动优选;最后实现了基于深度学习的图像交互分析案例,验证原语体系的完备性和Julia云平台的交互支持能力。实验结果表明,GPU的运行速度比CPU快近30倍。Julia程序员只需通过调用原语,设置相关参数,就可以使用并行化的算法。 展开更多
关键词 高性能云 交互式 深度学习
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部