检索结果-维普期刊中文期刊服务平台

基于 Pentium Pro 的高性能 BLAS 的设计与实现被引量：4: 1; 作者李忠泽陈瑾 +1 位作者龙翔李未《北京航空航天大学学报》 EI CAS CSCD 北大核心 1998年第4期455-457,共3页; 支持科学和工程计算的ＢＬＡＳ（基本线性代数子程序）在高性能计算中有着重要作用．本文针对ＰｅｎｔｉｕｍＰｒｏ的体系结构特点，提出了一些优化方法使得ＢＬＡＳ在ＰｅｎｔｉｕｍＰｒｏ上计算性能达到最佳．测试表明，在２００ＭＨ... 展开更多; 关键词寄存器基本线性代数子程序 BLAS 循环展开; 在线阅读下载PDF 职称材料

并行计算通信库测试方法研究及实践: 2; 作者熊玉庆张云泉《软件学报》 EI CSCD 北大核心 2000年第12期1681-1684,共4页; 并行计算通信库的测试在并行计算系统中起着重要的作用 .对通信库的测试一般都是通过设计一些测试程序对库的各个或几个部分分别进行单独隔离测试 .但是有许多库中的错误用这种隔离测试方法测不出来 ,只有当库的多个部分以某种复杂的、... 展开更多; 关键词测试方法并行计算通信库并行计算系统; 在线阅读下载PDF 职称材料

基于ARMv8架构的面向机器翻译的单精度浮点通用矩阵乘法优化被引量：10: 3; 作者龚鸣清叶煌 +2 位作者张鉴卢兴敬陈伟《计算机应用》 CSCD 北大核心 2019年第6期1557-1562,共6页; 针对使用ARM处理器的移动智能设备执行神经网络推理计算效率不高的问题,提出了一套基于ARMv8架构的单精度浮点通用矩阵乘法(SGEMM)算法优化方案。首先,确定ARMv8架构的处理器执行SGEMM算法的计算效率受限于向量化计算单元使用方案、指... 展开更多; 关键词 ARMv8 单指令多数据流计算基础线性代数子程序库高性能计算; 在线阅读下载PDF 职称材料

基于申威1621的通用矩阵向量乘法的性能分析与优化被引量：2: 4; 作者邓洁赵荣彩王磊《计算机应用》 CSCD 北大核心 2022年第S01期215-220,共6页; 通用矩阵向量乘法(GEMV)函数是整个二级基础线性代数子程序(BLAS)函数库的构建基础,BLAS作为关键基础计算软件之一,目前在申威处理器上却没有一个高性能实现的版本。针对上述问题,为充分发挥申威1621平台的高性能BLAS库计算优势,提出一... 展开更多; 关键词申威1621 基础线性代数子程序函数库单指令多数据流通用矩阵向量乘法性能优化; 在线阅读下载PDF 职称材料

题名基于 Pentium Pro 的高性能 BLAS 的设计与实现被引量：4: 1; 作者李忠泽陈瑾龙翔李未; 机构北京航空航天大学; 出处《北京航空航天大学学报》 EI CAS CSCD 北大核心 1998年第4期455-457,共3页; 基金国家"八六三"高技术计划资助项目; 文摘支持科学和工程计算的ＢＬＡＳ（基本线性代数子程序）在高性能计算中有着重要作用．本文针对ＰｅｎｔｉｕｍＰｒｏ的体系结构特点，提出了一些优化方法使得ＢＬＡＳ在ＰｅｎｔｉｕｍＰｒｏ上计算性能达到最佳．测试表明，在２００ＭＨｚ的ＰｅｎｔｉｕｍＰｒｏ上ＢＬＡＳ３的速度可达１１２Ｍｆｌｏｐｓ．; 关键词寄存器基本线性代数子程序 BLAS 循环展开; Keywords linear algebra optimization registers BLAS(basic linear algebra subprograms) cache block loop unroll; 分类号 TP301.6 [自动化与计算机技术—计算机系统结构]; 在线阅读下载PDF 职称材料

题名并行计算通信库测试方法研究及实践: 2; 作者熊玉庆张云泉; 机构中国科学院计算技术研究所中国科学院软件研究所; 出处《软件学报》 EI CSCD 北大核心 2000年第12期1681-1684,共4页; 基金国家863高科技项目基金资助项目!(863-306-ZD01-03-02); 文摘并行计算通信库的测试在并行计算系统中起着重要的作用 .对通信库的测试一般都是通过设计一些测试程序对库的各个或几个部分分别进行单独隔离测试 .但是有许多库中的错误用这种隔离测试方法测不出来 ,只有当库的多个部分以某种复杂的、有机的方式组合运行时才会暴露出来 .而这种复杂的、有机的组合方式 ,从设计库的测试角度看很难形成 .提出两种新的测试方法 ,根据通信库结构的分层特性 ,利用可移植的上层库的测试程序来测试下层库 .上层库的测试程序也可看做是下层库的应用程序 ,但与一般的下层库应用程序不同 ,它几乎覆盖了下层库的各个部分 ,且有机地将它们组合起来 ,运行时形成某种复杂的形态 ,而仅用下层库的测试程序往往达不到这种形态 .这样。; 关键词测试方法并行计算通信库并行计算系统; Keywords parallel computing communication library, testing approach MPI (message passing interface) BLACS (basic linear algebra communication subprograms); 分类号 TP31 [自动化与计算机技术—计算机软件与理论] TP338.6 [自动化与计算机技术—计算机系统结构]; 在线阅读下载PDF 职称材料

题名基于ARMv8架构的面向机器翻译的单精度浮点通用矩阵乘法优化被引量：10: 3; 作者龚鸣清叶煌张鉴卢兴敬陈伟; 机构中国科学院计算机网络信息中心中国科学院大学北京搜狗科技发展有限公司; 出处《计算机应用》 CSCD 北大核心 2019年第6期1557-1562,共6页; 基金国家重点研发计划项目(2016YFB0201100,2017YFB0202803) 国家自然科学基金资助项目(11871454,91630204,61531166003) +1 种基金中国科学院信息化专项(XXH13506-204)~~; 文摘针对使用ARM处理器的移动智能设备执行神经网络推理计算效率不高的问题,提出了一套基于ARMv8架构的单精度浮点通用矩阵乘法(SGEMM)算法优化方案。首先,确定ARMv8架构的处理器执行SGEMM算法的计算效率受限于向量化计算单元使用方案、指令流水线和缓存未命中的发生概率;其次,针对三点导致计算效率受限的原因实现向量指令内联汇编、数据重排和数据预取三条优化技术;最后,根据语音方向的神经网络中常见的三种矩阵模式设计测试实验,实验中使用RK3399硬件平台运行程序。实验结果表示:方阵模式下单核计算速度为10.23 GFLOPS,达到实测浮点峰值的78.2%;在细长矩阵模式下单核计算速度为6.35 GFLOPS,达到实测浮点峰值的48.1%;在连续小矩阵模式下单核计算速度为2.53 GFLOPS,达到实测浮点峰值19.2%。将优化后的SGEMM算法部署到语音识别神经网络程序中,程序的实际语音识别速度取得了显著提高。; 关键词 ARMv8 单指令多数据流计算基础线性代数子程序库高性能计算; Keywords ARMv8 single instruction multiple data basic linear algebra subprogram high performance computation; 分类号 TP332 [自动化与计算机技术—计算机系统结构]; 在线阅读下载PDF 职称材料

题名基于申威1621的通用矩阵向量乘法的性能分析与优化被引量：2: 4; 作者邓洁赵荣彩王磊; 机构中原工学院前沿信息技术研究院; 出处《计算机应用》 CSCD 北大核心 2022年第S01期215-220,共6页; 文摘通用矩阵向量乘法(GEMV)函数是整个二级基础线性代数子程序(BLAS)函数库的构建基础,BLAS作为关键基础计算软件之一,目前在申威处理器上却没有一个高性能实现的版本。针对上述问题,为充分发挥申威1621平台的高性能BLAS库计算优势,提出一种基于申威1621的通用矩阵向量乘法的性能分析与优化方法。首先对GEMV函数进行计算重排序、循环分块的改进;然后采取单指令多数据流(SIMD)以及指令重排的优化方式;最后对内存分配方式进行择优选择。测试结果表明,GEMV函数平均性能达到GotoBLAS版的2.17倍。在使用堆栈分配内存空间或增加对y向量步长的判断分支两种方案后,相较于GotoBLAS,小规模矩阵的平均性能由2.265倍提升至2.875倍。为提高大规模矩阵的性能,以及发挥申威1621多核处理器并行机制,在开启4线程后,平均性能达到单核的3.57倍。因此,优化后的GEMV函数在申威平台上较好的体现了并行效果。; 关键词申威1621 基础线性代数子程序函数库单指令多数据流通用矩阵向量乘法性能优化; Keywords Sunway1621 basic linear algebra subprograms(BLAS)library Single Instruction Multiple Data(SIMD) General Matrix Vector(GEMV)multiplication performance optimization; 分类号 TP311.5 [自动化与计算机技术—计算机软件与理论]; 在线阅读下载PDF 职称材料

	题名	作者	出处	发文年	被引量	操作
1	基于 Pentium Pro 的高性能 BLAS 的设计与实现	李忠泽陈瑾龙翔李未	《北京航空航天大学学报》 EI CAS CSCD 北大核心	1998	4	在线阅读下载PDF 职称材料
2	并行计算通信库测试方法研究及实践	熊玉庆张云泉	《软件学报》 EI CSCD 北大核心	2000	0	在线阅读下载PDF 职称材料
3	基于ARMv8架构的面向机器翻译的单精度浮点通用矩阵乘法优化	龚鸣清叶煌张鉴卢兴敬陈伟	《计算机应用》 CSCD 北大核心	2019	10	在线阅读下载PDF 职称材料
4	基于申威1621的通用矩阵向量乘法的性能分析与优化	邓洁赵荣彩王磊	《计算机应用》 CSCD 北大核心	2022	2	在线阅读下载PDF 职称材料