期刊导航
期刊开放获取
上海教育软件发展有限公..
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
3
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
输入感知的通用矩阵-向量乘算法在Hygon DCU的自适应性能优化
1
作者
李庆
贾海鹏
+1 位作者
张云泉
张思佳
《计算机科学》
北大核心
2025年第4期291-300,共10页
GEMV(通用矩阵-向量乘法函数)是BLAS(基础线性代数子程序)算法库的核心组成部分,广泛用于计算机科学、工程计算和数学计算等领域。当前,随着国产Hygon DCU版本的不断迭代升级,Hygon DCU与传统GPU生产商之间也存在一定的竞争优势;随着GEM...
GEMV(通用矩阵-向量乘法函数)是BLAS(基础线性代数子程序)算法库的核心组成部分,广泛用于计算机科学、工程计算和数学计算等领域。当前,随着国产Hygon DCU版本的不断迭代升级,Hygon DCU与传统GPU生产商之间也存在一定的竞争优势;随着GEMV应用领域的不断扩大,GEMV的输入特征体现出多样化的趋势。在这种背景下,单纯靠一种优化方法,无法实现GEMV算法在GPU计算平台上所有输入情况下的高性能。因此,在访存优化、指令重排、并行规约、共享内存、线程排布等传统优化手段的基础上,提出了一种输入感知的性能自适应优化方法,其能够根据输入矩阵的不同规模和形状自动调整计算kernel的实现方式以达到最佳性能,显著提高了GEMV在Hygon DCU上的性能。实验结果表明,在Hygon DCU Z100SM上,输入感知的通用矩阵-向量乘算法的整体性能明显优于RocBLAS库中的相关算法,对于不同的矩阵输入规模,性能最大提升为RocBLAS库中对应算法的3.0203倍。
展开更多
关键词
通用矩阵-向量乘法
DCU
基础线性代数子程序函数库
自适应调优
性能优化
在线阅读
下载PDF
职称材料
基于申威1621的通用矩阵向量乘法的性能分析与优化
被引量:
2
2
作者
邓洁
赵荣彩
王磊
《计算机应用》
CSCD
北大核心
2022年第S01期215-220,共6页
通用矩阵向量乘法(GEMV)函数是整个二级基础线性代数子程序(BLAS)函数库的构建基础,BLAS作为关键基础计算软件之一,目前在申威处理器上却没有一个高性能实现的版本。针对上述问题,为充分发挥申威1621平台的高性能BLAS库计算优势,提出一...
通用矩阵向量乘法(GEMV)函数是整个二级基础线性代数子程序(BLAS)函数库的构建基础,BLAS作为关键基础计算软件之一,目前在申威处理器上却没有一个高性能实现的版本。针对上述问题,为充分发挥申威1621平台的高性能BLAS库计算优势,提出一种基于申威1621的通用矩阵向量乘法的性能分析与优化方法。首先对GEMV函数进行计算重排序、循环分块的改进;然后采取单指令多数据流(SIMD)以及指令重排的优化方式;最后对内存分配方式进行择优选择。测试结果表明,GEMV函数平均性能达到GotoBLAS版的2.17倍。在使用堆栈分配内存空间或增加对y向量步长的判断分支两种方案后,相较于GotoBLAS,小规模矩阵的平均性能由2.265倍提升至2.875倍。为提高大规模矩阵的性能,以及发挥申威1621多核处理器并行机制,在开启4线程后,平均性能达到单核的3.57倍。因此,优化后的GEMV函数在申威平台上较好的体现了并行效果。
展开更多
关键词
申威1621
基础线性代数子程序函数库
单指令多数据流
通用矩阵向量乘法
性能优化
在线阅读
下载PDF
职称材料
基于ARMv8架构的面向机器翻译的单精度浮点通用矩阵乘法优化
被引量:
10
3
作者
龚鸣清
叶煌
+2 位作者
张鉴
卢兴敬
陈伟
《计算机应用》
CSCD
北大核心
2019年第6期1557-1562,共6页
针对使用ARM处理器的移动智能设备执行神经网络推理计算效率不高的问题,提出了一套基于ARMv8架构的单精度浮点通用矩阵乘法(SGEMM)算法优化方案。首先,确定ARMv8架构的处理器执行SGEMM算法的计算效率受限于向量化计算单元使用方案、指...
针对使用ARM处理器的移动智能设备执行神经网络推理计算效率不高的问题,提出了一套基于ARMv8架构的单精度浮点通用矩阵乘法(SGEMM)算法优化方案。首先,确定ARMv8架构的处理器执行SGEMM算法的计算效率受限于向量化计算单元使用方案、指令流水线和缓存未命中的发生概率;其次,针对三点导致计算效率受限的原因实现向量指令内联汇编、数据重排和数据预取三条优化技术;最后,根据语音方向的神经网络中常见的三种矩阵模式设计测试实验,实验中使用RK3399硬件平台运行程序。实验结果表示:方阵模式下单核计算速度为10.23 GFLOPS,达到实测浮点峰值的78.2%;在细长矩阵模式下单核计算速度为6.35 GFLOPS,达到实测浮点峰值的48.1%;在连续小矩阵模式下单核计算速度为2.53 GFLOPS,达到实测浮点峰值19.2%。将优化后的SGEMM算法部署到语音识别神经网络程序中,程序的实际语音识别速度取得了显著提高。
展开更多
关键词
ARMv8
单指令多数据流计算
基础
线性
代数
子程序
库
高性能计算
在线阅读
下载PDF
职称材料
题名
输入感知的通用矩阵-向量乘算法在Hygon DCU的自适应性能优化
1
作者
李庆
贾海鹏
张云泉
张思佳
机构
大连海洋大学信息工程学院
中国科学院计算技术研究所
出处
《计算机科学》
北大核心
2025年第4期291-300,共10页
基金
国家重点研发计划(2023YFB3001701)
国家自然科学基金(62372432)。
文摘
GEMV(通用矩阵-向量乘法函数)是BLAS(基础线性代数子程序)算法库的核心组成部分,广泛用于计算机科学、工程计算和数学计算等领域。当前,随着国产Hygon DCU版本的不断迭代升级,Hygon DCU与传统GPU生产商之间也存在一定的竞争优势;随着GEMV应用领域的不断扩大,GEMV的输入特征体现出多样化的趋势。在这种背景下,单纯靠一种优化方法,无法实现GEMV算法在GPU计算平台上所有输入情况下的高性能。因此,在访存优化、指令重排、并行规约、共享内存、线程排布等传统优化手段的基础上,提出了一种输入感知的性能自适应优化方法,其能够根据输入矩阵的不同规模和形状自动调整计算kernel的实现方式以达到最佳性能,显著提高了GEMV在Hygon DCU上的性能。实验结果表明,在Hygon DCU Z100SM上,输入感知的通用矩阵-向量乘算法的整体性能明显优于RocBLAS库中的相关算法,对于不同的矩阵输入规模,性能最大提升为RocBLAS库中对应算法的3.0203倍。
关键词
通用矩阵-向量乘法
DCU
基础线性代数子程序函数库
自适应调优
性能优化
Keywords
Generalized matrix-vector multiplication
DCU
Library of basic linear algebra subroutine functions
Adaptive tuning
Performance optimization
分类号
TP311 [自动化与计算机技术—计算机软件与理论]
在线阅读
下载PDF
职称材料
题名
基于申威1621的通用矩阵向量乘法的性能分析与优化
被引量:
2
2
作者
邓洁
赵荣彩
王磊
机构
中原工学院前沿信息技术研究院
出处
《计算机应用》
CSCD
北大核心
2022年第S01期215-220,共6页
文摘
通用矩阵向量乘法(GEMV)函数是整个二级基础线性代数子程序(BLAS)函数库的构建基础,BLAS作为关键基础计算软件之一,目前在申威处理器上却没有一个高性能实现的版本。针对上述问题,为充分发挥申威1621平台的高性能BLAS库计算优势,提出一种基于申威1621的通用矩阵向量乘法的性能分析与优化方法。首先对GEMV函数进行计算重排序、循环分块的改进;然后采取单指令多数据流(SIMD)以及指令重排的优化方式;最后对内存分配方式进行择优选择。测试结果表明,GEMV函数平均性能达到GotoBLAS版的2.17倍。在使用堆栈分配内存空间或增加对y向量步长的判断分支两种方案后,相较于GotoBLAS,小规模矩阵的平均性能由2.265倍提升至2.875倍。为提高大规模矩阵的性能,以及发挥申威1621多核处理器并行机制,在开启4线程后,平均性能达到单核的3.57倍。因此,优化后的GEMV函数在申威平台上较好的体现了并行效果。
关键词
申威1621
基础线性代数子程序函数库
单指令多数据流
通用矩阵向量乘法
性能优化
Keywords
Sunway1621
Basic Linear Algebra Subprograms(BLAS)library
Single Instruction Multiple Data(SIMD)
General Matrix Vector(GEMV)multiplication
performance optimization
分类号
TP311.5 [自动化与计算机技术—计算机软件与理论]
在线阅读
下载PDF
职称材料
题名
基于ARMv8架构的面向机器翻译的单精度浮点通用矩阵乘法优化
被引量:
10
3
作者
龚鸣清
叶煌
张鉴
卢兴敬
陈伟
机构
中国科学院计算机网络信息中心
中国科学院大学
北京搜狗科技发展有限公司
出处
《计算机应用》
CSCD
北大核心
2019年第6期1557-1562,共6页
基金
国家重点研发计划项目(2016YFB0201100,2017YFB0202803)
国家自然科学基金资助项目(11871454,91630204,61531166003)
+1 种基金
中国科学院战略性先导科技专项(B类)(XDB22020102)
中国科学院信息化专项(XXH13506-204)~~
文摘
针对使用ARM处理器的移动智能设备执行神经网络推理计算效率不高的问题,提出了一套基于ARMv8架构的单精度浮点通用矩阵乘法(SGEMM)算法优化方案。首先,确定ARMv8架构的处理器执行SGEMM算法的计算效率受限于向量化计算单元使用方案、指令流水线和缓存未命中的发生概率;其次,针对三点导致计算效率受限的原因实现向量指令内联汇编、数据重排和数据预取三条优化技术;最后,根据语音方向的神经网络中常见的三种矩阵模式设计测试实验,实验中使用RK3399硬件平台运行程序。实验结果表示:方阵模式下单核计算速度为10.23 GFLOPS,达到实测浮点峰值的78.2%;在细长矩阵模式下单核计算速度为6.35 GFLOPS,达到实测浮点峰值的48.1%;在连续小矩阵模式下单核计算速度为2.53 GFLOPS,达到实测浮点峰值19.2%。将优化后的SGEMM算法部署到语音识别神经网络程序中,程序的实际语音识别速度取得了显著提高。
关键词
ARMv8
单指令多数据流计算
基础
线性
代数
子程序
库
高性能计算
Keywords
ARMv8
single instruction multiple data
basic linear algebra subprogram
high performance computation
分类号
TP332 [自动化与计算机技术—计算机系统结构]
在线阅读
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
输入感知的通用矩阵-向量乘算法在Hygon DCU的自适应性能优化
李庆
贾海鹏
张云泉
张思佳
《计算机科学》
北大核心
2025
0
在线阅读
下载PDF
职称材料
2
基于申威1621的通用矩阵向量乘法的性能分析与优化
邓洁
赵荣彩
王磊
《计算机应用》
CSCD
北大核心
2022
2
在线阅读
下载PDF
职称材料
3
基于ARMv8架构的面向机器翻译的单精度浮点通用矩阵乘法优化
龚鸣清
叶煌
张鉴
卢兴敬
陈伟
《计算机应用》
CSCD
北大核心
2019
10
在线阅读
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部