期刊导航
期刊开放获取
上海教育软件发展有限公..
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
1
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
基于飞腾D2000的GEMM算法设计与优化实现技术
1
作者
郑恩
白林亭
文鹏程
《航空计算技术》
2024年第3期38-41,47,共5页
在深度学习推理框架中,GEMM是典型的计算密集型算子,在Bert、Transformer、Yolo等模型的模块中存在大量GEMM运算,会直接影响模型的推理延时。针对该算子的优化问题,分别采用循环展开、OpenMP、NEON指令集等方法进行优化,在国产嵌入式板...
在深度学习推理框架中,GEMM是典型的计算密集型算子,在Bert、Transformer、Yolo等模型的模块中存在大量GEMM运算,会直接影响模型的推理延时。针对该算子的优化问题,分别采用循环展开、OpenMP、NEON指令集等方法进行优化,在国产嵌入式板卡飞腾D2000、国产操作系统进行实验测试。实验结果表明优化后比优化前加速43.89倍,优化方法加速效果行之有效,可以大大降低人工智能模型在边缘端的推理延时。
展开更多
关键词
推理框架
GEMM
OPENMP
NEON
飞腾d2000
在线阅读
下载PDF
职称材料
题名
基于飞腾D2000的GEMM算法设计与优化实现技术
1
作者
郑恩
白林亭
文鹏程
机构
航空工业西安航空计算技术研究所
机载弹载计算机航空科技重点实验室
出处
《航空计算技术》
2024年第3期38-41,47,共5页
基金
航空科学基金项目资助(2022Z071031001)。
文摘
在深度学习推理框架中,GEMM是典型的计算密集型算子,在Bert、Transformer、Yolo等模型的模块中存在大量GEMM运算,会直接影响模型的推理延时。针对该算子的优化问题,分别采用循环展开、OpenMP、NEON指令集等方法进行优化,在国产嵌入式板卡飞腾D2000、国产操作系统进行实验测试。实验结果表明优化后比优化前加速43.89倍,优化方法加速效果行之有效,可以大大降低人工智能模型在边缘端的推理延时。
关键词
推理框架
GEMM
OPENMP
NEON
飞腾d2000
Keywords
inference frame
GEMM
OpenMP
NEON
Feiteng
d
2000
分类号
V247 [航空宇航科学与技术—飞行器设计]
在线阅读
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
基于飞腾D2000的GEMM算法设计与优化实现技术
郑恩
白林亭
文鹏程
《航空计算技术》
2024
0
在线阅读
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部