期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
基于飞腾D2000的GEMM算法设计与优化实现技术
1
作者 郑恩 白林亭 文鹏程 《航空计算技术》 2024年第3期38-41,47,共5页
在深度学习推理框架中,GEMM是典型的计算密集型算子,在Bert、Transformer、Yolo等模型的模块中存在大量GEMM运算,会直接影响模型的推理延时。针对该算子的优化问题,分别采用循环展开、OpenMP、NEON指令集等方法进行优化,在国产嵌入式板... 在深度学习推理框架中,GEMM是典型的计算密集型算子,在Bert、Transformer、Yolo等模型的模块中存在大量GEMM运算,会直接影响模型的推理延时。针对该算子的优化问题,分别采用循环展开、OpenMP、NEON指令集等方法进行优化,在国产嵌入式板卡飞腾D2000、国产操作系统进行实验测试。实验结果表明优化后比优化前加速43.89倍,优化方法加速效果行之有效,可以大大降低人工智能模型在边缘端的推理延时。 展开更多
关键词 推理框架 GEMM OPENMP NEON 飞腾d2000
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部