-
题名基于国产加速器的三维卷积前向算子优化
- 1
-
-
作者
姬晨晨
陈永青
韩孟之
-
机构
郑州大学计算机与人工智能学院
曙光信息产业(北京)有限公司
-
出处
《计算机工程》
北大核心
2025年第2期250-258,共9页
-
基金
国家重点研发计划(2021YFB0300200)。
-
文摘
目前三维卷积神经网络(3D CNN)的应用场景越来越广泛,其能够从原始数据中提取更丰富、更具判别性的特征信息,在处理3D数据、特征提取和实际应用等方面具有重要意义。然而,从二维(2D)数据到3D数据的转变导致了卷积运算的数据量和计算量均呈指数级增长,对计算资源和时间的需求也相应增加,这会导致训练和推理过程更加耗时,特别是在处理大规模3D数据时尤为明显。针对以上问题,提出一种基于国产加速器的隐式卷积算法,对3D卷积的前向计算过程进行优化。首先,该算法结合了硬件特点和并行化思路,利用索引直接访问所需计算的数据地址,无须开辟新的内存空间,大幅节省内存开销;其次,考虑到国产加速器具有高度并行的计算结构和丰富的计算资源,适合处理大规模数据和复杂的计算任务,结合国产加速器的计算能力和架构特点,采用一系列特定的异构并行优化算法,加速3D卷积前向算子的计算过程,提高计算效率和性能。实验结果表明,自研算子性能远超国产计算平台现有算子的最优性能,在多数情况下与NVIDIA V100之间的能效比可以达到70%甚至更高。
-
关键词
三维卷积
国产加速器
隐式卷积算法
索引机制
前向算子优化
并行优化算法
-
Keywords
3D convolution
domestic accelerator
implicit convolution algorithm
indexing mechanism
forward operator optimization
parallel optimization algorithm
-
分类号
TP338.6
[自动化与计算机技术—计算机系统结构]
-