期刊导航
期刊开放获取
上海教育软件发展有限公..
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
5
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
面向深度学习编译器TVM的算子融合优化
1
作者
高伟
王磊
+2 位作者
李嘉楠
李帅龙
韩林
《计算机科学》
北大核心
2025年第5期58-66,共9页
算子融合是深度学习编译器中的一种编译优化技术,能够将多个算子合并为一个大的算子,有效降低计算和访存的成本。深度学习编译器TVM的算子融合方案中将算子按照功能特性进行分类,并设计融合规则,最后采用贪心算法进行融合。这种融合方...
算子融合是深度学习编译器中的一种编译优化技术,能够将多个算子合并为一个大的算子,有效降低计算和访存的成本。深度学习编译器TVM的算子融合方案中将算子按照功能特性进行分类,并设计融合规则,最后采用贪心算法进行融合。这种融合方案存在以下问题:首先,功能特性的算子分类方式下的融合规则不够通用,会错失算子融合机会,无法实现更大粒度的融合;其次,贪心的融合算法也无法实现算子融合的最优解。针对上述问题,对TVM进行改进,提出按照算子输入输出映射类型的算子分类方式,并设计通用的算子融合规则以扩大算子融合的粒度;提出基于动态规划的融合方案搜索算法和算子融合代价评估模型,并对搜索空间进行剪枝,使得算法能够在合理时间内搜索得到优化的融合方案。为评测融合方案的有效性,在CPU以及DCU等平台上对VGG-16,Efficient-B0,MobileNet-V1,YOLO-V4等深度学习模型的融合比和推理时延进行测试,实验结果表明,相较于TVM原有融合方案,所提方案融合比平均提升了27%,推理时延平均获得了1.75的加速比。
展开更多
关键词
深度学习编译器
TVM
算子融合
融合规则
动态规划
在线阅读
下载PDF
职称材料
面向深度学习编译器的多粒度量化框架支持与优化
2
作者
魏铭康
李嘉楠
+3 位作者
韩林
高伟
赵荣彩
王洪生
《计算机工程》
北大核心
2025年第5期62-72,共11页
随着各大厂商对大模型应用部署需求的激增,深度学习编译器TVM(Tensor Virtual Machine)的单一量化方式精度下降,已无法满足部署需求。设计并构建一种可选粒度的模型量化框架,具体包括逐层与逐通道量化流程的支持,以及阈值搜索与自适应...
随着各大厂商对大模型应用部署需求的激增,深度学习编译器TVM(Tensor Virtual Machine)的单一量化方式精度下降,已无法满足部署需求。设计并构建一种可选粒度的模型量化框架,具体包括逐层与逐通道量化流程的支持,以及阈值搜索与自适应舍入优化算法的实现。首先,基于量化模块“relay.quantize”构建信息标注、阈值校准与量化图实现的框架流程,并添加粒度属性以显式识别量化方式。其次,针对预定义校准方法无法确定有效量化信息的问题,对量化中的阈值校准、权重舍入进行调优,提高量化后模型精度。实验采用ImageNet数据集对视觉网络进行测试,针对MobileNetV1新量化方案将8 bit量化后模型精度损失降低到2.3%,调优后该损失降低到0.7%,实验结果表明多粒度量化框架可有效降低量化误差。
展开更多
关键词
模型量化
模型部署
模型压缩
推理加速
深度学习编译器
在线阅读
下载PDF
职称材料
基于混合并行的分布式训练优化研究
被引量:
1
3
作者
徐金龙
李鹏飞
+3 位作者
李嘉楠
陈飙元
高伟
韩林
《计算机科学》
CSCD
北大核心
2024年第12期120-128,共9页
大型神经网络训练是深度学习领域的一个热点话题,而分布式训练是基于多节点实现大型神经网络训练的最佳方法之一。分布式训练通常包含数据并行、层间并行和层内并行3种并行方法。然而现有的框架在层间并行时只能对模型进行手动切分,增...
大型神经网络训练是深度学习领域的一个热点话题,而分布式训练是基于多节点实现大型神经网络训练的最佳方法之一。分布式训练通常包含数据并行、层间并行和层内并行3种并行方法。然而现有的框架在层间并行时只能对模型进行手动切分,增加了模型设计的抽象复杂度,对此提出了节点约束关系搜索算法,实现了模型的自动切分。另外,在传统的数据并行和层间并行中,由于模型的复杂约束关系和通信操作的需要,计算和通信往往受到严格的序列化限制,为此引入了同步优化算法,实现了计算和通信的重叠,有效提高了整体训练的效率。实验对不同规模的GPT-2,AlexNet,VGG16和ResNet50模型进行训练,使用同步优化算法在6节点条件下可以将GPT2-XL,GPT2-LARGE和GPT2-MEDIUM模型的训练性能分别提升1.14倍、1.18倍和1.23倍,在1节点条件下将AlexNet,VGG16和ResNet50模型的训练性能分别提升1.31倍、1.14倍和1.03倍。实验结果表明,同步优化算法能够提升混合并行中的训练效率。
展开更多
关键词
分布式训练
混合并行
自动切分
通信优化
梯度同步
在线阅读
下载PDF
职称材料
面向国产异构平台的OpenMP Offload共享内存访存优化
被引量:
1
4
作者
王鑫
李嘉楠
+2 位作者
韩林
赵荣彩
周强伟
《计算机工程与应用》
CSCD
北大核心
2023年第10期75-85,共11页
国产异构处理器DCU(deep computing unit)上的本地数据共享(local data share,LDS)是一种低延迟、高带宽的显式寻址内存。国产异构系统的OpenMP未提供LDS访问的编程接口,导致未有效地利用LDS硬件实现数据的高效访存。针对此问题,研究了...
国产异构处理器DCU(deep computing unit)上的本地数据共享(local data share,LDS)是一种低延迟、高带宽的显式寻址内存。国产异构系统的OpenMP未提供LDS访问的编程接口,导致未有效地利用LDS硬件实现数据的高效访存。针对此问题,研究了面向DCU平台的OpenMP Offload执行模式和LDS的分配方法,以及特定于LDS访存的指令结构,实现了LDS访存的手动支持。另外针对于OpenMP Offload的不同执行模式,在此优化方法的基础上实现了LDS访存的自动化,形成了一套面向国产异构平台的高效访存策略。实验采用polybench标准测试集进行测试,利用手动和自动优化方法在单线程模式下平均加速比可达2.60,利用手动优化方法在多线程non-SPMD模式下平均加速比达1.38,利用自动优化方法在多线程SPMD模式下平均加速比达1.11。实验结果表明LDS访存的自动和手动支持有助于提高OpenMP异构程序运行速度。
展开更多
关键词
国产处理器DCU
本地数据共享(LDS)
OpenMP
Offlaod
SPMD
non-SPMD
在线阅读
下载PDF
职称材料
面向FT-M7002平台点积算法的优化实现
被引量:
1
5
作者
郭盼盼
陈梦雪
+2 位作者
梁祖达
马晓畅
许邦建
《计算机工程与科学》
CSCD
北大核心
2022年第11期1909-1917,共9页
基于国产的FT-M7002平台高性能DSP,针对不同类型的点积算法进行了优化实现,完善了该处理器平台数学库的技术链,充分发挥了FT-M7002内核体系结构优势,对点积算法实现了SIMD向量并行化、DMA双通道传输和SVR传输等优化。该研究充分挖掘了...
基于国产的FT-M7002平台高性能DSP,针对不同类型的点积算法进行了优化实现,完善了该处理器平台数学库的技术链,充分发挥了FT-M7002内核体系结构优势,对点积算法实现了SIMD向量并行化、DMA双通道传输和SVR传输等优化。该研究充分挖掘了程序的向量并行性,有效地提升了数据传输的速度,提高了程序性能。实验结果表明,输入不同规模大小的数组,不同类型的点积算法在FT-M7002平台上优化后和优化前的平均性能比为12.4166~45.2338。相较于TI官网的dsplib库中不同类型的点积函数在TMS320C6678处理器上运行的性能,FT-M7002平台优化后的性能与TI平台的平均性能比为1.3716~4.5196。实验结果表明了该DSP平台相对于TI主流平台的计算性能优势。
展开更多
关键词
FT-M7002
DSP
点积算法
向量
DMA双通道传输
SVR传输
在线阅读
下载PDF
职称材料
题名
面向深度学习编译器TVM的算子融合优化
1
作者
高伟
王磊
李嘉楠
李帅龙
韩林
机构
国家
超级
计算
郑州
中心
(
郑州大学
)
郑州大学
计算
机与人工智能学院
出处
《计算机科学》
北大核心
2025年第5期58-66,共9页
基金
河南省重大科技专项“国产先进计算平台创新生态及应用研究”(221100210600)。
文摘
算子融合是深度学习编译器中的一种编译优化技术,能够将多个算子合并为一个大的算子,有效降低计算和访存的成本。深度学习编译器TVM的算子融合方案中将算子按照功能特性进行分类,并设计融合规则,最后采用贪心算法进行融合。这种融合方案存在以下问题:首先,功能特性的算子分类方式下的融合规则不够通用,会错失算子融合机会,无法实现更大粒度的融合;其次,贪心的融合算法也无法实现算子融合的最优解。针对上述问题,对TVM进行改进,提出按照算子输入输出映射类型的算子分类方式,并设计通用的算子融合规则以扩大算子融合的粒度;提出基于动态规划的融合方案搜索算法和算子融合代价评估模型,并对搜索空间进行剪枝,使得算法能够在合理时间内搜索得到优化的融合方案。为评测融合方案的有效性,在CPU以及DCU等平台上对VGG-16,Efficient-B0,MobileNet-V1,YOLO-V4等深度学习模型的融合比和推理时延进行测试,实验结果表明,相较于TVM原有融合方案,所提方案融合比平均提升了27%,推理时延平均获得了1.75的加速比。
关键词
深度学习编译器
TVM
算子融合
融合规则
动态规划
Keywords
Deep learning compiler
TVM
Operator fusion
Fusion rule
Dynamic programming
分类号
TP314 [自动化与计算机技术—计算机软件与理论]
在线阅读
下载PDF
职称材料
题名
面向深度学习编译器的多粒度量化框架支持与优化
2
作者
魏铭康
李嘉楠
韩林
高伟
赵荣彩
王洪生
机构
郑州大学
计算
机与人工智能学院
国家
超级
计算
郑州
中心
(
郑州大学
)
出处
《计算机工程》
北大核心
2025年第5期62-72,共11页
基金
河南省重大科技专项(221100210600)。
文摘
随着各大厂商对大模型应用部署需求的激增,深度学习编译器TVM(Tensor Virtual Machine)的单一量化方式精度下降,已无法满足部署需求。设计并构建一种可选粒度的模型量化框架,具体包括逐层与逐通道量化流程的支持,以及阈值搜索与自适应舍入优化算法的实现。首先,基于量化模块“relay.quantize”构建信息标注、阈值校准与量化图实现的框架流程,并添加粒度属性以显式识别量化方式。其次,针对预定义校准方法无法确定有效量化信息的问题,对量化中的阈值校准、权重舍入进行调优,提高量化后模型精度。实验采用ImageNet数据集对视觉网络进行测试,针对MobileNetV1新量化方案将8 bit量化后模型精度损失降低到2.3%,调优后该损失降低到0.7%,实验结果表明多粒度量化框架可有效降低量化误差。
关键词
模型量化
模型部署
模型压缩
推理加速
深度学习编译器
Keywords
model quantization
model deployment
model compression
inference acceleration
deep learning compiler
分类号
TP332 [自动化与计算机技术—计算机系统结构]
在线阅读
下载PDF
职称材料
题名
基于混合并行的分布式训练优化研究
被引量:
1
3
作者
徐金龙
李鹏飞
李嘉楠
陈飙元
高伟
韩林
机构
国家
超级
计算
郑州
中心
(
郑州大学
)
郑州大学
计算
机与人工智能学院
战略支援部队信息工程
大学
出处
《计算机科学》
CSCD
北大核心
2024年第12期120-128,共9页
基金
河南省重大科技专项(221100210600)。
文摘
大型神经网络训练是深度学习领域的一个热点话题,而分布式训练是基于多节点实现大型神经网络训练的最佳方法之一。分布式训练通常包含数据并行、层间并行和层内并行3种并行方法。然而现有的框架在层间并行时只能对模型进行手动切分,增加了模型设计的抽象复杂度,对此提出了节点约束关系搜索算法,实现了模型的自动切分。另外,在传统的数据并行和层间并行中,由于模型的复杂约束关系和通信操作的需要,计算和通信往往受到严格的序列化限制,为此引入了同步优化算法,实现了计算和通信的重叠,有效提高了整体训练的效率。实验对不同规模的GPT-2,AlexNet,VGG16和ResNet50模型进行训练,使用同步优化算法在6节点条件下可以将GPT2-XL,GPT2-LARGE和GPT2-MEDIUM模型的训练性能分别提升1.14倍、1.18倍和1.23倍,在1节点条件下将AlexNet,VGG16和ResNet50模型的训练性能分别提升1.31倍、1.14倍和1.03倍。实验结果表明,同步优化算法能够提升混合并行中的训练效率。
关键词
分布式训练
混合并行
自动切分
通信优化
梯度同步
Keywords
Distributed learning
Hybrid parallel
Automatic segmentation
Communication optimization
Gradient synchronization
分类号
TP391 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
面向国产异构平台的OpenMP Offload共享内存访存优化
被引量:
1
4
作者
王鑫
李嘉楠
韩林
赵荣彩
周强伟
机构
郑州大学
计算
机与人工智能学院
国家
超级
计算
郑州
中心
(
郑州大学
)
出处
《计算机工程与应用》
CSCD
北大核心
2023年第10期75-85,共11页
基金
2022年度河南省重大科技专项(221100210600)。
文摘
国产异构处理器DCU(deep computing unit)上的本地数据共享(local data share,LDS)是一种低延迟、高带宽的显式寻址内存。国产异构系统的OpenMP未提供LDS访问的编程接口,导致未有效地利用LDS硬件实现数据的高效访存。针对此问题,研究了面向DCU平台的OpenMP Offload执行模式和LDS的分配方法,以及特定于LDS访存的指令结构,实现了LDS访存的手动支持。另外针对于OpenMP Offload的不同执行模式,在此优化方法的基础上实现了LDS访存的自动化,形成了一套面向国产异构平台的高效访存策略。实验采用polybench标准测试集进行测试,利用手动和自动优化方法在单线程模式下平均加速比可达2.60,利用手动优化方法在多线程non-SPMD模式下平均加速比达1.38,利用自动优化方法在多线程SPMD模式下平均加速比达1.11。实验结果表明LDS访存的自动和手动支持有助于提高OpenMP异构程序运行速度。
关键词
国产处理器DCU
本地数据共享(LDS)
OpenMP
Offlaod
SPMD
non-SPMD
Keywords
domestic processor DCU
local data share(LDS)
OpenMP Offload
SPMD
non-SPMD
分类号
TP332 [自动化与计算机技术—计算机系统结构]
在线阅读
下载PDF
职称材料
题名
面向FT-M7002平台点积算法的优化实现
被引量:
1
5
作者
郭盼盼
陈梦雪
梁祖达
马晓畅
许邦建
机构
郑州大学
计算
机与人工智能学院
国家
超级
计算
郑州
中心
(
郑州大学
)
湖南
大学
电气与信息工程学院
湖南
大学
信息科学与工程学院
出处
《计算机工程与科学》
CSCD
北大核心
2022年第11期1909-1917,共9页
文摘
基于国产的FT-M7002平台高性能DSP,针对不同类型的点积算法进行了优化实现,完善了该处理器平台数学库的技术链,充分发挥了FT-M7002内核体系结构优势,对点积算法实现了SIMD向量并行化、DMA双通道传输和SVR传输等优化。该研究充分挖掘了程序的向量并行性,有效地提升了数据传输的速度,提高了程序性能。实验结果表明,输入不同规模大小的数组,不同类型的点积算法在FT-M7002平台上优化后和优化前的平均性能比为12.4166~45.2338。相较于TI官网的dsplib库中不同类型的点积函数在TMS320C6678处理器上运行的性能,FT-M7002平台优化后的性能与TI平台的平均性能比为1.3716~4.5196。实验结果表明了该DSP平台相对于TI主流平台的计算性能优势。
关键词
FT-M7002
DSP
点积算法
向量
DMA双通道传输
SVR传输
Keywords
FT-M7002
digital signal processor(DSP)
dot product algorithm
vector
DMA dual channel transmission
SVR transmission
分类号
TP391 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
面向深度学习编译器TVM的算子融合优化
高伟
王磊
李嘉楠
李帅龙
韩林
《计算机科学》
北大核心
2025
0
在线阅读
下载PDF
职称材料
2
面向深度学习编译器的多粒度量化框架支持与优化
魏铭康
李嘉楠
韩林
高伟
赵荣彩
王洪生
《计算机工程》
北大核心
2025
0
在线阅读
下载PDF
职称材料
3
基于混合并行的分布式训练优化研究
徐金龙
李鹏飞
李嘉楠
陈飙元
高伟
韩林
《计算机科学》
CSCD
北大核心
2024
1
在线阅读
下载PDF
职称材料
4
面向国产异构平台的OpenMP Offload共享内存访存优化
王鑫
李嘉楠
韩林
赵荣彩
周强伟
《计算机工程与应用》
CSCD
北大核心
2023
1
在线阅读
下载PDF
职称材料
5
面向FT-M7002平台点积算法的优化实现
郭盼盼
陈梦雪
梁祖达
马晓畅
许邦建
《计算机工程与科学》
CSCD
北大核心
2022
1
在线阅读
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部