期刊导航
期刊开放获取
上海教育软件发展有限公..
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
3
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
面向脉动阵列加速器的软硬件协同容错设计
1
作者
魏晓辉
关泽宇
+2 位作者
王晨洋
岳恒山
吴旗
《计算机科学》
北大核心
2025年第5期91-100,共10页
近年来,随着模型推理精度的不断提高,卷积神经网络(CNN)在安全关键领域得到了广泛应用。为了满足CNN在实时性、高性能和低功耗计算方面的需求,领域专用架构的CNN加速器应运而生。其中,脉动阵列架构凭借其结构简单和高并行度等优势被广...
近年来,随着模型推理精度的不断提高,卷积神经网络(CNN)在安全关键领域得到了广泛应用。为了满足CNN在实时性、高性能和低功耗计算方面的需求,领域专用架构的CNN加速器应运而生。其中,脉动阵列架构凭借其结构简单和高并行度等优势被广泛应用。然而,由于制程变异和设备老化等因素的影响,脉动阵列容易发生Stuck-At故障(SAF),进而可能导致灾难性事故。因此,制定针对脉动阵列的容错策略显得尤为重要。然而,现有的容错策略存在时间和资源开销大、网络参数修改过多等问题。为实现高效且低开销的轻量级容错策略,拟挖掘CNN的固有容错能力,对部分影响较小的SAF进行松弛处理,以减少整体容错开销。同时,充分考虑脉动阵列的计算特性,提出了行(列)交换和权重拆分两种软硬件协同容错设计,有效缓解SAF对模型推理精度的影响。实验结果表明,相较于传统行(列)跳过策略和选择保护策略,所提软硬件协同容错策略在执行效率和模型精度恢复方面更具优势。
展开更多
关键词
卷积
神经网络
容错设计
Stuck-At故障
脉动阵列
卷积神经网络加速器
在线阅读
下载PDF
职称材料
基于BP算法的片上学习CNN硬件加速器
被引量:
2
2
作者
王飞
张多利
+2 位作者
汪杨
王泽中
宋宇鲲
《合肥工业大学学报(自然科学版)》
CAS
北大核心
2021年第8期1059-1064,共6页
为了适应便携式应用场合卷积神经网络(convolutional neural network,CNN)硬件加速器片上学习功能的需要,文章设计了一种多核并行运算的CNN硬件加速器,利用运算器内嵌缓存结构与运算过程分割和数据复用,减少运算器和存储器之间的数据交...
为了适应便携式应用场合卷积神经网络(convolutional neural network,CNN)硬件加速器片上学习功能的需要,文章设计了一种多核并行运算的CNN硬件加速器,利用运算器内嵌缓存结构与运算过程分割和数据复用,减少运算器和存储器之间的数据交互,提高CNN运算的并行度,提升训练和推理过程的效率。该架构包含1组二维运算阵列和激活函数运算模块,以及相应的数据分配器和指令存储器;以1个16单元的CNN加速器设计为例,验证了所设计CNN加速器架构运行多种CNN模型时的性能和运算准确性。实验结果表明,文中提出的加速器架构与Intel9400F CPU相比,最大误差为8.0437×10^(-6),识别精度下降0.63%,运行速度提高7.67倍。
展开更多
关键词
卷积
神经网络
(CNN)
加速器
片上学习
现场可编程门阵列(FPGA)
TOEPLITZ矩阵
在线阅读
下载PDF
职称材料
面向混合量化CNNs的可重构处理器设计
被引量:
1
3
作者
常立博
张盛兵
《西北工业大学学报》
EI
CAS
CSCD
北大核心
2022年第2期344-351,共8页
为了解决已有卷积神经网络(convolution neural networks,CNNs)加速器,因无法适应混合量化CNN模型的计算模式和访存特性而引起加速器效率低的问题,设计了可适应混合量化模型的可重构计算单元、弹性片上缓存单元和宏数据流指令集。其中,...
为了解决已有卷积神经网络(convolution neural networks,CNNs)加速器,因无法适应混合量化CNN模型的计算模式和访存特性而引起加速器效率低的问题,设计了可适应混合量化模型的可重构计算单元、弹性片上缓存单元和宏数据流指令集。其中,采用了可根据CNN模型结构的重构多核结构以提高计算资源利用率,采用弹性存储结构以及基于Tile的动态缓存划分策略以提高片上数据复用率,采用可有效表达混合精度CNN模型计算和可重构处理器特性的宏数据流指令集以降低映射策略的复杂度。在Ultra96-V2平台上实现VGG-16和ResNet-50的计算性能达到216.6和214 GOPS,计算效率达到0.63和0.64 GOPS/DSP。同时,在ZCU102平台上实现ResNet-50的计算性能可达931.8 GOPS,计算效率可达0.40 GOPS/DSP,相较于其他类似CNN加速器,计算性能和计算效率分别提高了55.4%和100%。
展开更多
关键词
混合精度量化
卷积神经网络加速器
可重构计算
在线阅读
下载PDF
职称材料
题名
面向脉动阵列加速器的软硬件协同容错设计
1
作者
魏晓辉
关泽宇
王晨洋
岳恒山
吴旗
机构
吉林大学计算机科学与技术学院
吉林大学高性能计算中心
出处
《计算机科学》
北大核心
2025年第5期91-100,共10页
基金
国家重点研发计划(2023YFB4502304)
国家自然科学基金(62302190,62272190)。
文摘
近年来,随着模型推理精度的不断提高,卷积神经网络(CNN)在安全关键领域得到了广泛应用。为了满足CNN在实时性、高性能和低功耗计算方面的需求,领域专用架构的CNN加速器应运而生。其中,脉动阵列架构凭借其结构简单和高并行度等优势被广泛应用。然而,由于制程变异和设备老化等因素的影响,脉动阵列容易发生Stuck-At故障(SAF),进而可能导致灾难性事故。因此,制定针对脉动阵列的容错策略显得尤为重要。然而,现有的容错策略存在时间和资源开销大、网络参数修改过多等问题。为实现高效且低开销的轻量级容错策略,拟挖掘CNN的固有容错能力,对部分影响较小的SAF进行松弛处理,以减少整体容错开销。同时,充分考虑脉动阵列的计算特性,提出了行(列)交换和权重拆分两种软硬件协同容错设计,有效缓解SAF对模型推理精度的影响。实验结果表明,相较于传统行(列)跳过策略和选择保护策略,所提软硬件协同容错策略在执行效率和模型精度恢复方面更具优势。
关键词
卷积
神经网络
容错设计
Stuck-At故障
脉动阵列
卷积神经网络加速器
Keywords
Convolutional neural networks
Fault-tolerant design
Stuck-At faults
Systolic arrays
CNN accelerators
分类号
TP183 [自动化与计算机技术—控制理论与控制工程]
在线阅读
下载PDF
职称材料
题名
基于BP算法的片上学习CNN硬件加速器
被引量:
2
2
作者
王飞
张多利
汪杨
王泽中
宋宇鲲
机构
合肥工业大学电子科学与应用物理学院
出处
《合肥工业大学学报(自然科学版)》
CAS
北大核心
2021年第8期1059-1064,共6页
基金
国家自然科学基金资助项目(61874156)
国家重点研发计划资助项目(2018YFB2202604)。
文摘
为了适应便携式应用场合卷积神经网络(convolutional neural network,CNN)硬件加速器片上学习功能的需要,文章设计了一种多核并行运算的CNN硬件加速器,利用运算器内嵌缓存结构与运算过程分割和数据复用,减少运算器和存储器之间的数据交互,提高CNN运算的并行度,提升训练和推理过程的效率。该架构包含1组二维运算阵列和激活函数运算模块,以及相应的数据分配器和指令存储器;以1个16单元的CNN加速器设计为例,验证了所设计CNN加速器架构运行多种CNN模型时的性能和运算准确性。实验结果表明,文中提出的加速器架构与Intel9400F CPU相比,最大误差为8.0437×10^(-6),识别精度下降0.63%,运行速度提高7.67倍。
关键词
卷积
神经网络
(CNN)
加速器
片上学习
现场可编程门阵列(FPGA)
TOEPLITZ矩阵
Keywords
convolutional neural network(CNN)accelerator
on-chip learning
field programmable gate array(FPGA)
Toeplitz matrix
分类号
TN47 [电子电信—微电子学与固体电子学]
在线阅读
下载PDF
职称材料
题名
面向混合量化CNNs的可重构处理器设计
被引量:
1
3
作者
常立博
张盛兵
机构
西北工业大学计算机学院
西安邮电大学电子工程学院
出处
《西北工业大学学报》
EI
CAS
CSCD
北大核心
2022年第2期344-351,共8页
基金
国家重点研发计划(2019YFB1803600)
中国民航适航中心开放基金(SH2021111903)资助。
文摘
为了解决已有卷积神经网络(convolution neural networks,CNNs)加速器,因无法适应混合量化CNN模型的计算模式和访存特性而引起加速器效率低的问题,设计了可适应混合量化模型的可重构计算单元、弹性片上缓存单元和宏数据流指令集。其中,采用了可根据CNN模型结构的重构多核结构以提高计算资源利用率,采用弹性存储结构以及基于Tile的动态缓存划分策略以提高片上数据复用率,采用可有效表达混合精度CNN模型计算和可重构处理器特性的宏数据流指令集以降低映射策略的复杂度。在Ultra96-V2平台上实现VGG-16和ResNet-50的计算性能达到216.6和214 GOPS,计算效率达到0.63和0.64 GOPS/DSP。同时,在ZCU102平台上实现ResNet-50的计算性能可达931.8 GOPS,计算效率可达0.40 GOPS/DSP,相较于其他类似CNN加速器,计算性能和计算效率分别提高了55.4%和100%。
关键词
混合精度量化
卷积神经网络加速器
可重构计算
Keywords
mixed-precision quantization
convolutional neural network accelerator
reconfigurable computing
分类号
TP391.41 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
面向脉动阵列加速器的软硬件协同容错设计
魏晓辉
关泽宇
王晨洋
岳恒山
吴旗
《计算机科学》
北大核心
2025
0
在线阅读
下载PDF
职称材料
2
基于BP算法的片上学习CNN硬件加速器
王飞
张多利
汪杨
王泽中
宋宇鲲
《合肥工业大学学报(自然科学版)》
CAS
北大核心
2021
2
在线阅读
下载PDF
职称材料
3
面向混合量化CNNs的可重构处理器设计
常立博
张盛兵
《西北工业大学学报》
EI
CAS
CSCD
北大核心
2022
1
在线阅读
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部