期刊导航
期刊开放获取
上海教育软件发展有限公..
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
2
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
MRNDA:一种基于资源受限片上网络的深度神经网络加速器组播机制研究
被引量:
1
1
作者
欧阳一鸣
王奇
+2 位作者
汤飞扬
周武
李建华
《电子学报》
EI
CAS
CSCD
北大核心
2024年第3期872-884,共13页
片上网络(Network-on-Chip,NoC)在多处理器系统中得到了广泛的应用.近年来,有研究提出了基于NoC的深度神经网络(Deep Neural Network,DNN)加速器.基于NoC的DNN加速器设计利用NoC连接神经元计算设备,能够极大地减少加速器对片外存储的访...
片上网络(Network-on-Chip,NoC)在多处理器系统中得到了广泛的应用.近年来,有研究提出了基于NoC的深度神经网络(Deep Neural Network,DNN)加速器.基于NoC的DNN加速器设计利用NoC连接神经元计算设备,能够极大地减少加速器对片外存储的访问从而减少加速器的分类延迟和功耗.但是,若采用传统的单播NoC,大量的一对多数据包会极大的提高加速器的通信延迟.并且,目前的深度神经网络规模往往非常庞大,而NoC的核心数量是有限的.因此,文中提出了一种针对资源受限的NoC的组播方案.该方案利用有限数量的处理单元(Processor Element,PE)来计算大型的DNN,并且利用特殊的树形组播加速网络来减少加速器的通信延迟.仿真结果表明,和基准情况相比,本文提出的组播机制使加速器的分类延迟最高降低了86.7%,通信延迟最高降低了88.8%,而它的路由器面积和功耗仅占基准路由器的9.5%和10.3%.
展开更多
关键词
片上
网络
深度神经网络加速器
组播
路由器架构
多物理
网络
在线阅读
下载PDF
职称材料
面向多模型工作负载的弹性计算加速器架构研究
2
作者
张军
王兴宾
苏玉兰
《高技术通讯》
2025年第7期698-710,共13页
针对多模型工作负载在深度神经网络(deep neural network,DNN)加速器上部署时服务质量下降的问题,本文提出新的加速器体系结构EnsBooster,该架构能够为多模型的高效推理提供经济高效的并行执行模式。首先,设计了弹性脉动阵列,将较大的...
针对多模型工作负载在深度神经网络(deep neural network,DNN)加速器上部署时服务质量下降的问题,本文提出新的加速器体系结构EnsBooster,该架构能够为多模型的高效推理提供经济高效的并行执行模式。首先,设计了弹性脉动阵列,将较大的脉动阵列划分为多个较小的脉动子阵列,以满足多模型并行执行的灵活性和可扩展性需求。其次,提出了时空复用资源分配策略,充分利用时空共享来提高底层计算资源的使用效率。最后,提出分层调度机制,在粗粒度层面,采用提前退出调度来降低多模型推理的计算负担;在细粒度层面,采用抢占调度机制利用多模型的互补性和数据局部性抢占空闲计算资源,最大限度地提高硬件资源和带宽利用率。使用一组不同的多模型工作负载基准进行的评估表明,EnsBooster架构在吞吐量、能耗降低方面有显著提高。
展开更多
关键词
深度神经网络加速器
集成学习
多模型工作负载
弹性计算
脉动阵列
抢占调度
在线阅读
下载PDF
职称材料
题名
MRNDA:一种基于资源受限片上网络的深度神经网络加速器组播机制研究
被引量:
1
1
作者
欧阳一鸣
王奇
汤飞扬
周武
李建华
机构
合肥工业大学计算机与信息学院
合肥工业大学微电子学院
出处
《电子学报》
EI
CAS
CSCD
北大核心
2024年第3期872-884,共13页
基金
国家自然科学基金(No.61876158,No.71971151)。
文摘
片上网络(Network-on-Chip,NoC)在多处理器系统中得到了广泛的应用.近年来,有研究提出了基于NoC的深度神经网络(Deep Neural Network,DNN)加速器.基于NoC的DNN加速器设计利用NoC连接神经元计算设备,能够极大地减少加速器对片外存储的访问从而减少加速器的分类延迟和功耗.但是,若采用传统的单播NoC,大量的一对多数据包会极大的提高加速器的通信延迟.并且,目前的深度神经网络规模往往非常庞大,而NoC的核心数量是有限的.因此,文中提出了一种针对资源受限的NoC的组播方案.该方案利用有限数量的处理单元(Processor Element,PE)来计算大型的DNN,并且利用特殊的树形组播加速网络来减少加速器的通信延迟.仿真结果表明,和基准情况相比,本文提出的组播机制使加速器的分类延迟最高降低了86.7%,通信延迟最高降低了88.8%,而它的路由器面积和功耗仅占基准路由器的9.5%和10.3%.
关键词
片上
网络
深度神经网络加速器
组播
路由器架构
多物理
网络
Keywords
network-on-chip
deep neural network accelerator
multicast
router architecture
multiple network
分类号
TP302 [自动化与计算机技术—计算机系统结构]
在线阅读
下载PDF
职称材料
题名
面向多模型工作负载的弹性计算加速器架构研究
2
作者
张军
王兴宾
苏玉兰
机构
湖北文理学院智慧交通研究院
出处
《高技术通讯》
2025年第7期698-710,共13页
基金
湖北省自然科学基金面上项目(2022CFB325)
国家自然科学基金面上项目(62272459)资助。
文摘
针对多模型工作负载在深度神经网络(deep neural network,DNN)加速器上部署时服务质量下降的问题,本文提出新的加速器体系结构EnsBooster,该架构能够为多模型的高效推理提供经济高效的并行执行模式。首先,设计了弹性脉动阵列,将较大的脉动阵列划分为多个较小的脉动子阵列,以满足多模型并行执行的灵活性和可扩展性需求。其次,提出了时空复用资源分配策略,充分利用时空共享来提高底层计算资源的使用效率。最后,提出分层调度机制,在粗粒度层面,采用提前退出调度来降低多模型推理的计算负担;在细粒度层面,采用抢占调度机制利用多模型的互补性和数据局部性抢占空闲计算资源,最大限度地提高硬件资源和带宽利用率。使用一组不同的多模型工作负载基准进行的评估表明,EnsBooster架构在吞吐量、能耗降低方面有显著提高。
关键词
深度神经网络加速器
集成学习
多模型工作负载
弹性计算
脉动阵列
抢占调度
Keywords
deep neural network(DNN)accelerator
ensemble learning
multi-model workloads
elastic computing
systolic array
preemptive scheduling
分类号
TP183 [自动化与计算机技术]
在线阅读
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
MRNDA:一种基于资源受限片上网络的深度神经网络加速器组播机制研究
欧阳一鸣
王奇
汤飞扬
周武
李建华
《电子学报》
EI
CAS
CSCD
北大核心
2024
1
在线阅读
下载PDF
职称材料
2
面向多模型工作负载的弹性计算加速器架构研究
张军
王兴宾
苏玉兰
《高技术通讯》
2025
在线阅读
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部