期刊文献+
共找到10篇文章
< 1 >
每页显示 20 50 100
基于FPGA的卷积神经网络硬件加速器设计空间探索研究 被引量:2
1
作者 郭谦 贺光辉 《微电子学与计算机》 北大核心 2020年第8期66-71,共6页
为了解决基于FPGA的卷积神经网络硬件加速器资源分配的问题,提出一种基于细粒度流水线架构的设计空间探索方法.为了提高吞吐率,该方法主要使用了三种技术:1)通过对DSP进行多阶段分配,实现各级流水线平衡;2)利用可调节的中间值缓存,协调B... 为了解决基于FPGA的卷积神经网络硬件加速器资源分配的问题,提出一种基于细粒度流水线架构的设计空间探索方法.为了提高吞吐率,该方法主要使用了三种技术:1)通过对DSP进行多阶段分配,实现各级流水线平衡;2)利用可调节的中间值缓存,协调BRAM和DDR带宽资源;3)利用深度可分解卷积替换部分卷积层,减少网络整体计算量.为了验证提出的设计空间探索方法,在ZC-706FPGA上实现了YOLO2-tiny网络,结果表明与同类设计相比,本设计的吞吐率与能效比高,整体延时低. 展开更多
关键词 卷积神经网络硬件加速器 设计空间探索 细粒度流水线
在线阅读 下载PDF
基于半监督集成学习的多核设计空间探索
2
作者 李丹丹 姚淑珍 +2 位作者 王颖 王森章 谭火彬 《北京航空航天大学学报》 EI CAS CSCD 北大核心 2018年第4期792-801,共10页
随着处理器的系统结构日趋复杂,设计空间呈指数式增长,并且软件模拟技术极为费时,成为处理器设计的重要挑战。提出了一种结合集成学习和半监督学习技术的高效设计空间探索方法。具体而言,该方法包括2个阶段:使用均匀随机采样方法从处理... 随着处理器的系统结构日趋复杂,设计空间呈指数式增长,并且软件模拟技术极为费时,成为处理器设计的重要挑战。提出了一种结合集成学习和半监督学习技术的高效设计空间探索方法。具体而言,该方法包括2个阶段:使用均匀随机采样方法从处理器设计空间中选择一小组具有代表性的设计点,通过模拟获得性能响应,从而组成训练数据集;提出基于半监督学习的AdaBoost(SSLBoost)模型预测未模拟的样本配置的响应,从而搜索最优的处理器设计配置。实验结果表明,与现有的基于人工神经网络和支持向量机(SVM)的有监督预测模型相比,SSLBoost模型能够使用更少的模拟样本构建出不差于现有方法性能的预测模型;而当模拟样本数量相同时,SSLBoost模型的预测精度更高。 展开更多
关键词 设计空间探索 半监督学习 集成学习 ADABOOST 微处理器 预测模型
在线阅读 下载PDF
面向通用处理器芯粒架构探索和评估的系统级模拟器
3
作者 张聪武 刘澳 +2 位作者 张科 常轶松 包云岗 《电子与信息学报》 EI CAS CSCD 北大核心 2024年第12期4575-4588,共14页
随着摩尔定律的逐步失效,芯片制造工艺的提升愈发困难,芯片性能的提升面临“面积墙”问题,chiplet(芯粒)技术开始被广泛采用来解决此问题。然而,面向chiplet引入的架构设计参数,目前的体系结构模拟器面临新的挑战。为了能够探索chiplet... 随着摩尔定律的逐步失效,芯片制造工艺的提升愈发困难,芯片性能的提升面临“面积墙”问题,chiplet(芯粒)技术开始被广泛采用来解决此问题。然而,面向chiplet引入的架构设计参数,目前的体系结构模拟器面临新的挑战。为了能够探索chiplet架构的特定设计参数,现有工作通常只会为模拟器增加单一的功能,导致其难以用于探索多个参数对chiplet芯片的整体影响。为了能够较为全面地探索和评估chiplet芯片架构,该文基于现有gem5模拟器实现了面向通用处理器芯粒架构探索和评估的系统级模拟器(SEEChiplet)模拟器框架。首先,总结了现在chiplet芯片设计关注的3类设计参数,包括:(1)芯片cache系统设计;(2)封装方式模拟;(3) chiplet间的互连网络。其次,针对上述3类参数:(1)设计并实现了私有末级缓存系统,扩大了cache系统设计空间;(2)修改了gem5已有的全局目录,以适配私有末级缓存(LLC)系统;(3)建模了两种常见的chiplet封装方式以及chiplet间互连网络。最后,该文在SEEChiplet框架中进行了系统级的模拟评估,在被测chiplet架构通用处理器上运行操作系统及PARSEC 3.0基准测试程序,验证了SEEChiplet的功能,证明SEEChiplet可以对chiplet设计空间进行探索和评估。 展开更多
关键词 芯粒 设计空间探索 体系结构模拟器 缓存系统
在线阅读 下载PDF
基于TBS的汽车空气动力学设计寻优方法
4
作者 姜岩 牛冬妍 +2 位作者 裴荣薜 杨士萱 刘猛 《汽车实用技术》 2024年第2期95-101,共7页
文章以一汽-大众BORA车型空气动力学性能为研究对象,使用瞬态边界种子(TBS)技术,风阻系数保持不变,仿真耗时减少约86%。以此为基础,结合Design Guide技术,以阻力系数和升力系数作为研究对象,对由后风窗角度和后盖尾翼造型高度构成的设... 文章以一汽-大众BORA车型空气动力学性能为研究对象,使用瞬态边界种子(TBS)技术,风阻系数保持不变,仿真耗时减少约86%。以此为基础,结合Design Guide技术,以阻力系数和升力系数作为研究对象,对由后风窗角度和后盖尾翼造型高度构成的设计变量进行设计空间内的探索及优化。在234个全集变量组合的设计空间内,仅通过24个TBS计算,完成BORA基本车型的风阻系数降低3 counts,升力系数降低15 counts。此外,通过Design Guide拟合生成的响应面及关系图信息,可进一步获取设计变量与响应变量间的相互作用关系,以及给定设计空间内风阻系数的优化潜力。 展开更多
关键词 TBS 整车空气动力学 仿真周期 设计空间探索
在线阅读 下载PDF
面向高能效场景的神经网络结构和加速器协同设计
5
作者 陈维伟 王颖 张磊 《高技术通讯》 CAS 2022年第11期1143-1152,共10页
神经网络算法和深度学习加速器已成为推动深度学习方法应用最重要的两股力量,但目前的神经网络结构设计主要围绕模型精度、计算量等指标,忽略了不同模型在目标加速器上计算效率的差异;而加速器设计一般针对既定的神经网络基准程序进行优... 神经网络算法和深度学习加速器已成为推动深度学习方法应用最重要的两股力量,但目前的神经网络结构设计主要围绕模型精度、计算量等指标,忽略了不同模型在目标加速器上计算效率的差异;而加速器设计一般针对既定的神经网络基准程序进行优化,往往难以覆盖到未来不断迭代进化的神经网络模型,这就容易导致加速器在新的网络架构上表现不佳。本质上,神经网络架构与加速器相对独立的设计流程,导致了两者的设计和优化不匹配,从而无法达到最优的深度学习推理性能。为此,本文提出了一种针对图像分类任务的网络结构和加速器软硬件协同设计的框架,将网络结构和加速器设计融合到统一的设计空间中,并针对设计约束,自动搜索最优协同设计方案,实现了端到端的深度学习推理定制和优化。实验表明,在真实的图像分类数据集和脉动阵列架构上,相对于传统的网络结构和加速器分别独立优化的方法,本文提出的协同设计方法实现了平均40%的能耗降低。 展开更多
关键词 神经网络结构设计 加速器设计 软硬件协同设计 设计空间探索
在线阅读 下载PDF
H.264中逆量化逆变换的高层次综合实现
6
作者 陈新伟 孟祥刚 +3 位作者 高腾 陈瑶 梁科 李国峰 《电子技术应用》 北大核心 2016年第11期25-28,共4页
逆变换与逆量化是H.264解码器中的一个重要环节,由于其算法复杂度较高,利用传统的RTL方法设计其硬件电路需要消耗大量的设计时间并经历复杂的验证过程。提出了采用高层次综合的方法进行高效快速的逆变换逆量化硬件模块设计。测试结果表... 逆变换与逆量化是H.264解码器中的一个重要环节,由于其算法复杂度较高,利用传统的RTL方法设计其硬件电路需要消耗大量的设计时间并经历复杂的验证过程。提出了采用高层次综合的方法进行高效快速的逆变换逆量化硬件模块设计。测试结果表明,该方法可以较快地得到针对FPGA平台的逆变换逆量化硬件模块,同时可对其设计空间进行有效探索,得到满足不同需求的硬件模块。 展开更多
关键词 H.264解码器 逆量化 逆变换 高层次综合 设计空间探索
在线阅读 下载PDF
NN-EdgeBuilder:面向边缘端设备的高性能神经网络推理框架
7
作者 张萌 张雨 +2 位作者 张经纬 曹新野 李鹤 《电子与信息学报》 EI CSCD 北大核心 2023年第9期3132-3140,共9页
飞速发展的神经网络已经在目标检测等领域取得了巨大的成功,通过神经网络推理框架将网络模型高效地自动部署在各类边缘端设备上是目前重要的研究方向。针对以上问题,该文设计一个针对边缘端FPGA的神经网络推理框架NN-EdgeBuilder,能够... 飞速发展的神经网络已经在目标检测等领域取得了巨大的成功,通过神经网络推理框架将网络模型高效地自动部署在各类边缘端设备上是目前重要的研究方向。针对以上问题,该文设计一个针对边缘端FPGA的神经网络推理框架NN-EdgeBuilder,能够利用基于多目标贝叶斯优化的设计空间探索算法充分探索网络每层的并行度因子和量化位宽,接着调用高性能且通用的硬件加速算子来生成低延迟、低功耗的神经网络加速器。该文使用NN-EdgeBuilder在Ultra96-V2 FPGA上部署了UltraNet和VGG网络,生成的UltraNet-P1加速器与最先进的Ul-traNet定制加速器相比,功耗和能效比表现分别提升了17.71%和21.54%。与主流的推理框架相比,NN-Edge-Builder生成的VGG加速器能效比提升了4.40倍,数字信号处理器(DSP)的计算效率提升了50.65%。 展开更多
关键词 神经网络推理框架 设计空间探索 多目标贝叶斯优化 硬件加速算子
在线阅读 下载PDF
处理器访存子系统关键队列的性能建模 被引量:1
8
作者 李文青 吴畏 +2 位作者 章隆兵 肖俊华 王剑 《高技术通讯》 EI CAS 北大核心 2020年第7期655-665,共11页
处理器访存性能对其整体性能有着很大的影响,访存子系统的设计显得尤为重要。高性能超标量处理器的访存子系统中存在多个关键队列,如何快速进行设计折中,成为设计的关键。本文采用软件模拟器和回归模型结合的建模方法,提出了一个面向访... 处理器访存性能对其整体性能有着很大的影响,访存子系统的设计显得尤为重要。高性能超标量处理器的访存子系统中存在多个关键队列,如何快速进行设计折中,成为设计的关键。本文采用软件模拟器和回归模型结合的建模方法,提出了一个面向访存子系统关键队列的回归分析模型,并设计实现了相应的访存子系统模拟器。将软件模拟器与目标处理器设计的现场可编程门阵列(FPGA)原型验证平台进行准确性校准,并采用回归模型对软件模拟器的模拟数据进行分析,结果表明:实验验证结果稳定且对于所测试程序误差在10%以内。该建模方法可以量化分析访存子系统中关键队列大小与性能之间的关系,有效扩大硬件设计空间探索的范围,加快高性能处理器访存子系统的优化设计。 展开更多
关键词 处理器设计空间探索 访存子系统 软件模拟器 回归模型
在线阅读 下载PDF
一种动态可重构协处理器参数化系统级模型研究 被引量:1
9
作者 王鹏 林水生 黄乐天 《微电子学与计算机》 CSCD 北大核心 2011年第2期86-90,共5页
提出了参数化系统级模型.该模型不依赖于具体结构,以任务布局与重构处理分离的两级结构处理任务调用,通过参数方式实现不同设计方案的硬件结构和布局算法的配置.采用SystemC语言对模型进行了建模验证,仿真结果表明,通过指定上下文的下... 提出了参数化系统级模型.该模型不依赖于具体结构,以任务布局与重构处理分离的两级结构处理任务调用,通过参数方式实现不同设计方案的硬件结构和布局算法的配置.采用SystemC语言对模型进行了建模验证,仿真结果表明,通过指定上下文的下载、配置和执行等时间开销参数,在系统级设计空间探索中,能很好地模拟动态重构协处理器. 展开更多
关键词 动态可重构处理器 动态重构 设计空间探索 系统级模型 SystemC建模
在线阅读 下载PDF
基于SytemC动态可重构系统硬件任务管理模型
10
作者 潘鹏 林水生 黄乐天 《电子科技》 2011年第6期60-64,77,共6页
采用基于框架的建模仿真方法,对动态可重构系统进行设计空间搜索,需要建立仿真模型评估任务的管理策略。为此,文中利用System C搭建了一种动态可重构系统的硬件任务管理模型,该模型可根据不同的管理策略和重构资源进行调整。仿真实验结... 采用基于框架的建模仿真方法,对动态可重构系统进行设计空间搜索,需要建立仿真模型评估任务的管理策略。为此,文中利用System C搭建了一种动态可重构系统的硬件任务管理模型,该模型可根据不同的管理策略和重构资源进行调整。仿真实验结果表明,通过模型仿真获得硬件任务,在指定管理策略和资源约束下的实时调度布局信息,并针对具体应用和结构评估动态,可重构系统硬件任务的管理策略。 展开更多
关键词 动态重构 硬件任务管理 设计空间探索 SYSTEM C
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部