期刊文献+
共找到18篇文章
< 1 >
每页显示 20 50 100
面向YOLO神经网络的数据流架构优化研究 被引量:2
1
作者 穆宇栋 李文明 +5 位作者 范志华 吴萌 吴海彬 安学军 叶笑春 范东睿 《计算机学报》 北大核心 2025年第1期82-99,共18页
YOLO目标检测算法具有速度快、精度高、结构简单、性能稳定等优点,因此在多种对实时性要求较高的场景中得到广泛应用。传统的控制流架构在执行YOLO神经网络时面临计算部件利用率低、功耗高、能效较低等挑战。相较而言,数据流架构的执行... YOLO目标检测算法具有速度快、精度高、结构简单、性能稳定等优点,因此在多种对实时性要求较高的场景中得到广泛应用。传统的控制流架构在执行YOLO神经网络时面临计算部件利用率低、功耗高、能效较低等挑战。相较而言,数据流架构的执行模式与神经网络算法匹配度高,更能充分挖掘其中的数据并行性。然而,在数据流架构上部署YOLO神经网络时面临三个问题:(1)数据流架构的数据流图映射并不能结合YOLO神经网络中卷积层卷积核较小的特点,造成卷积运算数据复用率过低的问题,并进一步降低计算部件利用率;(2)数据流架构在算子调度时无法利用算子间结构高度耦合的特点,导致大量数据重复读取;(3)数据流架构上的数据存取与执行高度耦合、串序执行,导致数据存取延迟过高。为解决这些问题,本文设计了面向YOLO神经网络的数据流加速器DFU-Y。首先,结合卷积嵌套循环的执行模式,本文分析了小卷积核卷积运算的数据复用特征,并提出了更有利于执行单元内部数据复用的数据流图映射算法,从而整体提升卷积运行效率;然后,为充分利用结构耦合的算子间的数据复用,DFU-Y提出数据流图层次上的算子融合调度机制以减少数据存取次数、提升神经网络运行效率;最后,DFU-Y通过双缓存解耦合数据存取与执行,从而并行执行数据存取与运算,掩盖了程序间的数据传输延迟,提高了计算部件利用率。实验表明,相较数据流架构(DFU)和GPU(NVIDIA Xavier NX),DFU-Y分别获得2.527倍、1.334倍的性能提升和2.658倍、3.464倍的能效提升;同时,相较YOLO专用加速器(Arria-YOLO),DFU-Y在保持较好通用性的同时,达到了其性能的72.97%、能效的87.41%。 展开更多
关键词 YOLO算法 数据流架构 数据流图优化 卷积神经网络 神经网络加速
在线阅读 下载PDF
基于数据流架构的雷达信号调制方式识别加速 被引量:3
2
作者 黄湘松 王振 潘大鹏 《实验技术与管理》 CAS 北大核心 2024年第5期23-30,共8页
在雷达电子战中,快速并准确地识别敌方雷达信号调制技术对于获得战术优势至关重要,而传统依赖于图形处理单元(graphics processing unit,GPU)的识别方法难以满足此应用场景的低延迟要求。为此,该文设计了一种基于数据流架构(dataflow ar... 在雷达电子战中,快速并准确地识别敌方雷达信号调制技术对于获得战术优势至关重要,而传统依赖于图形处理单元(graphics processing unit,GPU)的识别方法难以满足此应用场景的低延迟要求。为此,该文设计了一种基于数据流架构(dataflow architecture,DF)的雷达信号调制方式识别加速系统。该系统通过对卷积神经网络权值进行二值化来减少模型参数,便于将算法部署到现场可编程门阵列(field-programmablegatearray,FPGA),同时采用数据流架构加快雷达信号调制方式的识别过程。实验结果表明,在确保整体识别准确率的前提下,该加速系统的推理速度相比i7-11800H CPU提升44.43倍,相比RTX 3050Ti GPU提升2.59倍,系统功耗仅为1.724 W。 展开更多
关键词 调制方式识别 深度学习 数据流架构 二值化神经网络 硬件部署
在线阅读 下载PDF
基于Actor模型的众核数据流硬件架构探索
3
作者 张家豪 邓金易 +2 位作者 尹首一 魏少军 胡杨 《计算机工程与科学》 CSCD 北大核心 2024年第6期959-967,共9页
超大规模AI模型的分布式训练对芯片架构的通信能力和可扩展性提出了挑战。晶圆级芯片通过在同一片晶圆上集成大量的计算核心和互联网络,实现了超高的计算密度和通信性能,成为了训练超大规模AI模型的理想选择。AMCoDA是一种基于Actor模... 超大规模AI模型的分布式训练对芯片架构的通信能力和可扩展性提出了挑战。晶圆级芯片通过在同一片晶圆上集成大量的计算核心和互联网络,实现了超高的计算密度和通信性能,成为了训练超大规模AI模型的理想选择。AMCoDA是一种基于Actor模型的众核数据流硬件架构,旨在利用Actor并行编程模型的高度并行性、异步消息传递和高扩展性等特点,在晶圆级芯片上实现AI模型的分布式训练。AMCoDA的设计包括计算模型、执行模型和硬件架构3个层面。实验表明,AMCoDA能广泛支持分布式训练中的各种并行模式和集合通信模式,灵活高效地完成复杂分布式训练策略的部署和执行。 展开更多
关键词 晶圆级芯片 分布式训练 Actor模型 众核数据流架构
在线阅读 下载PDF
学习分析系统构建研究 被引量:20
4
作者 马晓玲 邢万里 +1 位作者 冯翔 吴永和 《华东师范大学学报(自然科学版)》 CAS CSCD 北大核心 2014年第2期1-19,39,共20页
学习分析目前应用于教育的多个方面,但是还缺乏一个完整、清晰、可实施的学习数据系统.本文尝试构建一个开放的、全面的学习分析系统.综述了该领域研究近年的发展,并对若干重要概念进行了定义,给出了学习分析系统和数据的时空与交互演化... 学习分析目前应用于教育的多个方面,但是还缺乏一个完整、清晰、可实施的学习数据系统.本文尝试构建一个开放的、全面的学习分析系统.综述了该领域研究近年的发展,并对若干重要概念进行了定义,给出了学习分析系统和数据的时空与交互演化.着重分析了学习分析系统论域(LASUoD)、形式化建模学习分析系统信息空间模型[ΣR,ΣCR,ΣMT,ΣA,ΣW,ΣC],构建了学习分析系统架构,并分析了该系统中数据流程.提出了学习分析对象数据模型、学习分析系统本体(LASO)框架及学习分析系统标准组谱,以实现学习分析系统应用的互操作.最后,为了说明学习分析系统应用情况,展示了一个基于开源学习管理系统Sakai的学习分析实例. 展开更多
关键词 学习分析对象 学习分析系统 形式化建模 信息空间模型 系统架构 数据流分析 学习分析本体 学习分析标准
在线阅读 下载PDF
基于GPU/CPU混合架构的流程序多粒度划分与调度方法研究 被引量:5
5
作者 陈文斌 杨瑞瑞 于俊清 《计算机工程与科学》 CSCD 北大核心 2017年第1期15-26,共12页
数据流编程语言简化了相关领域的编程,很好地把任务计算和数据通信分开,从而使应用程序分别在任务级和数据级均具有可并行性。针对GPU/CPU混合架构中存在的大量数据并行、任务并行和流水线并行等问题,提出并实现了面向GPU/CPU混合架构... 数据流编程语言简化了相关领域的编程,很好地把任务计算和数据通信分开,从而使应用程序分别在任务级和数据级均具有可并行性。针对GPU/CPU混合架构中存在的大量数据并行、任务并行和流水线并行等问题,提出并实现了面向GPU/CPU混合架构的数据流程序任务划分方法和多粒度调度策略,包括任务的分类处理、GPU端任务的水平分裂和CPU端离散任务的均衡化,构造了软件流水调度,经过编译优化生成OpenCL的目标代码。任务的分类处理根据数据流程序各个任务的计算特点和任务间的通信量大小,将各任务分配到合适的计算平台上;GPU端任务的水平分裂利用GPU端任务的并行性将其均衡分裂到各个GPU,以避免GPU间高额的通信开销影响程序整体的执行性能;CPU端离散任务的均衡化通过选择合适CPU核,将CPU端各任务均衡分配给各CPU核,以保证负载均衡并提高各CPU核的利用率。实验以多块NVIDIA Tesla C2050、多核CPU为混合架构平台,选取多媒体领域典型的算法作为测试程序,实验结果表明了划分方法和调度策略的有效性。 展开更多
关键词 混合架构 数据流编程 任务划分 存储优化
在线阅读 下载PDF
面向低精度神经网络的数据流体系结构优化 被引量:2
6
作者 范志华 吴欣欣 +4 位作者 李文明 曹华伟 安学军 叶笑春 范东睿 《计算机研究与发展》 EI CSCD 北大核心 2023年第1期43-58,共16页
数据流架构的执行方式与神经网络算法具有高度匹配性,能充分挖掘数据的并行性.然而,随着神经网络向更低精度的发展,数据流架构的研究并未面向低精度神经网络展开,在传统数据流架构部署低精度(INT8,INT4或者更低)神经网络时,会面临3个问... 数据流架构的执行方式与神经网络算法具有高度匹配性,能充分挖掘数据的并行性.然而,随着神经网络向更低精度的发展,数据流架构的研究并未面向低精度神经网络展开,在传统数据流架构部署低精度(INT8,INT4或者更低)神经网络时,会面临3个问题:1)传统数据流架构的计算部件数据通路与低精度数据不匹配,无法体现低精度神经网络的性能和能效优势;2)向量化并行计算的低精度数据在片上存储中要求顺序排列,然而它在片外存储层次中是分散排列的,使得数据的加载和写回操作变得复杂,传统数据流架构的访存部件无法高效支持这种复杂的访存模式;3)传统数据流架构中使用双缓冲机制掩盖数据的传输延迟,但是,当传输低精度数据时,传输带宽的利用率显著降低,导致计算延迟无法掩盖数据传输延迟,双缓冲机制面临失效风险,进而影响数据流架构的性能和能效.为解决这3个问题,设计了面向低精度神经网络的数据流加速器DPU_Q.首先,设计了灵活可重构的计算单元,根据指令的精度标志位动态重构数据通路,一方面能高效灵活地支持多种低精度数据运算,另一方面能进一步提高计算并行性和吞吐量.另外,为解决低精度神经网络复杂的访存模式,设计了Scatter引擎,该引擎将在低层次或者片外存储中地址空间离散分布的低精度数据进行拼接、预处理,以满足高层次或者片上存储对数据排列的格式要求.同时,Scatter引擎能有效解决传输低精度数据时带宽利用率低的问题,解决了双缓冲机制失效的问题.最后,从软件方面提出了基于数据流执行模式的低精度神经网络映射算法,兼顾负载均衡的同时能对权重、激活值数据进行充分复用,减少了访存和数据流图节点间的数据传输开销.实验表明,相比于同精度的GPU(Titan Xp)、数据流架构(Eyeriss)和低精度神经网络加速器(BitFusion),DPU_Q分别获得3.18倍、6.05倍、1.52倍的性能提升和4.49倍、1.6倍、1.13倍的能效提升. 展开更多
关键词 数据流架构 低精度神经网络 量化 可重构架构 直接内存访问
在线阅读 下载PDF
基于网络负载特征感知的数据流指令调度机制研究 被引量:2
7
作者 冯煜晶 欧焱 +3 位作者 叶笑春 范东睿 谭旭 唐志敏 《高技术通讯》 EI CAS 北大核心 2018年第11期885-898,共14页
研究了数据流架构的指令调度策略,基于当前普遍采用的数据流指令调度机制,提出了支持模式切换的动态指令调度机制。由于数据流架构执行模式具有并行化特点,同一时刻存在大量并行传递的数据和并行的计算,网络传输负载呈现出非均匀的分布... 研究了数据流架构的指令调度策略,基于当前普遍采用的数据流指令调度机制,提出了支持模式切换的动态指令调度机制。由于数据流架构执行模式具有并行化特点,同一时刻存在大量并行传递的数据和并行的计算,网络传输负载呈现出非均匀的分布模式。局部网络传输压力过大导致数据流节点中的处理单元内部出现流水线停顿,片上网络(NoC)的局部传输效率降低,从而影响数据流架构的网络传输延迟、计算部件的利用率和整体的执行效率,因此针对原有的指令调度策略提出改进方案。针对网络负载的动态变化实时调整指令调度策略,从而达到缓解网络局部拥塞,提高网络传输效率的目的。本研究使用数据流模拟器对提出的机制进行验证,实验结果表明,采用本文提出的指令调度机制,数据流网络的传输延迟平均降低了12. 8%,计算部件的利用率平均提高了14. 4%,数据流架构的整体性能平均提高了14. 7%。 展开更多
关键词 数据流架构 动态指令调度 片上网络(NoC) 网络负载 单元利用率
在线阅读 下载PDF
基于Petri Nets的数据流结构设计与模拟 被引量:1
8
作者 瞿俊杰 陈咏恩 《同济大学学报(自然科学版)》 EI CAS CSCD 北大核心 2004年第3期411-415,共5页
数据流结构被广泛应用于数据流信号处理算法的硬件实现中 .通过建立数据流结构的PetriNets模型 ,动态模拟各个硬件处理单元在不同数据率输入信号下的状态 ,以此确定数据流结构中最佳的设计参数 。
关键词 数据流结构 PETRI NETS 硬件建模
在线阅读 下载PDF
几种常见软件体系结构模型的分析 被引量:7
9
作者 杨志明 《计算机工程与设计》 CSCD 2004年第8期1326-1328,共3页
随着计算机科学技术的发展,软件的规模和应用领域迅速扩大,造成了软件复杂程度的不断加大,所以高效地开发出高质量的软件产品越来越困难,于是软件开发人员开始关注于如何找到理解软件的更好途径和是否存在更好的途径来构造复杂的大型软... 随着计算机科学技术的发展,软件的规模和应用领域迅速扩大,造成了软件复杂程度的不断加大,所以高效地开发出高质量的软件产品越来越困难,于是软件开发人员开始关注于如何找到理解软件的更好途径和是否存在更好的途径来构造复杂的大型软件系统。研究软件体系结构就是解决这些问题的有力方法,经过对常见软件体系结构模型的分析后提出:根据待开发软件的应用场合和所处理问题的特点选取合适的体系结构,有利于缩短开发周期、节约开发成本和软件维护。 展开更多
关键词 软件体系结构 软件维护 计算机科学技术 软件系统 开发软件 软件产品 模型 软件开发人员 开发成本 扩大
在线阅读 下载PDF
谓词执行技术在类数据流体系结构中的实现和优化
10
作者 王莉 安虹 +3 位作者 王耀彬 任永青 从明 路璐 《小型微型计算机系统》 CSCD 北大核心 2010年第12期2461-2466,共6页
谓词执行技术是克服程序中控制依赖的重要软件技术.利用类数据流体系结构的特点,设计了一种在类数据流体系结构中低开销、高效率地实现谓词执行技术的方法:仅占用指令编码中的1-bit;谓词的值通过片上网络在指令间直接传递,无需谓词寄存... 谓词执行技术是克服程序中控制依赖的重要软件技术.利用类数据流体系结构的特点,设计了一种在类数据流体系结构中低开销、高效率地实现谓词执行技术的方法:仅占用指令编码中的1-bit;谓词的值通过片上网络在指令间直接传递,无需谓词寄存器.这种实现方法的主要开销是由类数据流指令集引入的软件输出树,本文进一步提出一种基于边剖析技术的优化方法.实验表明,这种优化能减少17.3%的软件输出树开销,同时将程序性能提高了15.5%. 展开更多
关键词 类数据流体系结构 谓词执行技术 边剖析 编译优化
在线阅读 下载PDF
粗粒度数据流网络处理器体系结构及原型系统设计
11
作者 李韬 张晓明 孙志刚 《计算机研究与发展》 EI CSCD 北大核心 2009年第8期1278-1284,共7页
网络处理器是一种支持高速报文处理和转发的可编程通信集成电路.作为路由器中的重要组件,网络处理器设计不但强调高性能,还要求足够的灵活性以支持未来的网络协议.针对控制流网络处理器固定拓扑结构及指令级并行性开发方面的不足,采用... 网络处理器是一种支持高速报文处理和转发的可编程通信集成电路.作为路由器中的重要组件,网络处理器设计不但强调高性能,还要求足够的灵活性以支持未来的网络协议.针对控制流网络处理器固定拓扑结构及指令级并行性开发方面的不足,采用粗粒度数据流设计思想,提出了一种粗粒度数据流网络处理器体系结构及原型——DynaNP.DynaNP不但可利用处理引擎内控制流执行方式获得高可编程性,还利用处理引擎间数据流执行方式有效开发报文处理中的任务级并行性.此外,DynaNP提供了处理路径动态配置机制,可有效提高系统流量.DynaNP的原型系统基于SoPC技术设计实现.多个PE和功能模块通过片上高速通信网络连接,其中,核心处理引擎采用嵌入式RISC处理器核LEON3实现,并采用指令集扩展技术优化网络协议处理.该原型系统可有效验证粗粒度数据流网络处理器的功能和关键技术. 展开更多
关键词 网络处理器 体系结构 报文处理 粗粒度数据流
在线阅读 下载PDF
NDP-Ledger:面向区块链应用的通用高通量加速架构
12
作者 安述倩 李文明 +5 位作者 范志华 吴海彬 吴萌 王达 张浩 唐志敏 《高技术通讯》 EI CAS 北大核心 2020年第11期1093-1103,共11页
区块链技术由于去中心化及不可篡改等特性,广泛应用于数字货币、支付交易等领域,其算法对计算能力和存储访问能力有较高要求,导致传统冯诺依曼结构在面向区块链应用时能效比较低。3D堆叠存储器因可以缓解冯诺依曼结构的访存瓶颈,成为了... 区块链技术由于去中心化及不可篡改等特性,广泛应用于数字货币、支付交易等领域,其算法对计算能力和存储访问能力有较高要求,导致传统冯诺依曼结构在面向区块链应用时能效比较低。3D堆叠存储器因可以缓解冯诺依曼结构的访存瓶颈,成为了热门研究方向之一。本文基于3D堆叠存储器技术及数据流执行模式,提出了一种面向区块链应用的高通量近数据处理(NDP)架构,NDP-Ledger。本文深入分析和论证了区块链应用的计算特征及3D堆叠存储技术在区块链应用中的适应性问题,并基于数据流执行模式设计了一种通用的高并发区块链加速体系结构,使区块链加速器在满足通用性的前提下提高处理性能。模拟评估结果表明,本文提出的区块链通用加速器结构,在典型区块链应用处理方面的性能优于主流的CPU和GPU。 展开更多
关键词 区块链 3D堆叠存储 近数据处理(NDP) 数据流 通用加速器结构
在线阅读 下载PDF
基于构件的数据流软件可靠性模型
13
作者 徐钦桂 刘桂雄 《计算机科学》 CSCD 北大核心 2011年第7期134-138,共5页
基于构件的数据流软件由输入数据激活的构件确定程序执行路径,其可靠性受输入数据分布特性的影响,难以采用基于状态或基于路径等传统模型进行评测。提出一个结合构件执行频度和操作剖面的可靠性模型,其从分析数据流程序结构入手,通过定... 基于构件的数据流软件由输入数据激活的构件确定程序执行路径,其可靠性受输入数据分布特性的影响,难以采用基于状态或基于路径等传统模型进行评测。提出一个结合构件执行频度和操作剖面的可靠性模型,其从分析数据流程序结构入手,通过定义组合节点,将程序表示成多级层次结构的形式。根据构件间数据流和控制流关系,确定实际激活的构件,计算其执行频度,并将操作剖面沿着数据流向本层和下层构件传递。利用基于深度优先的递归算法思想,按照相反顺序,逐层估算各级组合节点的可靠性,最后获得整个软件的实际可靠性。应用实例表明,模型能有效地估算基于构件数据流软件的实际可靠性,反映输入接口有效数据就绪状态及分布特性。 展开更多
关键词 软件可靠性 体系结构可靠性模型 数据流软件 操作剖面
在线阅读 下载PDF
日本数据流计算机发展浅析
14
作者 徐振耀 《系统工程与电子技术》 EI CSCD 1991年第7期63-68,共6页
本文从数据流计算机的概念出发,全面讨论了它在日本的发展历史,并详细剖析了日本新近推出的数据流计算系统SIGMA-1和EM-4,在此基础上,提出了数据流计算机的发展方向。
关键词 数据流 计算机 日本
在线阅读 下载PDF
面向高性能图计算的高效高层次综合方法 被引量:5
15
作者 汤嘉武 郑龙 +1 位作者 廖小飞 金海 《计算机研究与发展》 EI CSCD 北大核心 2021年第3期467-478,共12页
图计算已成为大数据处理领域的主流应用,采用特定硬件加速可以显著提高图计算的性能和能效.众所周知,硬件代码的编写和验证十分耗时,尽管通用高层次综合(high level synthesis,HLS)系统允许用户使用高级语言(如C语言)特性自动生成硬件结... 图计算已成为大数据处理领域的主流应用,采用特定硬件加速可以显著提高图计算的性能和能效.众所周知,硬件代码的编写和验证十分耗时,尽管通用高层次综合(high level synthesis,HLS)系统允许用户使用高级语言(如C语言)特性自动生成硬件结构,但是对于图计算这种不规则算法,其仍缺乏有效的并行性和访存技术支撑,存在综合效果不理想、效率不高等突出问题.提出一种面向图计算的高效HLS方法,结合图算法嵌套循环、随机访存、数据冲突以及幂律分布等特性,采用数据流架构实现高效的并行流水线,保证处理单元的负载均衡.通过提供的编程原语,提出的方法可将通用图算法转化为模块化的数据流中间表示形式,进而映射到参数化的硬件模板.在Xilinx Virtex UltraScale+XCVU9P的实现验证了方法的正确性,不同类型的图算法在多个数据集上的实验结果表明,相比国际上通用的Spatial HLS系统,提出的方法可达到7.9~30.6倍的性能提升. 展开更多
关键词 图计算 高层次综合 数据流架构 中间表示 FPGA
在线阅读 下载PDF
5G XR及多媒体增强技术分析 被引量:13
16
作者 史晓楠 熊春山 +1 位作者 倪慧 王丹 《电信科学》 2022年第3期57-64,共8页
5G XR(extended reality,扩展现实)及多媒体增强是5G-Advanced网络中非常重要的业务场景,随着用户对新兴的新媒体服务的需求逐渐增长,网络需要针对XR等多媒体业务做出相应的增强。主要介绍了XR及增强多媒体的主要业务场景,包括沉浸式虚... 5G XR(extended reality,扩展现实)及多媒体增强是5G-Advanced网络中非常重要的业务场景,随着用户对新兴的新媒体服务的需求逐渐增长,网络需要针对XR等多媒体业务做出相应的增强。主要介绍了XR及增强多媒体的主要业务场景,包括沉浸式虚拟现实、增强现实、基于混合现实的远程遥控技术、虚拟工厂、远程无人机控制等。针对XR的典型业务场景,在已有的国际标准对XR技术的研究和支持的基础上,针对5G XR及多媒体增强,仍然需要在QoS机制设计、网络和应用的相互感知和传输协同、大规模XR业务流的同步传输以及节能等方面进行针对性设计,从而实现5G网络对XR及多媒体增强业务更好的支持。 展开更多
关键词 XR 多媒体增强 多流协同 5G架构增强
在线阅读 下载PDF
基于数据流的SoC性能建模方法及实现 被引量:1
17
作者 孟昕 沈海斌 严晓浪 《浙江大学学报(工学版)》 EI CAS CSCD 北大核心 2011年第2期314-322,共9页
针对传统基于模块描述建模方法在性能估算和验证的精确性、灵活性和设计迭代方面的不足,围绕资源分配、性能参数标注和仲裁算法指定等,提出基于事务数据流的系统芯片(SoC)性能建模方法.该方法通过加入Sys-temC的时序控制机制的TDFLib的... 针对传统基于模块描述建模方法在性能估算和验证的精确性、灵活性和设计迭代方面的不足,围绕资源分配、性能参数标注和仲裁算法指定等,提出基于事务数据流的系统芯片(SoC)性能建模方法.该方法通过加入Sys-temC的时序控制机制的TDFLib的C++泛型库,以及描述SoC系统模型的性能建模语言(PML)的域特定语言来实现.PML源文件可生成包含TDFLib调用的C++代码,再经过编译并与可复用仿真程序框架链接得到可执行的系统性能分析模型.该模型在SystemC内核控制下进行周期精确的仿真,运行结果保存在MySQL数据库中.结果表明该性能建模方法能够提高架构设计与分析的效率. 展开更多
关键词 集成电路 事务数据流 性能分析建模 设计空间探查 架构设计 域特定语言
在线阅读 下载PDF
面向数据流结构的指令内访存冲突优化研究 被引量:1
18
作者 欧焱 冯煜晶 +3 位作者 李文明 叶笑春 王达 范东睿 《计算机研究与发展》 EI CSCD 北大核心 2019年第12期2720-2732,共13页
神经网络等人工智能应用的迅速兴起给传统处理器的设计带来了巨大的挑战,粗粒度数据流架构因具有高指令并发和高通用性的特点成为研究热点.然而,由于粗粒度数据流结构处理单元采用随机访问存储器作为存储结构,加之神经网络中大部分运算... 神经网络等人工智能应用的迅速兴起给传统处理器的设计带来了巨大的挑战,粗粒度数据流架构因具有高指令并发和高通用性的特点成为研究热点.然而,由于粗粒度数据流结构处理单元采用随机访问存储器作为存储结构,加之神经网络中大部分运算数据具有密集型特点,造成大量的指令内操作数访存冲突.通过分析典型神经网络的访存行为,发现此类应用存在指令内操作数冲突,会引起计算部件利用率的降低.基于此分析,提出了灵活的数据冗余策略.在编译指令阶段,为指令内有访存冲突的操作数申请数据冗余空间,降低指令内操作数访存延迟.实验以典型的神经网络LeNet,AlexNet为基准测试程序.采用灵活的数据冗余策略之后,能耗比相对于Round-Robin和ReHash的无数据冗余策略分别提高了30.21%和12.37%,相比于2套全数据冗余策略能耗比提高了27.95%. 展开更多
关键词 数据流架构 访存冲突 数据冗余 灵活的数据冗余策略 无数据冗余策略 全数据冗余策略 能耗比
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部