期刊文献+
共找到10篇文章
< 1 >
每页显示 20 50 100
随机振动最优非连续跳变控制的界限与跳变频率作用机制分析
1
作者 张巍 应曌中 应祖光 《噪声与振动控制》 CSCD 2020年第5期9-14,32,共7页
结构系统的随机振动控制是一个重要实际问题,最优限界跳变控制是一个常用的简便方法,控制界限与跳变频率是决定非连续跳变控制效果的主要因素。然而,控制效果是否随控制界限增大单调地提高、跳变频率如何影响控制作用或控制效果、两者... 结构系统的随机振动控制是一个重要实际问题,最优限界跳变控制是一个常用的简便方法,控制界限与跳变频率是决定非连续跳变控制效果的主要因素。然而,控制效果是否随控制界限增大单调地提高、跳变频率如何影响控制作用或控制效果、两者之间具有何种制约关系等,这些限界跳变控制的关键问题尚未有结果。以随机最优限界跳变控制的界限与跳变频率关于控制效果的作用机制为研究对象,为该控制设计与优化提供理论基础。首先介绍非连续最优限界跳变控制,基于随机动态规划原理建立随机最优控制的动态规划方程,结合控制界限约束条件,确定最优界限跳变控制律的一般表达式;再对于最优控制的随机振动系统,推导响应协方差方程的一般式,分析控制界限与跳变频率对控制效果的影响;进一步以单自由度随机振动系统为例,给出最优界限跳变控制律与随机响应协方差的表达式,讨论控制界限与跳变频率对于控制效果的作用机制,并通过数值结果说明两者对于控制效果的影响规律,最终得到随机振动控制效果随跳变频率提高而提高,但随控制界限增大先提高后降低的结论。 展开更多
关键词 振动与波 随机最优控制 限界跳变 随机振动响应
在线阅读 下载PDF
智能芯片的评述和展望 被引量:15
2
作者 韩栋 周聖元 +2 位作者 支天 陈云霁 陈天石 《计算机研究与发展》 EI CSCD 北大核心 2019年第1期7-22,共16页
近年来,人工智能技术在许多商业领域获得了广泛应用,并且随着世界各地的科研人员和科研公司的重视和投入,人工智能技术在传统语音识别、图像识别、搜索/推荐引擎等领域证明了其不可取代的价值.但与此同时,人工智能技术的运算量也急剧扩... 近年来,人工智能技术在许多商业领域获得了广泛应用,并且随着世界各地的科研人员和科研公司的重视和投入,人工智能技术在传统语音识别、图像识别、搜索/推荐引擎等领域证明了其不可取代的价值.但与此同时,人工智能技术的运算量也急剧扩增,给硬件设备的算力提出了巨大的挑战.从人工智能的基础算法以及其应用算法着手,描述了其运算方式及其运算特性.然后,介绍了近期人工智能芯片的发展方向,对目前智能芯片的主要架构进行了介绍和分析.而后,着重介绍了DianNao系列处理器的研究成果.该系列的处理器为智能芯片领域最新最先进的研究成果,其结构和设计分别面向不同的技术特征而提出,包括深度学习算法、大规模的深度学习算法、机器学习算法、用于处理二维图像的深度学习算法以及稀疏深度学习算法等.此外,还提出并设计了完备且高效的Cambricon指令集结构.最后,对人工神经网络技术的发展方向从多个角度进行了分析,包括网络结构、运算特性和硬件器件等,并基于此对未来工作可能的发展方向进行了预估和展望. 展开更多
关键词 人工智能 加速器 FPGA ASIC 权重量化 稀疏剪枝
在线阅读 下载PDF
基于深度学习的场景分割算法研究综述 被引量:29
3
作者 张蕊 李锦涛 《计算机研究与发展》 EI CSCD 北大核心 2020年第4期859-875,共17页
场景分割的目标是判断场景图像中每个像素的类别.场景分割是计算机视觉领域重要的基本问题之一,对场景图像的分析和理解具有重要意义,同时在自动驾驶、视频监控、增强现实等诸多领域具有广泛的应用价值.近年来,基于深度学习的场景分割... 场景分割的目标是判断场景图像中每个像素的类别.场景分割是计算机视觉领域重要的基本问题之一,对场景图像的分析和理解具有重要意义,同时在自动驾驶、视频监控、增强现实等诸多领域具有广泛的应用价值.近年来,基于深度学习的场景分割技术取得了突破性进展,与传统场景分割算法相比获得分割精度的大幅度提升.首先分析和描述场景分割问题面临的3个主要难点:分割粒度细、尺度变化多样、空间相关性强;其次着重介绍了目前大部分基于深度学习的场景分割算法采用的“卷积反卷积”结构;在此基础上,对近年来出现的基于深度学习的场景分割算法进行梳理,介绍针对场景分割问题的3个主要难点,分别提出基于高分辨率语义特征图、基于多尺度信息和基于空间上下文等场景分割算法;简要介绍常用的场景分割公开数据集;最后对基于深度学习的场景分割算法的研究前景进行总结和展望. 展开更多
关键词 场景分割 图像分割 深度学习 神经网络 全卷积网络
在线阅读 下载PDF
低面积低功耗的机器学习运算单元设计 被引量:2
4
作者 周聖元 杜子东 +2 位作者 刘道福 支天 陈云霁 《高技术通讯》 EI CAS 北大核心 2019年第1期12-18,共7页
随着机器学习(ML)算法的日益流行,研究人员提出了很多专用于机器学习算法的加速器。然而,这些加速器会被其特定用途的狭窄范围所限制。另外,尽管芯片制造工艺有所提高,但是待处理问题规模的急剧增大依然加剧了这些机器学习加速器的低效... 随着机器学习(ML)算法的日益流行,研究人员提出了很多专用于机器学习算法的加速器。然而,这些加速器会被其特定用途的狭窄范围所限制。另外,尽管芯片制造工艺有所提高,但是待处理问题规模的急剧增大依然加剧了这些机器学习加速器的低效程度。针对这种现象,本文研究了4种流行的机器学习算法——k-近邻算法(k-NN),k-均值算法(k-Means),支持向量机(SVM)和逻辑回归(LR),并对这些算法中最为耗时的运算部分进行了深入分析,此外,还针对数据位宽对运算精度、硬件开销的影响进行了分析。根据以上分析,本文设计了一款可以支持多种机器学习算法的运算单元,该运算单元混合使用16位浮点数和32位浮点数的运算器,实现了低面积、低功耗的需求。实验结果表明,本文提出的运算单元可以在几乎不损失正确率的情况下,减少69. 80%的总面积开销以及68. 98%的总功耗开销。 展开更多
关键词 机器学习(ML) 运算单元 加速器 低面积 低功耗
在线阅读 下载PDF
提升高性能计算程序性能可移植性的领域特定语言 被引量:2
5
作者 李韦 文渊博 +1 位作者 孙广中 陈云霁 《高技术通讯》 EI CAS 北大核心 2020年第2期141-149,共9页
高性能计算(HPC)应用程序大多基于标准函数库和编译制导语句进行编写,这种做法可以有效提升高性能计算应用的可编程性和可移植性。相比传统优化方法中针对单个函数库进行优化,本文的研究将优化注意力放到不同函数库调用之间,提出了一种... 高性能计算(HPC)应用程序大多基于标准函数库和编译制导语句进行编写,这种做法可以有效提升高性能计算应用的可编程性和可移植性。相比传统优化方法中针对单个函数库进行优化,本文的研究将优化注意力放到不同函数库调用之间,提出了一种用于高性能函数库的领域特定语言及编译器,实现了对原始C代码的源代码到源代码优化,解决了因为胶水代码而产生的高性能计算程序性能可移植性欠佳的问题。实验结果表明,在真实应用中,使用支持该领域特定语言的编译器,在通用处理器硬件架构上,可以取得相比原始版本最高4.89倍的优化加速;而在实验性的异构高峰值加速器架构上,可以取得最高8.21倍的优化加速。 展开更多
关键词 高性能计算(HPC) 可移植性 胶水代码 领域特定语言 编译器
在线阅读 下载PDF
稀疏神经网络加速器设计 被引量:6
6
作者 周聖元 杜子东 陈云霁 《高技术通讯》 EI CAS 北大核心 2019年第3期222-231,共10页
针对日益增长的神经网络规模和不断变化的神经网络模型结构,提出了一款新型的稀疏神经网络加速器架构。该架构能够有效利用稀疏神经网络中的权值稀疏性和神经元稀疏性,进一步提升加速器处理神经网络模型时的运算速度。同时,该架构能够... 针对日益增长的神经网络规模和不断变化的神经网络模型结构,提出了一款新型的稀疏神经网络加速器架构。该架构能够有效利用稀疏神经网络中的权值稀疏性和神经元稀疏性,进一步提升加速器处理神经网络模型时的运算速度。同时,该架构能够支持逐元素乘法/加法等运算,从而进一步提高加速器的灵活性,高效支持并加速Resnet等新型的神经网络结构。实验结果显示,基于5个具有代表性神经网络模型,该架构相比于现有的先进的稀疏神经网络加速器有平均为2.57倍的加速比,同时针对Resnet-18和Resnet-50的BN层分别平均有4.40倍和4.57倍的加速比。 展开更多
关键词 神经网络 稀疏神经网络 加速器
在线阅读 下载PDF
QingLong:一种基于常变量异步拷贝的神经网络编程模型 被引量:3
7
作者 杜伟健 陈云霁 +3 位作者 支天 吴林阳 陈小兵 庄毅敏 《计算机学报》 EI CSCD 北大核心 2020年第4期587-599,共13页
近年来,人工神经网络的研究取得了巨大成就,在图像识别、自然语言处理等领域均有突破性的成果,同时产生了众多商业应用,方便了我们的生活,比如语音助手、辅助驾驶等.由于神经网络算法属于计算密集型和访存密集型的负载,传统CPU处理器已... 近年来,人工神经网络的研究取得了巨大成就,在图像识别、自然语言处理等领域均有突破性的成果,同时产生了众多商业应用,方便了我们的生活,比如语音助手、辅助驾驶等.由于神经网络算法属于计算密集型和访存密集型的负载,传统CPU处理器已不能满足其大规模商业化应用的需求,因此学术界和产业界试图在GPU、FPGA和ASIC上寻求突破.其中,神经网络加速器作为一种ASIC,它提供了高性能、低功耗的硬件解决方案,相关研究也越来越多.神经网络加速器作为一种协处理器,在其计算前后需要将数据在主机与设备之间进行搬运.特别是对吞吐量要求较高的神经网络前向推理任务,需要将网络模型参数、硬件指令等常量数据和输入、输出等变量数据,分别从主机内存拷入设备内存.如果常量数据在每一份输入数据计算前都拷贝一次,就存在常量数据重复拷贝的问题,浪费了时间与存储资源.如何在神经网络开发工具软件中实现拷贝多次变量数据但只拷贝一次常量数据,如何保证指令在每次计算中都正确寻址常量和变量,如何简化用户编程,提供用户友好的接口,就成为一系列值得研究的问题.在本文中,我们提出了一种基于常变量异步拷贝的神经网络开发工具软件及其编程模型QingLong来解决上述问题.QingLong编程模型包含三个阶段:定义网络、编译网络和计算.在定义网络阶段,用户可以为神经网络的数据节点绑定常量数据;在编译网络阶段,通过REOFF数据包装法将常量数据封装为数据包;在计算网络阶段,用户拷贝一次数据包后即可多次拷入输入数据并计算输出结果.该编程模型具有编译、计算分离,常变量异步拷贝,计算和数据拷贝可切分为三级流水线等优势.实验表明,在连续计算100份输入样本时,QingLong比DLPlib有平均17.48倍的性能提升,且输入样本越多,性能提升的倍数越大. 展开更多
关键词 神经网络 编程模型 常量和变量 异步拷贝 软件开发工具
在线阅读 下载PDF
面向多核处理器的机器学习推理框架 被引量:6
8
作者 张潇 支天 《计算机研究与发展》 EI CSCD 北大核心 2019年第9期1977-1987,共11页
近年来,深度神经网络被广泛应用于各个领域并取得了极大的成功.由于神经网络模型的尺寸和计算量的不断增加,为了能够高效迅速地完成神经网络的计算,包括GPU和专用加速器在内的很多新型硬件处理器被用于深度学习的计算.尽管如此,通用处... 近年来,深度神经网络被广泛应用于各个领域并取得了极大的成功.由于神经网络模型的尺寸和计算量的不断增加,为了能够高效迅速地完成神经网络的计算,包括GPU和专用加速器在内的很多新型硬件处理器被用于深度学习的计算.尽管如此,通用处理器作为目前最为常见和易于获得的计算平台,探究如何高效地在其上运行神经网络算法同样具有重要意义.多核处理器在训练阶段可以采用数据并行的方式来提高数据吞吐量,加快训练速度.然而在推理阶段,相比吞吐量场景,端到端的时延往往更加重要,因为这决定了处理器在某个场景下的可用性.传统的数据并行方案不能满足推理场景下对处理器小数据、低延迟的要求.因此,对于多核的处理器结构,需要在算子内部对计算进行拆分,才能够充分利用多核结构的硬件资源.考虑到处理器的计算特点,需要一种精细的方法来对计算图中的算子进行合理的拆分,才能真正有效地发挥出多核处理器的计算潜能.提出一种基于算子拆分的并行框架,可以用较小的开销实现处理器由单核向多核结构上的扩展,并且能够针对给定的网络和底层处理器特点给出一种高效的拆分方案.实验结果表明:该方法能有效降低各种网络在多核处理器上的端到端时延. 展开更多
关键词 深度学习框架 多核处理器 低延迟推理 算子拆分 循环神经网络
在线阅读 下载PDF
一种运算和数据协同优化的深度学习编译框架 被引量:4
9
作者 吴林阳 杜伟健 +1 位作者 陈小兵 庄毅敏 《高技术通讯》 EI CAS 北大核心 2020年第2期120-125,共6页
近年来,深度学习算法和深度学习处理器已被广泛应用于工业界,如何从软件层面充分挖掘深度学习处理器的性能成为目前编译器领域研究的热点和难点。现有的深度学习编译框架更侧重于对程序的运算部分进行优化,对数据的优化非常有限,这并不... 近年来,深度学习算法和深度学习处理器已被广泛应用于工业界,如何从软件层面充分挖掘深度学习处理器的性能成为目前编译器领域研究的热点和难点。现有的深度学习编译框架更侧重于对程序的运算部分进行优化,对数据的优化非常有限,这并不能发挥深度学习处理器的峰值性能。本文分析了深度学习算法和硬件平台的特点,提出一种运算和数据协同优化的深度学习编译框架CDUCA,它包含计算图引擎、代码生成器、数据优化器3个不同层次的组件,在多个层次对运算和数据进行协同优化,最终生成高效的可部署模型。本文在现场可编程门阵列(FPGA)平台上评估了CDUCA,实验结果表明,对于典型的深度学习应用,CDUCA生成的模型性能能达到手工优化模型性能的86.5%。 展开更多
关键词 深度学习 深度学习处理器 编译器 编译优化
在线阅读 下载PDF
深度卷积的软硬件协同优化设计与实现
10
作者 齐豪 刘少礼 李威 《高技术通讯》 CAS 2022年第7期696-707,共12页
近年来,深度学习技术被广泛应用。由于移动设备同时受到算力和功耗的限制,很多轻量级的网络被提出,比如Xception、MobileNet系列等。在这些轻量级网络中,深度卷积的层数占网络中所有卷积层数的31%~50%,故如何优化深度卷积的运算是一个... 近年来,深度学习技术被广泛应用。由于移动设备同时受到算力和功耗的限制,很多轻量级的网络被提出,比如Xception、MobileNet系列等。在这些轻量级网络中,深度卷积的层数占网络中所有卷积层数的31%~50%,故如何优化深度卷积的运算是一个值得研究的问题。通用中央处理器(CPU)、固定运算器长度的单指令多数据流(SIMD)处理器均无法高效处理神经网络中的各种规模的深度卷积,性能较低。针对这一问题,本文提出了一种软硬件结合的方法优化深度卷积的计算,通过一个多种权值传输模式的硬件架构设计,结合软件模式选择、数据拆分等优化方式,在提高运算效率的同时减少了访存量。实验结果表明,使用该方法实现的深度卷积加速器,相比通用CPU最大可达9.3倍的性能加速,相比运算器长度为64的单核SIMD处理器最大可达29.3倍的性能加速。 展开更多
关键词 神经网络 深度卷积 加速器 软硬件协同优化 计算效率
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部