期刊文献+
共找到67篇文章
< 1 2 4 >
每页显示 20 50 100
端智能推理加速技术综述
1
作者 章晋睿 龙婷婷 +3 位作者 张德宇 许愿 任炬 张尧学 《电子学报》 北大核心 2025年第4期1063-1102,共40页
智能下沉是迈向泛在智能时代的必经之路,也推动了端智能(on-device intelligence)技术的飞速发展.通过在终端设备直接部署运行深度学习模型,端智能在实时性、安全性、个性化等方面具有天然优势,已在自动驾驶、卫星侦察、虚拟现实/增强现... 智能下沉是迈向泛在智能时代的必经之路,也推动了端智能(on-device intelligence)技术的飞速发展.通过在终端设备直接部署运行深度学习模型,端智能在实时性、安全性、个性化等方面具有天然优势,已在自动驾驶、卫星侦察、虚拟现实/增强现实(Virtual Reality/Augmented Reality,VR/AR)等众多场景广泛应用.然而,随着深度学习模型参数量不断增大,端侧受限的硬件资源已难以支撑不断增长的计算开销.为提升终端设备在模型推理的计算效率,研究人员从模型算法、编译软件、设备硬件等多个层面开展了系统性优化,有效推动了端智能的发展与演进.本文从算法、软硬件结合优化等方面对现有端侧深度学习模型推理优化工作进行了总结,涵盖模型压缩技术、模型-软件-硬件的协同设计、模型异构并行部署策略以及大模型的端侧优化技术.最后,本文梳理了当前端智能推理加速技术所面临的挑战,并对未来发展趋势进行了展望. 展开更多
关键词 端智能 模型压缩 推理加速 深度学习 软硬件结合优化
在线阅读 下载PDF
基于向量转换的卷积计算优化方法
2
作者 王培吉 邹承明 《计算机工程》 北大核心 2025年第6期74-82,共9页
针对卷积计算中的效率问题,提出卷积计算优化方法OAC。该研究的主要目的在于提高卷积计算的效率,以应对深度学习领域对卷积计算速度不断增大的需求。在该技术实现过程中,OAC方法以向量转换为基础,采取一系列巧妙的步骤来优化卷积计算。... 针对卷积计算中的效率问题,提出卷积计算优化方法OAC。该研究的主要目的在于提高卷积计算的效率,以应对深度学习领域对卷积计算速度不断增大的需求。在该技术实现过程中,OAC方法以向量转换为基础,采取一系列巧妙的步骤来优化卷积计算。首先,通过逐行取值的方式将输入矩阵连接成一个向量;然后,对卷积核进行拉伸变换,并根据输入矩阵的宽度和卷积核的大小在适当位置进行补零,形成另一个向量,这一转换的设计旨在和输入矩阵转换后的向量能够进行正确计算,最大程度地减少计算过程中的冗余操作,从而提高效率;最后,结合一些其他的优化手段对向量计算进行加速。实验结果表明,与传统MEC方法相比,OAC方法的计算速度提高了58.9%,与im2col方法相比,计算速度提升90.1%,内存占用相比于MEC方法减少了53.7%。OAC方法不仅在计算效率上取得了显著成果,而且为深度学习等计算任务提供了高效可行的解决方案。 展开更多
关键词 深度学习 卷积计算 卷积优化 向量转换 加速库
在线阅读 下载PDF
面向深度学习编译器的多粒度量化框架支持与优化
3
作者 魏铭康 李嘉楠 +3 位作者 韩林 高伟 赵荣彩 王洪生 《计算机工程》 北大核心 2025年第5期62-72,共11页
随着各大厂商对大模型应用部署需求的激增,深度学习编译器TVM(Tensor Virtual Machine)的单一量化方式精度下降,已无法满足部署需求。设计并构建一种可选粒度的模型量化框架,具体包括逐层与逐通道量化流程的支持,以及阈值搜索与自适应... 随着各大厂商对大模型应用部署需求的激增,深度学习编译器TVM(Tensor Virtual Machine)的单一量化方式精度下降,已无法满足部署需求。设计并构建一种可选粒度的模型量化框架,具体包括逐层与逐通道量化流程的支持,以及阈值搜索与自适应舍入优化算法的实现。首先,基于量化模块“relay.quantize”构建信息标注、阈值校准与量化图实现的框架流程,并添加粒度属性以显式识别量化方式。其次,针对预定义校准方法无法确定有效量化信息的问题,对量化中的阈值校准、权重舍入进行调优,提高量化后模型精度。实验采用ImageNet数据集对视觉网络进行测试,针对MobileNetV1新量化方案将8 bit量化后模型精度损失降低到2.3%,调优后该损失降低到0.7%,实验结果表明多粒度量化框架可有效降低量化误差。 展开更多
关键词 模型量化 模型部署 模型压缩 推理加速 深度学习编译器
在线阅读 下载PDF
基于二维卷积神经网络的结构加速度数据异常检测研究
4
作者 麻胜兰 钟建坤 +1 位作者 刘昱昊 郑翔 《建筑科学与工程学报》 北大核心 2025年第1期112-120,共9页
为提高结构加速度数据异常检测的效率和准确率,提出基于二维卷积神经网络(2D-CNN)的结构加速度数据异常检测方法。通过二维桁架数值模型验证了所提方法的有效性,并研究了2D-CNN卷积层数和加速度噪声水平对数据异常检测效果的影响。结果... 为提高结构加速度数据异常检测的效率和准确率,提出基于二维卷积神经网络(2D-CNN)的结构加速度数据异常检测方法。通过二维桁架数值模型验证了所提方法的有效性,并研究了2D-CNN卷积层数和加速度噪声水平对数据异常检测效果的影响。结果表明:提出的结构加速度数据异常检测方法能快速准确区分加速度数据异常类型,异常检测的准确率可达97%以上;对于包含信息复杂、数据规模大的样本,采用4层以上的2D-CNN有助于提高加速度数据异常检测的准确率,采用5层卷积层的2D-CNN对数据异常辨识精度可达98%;当加速度信噪比大于1时,数据异常检测准确率均在90%以上,当加速度信噪比为10时,准确率在97%以上,所提方法具有良好的容噪性和鲁棒性;采用2D-CNN的数据异常检测方法可为传感器网络的有效运行提供技术支持。 展开更多
关键词 结构健康监测 二维卷积神经网络 桁架结构 深度学习 加速度 数据异常检测
在线阅读 下载PDF
面向光伏集群的配电网模型⁃数据联合驱动无功/电压控制 被引量:12
5
作者 路小俊 吴在军 +2 位作者 李培帅 沈嘉伟 胡敏强 《电力系统自动化》 EI CSCD 北大核心 2024年第9期97-106,共10页
传统配电网的无功/电压控制(VVC)方法,难以兼顾控制决策的全局最优性与实时响应能力,分布式光伏(DPV)的分散化、高比例并网导致该矛盾日益突出。结合模型优化的寻优能力与深度强化学习的在线决策效率,提出了面向光伏(PV)集群的配电网模... 传统配电网的无功/电压控制(VVC)方法,难以兼顾控制决策的全局最优性与实时响应能力,分布式光伏(DPV)的分散化、高比例并网导致该矛盾日益突出。结合模型优化的寻优能力与深度强化学习的在线决策效率,提出了面向光伏(PV)集群的配电网模型-数据联合驱动VVC策略。首先,考虑日前优化调度与日内实时控制的运行特征,结合DPV集群划分,构建了配电网分布式两阶段VVC框架;然后,以系统运行网损最低为目标,建立了配电网分布式日前VVC模型,并提出了基于Nesterov加速梯度的分布式求解算法;其次,以日前决策为输入量,建立了基于部分可观马尔可夫博弈的配电网实时VVC模型,并提出了基于迭代终止惩罚函数的改进多智能体深度确定性策略梯度算法;最后,基于MATLAB/PyCharm软件平台进行了算例分析,验证了所提方法的全局趋优性以及实时响应能力,提高了PV高比例接入配电网运行的经济性和安全性。 展开更多
关键词 配电网 光伏集群 无功/电压控制 加速交替方向乘子法 深度强化学习
在线阅读 下载PDF
基于卷积神经网络的荷载大小与位置同步识别
6
作者 翁顺 郭街震 +3 位作者 于虹 陈志丹 颜永逸 赵丹阳 《东南大学学报(自然科学版)》 EI CAS CSCD 北大核心 2024年第1期110-116,共7页
结构健康监测和状态评估中现有大多数研究均需要精确的荷载作用位置或详细的荷载时程,为了同时获得荷载大小和位置,构建并训练了同时具备分类和回归能力的两分支卷积神经网络,建立了融合分类问题和回归问题的损失函数,提取结构响应与荷... 结构健康监测和状态评估中现有大多数研究均需要精确的荷载作用位置或详细的荷载时程,为了同时获得荷载大小和位置,构建并训练了同时具备分类和回归能力的两分支卷积神经网络,建立了融合分类问题和回归问题的损失函数,提取结构响应与荷载大小、结构响应与荷载位置间的映射关系.通过数值简支梁算例和三层试验框架验证了该方法识别结构荷载大小和位置的精度.结果表明:噪声条件下数值模型的荷载识别误差在8%以内,荷载位置识别准确率在95%以上;实际结构的荷载识别误差在18%以内,荷载位置识别准确率为100%.两分支卷积神经网络可以很好地同时识别荷载大小和位置. 展开更多
关键词 荷载识别 加速度响应 深度学习 卷积神经网络
在线阅读 下载PDF
神经辐射场加速算法综述 被引量:6
7
作者 王稚儒 常远 +1 位作者 鲁鹏 潘成伟 《图学学报》 CSCD 北大核心 2024年第1期1-13,共13页
近年来,神经辐射场(NeRF)已成为计算机图形学和计算机视觉领域中一个重要的研究方向,因其高逼真的视觉合成效果,在真实感渲染、虚拟现实、人体建模、城市地图等领域得到了广泛的应用。NeRF利用神经网络从输入图片集中学习三维场景的隐... 近年来,神经辐射场(NeRF)已成为计算机图形学和计算机视觉领域中一个重要的研究方向,因其高逼真的视觉合成效果,在真实感渲染、虚拟现实、人体建模、城市地图等领域得到了广泛的应用。NeRF利用神经网络从输入图片集中学习三维场景的隐式表征,并合成高逼真的新视角图像。然而原始NeRF模型的训练和推理速度都很慢,难以在真实环境下部署与应用。针对NeRF的加速问题,研究者们从场景建模方法、光线采样策略等方面展开对NeRF进行提速的研究。该类工作大致可分为以下研究方向:烘焙模型、与离散表示方法结合、提高采样效率、利用哈希编码降低MLP网络复杂度、引入场景泛化性、引入深度监督信息和分解方法。通过介绍NeRF模型提出的背景,对上述思路的代表方法的优势与特点进行了讨论和分析,最后总结了NeRF相关工作在加速方面所取得的进展和对于未来的展望。 展开更多
关键词 神经辐射场 视点合成 神经渲染 NeRF加速 深度学习
在线阅读 下载PDF
面向多功能张量加速器的细粒度结构化稀疏设计
8
作者 赵桦筝 庞善民 +4 位作者 赵英海 华高晖 李晨阳 段战胜 梅魁志 《西安交通大学学报》 EI CAS CSCD 北大核心 2024年第11期176-184,共9页
为解决模型压缩算法与多功能张量加速器(VTA)的适配性问题,通过改进经典的YOLObile分块剪枝方法,完成面向该加速器的自适应细粒度结构化稀疏设计及性能评估。针对VTA的多重循环维度展开特性,对模型的权重张量进行32×32大小的分块;... 为解决模型压缩算法与多功能张量加速器(VTA)的适配性问题,通过改进经典的YOLObile分块剪枝方法,完成面向该加速器的自适应细粒度结构化稀疏设计及性能评估。针对VTA的多重循环维度展开特性,对模型的权重张量进行32×32大小的分块;结合时间维度的自蒸馏与空间维度的教师蒸馏,进行多维度特征对齐;通过一阶段式迭代训练方式,改进原有的ADMM算法计算流程,在提升模型部署精度的同时减少训练成本;提出自适应层剪枝率模块,进行总剪枝率的自适应分配,实现端到端的自动化剪枝。实验结果表明:改进方法有效减少了约2.4%的浮点计算量,并在图像分类、目标检测等多项任务中提升了压缩模型的精度,最大增长百分比为2.6%。该方法为深度学习模型在VTA上的稀疏化部署提供了一种高效、轻量级的软件解决方案。 展开更多
关键词 神经网络轻量化 模型稀疏化 深度学习 多功能张量加速器 模型部署
在线阅读 下载PDF
容错深度学习加速器跨层优化
9
作者 张青 刘成 +4 位作者 刘波 黄海同 王颖 李华伟 李晓维 《计算机研究与发展》 EI CSCD 北大核心 2024年第6期1370-1387,共18页
容错深度学习加速器是保障高可靠深度学习的基石,也是深度学习应用于安全关键领域如宇航、机器人等面临的一个关键环节.然而,深度学习计算和访存都非常密集,传统基于冗余计算的容错方法直接应用于深度学习加速器的容错设计会导致严重的... 容错深度学习加速器是保障高可靠深度学习的基石,也是深度学习应用于安全关键领域如宇航、机器人等面临的一个关键环节.然而,深度学习计算和访存都非常密集,传统基于冗余计算的容错方法直接应用于深度学习加速器的容错设计会导致严重的功耗、芯片面积等硬件资源开销.为此,从神经元计算任务和神经元的数据位宽2个维度挖掘深度学习模型对于故障的敏感度差异,并利用这些差异从架构和电路层分别对于敏感的部分提供更多的保护以降低容错代价.同时,利用深度学习自身的容错特性,通过限制量化缩小电路层需要保护的电路逻辑规模.最后,利用贝叶斯优化协同优化算法、架构和电路的跨层设计参数,在保障深度学习可靠性、精度以及性能的前提下,最小化硬件资源开销. 展开更多
关键词 跨层优化 容错深度学习加速器 脆弱因子 异构架构 选择性冗余
在线阅读 下载PDF
基于中国强震动数据的PhaseNet网络捡拾P波到时研究
10
作者 侯宝瑞 代昊祯 +1 位作者 宋晋东 李山有 《世界地震工程》 北大核心 2024年第4期131-141,共11页
快速和准确捡拾地震P波到时是地震预警技术的基础工作之一。PhaseNet等U形网络已在“谛听”测震数据集上取得良好的震相捡拾结果,旨在提升处理M L3.0以下的地震的能力。目前针对有限中国强震动数据的震相捡拾研究较少,地震预警主要是针... 快速和准确捡拾地震P波到时是地震预警技术的基础工作之一。PhaseNet等U形网络已在“谛听”测震数据集上取得良好的震相捡拾结果,旨在提升处理M L3.0以下的地震的能力。目前针对有限中国强震动数据的震相捡拾研究较少,地震预警主要是针对处理M L3.0以上的地震。该研究以在地震预警中快速和准确捡拾地震P波到时为目的,直接迁移和构建PhaseNet的衍生网络,探究利用有限中国强震动数据重训的网络模型是否具有良好的捡拾P波表现。研究结果表明:PhaseNet及其衍生网络模型的精确度、召回率、F 1分数、捡拾误差均值(μ)和标准差(δ)约为0.942、0.930、0.937、-20 ms和200 ms左右,具有良好的捡拾P波到时精度和泛化性能;此外,PhaseNet及其衍生网络在高信噪比条件下捡拾效果良好,但对于低信噪比数据的捡拾效果仍有待提升。 展开更多
关键词 深度学习 中国强震动数据 P波到时捡拾 PhaseNet网络 地震预警
在线阅读 下载PDF
面向深度强化学习自动驾驶决策算法的硬件加速器 被引量:2
11
作者 冉敬楠 倪伟 陈世宇 《合肥工业大学学报(自然科学版)》 CAS 北大核心 2024年第9期1159-1169,共11页
针对自动驾驶决策计算低功耗、低延时、高精度的需求,文章设计一种支持混合精度运算的深度强化学习自动驾驶决策算法的硬件加速器。通过多运算单元重构方式设计乘累加单元(multiply-and-accumulate unit, MAC),支持多种精度模式的计算,... 针对自动驾驶决策计算低功耗、低延时、高精度的需求,文章设计一种支持混合精度运算的深度强化学习自动驾驶决策算法的硬件加速器。通过多运算单元重构方式设计乘累加单元(multiply-and-accumulate unit, MAC),支持多种精度模式的计算,提高加速器的灵活性,降低量化模型的部署成本;通过多层次优化数据流,提高复用程度,优化加速器能耗比。在随机潜在演员评论家(stochastic latent actor-critic, SLAC)自动驾驶决策算法上测试该硬件加速器,结果表明:有效算力达到18.3 GOPS,是CPU的10.7倍,GPU的3.3倍;能效比达到2.197 GOPS/W,是CPU的104倍,GPU的28倍。同时提出一种高位数据编码(most significant bit data coding, MSB-DC)方法实现层内混合精度特征图计算,实验结果表明,该方法能以较少的延迟成本有效降低量化所带来的误差。 展开更多
关键词 深度强化学习 自动驾驶 混合精度 神经网络量化 硬件加速
在线阅读 下载PDF
基于认知行为模型的启发加速深度Q网络
12
作者 李嘉祥 陈浩 +1 位作者 黄健 张中杰 《计算机应用与软件》 北大核心 2024年第9期148-155,共8页
由于状态-动作空间的扩大或奖励回报稀疏,强化学习智能体在复杂环境下从零开始学习最优策略将更为困难。由此提出基于智能体认知行为模型的启发加速深度Q网络,将符号化的规则表示融入学习网络,动态引导智能体策略学习,解决有效加速智能... 由于状态-动作空间的扩大或奖励回报稀疏,强化学习智能体在复杂环境下从零开始学习最优策略将更为困难。由此提出基于智能体认知行为模型的启发加速深度Q网络,将符号化的规则表示融入学习网络,动态引导智能体策略学习,解决有效加速智能体学习的问题。该算法将启发知识建模为基于BDI(Belief-Desire-Intention)的认知行为模型,用于产生认知行为知识引导智能体策略学习,设计启发策略网络在线引导智能体的动作选择。GYM典型环境与星际争霸2环境下实验表明,该算法可以根据环境变化动态提取有效的认知行为知识,并借助启发策略网络加速智能体策略收敛。 展开更多
关键词 强化学习 认知行为模型 启发加速深度Q网络
在线阅读 下载PDF
OODAFlow:面向智能无人系统的流式数据处理框架
13
作者 全振宇 尹龙祥 +1 位作者 陈晓明 韩银和 《高技术通讯》 CAS 北大核心 2024年第9期905-920,共16页
智能无人系统是一种能够在复杂环境中自主进行实时推理、决策和制定行动方案的计算系统。智能无人系统实现实时决策的关键在于对流式数据的实时处理,然而随着人工智能技术和传感器技术的快速发展,智能无人系统需要处理的数据规模不断增... 智能无人系统是一种能够在复杂环境中自主进行实时推理、决策和制定行动方案的计算系统。智能无人系统实现实时决策的关键在于对流式数据的实时处理,然而随着人工智能技术和传感器技术的快速发展,智能无人系统需要处理的数据规模不断增长,数据类型变得更加复杂。面对不断增长的数据处理性能需求,智能无人系统需要一个充分优化的专用流式数据处理框架来提升其数据处理性能。针对该问题,本文提出了一种面向智能无人系统的流式数据处理框架OODAFlow,该框架将智能无人系统的硬件特征和智能计算任务的数据特征与观察-判断-决策-行动(OODA)模型思想相融合,实现了OODA任务创建、任务调度、资源调度等功能,能够实现对智能无人系统异构资源的调度和智能计算任务的处理。本文在智能无人系统上搭建了一套OODA任务处理系统,验证了所提OODAFlow框架的可行性。通过提出的图像预处理过程优化、流水线优化以及判断节点并行加速优化等方法,提高了系统的数据吞吐性能和资源利用率。无人机智能控制任务的实验表明,采用本文提出的OODAFlow框架后,智能无人系统的数据处理性能提升了73倍。 展开更多
关键词 智能无人系统 深度学习加速卡 观察-判断-决策-行动(OODA) 流式数据处理框架 异构计算资源
在线阅读 下载PDF
快速磁共振成像的采样优化综述
14
作者 李星 杨燕 靖稳峰 《工程数学学报》 CSCD 北大核心 2024年第3期397-409,共13页
快速磁共振成像一直都是磁共振成像(Magnetic Resonance Imaging,MRI)的核心研究内容,通过k空间欠采样数据重建或增加多个线圈并行成像(并行MRI技术)能够有效地提高扫描速度,降低核磁共振检查的扫描时间,已广泛应用于临床医学。近年来,... 快速磁共振成像一直都是磁共振成像(Magnetic Resonance Imaging,MRI)的核心研究内容,通过k空间欠采样数据重建或增加多个线圈并行成像(并行MRI技术)能够有效地提高扫描速度,降低核磁共振检查的扫描时间,已广泛应用于临床医学。近年来,随着深度学习技术的发展,将深度学习方法应用到磁共振快速成像取得了突破性的进展,基于深度学习的磁共振快速成像以其更快的扫描、更快的成像优势成为目前磁共振成像领域的研究热点,在欠采样倍数较高的情况下仍然能重建出伪影较低的高质量MRI图像。基于此,首先简要回顾了传统的快速MRI采样方法,之后对基于深度学习的快速磁共振成像欠采样与重建联合优化框架进行综述,并展示了相关框架的性能比较,最后对快速磁共振成像采样的发展趋势进行了展望。 展开更多
关键词 快速磁共振成像 深度学习 医学影像 图像重建 欠采样模式
在线阅读 下载PDF
一种基于特征导向解耦网络结构的滤波器修剪方法
15
作者 施瑞文 李光辉 +1 位作者 代成龙 张飞飞 《计算机研究与发展》 EI CSCD 北大核心 2024年第7期1836-1849,共14页
现有的很多深度神经网络模型剪枝方法需要修改损失函数或在网络中嵌入额外的变量,无法直接受益于预训练网络,而且复杂化了前向推理和训练过程.到目前为止,大部分特征导向的剪枝工作仅利用通道内信息分析滤波器的重要性,使得剪枝过程无... 现有的很多深度神经网络模型剪枝方法需要修改损失函数或在网络中嵌入额外的变量,无法直接受益于预训练网络,而且复杂化了前向推理和训练过程.到目前为止,大部分特征导向的剪枝工作仅利用通道内信息分析滤波器的重要性,使得剪枝过程无法利用通道间的潜在联系.针对上述问题,基于特征导向从通道间的角度考虑滤波器修剪任务,使用几何距离度量通道间的潜在相关性,将滤波器修剪定义为一个优化问题,并引入贪婪策略寻求最优解的近似解.该方法实现了剪枝与网络、剪枝与训练的解耦,从而简化了修剪任务.大量的实验证明了该方法对于各种网络结构都有良好的性能,例如在CIFAR-10数据集上,将VGG-16的参数量和浮点运算量分别降低了87.1%和63.7%,并且达到93.81%的高精度.还使用轻量型网络MobileFaceNets和CASIA-WebFace数据集评估该方法的性能,结果显示使用该剪枝方法后,MobileFaceNets在参数量和浮点运算量分别降低58.0%和63.6%的情况下,在LFW上的测试精度仍然达到99.02%,而且推理精度几乎没有损失(源代码发布在:https://github.com/SSriven/FOAD). 展开更多
关键词 深度学习 模型压缩 模型剪枝 神经网络加速 几何距离
在线阅读 下载PDF
Bi-SCNN:二值随机混合神经网络加速器
16
作者 于启航 文渊博 杜子东 《高技术通讯》 北大核心 2024年第12期1243-1255,共13页
二值神经网络(BNN)具有硬件友好的特性,但为了保证计算精度,在输入层仍需要使用浮点或定点计算,增加了硬件开销。针对该问题,本文将另一种同样具有硬件友好特性的随机计算方法应用于BNN,实现了BNN输入层的高效计算,并设计了二值随机混... 二值神经网络(BNN)具有硬件友好的特性,但为了保证计算精度,在输入层仍需要使用浮点或定点计算,增加了硬件开销。针对该问题,本文将另一种同样具有硬件友好特性的随机计算方法应用于BNN,实现了BNN输入层的高效计算,并设计了二值随机混合计算架构Bi-SCNN。首先,在BNN输入层使用高精度的随机运算单元,实现了与定点计算近似的精度;其次,通过在处理单元(PE)内和PE间2个层次对随机数生成器进行复用,并优化运算单元,有效降低了硬件开销;最后,根据输入数据的特性对权值配置方式进行优化,进而降低了整体计算延迟。相比于现有性能最优的BNN加速器,Bi-SCNN在保证计算精度的前提下,实现了2.4倍的吞吐量、12.6倍的能效比和2.2倍的面积效率提升,分别达到2.2 TOPS、7.3 TOPS·W^(-1)和1.8 TOPS·mm^(-2)。 展开更多
关键词 二值神经网络(BNN) 随机计算(SC) 神经网络加速器
在线阅读 下载PDF
深度学习FPGA加速器的进展与趋势 被引量:64
17
作者 吴艳霞 梁楷 +1 位作者 刘颖 崔慧敏 《计算机学报》 EI CSCD 北大核心 2019年第11期2461-2480,共20页
随着大数据时代的来临,深度学习技术在从海量数据中提取有价值信息方面发挥着重要作用,已被广泛应用于计算机视觉、语音识别及自然语言处理等领域.本文从深度学习算法的特点和发展趋势出发,分析FPGA加速深度学习的优势以及技术挑战;其次... 随着大数据时代的来临,深度学习技术在从海量数据中提取有价值信息方面发挥着重要作用,已被广泛应用于计算机视觉、语音识别及自然语言处理等领域.本文从深度学习算法的特点和发展趋势出发,分析FPGA加速深度学习的优势以及技术挑战;其次,本文从SoC FPGA和标准FPGA两个方面介绍了CPU-FPGA平台,主要对比分析了两种模型在CPU和FPGA之间数据交互上的区别;接下来,在介绍FPGA加速深度学习算法开发环境的基础上,重点从硬件结构、设计思路和优化策略这三个方面详细介绍了采用FPGA加速卷积神经网络的设计方案;最后展望了FPGA加速深度学习算法相关研究工作的发展. 展开更多
关键词 深度学习 神经网络 CPU-FPGA 硬件加速 FPGA
在线阅读 下载PDF
基于深度学习的跨分辨率结构拓扑优化设计方法 被引量:12
18
作者 叶红玲 李继承 +1 位作者 魏南 隋允康 《计算力学学报》 CAS CSCD 北大核心 2021年第4期430-436,共7页
在传统拓扑优化设计中,随着结构单元增加,迭代计算过程消耗了大量的时间。本文提出了一种基于深度学习的方法来加速拓扑优化设计过程,缩短了结构拓扑优化设计的迭代过程,并生成了高分辨率拓扑优化结构。利用深度学习方法,在低分辨率中... 在传统拓扑优化设计中,随着结构单元增加,迭代计算过程消耗了大量的时间。本文提出了一种基于深度学习的方法来加速拓扑优化设计过程,缩短了结构拓扑优化设计的迭代过程,并生成了高分辨率拓扑优化结构。利用深度学习方法,在低分辨率中间构型与高分辨率拓扑构型之间创建高维映射关系,利用独立、连续和映射(ICM)方法建立深度学习网络所需要的数据集,训练神经网络以实现加速过程,将结构拓扑优化设计问题转化为图像处理中的风格迁移问题。通过引入条件生成对抗式神经网络CGAN(Conditional Generative and Adversarial Network)解决了跨分辨率拓扑优化问题,实验验证了优化过程效率的提高,该方法具有良好的泛化性能,研究模型在其他结构优化设计中具有可推广性。 展开更多
关键词 拓扑优化 ICM方法 深度学习 跨分辨率加速设计
在线阅读 下载PDF
基于深度学习的轨道不平顺与车体垂向加速度映射模型 被引量:9
19
作者 何庆 利璐 +2 位作者 李晨钟 汪健辉 王平 《铁道学报》 EI CAS CSCD 北大核心 2023年第6期106-113,共8页
高速列车在长期服役条件下,其车辆悬挂系统等参数与设计值差异较大。多体动力学仿真模型难以模拟真实运营环境,且计算效率较低。为更加准确、快速地评价各种轨道结构以及不平顺激励下车体的垂向振动响应,根据实测轨道不平顺与车体垂向... 高速列车在长期服役条件下,其车辆悬挂系统等参数与设计值差异较大。多体动力学仿真模型难以模拟真实运营环境,且计算效率较低。为更加准确、快速地评价各种轨道结构以及不平顺激励下车体的垂向振动响应,根据实测轨道不平顺与车体垂向加速度的时空数据传递特征,建立一种卷积长短期记忆组合模型,该模型将轨道不平顺与列车运行速度作为输入,实现对车体垂向加速度的预测。结果表明,卷积长短期记忆模型预测的平均绝对百分比误差值为5.64%,相比动力学仿真模型减少3.57%。在预测一段3 km长线路的垂向车体加速度时,动力学仿真模型需要花费约53 s,而卷积长短期记忆网络只需要花费约1.6 s,预测效率提升33倍。 展开更多
关键词 高速铁路 轨道不平顺 车体垂向加速度 深度学习 卷积长短期记忆组合模型
在线阅读 下载PDF
基于深度学习的CSNS加速器预警系统样机 被引量:1
20
作者 何泳成 张玉亮 +5 位作者 王林 金大鹏 吴煊 康明涛 郭凤琴 朱鹏 《强激光与粒子束》 EI CAS CSCD 北大核心 2021年第4期103-109,共7页
为了能在中国散裂中子源(CSNS)加速器的部分故障发生前发出预警信息,利用深度学习建立了基于CSNS加速器真空度和漂移管直线加速器(DTL)温度的特征模型,开发了一套CSNS加速器预警系统样机。该样机基于实验物理及工业控制系统(EPICS)架构... 为了能在中国散裂中子源(CSNS)加速器的部分故障发生前发出预警信息,利用深度学习建立了基于CSNS加速器真空度和漂移管直线加速器(DTL)温度的特征模型,开发了一套CSNS加速器预警系统样机。该样机基于实验物理及工业控制系统(EPICS)架构搭建,主要由训练、识别和信息发布3部分组成,采用Python进行程序设计开发,实现了训练样本获取、深度学习网络设计和训练、在线识别和信息发布等功能。测试结果表明,该样机对基于CSNS加速器真空度和DTL温度历史数据生成的测试集的准确率达98.4%,且能根据实时数据识别出CSNS加速器真空度和DTL温度的异常,并能发出预警信息,证明了其可行性和有效性。 展开更多
关键词 中国散裂中子源 加速器 预警系统 深度学习 实验物理及工业控制系统
在线阅读 下载PDF
上一页 1 2 4 下一页 到第
使用帮助 返回顶部