期刊文献+
共找到41篇文章
< 1 2 3 >
每页显示 20 50 100
基于多尺度特征融合预处理与深度稀疏网络的并行磁共振成像重建
1
作者 薛磊 段继忠 《数据采集与处理》 北大核心 2025年第4期1082-1095,共14页
磁共振成像(Magnetic resonance imaging,MRI)在医学诊断中具有关键作用,但过长的扫描时间可能会导致患者不适或产生运动伪影。并行成像技术和压缩感知理论表明,可通过对k空间数据进行欠采样从而提高扫描速度,其中并行MRI是一种通过利... 磁共振成像(Magnetic resonance imaging,MRI)在医学诊断中具有关键作用,但过长的扫描时间可能会导致患者不适或产生运动伪影。并行成像技术和压缩感知理论表明,可通过对k空间数据进行欠采样从而提高扫描速度,其中并行MRI是一种通过利用多个接收线圈同时采集多个数据通道来加速成像过程的技术。深度学习凭借其强大的特征提取和模式识别能力,在欠采样MRI重建中展现出巨大的潜力。为克服现有技术的局限性(如需要自动校准信号、重建不稳定等),提出了一种创新的重建方法,旨在从欠采样的k空间数据中高效、准确地重建高质量的并行磁共振图像。该方法的核心骨架为深度稀疏网络,该网络通过将求解稀疏模型的迭代收缩阈值算法的迭代过程展开,转化为深度神经网络框架内的一系列可训练层。另外,还引入基于多尺度特征融合的自适应预处理模块,通过融合普通卷积与异型卷积核,进一步提升网络的稀疏表示能力。实验结果表明,相较于其他先进方法,本文提出的方法在多个数据集上均表现出更优的重建性能,包括更高的峰值信噪比和结构相似性指数,以及更低的高频误差范数。 展开更多
关键词 并行磁共振成像重建 深度学习 卷积神经网络 深度稀疏网络 多尺度特征融合
在线阅读 下载PDF
边缘资源轻量化需求下深度神经网络双角度并行剪枝方法
2
作者 张云翔 高圣溥 《沈阳工业大学学报》 北大核心 2025年第2期250-257,共8页
【目的】深度神经网络的应用面临庞大的计算需求和存储开销,这已成为限制其在边缘设备上广泛应用的主要瓶颈。边缘设备因受限于有限的计算资源和存储空间,难以高效运行复杂的深度神经网络模型。因此,在保证模型精度的前提下,如何降低深... 【目的】深度神经网络的应用面临庞大的计算需求和存储开销,这已成为限制其在边缘设备上广泛应用的主要瓶颈。边缘设备因受限于有限的计算资源和存储空间,难以高效运行复杂的深度神经网络模型。因此,在保证模型精度的前提下,如何降低深度神经网络的复杂度和计算量以适应边缘设备对资源轻量化的需求,已成为当前研究的重要方向。提出了一种结合蚁群算法与双角度并行剪枝的深度神经网络优化方法,以提升深度神经网络在边缘设备中的性能。【方法】分析了深度神经网络的结构特点,并构建了包含多个隐藏层的模型。通过蚁群算法模拟蚂蚁觅食过程中的信息素传递机制,在复杂空间中寻找近似最优解,对隐藏层中的相似节点进行聚类,识别并归类高度相似的神经元节点,从而缩减网络规模并降低复杂性。在聚类结果的基础上,提出了对聚类后的冗余节点及游离节点双角度并行剪枝策略:一方面,从权重矩阵的稀疏性出发,裁剪权重较小的节点,以减少计算开销;另一方面,从节点贡献度角度评估每个节点对整体输出的影响,裁剪贡献度较低的节点,从而进一步优化网络结构。【结果】实验结果表明,与未剪枝的原始模型相比,在相同的计算时间内,本文方法剪枝后的深度神经网络在保持较高精度的同时,其数据量高达120 MB、网络复杂度平均值为88.32%、可拓展性为99%。这一结果表明,在有限的资源条件下,该方法能够显著提升深度神经网络的运行效率,更好地满足边缘设备的应用需求。实验结果不仅验证了该方法的有效性,也为深度神经网络在边缘设备上的部署和应用提供了新思路。【结论】提出的优化方法通过在剪枝过程中应用蚁群算法,实现了隐藏层相似节点的精准聚类,为后续的剪枝处理提供了明确目标。同时,双角度并行剪枝策略提升了剪枝的效率和效果,确保剪枝后模型在精度和可拓展性方面的平衡。该方法不仅能够促进深度神经网络在边缘设备上的广泛应用,也为复杂网络优化问题提供了借鉴和参考价值。 展开更多
关键词 边缘资源 轻量化需求 深度神经网络 双角度并行 剪枝方法 蚁群算法 冗余节点 游离节点
在线阅读 下载PDF
并联卷积神经网络的近红外光谱定量分析模型 被引量:3
3
作者 于水 宦克为 +1 位作者 刘小溪 王磊 《光谱学与光谱分析》 SCIE EI CAS CSCD 北大核心 2024年第6期1627-1635,共9页
近红外光谱分析已成为工农业生产过程质量监控领域中不可或缺的重要分析手段之一,在食品、农业、医药等定性定量分析领域被广泛应用。预测精度高、运行速度快、泛化能力强的近红外光谱预测模型可用于不同物质的定性定量分析。但由于近... 近红外光谱分析已成为工农业生产过程质量监控领域中不可或缺的重要分析手段之一,在食品、农业、医药等定性定量分析领域被广泛应用。预测精度高、运行速度快、泛化能力强的近红外光谱预测模型可用于不同物质的定性定量分析。但由于近红外光谱数据量的激增,传统的近红外光谱建模方法已经出现明显的不足。随着人工智能技术的不断发展,深度学习算法在近红外光谱分析领域得到了广泛应用。提出了一种基于并联卷积神经网络的近红外光谱定量分析模型(PaBATunNet)。该模型由1个一维卷积层、1个并联卷积模块(Module)、1个展平层、4个全连接层和1个参数调节器(PR)组成,Module模块包括5个子模块分别对光谱数据进行线性及非线性多维特征提取,并通过Concatenate函数将提取后的光谱特征数据进行拼接,PR模块通过调节优化PaBATunNet模型参数,提高模型预测精度。基于Gard-CAM思想给出了PaBATunNet模型高贡献度特征波长,增加了PaBATunNet模型的可解释性。以谷物、柴油、啤酒、牛奶四组公开的近红外光谱数据为例,将PaBATunNet模型的预测结果与偏最小二乘(PLS)、主成分回归(PCR)、支持向量机(SVM)和BP神经网络(BP)模型的预测结果进行比较。结果表明,与PLS相比,PaBATunNet模型在谷物、柴油、啤酒、牛奶数据集的预测精度上分别提高了30.0%、40.7%、43.0%、52.8%;与PCR相比,PaBATunNet模型的预测精度分别提高了28.8%、35.9%、40.8%、52.2%;与SVM相比,PaBATunNet模型的预测精度分别提高了45.5%、37.4%、45.3%、54.7%;与BP相比,PaBATunNet模型的预测精度分别提高了7.9%、32.4%、90.1%、62.0%。基于并联卷积神经网络的近红外光谱建模方法相比于传统建模方法解决了模型预测精度低、运行时间长、泛化能力差以及可解释性不强等问题,可有效应用于工农业生产中不同物质的定量分析,为建立快速、无损、高精度的近红外光谱定量分析模型提供了科学基础。 展开更多
关键词 近红外光谱 深度学习 并联卷积神经网络 定量分析 预测模型
在线阅读 下载PDF
面向深度神经网络大规模分布式数据并行训练的MC^(2)能耗模型 被引量:1
4
作者 魏嘉 张兴军 +2 位作者 王龙翔 赵明强 董小社 《计算机研究与发展》 EI CSCD 北大核心 2024年第12期2985-3004,共20页
深度神经网络(deep neural network,DNN)在许多现代人工智能(artificial intelligence,AI)任务中取得了最高的精度.近年来,使用高性能计算平台进行大规模分布式并行训练DNN越来越普遍.能耗模型在设计和优化DNN大规模并行训练和抑制高性... 深度神经网络(deep neural network,DNN)在许多现代人工智能(artificial intelligence,AI)任务中取得了最高的精度.近年来,使用高性能计算平台进行大规模分布式并行训练DNN越来越普遍.能耗模型在设计和优化DNN大规模并行训练和抑制高性能计算平台过量能耗方面起着至关重要的作用.目前,大部分的能耗模型都是从设备的角度出发对单个设备或多个设备构成的集群进行能耗建模,由于缺乏从能耗角度对分布式并行DNN应用进行分解剖析,导致罕有针对分布式DNN应用特征进行建模的能耗模型.针对目前最常用的DNN分布式数据并行训练模式,从DNN模型训练本质特征角度出发,提出了“数据预处理(materials preprocessing)-前向与反向传播(computing)-梯度同步与更新(communicating)”三阶段MC^(2)能耗模型,并通过在国产E级原型机天河三号上使用最多128个MT节点和32个FT节点训练经典的VGG16和ResNet50网络以及最新的Vision Transformer网络验证了模型的有效性和可靠性.实验结果表明,MC^(2)与真实能耗测量结果相差仅为2.84%,相较4种线性比例能耗模型以及AR,SES,ARIMA时间预测模型准确率分别提升了69.12个百分点,69.50个百分点,34.58个百分点,13.47个百分点,5.23个百分点,22.13个百分点,10.53个百分点.通过使用的模型可以在超算平台得到DNN模型的各阶段能耗和总体能耗结果,为评估基于能耗感知的DNN大规模分布式数据并行训练及推理各阶段任务调度、作业放置、模型分割、模型裁剪等优化策略的效能提供了基础. 展开更多
关键词 深度神经网络 能耗模型 大规模分布式训练 数据并行 超级计算机
在线阅读 下载PDF
结合空洞卷积与注意力机制的道路提取方法 被引量:1
5
作者 余果 李大成 杨毅 《中国空间科学技术(中英文)》 CSCD 北大核心 2024年第5期175-185,共11页
针对高分辨率影像中道路情况复杂,存在细小道路和被建筑、阴影等隔断道路,导致道路提取精度不高的问题,提出一种结合空洞卷积单元和并行注意力机制模块的改进模型AP-LinkNet。该模型是通过在下采样编码过程中扩大感受野和深层次关注道... 针对高分辨率影像中道路情况复杂,存在细小道路和被建筑、阴影等隔断道路,导致道路提取精度不高的问题,提出一种结合空洞卷积单元和并行注意力机制模块的改进模型AP-LinkNet。该模型是通过在下采样编码过程中扩大感受野和深层次关注道路特征以达到更高的细节道路提取精度。其中空洞卷积模块在扩大感受野的同时不改变空间上像素之间的关系,并行注意力机制提高输入影像采样过程中对通道和空间信息的关注度,并加权赋值给解码步骤的反卷积特征。结合两种机制的特点,减少复杂道路背景的噪声扰乱性以及提高道路提取模型的整体精度。与DeepLabV3+、U-Net、LinkNet和D-LinkNet模型做对比分析,AP-LinkNet模型在DeepGlobe数据集上道路提取的F_(1)分数和IOU评价指标为80.69%和78.65%,其中F_(1)分数分别高出对比模型11.71%、5.24%、3.97%和3.58%。结果表明模型精确度和鲁棒性更高,对于高分影像狭窄、被遮挡等复杂道路细节提取效果好。 展开更多
关键词 深度学习 空洞卷积 并行注意力机制 混合损失函数 卷积神经网络
在线阅读 下载PDF
深度神经网络模型任务切分及并行优化方法 被引量:1
6
作者 巨涛 刘帅 +1 位作者 王志强 李林娟 《北京航空航天大学学报》 EI CAS CSCD 北大核心 2024年第9期2739-2752,共14页
为解决传统手工切分神经网络模型计算任务并行化方法面临的并行化难度大、训练耗时长、设备利用率低等问题,提出了一种基于深度神经网络(DNN)模型特性感知的任务切分及并行优化方法。结合硬件计算环境,对模型计算特性进行动态分析,获取... 为解决传统手工切分神经网络模型计算任务并行化方法面临的并行化难度大、训练耗时长、设备利用率低等问题,提出了一种基于深度神经网络(DNN)模型特性感知的任务切分及并行优化方法。结合硬件计算环境,对模型计算特性进行动态分析,获取模型内部相关性和各类参数属性,构建原始计算任务有向无环图(DAG);利用增强反链,构建DAG节点间可分区聚类的拓扑关系,将原始DAG转换为易于切分的反链DAG;通过拓扑排序生成反链DAG状态序列,并使用动态规划将状态序列切分为不同执行阶段,分析最佳分割点进行模型切分,实现模型分区与各GPU间动态匹配;对批量进行微处理,通过引入流水线并行实现多迭代密集训练,提高GPU利用率,减少训练耗时。实验结果表明:与已有模型切分方法相比,在CIFAR-10数据集上,所提模型切分及并行优化方法可实现各GPU间训练任务负载均衡,在保证模型训练精度的同时,4 GPU加速比达到3.4,8 GPU加速比为3.76。 展开更多
关键词 深度神经网络模型并行 模型切分 流水线并行 反链 并行优化
在线阅读 下载PDF
深度神经网络动态分层梯度稀疏化及梯度合并优化方法
7
作者 巨涛 康贺廷 +1 位作者 刘帅 火久元 《西安交通大学学报》 EI CAS CSCD 北大核心 2024年第9期105-116,共12页
针对数据并行方法加速大规模深度神经网络时易出现的通信开销大、训练耗时长、资源利用率不高的问题,提出了一种深度神经网络动态分层梯度稀疏化及梯度合并优化方法。首先,将梯度稀疏化压缩与流水线并行技术相结合,提出动态分层梯度稀... 针对数据并行方法加速大规模深度神经网络时易出现的通信开销大、训练耗时长、资源利用率不高的问题,提出了一种深度神经网络动态分层梯度稀疏化及梯度合并优化方法。首先,将梯度稀疏化压缩与流水线并行技术相结合,提出动态分层梯度稀疏优化方法,为每层神经网络匹配一个合适的阈值,通过在后续迭代时动态调整该阈值,实现对每层网络传输梯度的自适应压缩。然后,提出了层梯度合并方法,利用动态规划算法对层梯度合并时的通信开销、稀疏化及层梯度计算时间进行权衡优化,求解出最佳的层梯度合并组合,并将多层小尺度梯度张量合并为一层通信,以降低分层梯度决策时引入的过高通信延迟开销。最后,将求解出的最佳层梯度合并组合应用于具体的训练迭代过程。实验结果表明:与已有方法相比,所提方法可在保证模型训练精度的同时大大降低通信开销,提升模型的训练速度;与未压缩方法相比,训练速度最大可提升1.99倍。 展开更多
关键词 深度神经网络 分布式训练 同步数据并行 梯度压缩 层梯度合并
在线阅读 下载PDF
基于CNN-GRU并联网络的海上风电支撑结构损伤识别
8
作者 李行健 刁延松 +1 位作者 吕建达 侯敬儒 《振动与冲击》 EI CSCD 北大核心 2024年第20期229-237,共9页
利用振动响应和深度学习进行结构损伤识别时,会遇到需要较多测点数据、损伤识别准确率不高以及网络容易发生过拟合等问题。为此,提出了一种基于卷积神经网络-门控循环单元(convolutional neural networks-gated recurrent unit,CNN-GRU... 利用振动响应和深度学习进行结构损伤识别时,会遇到需要较多测点数据、损伤识别准确率不高以及网络容易发生过拟合等问题。为此,提出了一种基于卷积神经网络-门控循环单元(convolutional neural networks-gated recurrent unit,CNN-GRU)神经网络并联网络的结构损伤识别新方法。首先,对响应信号进行广义S变换(generalized S-transform,GST)得到其时频图像。然后,分别利用CNN和GRU从时频图像和响应信号中提取时频域特征和时序特征,并将时频域特征和时序特征拼接后输入全连接层和Softmax分类器中进行结构损伤识别。位移激励下的海上风电支撑结构模型试验数据验证结果表明,该方法仅需要一个测点的响应信号,与其他同类方法相比具有更高的识别准确率和效率。 展开更多
关键词 卷积神经网络-门控循环单元(CNN-GRU)并联网络 结构损伤识别 深度学习 海上风电支撑结构 广义S变换(GST)
在线阅读 下载PDF
一种面向通用计算设备的自动流水线并行训练框架
9
作者 钟震宇 林勇良 +3 位作者 王昊天 李东闻 孙羽菲 张玉志 《计算机科学》 CSCD 北大核心 2024年第12期129-136,共8页
训练大规模神经网络通常会出现单个计算节点的内存和计算能力不足的情况,需要通过多个节点分布式训练来实现。现有的分布式深度学习框架主要针对特定的硬件环境设计,不能够有效适应各类通用计算设备。为支持大规模深度神经网络的高效训... 训练大规模神经网络通常会出现单个计算节点的内存和计算能力不足的情况,需要通过多个节点分布式训练来实现。现有的分布式深度学习框架主要针对特定的硬件环境设计,不能够有效适应各类通用计算设备。为支持大规模深度神经网络的高效训练,实现了一种通用的自动流水线并行分布式训练框架。本框架通过结合基于流水线并行的模型并行策略与神经网络模型自动拆分算法,实现了在包括国内新一代超级计算机在内的通用计算机集群上,对大规模神经网络模型与训练数据进行自动并行化处理和训练,显著减轻单个计算节点的内存和计算压力。该框架无需人工调整,可以自动高效地在多节点分布式环境中部署深度神经网络,不仅适用于超级计算机等高性能计算机集群,还可以部署到其他通用的分布式计算环境中,为大规模神经网络的自动化分布式训练提供支持。 展开更多
关键词 流水线并行 深度神经网络 超级计算机 MPI 并行计算
在线阅读 下载PDF
自优化双模态多通路非深度前庭神经鞘瘤识别模型
10
作者 张睿 张鹏云 高美蓉 《计算机应用》 CSCD 北大核心 2024年第9期2975-2982,共8页
针对不同模态间对应特征极易融合错位、识别模型专家主观经验式调参且计算成本高等问题,提出自优化双模态(“对比增强T1加权”与“高分辨率增强T2加权”)多通路非深度前庭神经鞘瘤识别模型。首先,通过构建前庭神经鞘瘤识别模型进一步挖... 针对不同模态间对应特征极易融合错位、识别模型专家主观经验式调参且计算成本高等问题,提出自优化双模态(“对比增强T1加权”与“高分辨率增强T2加权”)多通路非深度前庭神经鞘瘤识别模型。首先,通过构建前庭神经鞘瘤识别模型进一步挖掘前庭神经鞘瘤病症多模态影像特征及模态间复杂的非线性互补信息;其次,设计基于博弈论全局并行麻雀搜索算法的模型优化策略,实现模型关键超参数的自适应寻优,使模型具有较优的识别效果。实验结果表明,相较于基于深度学习的模型,所提模型在识别准确率提升4.19个百分点的情况下参数量降低了27.9%,验证了它的有效性和自适应性。 展开更多
关键词 前庭神经鞘瘤 多模态神经网络 非深度模型 并行加速 模型自优化
在线阅读 下载PDF
深度神经网络并行化研究综述 被引量:62
11
作者 朱虎明 李佩 +2 位作者 焦李成 杨淑媛 侯彪 《计算机学报》 EI CSCD 北大核心 2018年第8期1861-1881,共21页
神经网络是人工智能领域的核心研究内容之一.在七十年的发展历史中,神经网络经历了从浅层神经网络到深度神经网络的重要变革.深度神经网络通过增加模型深度来提高其特征提取和数据拟合的能力,在自然语言处理、自动驾驶、图像分析等问题... 神经网络是人工智能领域的核心研究内容之一.在七十年的发展历史中,神经网络经历了从浅层神经网络到深度神经网络的重要变革.深度神经网络通过增加模型深度来提高其特征提取和数据拟合的能力,在自然语言处理、自动驾驶、图像分析等问题上相较浅层模型具有显著优势.随着训练数据规模的增加和模型的日趋复杂,深度神经网络的训练成本越来越高,并行化成为增强其应用时效性的重要技术手段.近年来计算平台的硬件架构更新迭代,计算能力飞速提高,特别是多核众核以及分布式异构计算平台发展迅速,为深度神经网络的并行化提供了硬件基础;另一方面,日趋丰富的并行编程框架也为计算设备和深度神经网络的并行化架起了桥梁.该文首先介绍了深度神经网络发展背景和常用的计算模型,然后对多核处理器、众核处理器和异构计算设备分别从功耗、计算能力、并行算法的开发难度等角度进行对比分析,对并行编程框架分别从支持的编程语言和硬件设备、编程难度等角度进行阐述.然后以AlexNet为例分析了深度神经网络模型并行和数据并行两种方法的实施过程.接下来,从支持硬件、并行接口、并行模式等角度比较了常用的深度神经网络开源软件,并且通过实验比较和分析了卷积神经网络在多核CPU和GPU上的并行性能.最后,对并行深度神经网络的未来发展趋势和面临的挑战进行展望. 展开更多
关键词 深度神经网络 并行计算 异构计算 模型并行 数据并行
在线阅读 下载PDF
神经网络七十年:回顾与展望 被引量:393
12
作者 焦李成 杨淑媛 +2 位作者 刘芳 王士刚 冯志玺 《计算机学报》 EI CSCD 北大核心 2016年第8期1697-1716,共20页
作为联接主义智能实现的典范,神经网络采用广泛互联的结构与有效的学习机制来模拟人脑信息处理的过程,是人工智能发展中的重要方法,也是当前类脑智能研究中的有效工具.在七十年的发展历程中,神经网络曾历经质疑、批判与冷落,同时也几度... 作为联接主义智能实现的典范,神经网络采用广泛互联的结构与有效的学习机制来模拟人脑信息处理的过程,是人工智能发展中的重要方法,也是当前类脑智能研究中的有效工具.在七十年的发展历程中,神经网络曾历经质疑、批判与冷落,同时也几度繁荣并取得了许多瞩目的成就.从20世纪40年代的M-P神经元和Hebb学习规则,到50年代的Hodykin-Huxley方程、感知器模型与自适应滤波器,再到60年代的自组织映射网络、神经认知机、自适应共振网络,许多神经计算模型都发展成为信号处理、计算机视觉、自然语言处理与优化计算等领域的经典方法,为该领域带来了里程碑式的影响.目前,模拟人脑复杂的层次化认知特点的深度学习已经成为类脑智能中的一个重要研究方向.通过增加网络层数所构造的"深层神经网络"使机器能够获得"抽象概念"能力,在诸多领域都取得了巨大的成功,又掀起了神经网络研究的一个新高潮.文中回顾了神经网络的发展历程,综述了其当前研究进展以及存在的问题,展望了未来神经网络的发展方向. 展开更多
关键词 类脑智能 神经网络 深度学习 大数据 并行计算 机器学习
在线阅读 下载PDF
基于并行深度卷积神经网络的图像美感分类 被引量:54
13
作者 王伟凝 王励 +3 位作者 赵明权 蔡成加 师婷婷 徐向民 《自动化学报》 EI CSCD 北大核心 2016年第6期904-914,共11页
随着计算机和社交网络的飞速发展,图像美感的自动评价产生了越来越大的需求并受到了广泛关注.由于图像美感评价的主观性和复杂性,传统的手工特征和局部特征方法难以全面表征图像的美感特点,并准确量化或建模.本文提出一种并行深度卷积... 随着计算机和社交网络的飞速发展,图像美感的自动评价产生了越来越大的需求并受到了广泛关注.由于图像美感评价的主观性和复杂性,传统的手工特征和局部特征方法难以全面表征图像的美感特点,并准确量化或建模.本文提出一种并行深度卷积神经网络的图像美感分类方法,从同一图像的不同角度出发,利用深度学习网络自动完成特征学习,得到更为全面的图像美感特征描述;然后利用支持向量机训练特征并建立分类器,实现图像美感分类.通过在两个主流的图像美感数据库上的实验显示,本文方法与目前已有的其他算法对比,获得了更好的分类准确率. 展开更多
关键词 图像美感评估 深度卷积神经网络 并行卷积神经网络 特征提取
在线阅读 下载PDF
基于多GPU的深度神经网络训练算法 被引量:8
14
作者 顾乃杰 赵增 +1 位作者 吕亚飞 张致江 《小型微型计算机系统》 CSCD 北大核心 2015年第5期1042-1046,共5页
深度学习由于出色的识别效果在模式识别及机器学习领域受到越来越多的关注.作为深度神经网络算法的重要组成部分,误差反向传播算法的执行效率已经成为制约深度学习领域发展的瓶颈.提出一种基于Tesla K10 GPU的误差反向传播算法,该算法... 深度学习由于出色的识别效果在模式识别及机器学习领域受到越来越多的关注.作为深度神经网络算法的重要组成部分,误差反向传播算法的执行效率已经成为制约深度学习领域发展的瓶颈.提出一种基于Tesla K10 GPU的误差反向传播算法,该算法具有负载均衡,可扩展性高的特点.本算法充分利用PCI-E3.0传输特性,并结合peer-to-peer以及异步传输的特性以降低计算任务在划分和合并过程中带来的额外开销.除此之外,文章通过对算法流程的重构,实现算法数据相关性的解耦合,从而使得有更多的计算任务可用来掩盖传输过程.实验证明,该算法拥有双卡超过1.87的并行加速比,且算法执行过程中不会引入计算误差,可有效保证训练过程中的收敛效率,拥有理想的并行加速效果. 展开更多
关键词 深度学习 神经网络 GPGPU 并行算法
在线阅读 下载PDF
前列腺癌辅助诊断GPU并行算法设计 被引量:4
15
作者 苏庆华 付景超 +5 位作者 谷焓 张姗姗 李奕飞 江方舟 白翰林 赵地 《计算机科学》 CSCD 北大核心 2019年第S11期524-527,共4页
在癌症高发的当代,前列腺癌作为男性特有的疾病,其发病率逐年升高。卷积神经网络因其在图像识别领域的强大性能而倍受关注,也非常适用于计算机辅助诊断(Computer Aided Design,CAN)领域。由于神经网络模型中通常包含大量参数,因此训练... 在癌症高发的当代,前列腺癌作为男性特有的疾病,其发病率逐年升高。卷积神经网络因其在图像识别领域的强大性能而倍受关注,也非常适用于计算机辅助诊断(Computer Aided Design,CAN)领域。由于神经网络模型中通常包含大量参数,因此训练一个卷积神经网络十分耗时。如何加快神经网络的训练成为了深度学习领域中一个十分重要的问题。为了解决这个问题,一般采用多GPU并行方案。其中,数据同步在GPU性能均衡的情况下表现更佳。因此,文中借鉴已有的基于数据并行算法对前列腺三维卷积网络进行加速。 展开更多
关键词 卷积网络 深度学习 多GPU并行 数据并行 神经网络
在线阅读 下载PDF
基于FPGA的卷积神经网络硬件加速器设计 被引量:19
16
作者 秦华标 曹钦平 《电子与信息学报》 EI CSCD 北大核心 2019年第11期2599-2605,共7页
针对卷积神经网络(CNN)计算量大、计算时间长的问题,该文提出一种基于现场可编程逻辑门阵列(FPGA)的卷积神经网络硬件加速器。首先通过深入分析卷积层的前向运算原理和探索卷积层运算的并行性,设计了一种输入通道并行、输出通道并行以... 针对卷积神经网络(CNN)计算量大、计算时间长的问题,该文提出一种基于现场可编程逻辑门阵列(FPGA)的卷积神经网络硬件加速器。首先通过深入分析卷积层的前向运算原理和探索卷积层运算的并行性,设计了一种输入通道并行、输出通道并行以及卷积窗口深度流水的硬件架构。然后在上述架构中设计了全并行乘法-加法树模块来加速卷积运算和高效的窗口缓存模块来实现卷积窗口的流水线操作。最后实验结果表明,该文提出的加速器能效比达到32.73 GOPS/W,比现有的解决方案高了34%,同时性能达到了317.86 GOPS。 展开更多
关键词 卷积神经网络 硬件加速 现场可编程逻辑门阵列 计算并行 深度流水
在线阅读 下载PDF
全卷积多并联残差神经网络 被引量:6
17
作者 李国强 张露 《小型微型计算机系统》 CSCD 北大核心 2020年第1期30-34,共5页
随着人工智能的火热发展,深度学习已经在很多领域占有了一席之地.作为深度学习中一个典型网络--残差神经网络模型自提出之日起就成为了众多研究者的关注点.然而,残差神经网络还有很大的改进空间.为了更好地解决反向传播中梯度减小的问题... 随着人工智能的火热发展,深度学习已经在很多领域占有了一席之地.作为深度学习中一个典型网络--残差神经网络模型自提出之日起就成为了众多研究者的关注点.然而,残差神经网络还有很大的改进空间.为了更好地解决反向传播中梯度减小的问题,本文提出了一种改进的残差神经网络,称为全卷积多并联残差神经网络.在该网络中,每一层的特征信息不仅传输到下一层还输出到最后的平均池化层.为了测试该网络的性能,分别在三个数据集(MNIST,CIFAR-10和CIFAR-100)上对比图像分类的结果.实验结果表明,改进后的全卷积多并联残差神经网络与残差网络相比具有更高的分类准确率和更好的泛化能力. 展开更多
关键词 深度学习 残差神经网络 全卷积多并联残差神经网络 图像分类
在线阅读 下载PDF
大数据下基于特征图的深度卷积神经网络 被引量:5
18
作者 毛伊敏 张瑞朋 高波 《计算机工程与应用》 CSCD 北大核心 2022年第15期110-116,共7页
针对大数据环境下DCNN(deep convolutional neural network)算法中存在网络冗余参数过多、参数寻优能力不佳和并行效率低的问题,提出了大数据环境下基于特征图和并行计算熵的深度卷积神经网络算法MR-FPDCNN(deep convolutional neural n... 针对大数据环境下DCNN(deep convolutional neural network)算法中存在网络冗余参数过多、参数寻优能力不佳和并行效率低的问题,提出了大数据环境下基于特征图和并行计算熵的深度卷积神经网络算法MR-FPDCNN(deep convolutional neural network algorithm based on feature graph and parallel computing entropy using MapReduce)。该算法设计了基于泰勒损失的特征图剪枝策略FMPTL(feature map pruning based on Taylor loss),预训练网络,获得压缩后的DCNN,有效减少了冗余参数,降低了DCNN训练的计算代价。提出了基于信息共享搜索策略ISS(information sharing strategy)的萤火虫优化算法IFAS(improved firefly algorithm based on ISS),根据“IFAS”算法初始化DCNN参数,实现DCNN的并行化训练,提高网络的寻优能力。在Reduce阶段提出了基于并行计算熵的动态负载均衡策略DLBPCE(dynamic load balancing strategy based on parallel computing entropy),获取全局训练结果,实现了数据的快速均匀分组,从而提高了集群的并行效率。实验结果表明,该算法不仅降低了DCNN在大数据环境下训练的计算代价,而且提高了并行系统的并行化性能。 展开更多
关键词 DCNN算法 MAPREDUCE框架 FMPTL策略 IFAS算法 DLBPCE策略
在线阅读 下载PDF
嵌入式异构智能计算系统并行多流水线设计 被引量:1
19
作者 赵二虎 吴济文 +2 位作者 肖思莹 晋振杰 徐勇军 《电子学报》 EI CAS CSCD 北大核心 2023年第11期3354-3364,共11页
嵌入式智能计算系统因其功耗受限和多传感器实时智能处理需要,对硬件平台的智能算力能效比和智能计算业务并行度提出了严峻挑战.传统嵌入式计算系统常采用的DSP+FPGA数字信号处理架构,无法适用于多个神经网络模型加速场景.本文基于ARM+D... 嵌入式智能计算系统因其功耗受限和多传感器实时智能处理需要,对硬件平台的智能算力能效比和智能计算业务并行度提出了严峻挑战.传统嵌入式计算系统常采用的DSP+FPGA数字信号处理架构,无法适用于多个神经网络模型加速场景.本文基于ARM+DLP+SRIO嵌入式异构智能计算架构,利用智能处理器多片多核多内存通道特性,提出了并行多流水线设计方法.该方法充分考虑智能计算业务中数据传输、拷贝、推理、结果反馈等环节时间开销,为不同的神经网络模型合理分配智能算力资源,以达到最大的端到端智能计算业务吞吐率.实验结果表明,采用并行多流水线设计方法的深度学习处理器利用率较单流水线平均提高约25.2%,较无流水线平均提高约30.7%,满足可见光、红外、SAR等多模图像实时智能处理需求,具有实际应用价值. 展开更多
关键词 嵌入式智能计算系统 异构计算架构 神经网络模型 并行多流水线 深度学习处理器
在线阅读 下载PDF
基于多模型并行融合网络的恶意流量检测方法 被引量:2
20
作者 李向军 王俊洪 +3 位作者 王诗璐 陈金霞 孙纪涛 王建辉 《计算机应用》 CSCD 北大核心 2023年第S02期122-129,共8页
针对单一串行深度学习检测模型提取流量特征时无法完整反映原始流量信息,且恶意流量识别精度低的问题,设计多模型并行融合网络,提出一种基于多模型并行融合网络的恶意流量检测方法。所提方法采用并行方式,融合一维卷积神经网络(1D-CNN)... 针对单一串行深度学习检测模型提取流量特征时无法完整反映原始流量信息,且恶意流量识别精度低的问题,设计多模型并行融合网络,提出一种基于多模型并行融合网络的恶意流量检测方法。所提方法采用并行方式,融合一维卷积神经网络(1D-CNN)与双向长短期记忆(Bi-LSTM)网络进行特征提取和流量识别,各条支路均直接面向原始流量,同时提取流量的空间特征与时序特征,采用共同的全连接层进行特征融合,可更精准地反映原始流量信息并有效提高恶意流量的识别准确率。在开源NSL-KDD数据集上的实验结果表明,所提方法恶意流量检测的特征提取能力、鲁棒性以及在线学习能力等方面均表现了优越的性能。 展开更多
关键词 恶意流量检测 深度学习 多模型并行融合 卷积神经网络 双向长短期记忆网络
在线阅读 下载PDF
上一页 1 2 3 下一页 到第
使用帮助 返回顶部