期刊文献+
共找到380篇文章
< 1 2 19 >
每页显示 20 50 100
Inverse Control of Cable-driven Parallel Mechanism Using Type-2 Fuzzy Neural Network 被引量:9
1
作者 LI Cheng-Dong YI Jian-Qiang YU Yi ZHAO Dong-Bin 《自动化学报》 EI CSCD 北大核心 2010年第3期459-464,共6页
关键词 机器人 数学模型 最小二乘法 动力学
在线阅读 下载PDF
A Coupled Transiently Chaotic Neural Network Approach for Identical Parallel Machine Scheduling 被引量:2
2
作者 YU Ai-Qing GU Xing-Sheng 《自动化学报》 EI CSCD 北大核心 2008年第6期697-701,共5页
在相同机器上安排工作是经常在各种各样的生产系统遇到的一种状况。在这份报纸,一新联合了短暂地混乱的神经网络(CTCNN ) 被提出解决相同平行机器安排。这个问题的一个混合整数编程模型被介绍一个排列矩阵表达式转变成 CTCNN 计算体系... 在相同机器上安排工作是经常在各种各样的生产系统遇到的一种状况。在这份报纸,一新联合了短暂地混乱的神经网络(CTCNN ) 被提出解决相同平行机器安排。这个问题的一个混合整数编程模型被介绍一个排列矩阵表达式转变成 CTCNN 计算体系结构。新计算精力功能被建议除所有限制以外表示目的。特别地,在精力功能在惩罚术语之中存在的折衷问题被使用变化时间的惩罚参数克服。最后,结果与 100 个随机的起始的条件在 3 个不同规模问题上测试了证明网络收敛并且能在合理时间解决这些问题。 展开更多
关键词 机械设计 智能化系统 人工神经网络 混沌系统
在线阅读 下载PDF
Implementing an Artificial Neural Network Computer
3
作者 Zhu Keqin Luo Siwei & Ding Jiazhong(Dept. of Computer Science & Technology, Northern Jiaotong University, Beijing 100044, China) 《Journal of Systems Engineering and Electronics》 SCIE EI CSCD 1995年第3期19-24,共6页
Based on the implementation of NNSPC (Neural NetWork Synchronous Parallel Computer) developed by NJU, this paper discusses two schemes for implementing artificial neural network computer withdistributed memories: One ... Based on the implementation of NNSPC (Neural NetWork Synchronous Parallel Computer) developed by NJU, this paper discusses two schemes for implementing artificial neural network computer withdistributed memories: One is Switch Network Structure; the other is Ring Topology Structure. This papergives a comparison betWeen the two schemes and the principles of scheme selection. 展开更多
关键词 Artificial neural network parallel processing Switch network Ring topology
在线阅读 下载PDF
考虑裂纹分形维数的平行黏结模型细观参数标定的神经网络模型
4
作者 龚囱 戚燕顺 +4 位作者 缪浩杰 肖琦 熊良锋 曾鹏 赵奎 《岩土力学》 北大核心 2025年第1期327-336,共10页
针对试错法在平行黏结模型细观参数标定过程中存在繁琐耗时,且无法定量评价数值模拟与室内试验的裂纹匹配程度等局限性,统计并分析了近10年平行黏结模型细观参数取值范围,采用盒计数法获取了数值模拟试验、室内试验所得破坏后岩石表面... 针对试错法在平行黏结模型细观参数标定过程中存在繁琐耗时,且无法定量评价数值模拟与室内试验的裂纹匹配程度等局限性,统计并分析了近10年平行黏结模型细观参数取值范围,采用盒计数法获取了数值模拟试验、室内试验所得破坏后岩石表面裂纹分形维数。在此基础上,建立了以宏观弹性模量、宏观泊松比、峰值强度和裂纹分形维数等4个参数为输入层,黏结弹性模量、黏结法向与切向刚度比、黏结内聚力、黏结内摩擦角、黏结抗拉强度和摩擦系数等6个细观参数为输出层的神经网络模型,对比分析了考虑与不考虑裂纹分形维数时平行黏结模型细观参数标定效果。研究结果表明:(1)所建立的神经网络模型具有较好的收敛速度、预测精度与泛化性能,测试集输出数据与期望值误差约为3.34%。(2)将裂纹分形维数纳入神经网络模型后,数值模拟所得弹性模量、峰值应力与泊松比等宏观参数与室内试验结果的误差小于3.00%,优于不考虑裂纹分形维数标定结果。(3)该方法可定量保障数值模拟所得裂纹不规则性与室内试验结果的一致性,其在一定程度上可视为对现有神经网络模型细观参数标定结果的修正。研究成果可为提高平行黏结模型细观参数标定效果提供新思路。 展开更多
关键词 分形维数 颗粒流 平行黏结模型 参数标定 神经网络
在线阅读 下载PDF
一种Restormer结合细节补偿的红外与可见光图像融合方法
5
作者 杨艳春 李佳龙 《哈尔滨工业大学学报》 北大核心 2025年第9期149-160,共12页
为提升融合图像的质量和信息完整性,解决红外与可见光图像融合中存在的特征提取能力不足、缺乏纹理细节以及全局上下文信息丢失等问题,提出一种红外与可见光图像的融合与分解网络架构。首先,利用Restormer和Res2Net的并联结构,通过多个... 为提升融合图像的质量和信息完整性,解决红外与可见光图像融合中存在的特征提取能力不足、缺乏纹理细节以及全局上下文信息丢失等问题,提出一种红外与可见光图像的融合与分解网络架构。首先,利用Restormer和Res2Net的并联结构,通过多个深度卷积头转置注意力机制和多尺度残差连接,协同捕获全局上下文信息和局部细节特征;其次,通过带有仿射耦合结构的可逆神经网络,将红外与可见光图像浅层特征分为两部分,利用交替耦合变换实现特征无损保留;然后,重建模块利用拼接及卷积操作生成高质量融合图像;最后,分解网络通过最小化分解损失函数,将融合图像逆向分解为源图像。实验结果表明:在RoadScene数据集上,本文方法的主客观结果均优于多数对比方法,其中标准差、差异相关系数、平均梯度和空间频率较其他对比方法分别平均提升了8.5%、23.1%、49.0%和56.1%;在MSRS数据集上,本文方法较SDCFusion方法在标准差、视觉信息保真度、平均梯度、差异相关系数和空间频率方面分别提升了1.4%、0.4%、0.6%、4.3%和3.4%。所提方法在提升融合图像质量、保留纹理细节和全局信息方面展现出显著优势。 展开更多
关键词 图像融合 并联结构 细节补偿 可逆神经网络 分解网络
在线阅读 下载PDF
欠约束临时支护机器人几何静力耦合模型及运动控制研究
6
作者 刘鹏 朱延 +6 位作者 马宏伟 曹现刚 张旭辉 段学超 周昊晨 乔心州 夏晶 《煤炭科学技术》 北大核心 2025年第8期346-361,共16页
护盾式智能掘进机器人系统有效的解决了煤矿开采中“采掘失衡、采快掘慢”难题。临时支护机器人作为该系统的重要组成部分,尽管在提升作业效率上发挥了重要作用,但由于结构限制,仅能实现竖直方向的升降运动,难以有效应对复杂巷道的临时... 护盾式智能掘进机器人系统有效的解决了煤矿开采中“采掘失衡、采快掘慢”难题。临时支护机器人作为该系统的重要组成部分,尽管在提升作业效率上发挥了重要作用,但由于结构限制,仅能实现竖直方向的升降运动,难以有效应对复杂巷道的临时支护作业。为解决临时支护机器人运动受限难题,设计了一种欠约束临时支护机器人,并提出了一种基于RBF神经网络分块逼近的终端滑模控制方法,以实现欠约束临时支护机器人的高精度运动控制。首先,利用修正的G-K公式对该机器人的自由度进行了分析,针对欠约束临时支护机器人正运动学难以求解问题,建立了几何静力耦合模型,提出了一种改进的蜣螂优化算法,对正/逆几何静力问题进行求解,并对几何静力问题进行了仿真;其次,设计了一种基于RBF神经网络分块逼近的终端滑模控制器。针对末端支护平台参数矩阵的不确定,使用多组RBF神经网络对其逼近,根据自适应律在线调整权值,实现了动力学模型的重构,并设计鲁棒项消除模型重构误差和外部扰动。为缓解控制器存在的抖振问题,设计了模糊系统自适应逼近切换增益来代替鲁棒项,并利用Lyapunov准则证明了控制系统的稳定性。最后,以平面圆轨迹为例进行仿真。结果表明:改进的蜣螂优化算法对正/逆运动学单点验证精度均小于10-20,连续运动学求解结果良好。使用RBF神经网络分块逼近的终端滑模控制方法对预定轨迹的位置跟踪误差为0~0.011m,姿态跟踪误差为0~0.0031°,与RBF神经网络整体逼近和PD控制相比最大跟踪误差分别减少了99.0%、95.5%,均方根误差分别减少了98.3%、96.5%。证明了基于RBF神经网络分块逼近的终端滑模控制方法能进一步提高欠约束临时支护机器人的运动控制精度,在受到外界干扰的情况下具有更强的鲁棒性。 展开更多
关键词 欠约束并联机器人 临时支护 运动控制 优化算法 神经网络 模糊系统
在线阅读 下载PDF
一种基于注意力机制的BERT-CNN-GRU检测方法 被引量:3
7
作者 郑雅洲 刘万平 黄东 《计算机工程》 北大核心 2025年第1期258-268,共11页
针对现有检测方法对短域名检测性能普遍较差的问题,提出一种BERT-CNN-GRU结合注意力机制的检测方法。通过BERT提取域名的有效特征和字符间组成逻辑,根据并行的融合简化注意力的卷积神经网络(CNN)和基于多头注意力机制的门控循环单元(GRU... 针对现有检测方法对短域名检测性能普遍较差的问题,提出一种BERT-CNN-GRU结合注意力机制的检测方法。通过BERT提取域名的有效特征和字符间组成逻辑,根据并行的融合简化注意力的卷积神经网络(CNN)和基于多头注意力机制的门控循环单元(GRU)提取域名深度特征。CNN使用n-gram排布的方式提取不同层次的域名信息,并采用批标准化(BN)对卷积结果进行优化。GRU能够更好地获取前后域名的组成差异,多头注意力机制在捕获域名内部的组成关系方面表现出色。将并行检测网络输出的结果进行拼接,最大限度地发挥两种网络的优势,并采用局部损失函数聚焦域名分类问题,提高分类性能。实验结果表明,该方法在二分类上达到了最优效果,在短域名多分类数据集上15分类的加权F1值达到了86.21%,比BiLSTM-Seq-Attention模型提高了0.88百分点,在UMUDGA数据集上50分类的加权F1值达到了85.51%,比BiLSTM-Seq-Attention模型提高了0.45百分点。此外,该模型对变体域名和单词域名生成算法(DGA)检测性能较好,具有处理域名数据分布不平衡的能力和更广泛的检测能力。 展开更多
关键词 恶意短域名 BERT预训练 批标准化 注意力机制 门控循环单元 并行卷积神经网络
在线阅读 下载PDF
基于最小平均复合熵和并行卷积融合注意力机制轴承故障诊断模型
8
作者 张震 杨世锡 +1 位作者 何俊 周万春 《振动与冲击》 北大核心 2025年第18期252-262,共11页
针对复杂噪声影响下,轴承故障诊断中出现的故诊断准确率低,泛化能力弱的问题。提出基于最小平均复合熵和并行卷积融合注意力机制卷积神经网络轴承故障诊断模型。gai首先以雷尼熵和样本熵组成的最小平均复合熵作为适应度函数,以改进蜣螂... 针对复杂噪声影响下,轴承故障诊断中出现的故诊断准确率低,泛化能力弱的问题。提出基于最小平均复合熵和并行卷积融合注意力机制卷积神经网络轴承故障诊断模型。gai首先以雷尼熵和样本熵组成的最小平均复合熵作为适应度函数,以改进蜣螂算法作为优化算法对变化模态分解关键参数进行寻优,实现信号故障特征提取。随后将所提取信号特征以格拉姆角场转化为角和场和角差场。最后使用并行融合注意力机制卷积神经网络进行故障诊断。试验数据和台架试验结果表明,所提模型分类准确率高达99.3%,与对比模型相比,复杂噪声工况下的抗噪能力提高15%以上,泛化能力提高3.68%。 展开更多
关键词 雷尼熵 融合注意力机制 并行卷积神经网络 滚动轴承 格拉姆角场
在线阅读 下载PDF
基于并行计算的计算智能综述
9
作者 吴菲 陈嘉诚 王万良 《浙江大学学报(工学版)》 北大核心 2025年第1期27-38,共12页
传统计算智能技术缺乏实时性和适应性,基于并行计算的计算智能技术能够提高计算效率,解决多模态信息兼容处理的问题.分别从智能计算的3个分支(神经网络、进化算法和群智能算法)介绍计算智能与大数据并行计算融合的研究现状.总结并行计... 传统计算智能技术缺乏实时性和适应性,基于并行计算的计算智能技术能够提高计算效率,解决多模态信息兼容处理的问题.分别从智能计算的3个分支(神经网络、进化算法和群智能算法)介绍计算智能与大数据并行计算融合的研究现状.总结并行计算智能面临的问题与挑战,思考相关研究的发展方向. 展开更多
关键词 并行计算 计算智能 神经网络 进化算法 群智能
在线阅读 下载PDF
基于并行混合神经网络的碾米机故障诊断方法
10
作者 孙秋 蔡华锋 《中国农机化学报》 北大核心 2025年第6期221-227,共7页
为能够对碾米机故障进行快速诊断,提出一种基于并行混合神经网络的碾米机故障诊断方法。搭建碾米机故障采集系统,主要由供电端、故障端、数据采集端和数据处理端4个部分组成,其中数据采集端用于采集碾米机故障信号,数据处理端则主要负... 为能够对碾米机故障进行快速诊断,提出一种基于并行混合神经网络的碾米机故障诊断方法。搭建碾米机故障采集系统,主要由供电端、故障端、数据采集端和数据处理端4个部分组成,其中数据采集端用于采集碾米机故障信号,数据处理端则主要负责接收并处理碾米机的故障数据,将故障数据集带入具有全局均值池化(GAP)的并行混合神经网络中进行特征提取和故障分类,获取故障诊断结果,并与其他最新的故障诊断模型进行比较。试验结果表明,该方法能够将碾米机的故障诊断精度提升至90.72%,与其他模型相比诊断性能更加优越,对碾米机故障实现快速诊断具有重要意义。 展开更多
关键词 碾米机 故障诊断 门控循环单元 并行混合神经网络 全局均值池化
在线阅读 下载PDF
基于三维荧光光谱预测大豆油掺假花生油含量的建模效果研究
11
作者 魏泉增 刘雪影 +1 位作者 王至洁 丁芳 《光谱学与光谱分析》 北大核心 2025年第7期1906-1915,共10页
为实现大豆油掺假花生油含量测定,采集自制不同含量大豆油和花生油伪品的三维荧光光谱数据,采用三角形内插值法去除瑞利散射和拉曼散射,而后对荧光光谱进行卷积平滑(Savitzky-Golar)处理。采用三线性交替分解(ATLD)和平行因子(PARAFAC)... 为实现大豆油掺假花生油含量测定,采集自制不同含量大豆油和花生油伪品的三维荧光光谱数据,采用三角形内插值法去除瑞利散射和拉曼散射,而后对荧光光谱进行卷积平滑(Savitzky-Golar)处理。采用三线性交替分解(ATLD)和平行因子(PARAFAC)算法预测花生油的含量。同时,对不同含量花生油的伪品的三维荧光数据去散射和平滑处理后,对每个激发波长所对应的发射光谱进行小波包分解(WPD),以最低频段的波包系数,作为荧光发射光谱数据表征量。并按照激发波长顺序数将所有发射波长数据重构为一阶荧光光谱数据向量,构建偏最小二乘(PLS)和人工神经网络(ANN)数据模型预测伪品中花生油含量。结果表明,PARAFAC,ATLD,WPD-PLS和WPD-ANN的回归系数R^(2)分别为0.898,0.941,0.961和0.981。WPD-ANN算法模型的训练集、验证集、测试集和全部数据的平均绝对偏差(MAD)、均方误差(MSE)和均方根误差(RMSE)均较小,WPD-ANN模型对伪品中的花生油含量进行预测,预测偏差在±5%以内的样本百分比为82.5%。对比分析WPD-ANN,WPD-PLS,ATLD和PARAFAC 4种算法模型的花生油含量预测结果。WPD-ANN和WPD-PLS模型偏差的均值和中位数都在0%附近,而ATLD和PARAFAC模型偏差的均值和中位数离0%较远。相较于PARAFAC模型,ATLD模型的收敛速度更快,偏差更小。ATLD和PARAFAC模型可能受到非线性因素的影响,预测效果不及WPD-ANN及WPD-PLS,而ANN和PLS是基于WPD及数据重构后一阶数据回归建模,同时ANN是非线性模型,WPD-ANN模型对伪花生油中花生油含量具有更强的预测能力且偏差更小,是预测伪品中花生油含量4种算法中更优的算法。这为定量分析掺假食用油提供了研究基础。 展开更多
关键词 食用油掺假 小波包分解 人工神经网络 偏最小二乘 三线性交替分解 平行因子
在线阅读 下载PDF
一种深度神经网络多步延迟参数更新并行优化方法
12
作者 巨涛 康贺廷 +2 位作者 刘帅 丁肖健 王龙翔 《哈尔滨工业大学学报》 北大核心 2025年第9期95-108,共14页
为解决深度神经网络(deep neural network,DNN)分布式数据并行训练中因聚合节点梯度进行全局梯度参数更新而导致的高通信开销问题,提出一种DNN多步延迟参数更新并行优化方法。首先,设计了一种自适应多步更新间隔选择策略,通过多次本地迭... 为解决深度神经网络(deep neural network,DNN)分布式数据并行训练中因聚合节点梯度进行全局梯度参数更新而导致的高通信开销问题,提出一种DNN多步延迟参数更新并行优化方法。首先,设计了一种自适应多步更新间隔选择策略,通过多次本地迭代,再聚合节点梯度,降低频繁通信造成的额外开销;同时,提出了一种参数修正策略,防止本地模型在多步本地更新后偏离全局模型,从而保证训练精度;其次,在聚合梯度时,将梯度张量切分为子张量,在梯度聚合过程中实现通信与计算的最大化重叠,进一步加速模型训练;最后,在CIFAR-100和ImageNet-mini数据集上,将本文方法与SSGD、Local SGD训练方法进行对比。实验结果表明,本文方法可以在保证模型训练精度的基础上,显著减少因参数更新引入的通信开销,可以实现通信与计算的最大化重叠,充分利用计算资源提升并行训练速度。研究结果可为降低DNN分布式训练过程中的通信开销提供新的方案。 展开更多
关键词 深度神经网络 数据并行 通信调度 参数更新 计算与通信重叠
在线阅读 下载PDF
基于孪生XLM-R模型的机器翻译双语平行语料过滤方法
13
作者 涂杰 李茂西 裘白莲 《中文信息学报》 北大核心 2025年第2期63-71,共9页
在机器翻译中,模型训练使用的双语平行语料的数量和质量极大地影响了系统的性能,然而当前很多双语平行语料是从双语可比语料中利用自动过滤方法提取的。为了提高双语平行语料自动过滤的性能,该文提出基于孪生XLM-R模型的双语平行语料过... 在机器翻译中,模型训练使用的双语平行语料的数量和质量极大地影响了系统的性能,然而当前很多双语平行语料是从双语可比语料中利用自动过滤方法提取的。为了提高双语平行语料自动过滤的性能,该文提出基于孪生XLM-R模型的双语平行语料过滤方法,使用基于跨语言预训练语言模型XLM-R的孪生神经网络将源语言句子与目标语言句子映射到深层语义空间,利用平均池化操作获得它们相同维度的句子表征,根据句子表征间余弦距离提取相似度高的平行句对。在WMT18双语平行语料过滤任务上的实验结果表明,该文所提模型优于对比的基线模型,与参与该评测的系统具有较好的可比性。 展开更多
关键词 机器翻译 双语平行语料自动过滤 孪生神经网络 XLM-R模型 对比损失
在线阅读 下载PDF
融合多尺度语义和双分支并行的医学图像分割网络
14
作者 袁宝华 陈佳璐 王欢 《计算机应用》 北大核心 2025年第3期988-995,共8页
在医学图像分割网络中,卷积神经网络(CNN)虽然能提取丰富的局部特征细节,但存在远程信息捕获不足的问题。Transformer虽然可以捕捉长距离的全局特征依赖关系,但是会破坏局部特征细节。为充分利用2种网络特征的互补性,提出一种用于医学... 在医学图像分割网络中,卷积神经网络(CNN)虽然能提取丰富的局部特征细节,但存在远程信息捕获不足的问题。Transformer虽然可以捕捉长距离的全局特征依赖关系,但是会破坏局部特征细节。为充分利用2种网络特征的互补性,提出一种用于医学图像分割的CNN和Transformer并行的融合网络——PFNet。该网络的并行融合模块使用一对基于CNN和Transformer的相互依赖的并行分支来高效地学习局部和全局两方面的辨别特征,并以交互方式交叉融合局部特征和长距离特征的依赖关系;同时,为恢复在下采样期间丢失的空间信息以增强细节的保留,提出多尺度交互(MSI)模块提取分层CNN分支生成的多尺度特征的局部上下文以进行远程依赖关系建模。实验结果表明,PFNet优于MISSFormer(Medical Image Segmentation tranSFormer)和UCTransNet(U-Net with Channel Transformer module)等先进方法。在Synapse和ACDC(Automated Cardiac Diagnosis Challenge)数据集上,相较于最优的基线方法MISSFormer,PFNet的平均Dice相似系数(DSC)分别提高1.27%和0.81%。可见,PFNet能实现更精准的医学图像分割。 展开更多
关键词 医学图像分割 TRANSFORMER 卷积神经网络 并行融合 多尺度交互
在线阅读 下载PDF
基于Informer算法的燃料电池寿命估算
15
作者 施永 赵洪霄 +3 位作者 谢缔 汪亮亮 苏建徽 解宝 《太阳能学报》 北大核心 2025年第8期240-248,共9页
为解决长短期记忆网络(LSTM)和门控循环单元神经网络(GRU)在捕捉长期依赖关系上的不足以及估算精度较低的问题,该文提出基于Informer算法的燃料电池寿命估算方法,旨在提高估算的准确性和效率。该方法采用加权平均法和皮尔逊系数法对数... 为解决长短期记忆网络(LSTM)和门控循环单元神经网络(GRU)在捕捉长期依赖关系上的不足以及估算精度较低的问题,该文提出基于Informer算法的燃料电池寿命估算方法,旨在提高估算的准确性和效率。该方法采用加权平均法和皮尔逊系数法对数据进行平滑处理,以增强数据的趋势性并减少噪声影响。结合Informer模型的多尺度信息融合和长期依赖建模能力,设计了一个能够实现燃料电池寿命在线估算的寿命估算框架。随后设计3组实验与传统的LSTM和GRU模型进行比较,当训练集占比80%时,Informer模型U_(MAE)、U_(RMSE)、U_(MAPE)均最小,估算精度高于LSTM和GRU模型。说明Informer模型在长时间序列估算方面表现出色,为燃料电池寿命估算提供可靠的依据。 展开更多
关键词 神经网络 燃料电池 并行处理 寿命估算 多头概率稀疏自注意力机制
在线阅读 下载PDF
面向可重构阵列的CNN多维融合数据复用方法
16
作者 张骁帆 蒋林 +1 位作者 李远成 盛明威 《计算机应用研究》 北大核心 2025年第6期1801-1806,共6页
可重构阵列结构具有通用处理器的灵活性和专用硬件的高能效,已经成为应对卷积神经网络(CNN)等计算密集和访存密集型应用的最佳选择之一。然而,随着计算量的不断增加,访存开销持续上升,严重限制了计算效率的进一步提升。因此,提出一种面... 可重构阵列结构具有通用处理器的灵活性和专用硬件的高能效,已经成为应对卷积神经网络(CNN)等计算密集和访存密集型应用的最佳选择之一。然而,随着计算量的不断增加,访存开销持续上升,严重限制了计算效率的进一步提升。因此,提出一种面向可重构阵列的CNN多维融合的数据复用新方法。通过计算单元内数据循环调用、不同计算单元间数据脉动传输的策略,在计算单元和阵列两个维度复用数据。同时,通过阵列的重构进行任务切换,实现多维融合的数据复用,并在Virtex UltraScale 440开发板上对所提方法进行了实验验证。结果表明,相比于现有的基于现场可编程门阵列(FPGA)的CNN实现方法,所提方法可使访存次数最高减少69.4%,运算速度提升16.2%以上,处理单元利用率达94.1%。说明该方法能够在可重构阵列实现CNN的高效数据复用,进而达到硬件加速的目的。 展开更多
关键词 卷积神经网络 可重构结构 数据复用 并行加速
在线阅读 下载PDF
基于通用图形处理器的神经网络并行推理加速
17
作者 王重熙 章隆兵 《高技术通讯》 北大核心 2025年第3期250-261,共12页
通用图形处理器(general purpose graphics processing unit,GPGPU)是目前加速人工智能(artificial intelligence,AI)负载最主要的算力来源,其内存带宽和峰值算力随着AI模型的发展而迅速提高。然而,在神经网络的推理过程中,单样本或小... 通用图形处理器(general purpose graphics processing unit,GPGPU)是目前加速人工智能(artificial intelligence,AI)负载最主要的算力来源,其内存带宽和峰值算力随着AI模型的发展而迅速提高。然而,在神经网络的推理过程中,单样本或小批量的推理难以同时充分利用通用图形处理器中不同的计算、存储和访存资源,造成部分资源闲置。对此,本文提出了基于通用图形处理器的神经网络并行推理加速方法,在通用图形处理器上同时推理多个神经网络,通过同时执行互补的神经网络层充分利用通用图形处理器中的各类资源。首先,使用PyTorch中的统一计算设备架构(compute unified device architecture,CUDA)流以及直接在CUDA流中调用CUDA基础线性代数子程序库(CUDA basic linear algebra subprograms,cuBLAS)和CUDA深度神经网络库(CUDA deep neural network library,cuDNN)2种方式,在它们并行加速效果不及预期的情况下,根据性能分析结果确定了NVIDIA通用图形处理器负载调度机制中对多负载并行的限制因素。随后,基于特定的调度机制,提出了更适合多负载并行核函数的设计方法,并实现了主要的神经网络算子,基于此方法在真实的通用图形处理器平台上实现了神经网络并行推理加速。在RTX3080通用图形处理器上的测试结果表明,该神经网络并行推理加速方法对主流神经网络的并行推理达到了平均1.94倍的加速效果,相较于直接调用cuBLAS和cuDNN库平均1.34倍的加速效果提高了45%,不仅验证了在通用图形处理器上实现神经网络并行推理加速的可行性,同时也为其他各类负载在通用图形处理器上的多负载并行加速提供了道路。 展开更多
关键词 多负载并行加速 神经网络推理 通用图形处理器
在线阅读 下载PDF
基于GPU的Winograd卷积算法并行化
18
作者 王鑫 甄雪茹 《计算机应用研究》 北大核心 2025年第8期2446-2451,共6页
针对现代卷积神经网络中计算负荷过重的问题,提出一种基于GPU的创新性Winograd并行卷积算法。该算法利用负载均衡的任务映射、优化数据加载策略以隐藏延迟,并结合动态填充方法,充分挖掘Winograd卷积算法与GPU架构的协同效应。实验结果表... 针对现代卷积神经网络中计算负荷过重的问题,提出一种基于GPU的创新性Winograd并行卷积算法。该算法利用负载均衡的任务映射、优化数据加载策略以隐藏延迟,并结合动态填充方法,充分挖掘Winograd卷积算法与GPU架构的协同效应。实验结果表明,在经典卷积神经网络模型ResNet的多个卷积层上,提出的算法优于NVIDIA cuDNN 8.3.0库中的标准Winograd卷积算法,在Turing架构的RTX 2080Ti GPU上实现高达2.46的加速比,并且保持较高的计算准确性。与基于GPU的标准Winograd卷积算法相比,该算法显著提升了卷积计算效率。 展开更多
关键词 Winograd算法 并行计算 CUDA 卷积神经网络
在线阅读 下载PDF
基于集成神经网络的并联电池系统支路电流估计方法
19
作者 裴磊 杨佳伟 +1 位作者 王天鸶 栗欢欢 《电源技术》 北大核心 2025年第9期1873-1880,共8页
并联电池模块(PBM)由于成本和体积的限制,其内部无法安装独立的传感器来直接测量每个单独支路中的电流。然而,由于单体电池之间不可避免的不一致性,以及这种不一致性在温度和老化影响下的持续恶化,可能造成单个电池所承受的最大电流可... 并联电池模块(PBM)由于成本和体积的限制,其内部无法安装独立的传感器来直接测量每个单独支路中的电流。然而,由于单体电池之间不可避免的不一致性,以及这种不一致性在温度和老化影响下的持续恶化,可能造成单个电池所承受的最大电流可能达到设计值的数倍,这对电池状态分析和安全管理构成了重大隐患。为了解决这一难题,系统地分析了支路参数对PBM整体行为的影响。在现有电压、电流和电量变化等参数的基础上,引入了“累积电压”这一全新特征。并利用这些参数,设计了一种新型的基于集成神经网络的支路电流估计方法。通过实验验证,新方法在不同电池数量和不同工况下均取得了较好的估计效果,估计误差始终控制在1%以内。 展开更多
关键词 并联电池模块 支路电流估计 累积电压 集成神经网络 安全管理
在线阅读 下载PDF
边缘资源轻量化需求下深度神经网络双角度并行剪枝方法 被引量:1
20
作者 张云翔 高圣溥 《沈阳工业大学学报》 北大核心 2025年第2期250-257,共8页
【目的】深度神经网络的应用面临庞大的计算需求和存储开销,这已成为限制其在边缘设备上广泛应用的主要瓶颈。边缘设备因受限于有限的计算资源和存储空间,难以高效运行复杂的深度神经网络模型。因此,在保证模型精度的前提下,如何降低深... 【目的】深度神经网络的应用面临庞大的计算需求和存储开销,这已成为限制其在边缘设备上广泛应用的主要瓶颈。边缘设备因受限于有限的计算资源和存储空间,难以高效运行复杂的深度神经网络模型。因此,在保证模型精度的前提下,如何降低深度神经网络的复杂度和计算量以适应边缘设备对资源轻量化的需求,已成为当前研究的重要方向。提出了一种结合蚁群算法与双角度并行剪枝的深度神经网络优化方法,以提升深度神经网络在边缘设备中的性能。【方法】分析了深度神经网络的结构特点,并构建了包含多个隐藏层的模型。通过蚁群算法模拟蚂蚁觅食过程中的信息素传递机制,在复杂空间中寻找近似最优解,对隐藏层中的相似节点进行聚类,识别并归类高度相似的神经元节点,从而缩减网络规模并降低复杂性。在聚类结果的基础上,提出了对聚类后的冗余节点及游离节点双角度并行剪枝策略:一方面,从权重矩阵的稀疏性出发,裁剪权重较小的节点,以减少计算开销;另一方面,从节点贡献度角度评估每个节点对整体输出的影响,裁剪贡献度较低的节点,从而进一步优化网络结构。【结果】实验结果表明,与未剪枝的原始模型相比,在相同的计算时间内,本文方法剪枝后的深度神经网络在保持较高精度的同时,其数据量高达120 MB、网络复杂度平均值为88.32%、可拓展性为99%。这一结果表明,在有限的资源条件下,该方法能够显著提升深度神经网络的运行效率,更好地满足边缘设备的应用需求。实验结果不仅验证了该方法的有效性,也为深度神经网络在边缘设备上的部署和应用提供了新思路。【结论】提出的优化方法通过在剪枝过程中应用蚁群算法,实现了隐藏层相似节点的精准聚类,为后续的剪枝处理提供了明确目标。同时,双角度并行剪枝策略提升了剪枝的效率和效果,确保剪枝后模型在精度和可拓展性方面的平衡。该方法不仅能够促进深度神经网络在边缘设备上的广泛应用,也为复杂网络优化问题提供了借鉴和参考价值。 展开更多
关键词 边缘资源 轻量化需求 深度神经网络 双角度并行 剪枝方法 蚁群算法 冗余节点 游离节点
在线阅读 下载PDF
上一页 1 2 19 下一页 到第
使用帮助 返回顶部