期刊文献+
共找到6篇文章
< 1 >
每页显示 20 50 100
一种高性能可重构深度卷积神经网络加速器 被引量:6
1
作者 乔瑞秀 陈刚 +1 位作者 龚国良 鲁华祥 《西安电子科技大学学报》 EI CAS CSCD 北大核心 2019年第3期130-139,共10页
由于深度卷积神经网络的卷积层通道规模及卷积核尺寸多样,现有加速器面对这些多样性很难实现高效计算。为此,基于生物脑神经元机制提出了一种深度卷积神经网络加速器。该加速器拥有类脑神经元电路的多种分簇方式及链路组织方式,可以应... 由于深度卷积神经网络的卷积层通道规模及卷积核尺寸多样,现有加速器面对这些多样性很难实现高效计算。为此,基于生物脑神经元机制提出了一种深度卷积神经网络加速器。该加速器拥有类脑神经元电路的多种分簇方式及链路组织方式,可以应对不同通道规模。设计了3种卷积计算映射,可以应对不同卷积核大小;实现了局部存储区数据的高效复用,可大量减少数据搬移,提高了计算性能。分别以目标分类和目标检测网络进行测试,该加速器的计算性能分别达498.6×10^9次/秒和571.3×10^9次/秒;能效分别为582.0×10^9次/(秒·瓦)和651.7×10^9次/(秒·瓦)。 展开更多
关键词 深度神经网络 加速器 可重构结构 高性能 超大规模集成电路
在线阅读 下载PDF
一种面向卷积神经网络加速器的高性能乘累加器 被引量:3
2
作者 孔鑫 陈刚 +2 位作者 龚国良 鲁华祥 毛文宇 《西安电子科技大学学报》 EI CAS CSCD 北大核心 2020年第4期55-63,93,共10页
针对现有卷积神经网络加速器中的乘累加器普遍存在的面积大、功耗高、速度慢的问题,设计了一种基于传输门结构的全定制高性能乘累加器。提出了一种适用于乘累加器的新型累加数据压缩结构,减少了硬件开销;提出了一种新的并行加法器架构,... 针对现有卷积神经网络加速器中的乘累加器普遍存在的面积大、功耗高、速度慢的问题,设计了一种基于传输门结构的全定制高性能乘累加器。提出了一种适用于乘累加器的新型累加数据压缩结构,减少了硬件开销;提出了一种新的并行加法器架构,在与Brent Kung加法器相同硬件开销的情况下,降低了门延迟级数,提高了计算速度;利用传输门的优点对乘累加器各单元电路进行优化设计。基于笔者方法设计的16乘8定点数高性能乘累加器在SMIC 130nm tt工艺角下关键路径延迟为1.173ns,版图面积为9049.41μm2,800MHz下平均功耗为4.153mW。对比传统的乘累加器,速度约提高了37.42%,面积约减小了47.87%,在同等条件下功耗约降低了56.77%。 展开更多
关键词 乘累加器 传输门 累加压缩 卷积神经网络 高性能
在线阅读 下载PDF
一种高效的Softmax函数计算方法及硬件电路
3
作者 刘海莹 乔瑞秀 +2 位作者 陈刚 鲁华祥 申荣铉 《微电子学与计算机》 2024年第2期91-100,共10页
针对现有Softmax函数硬件实现中存在的面积消耗大、速度慢、计算效率低等问题,设计一种高效的Softmax函数计算方法及硬件电路。提出一种稀疏化最大值计算方式,仅选择有效的输入值进行计算和存储,并采用动态移位更新最大值的方式将最大... 针对现有Softmax函数硬件实现中存在的面积消耗大、速度慢、计算效率低等问题,设计一种高效的Softmax函数计算方法及硬件电路。提出一种稀疏化最大值计算方式,仅选择有效的输入值进行计算和存储,并采用动态移位更新最大值的方式将最大值求取隐藏在流水线中,提高计算效率;优化分段线性拟合算法,避免乘法器的使用,减少了硬件资源开销。基于现场可编程门阵列(Field-Programmable Gate Array,FPGA)的语音识别实验的结果表明,本方法减少了60%的指数存储需求,同时减少了50%的Softmax计算时间。在45 nm互补金属氧化物半导体(Complementary Metal Oxide Semiconductor,CMOS)工艺下的逻辑综合实验表明,所实现的Softmax函数相较之前的工作,电路综合性能提升14%,面积减小51%。 展开更多
关键词 Softmax函数 分段线性拟合 稀疏计算方式 深度神经网络
在线阅读 下载PDF
基于深度确定性策略梯度的粒子群算法 被引量:5
4
作者 鲁华祥 尹世远 +2 位作者 龚国良 刘毅 陈刚 《电子科技大学学报》 EI CAS CSCD 北大核心 2021年第2期199-206,共8页
在传统的粒子群优化算法(PSO)中,所有粒子都遵循最初设定的一些参数进行自我探索,这种方案容易导致过早成熟,且易被困于局部最优点。针对以上问题,该文提出了一种基于深度确定性策略梯度的粒子群优化算法(DDPGPSO),通过构造神经网络分... 在传统的粒子群优化算法(PSO)中,所有粒子都遵循最初设定的一些参数进行自我探索,这种方案容易导致过早成熟,且易被困于局部最优点。针对以上问题,该文提出了一种基于深度确定性策略梯度的粒子群优化算法(DDPGPSO),通过构造神经网络分别实现了动作函数和动作价值函数,且利用神经网络可以动态地生成算法运行所需要的参数,降低了人工配置算法的难度。实验表明DDPGPSO相比9种同类算法在收敛速度和寻优精度上均有较大的提升。 展开更多
关键词 自适应惯性权值 收敛因子 深度确定性策略梯度算法 强化学习 群体智能 粒子群优化算法
在线阅读 下载PDF
基于DCORDIC算法的Tanh函数硬件设计与实现 被引量:2
5
作者 吴绮 金楚丰 +2 位作者 陈刚 鲁华祥 陈旭 《微电子学与计算机》 北大核心 2020年第12期22-26,32,共6页
双曲正切函数(Tanh)在神经网络中经常被用作激活函数,而其非线性的特点导致难以用硬件电路直接计算实现.为了快速有效的实现Tanh函数,提出采用DCORDIC(Differential Coordinate Rotation Digital Computer)算法在不同模式下实现双曲正... 双曲正切函数(Tanh)在神经网络中经常被用作激活函数,而其非线性的特点导致难以用硬件电路直接计算实现.为了快速有效的实现Tanh函数,提出采用DCORDIC(Differential Coordinate Rotation Digital Computer)算法在不同模式下实现双曲正弦、双曲余弦函数和除法运算,并在设计中增加选择模块扩大输入数据的范围,最终设计实现的Tanh计算核具有超长流水线,当迭代次数为13时,计算误差在2-8以内.与现有的硬件实现方式相比,本文的实现方式具有更小的误差、更高的运算速度和更大的吞吐率. 展开更多
关键词 双曲正切函数 DCORDIC算法 流水线 吞吐率
在线阅读 下载PDF
一种面向室内环境变动的人员目标无源定位算法 被引量:2
6
作者 刘嘉伟 毛文宇 鲁华祥 《哈尔滨工业大学学报》 EI CAS CSCD 北大核心 2021年第8期39-48,124,共11页
现有的基于接收信号强度(RSS)的人员目标无源室内定位算法在定位环境变动的情况下难以兼顾人工工作量、时间消耗和定位准确率。针对这个问题,本文提出了基于迁移聚类和坐标融合的变分自编码器(FusVAE)的室内环境变动下人员目标无源定位... 现有的基于接收信号强度(RSS)的人员目标无源室内定位算法在定位环境变动的情况下难以兼顾人工工作量、时间消耗和定位准确率。针对这个问题,本文提出了基于迁移聚类和坐标融合的变分自编码器(FusVAE)的室内环境变动下人员目标无源定位算法。在环境变动后,采集少量无标签RSS样本,然后使用本文提出的基于度量学习的半监督模糊C均值聚类(SFCMML)对其进行精确聚类和标签标注,对原有的定位模型进行重训练,只需很小的人工和时间代价就可以使原定位模型在新环境下也具有较高的定位准确率。同时,针对变动后环境下采集RSS样本较少的问题,本文提出了基于坐标融合的变分自编码器(FusVAE),对新环境下的RSS样本进行数据增强,丰富了RSS样本的数量和质量,提高了定位模型的泛化能力。实验结果表明,在环境变动的情况下,本文提出的算法的平均定位准确率可达88.6%,和同领域同类型算法相比,具有较高的定位精度和较好的环境变动适应性,更适用于变动环境下的人员目标无源室内定位问题。 展开更多
关键词 无源室内定位 RSS 机器学习 迁移学习 变分自编码器
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部