期刊文献+
共找到13篇文章
< 1 >
每页显示 20 50 100
基于上下文信息增强和深度引导的单目3D目标检测
1
作者 于家艺 吴秦 《浙江大学学报(工学版)》 北大核心 2025年第1期89-99,共11页
为了充分利用单目图像提供的特征信息,提出上下文信息增强和深度引导的单目3D目标检测方法.设计高效的上下文信息增强模块,使用多个大核卷积自适应地增强多尺度目标的上下文信息,利用深度可分离卷积和条形卷积操作有效减少大核卷积的参... 为了充分利用单目图像提供的特征信息,提出上下文信息增强和深度引导的单目3D目标检测方法.设计高效的上下文信息增强模块,使用多个大核卷积自适应地增强多尺度目标的上下文信息,利用深度可分离卷积和条形卷积操作有效减少大核卷积的参数量和计算复杂度.统计分析3D目标框各个属性的预测误差,发现3D目标框的长度和深度属性预测不准确是导致预测框偏差大的主要原因.设计深度误差加权损失函数,在训练过程中进行目标的长度和深度预测监督,提高长度和深度属性的预测精度,进而提升3D预测框的准确性.在KITTI数据集上开展实验,结果表明,所提方法在数据集的多个级别上的平均准确度高于现有的单目3D目标检测方法. 展开更多
关键词 单目3D目标检测 大核卷积 深度可分离卷积 条形卷积 多尺度目标
在线阅读 下载PDF
哈希算法异构可重构高能效计算系统研究 被引量:3
2
作者 郑博文 聂一 柴志雷 《应用科学学报》 CAS CSCD 北大核心 2023年第6期1031-1045,共15页
针对应用场景中不同哈希算法乃至多哈希算法组合的高速计算需求,纯软件方式难以满足性能需求,基于FPGA或ASIC的硬件方式又面临灵活性不足的问题,设计了一种异构且加速端硬件可重构的哈希算法高能效计算系统。计算系统由算法硬件加速模... 针对应用场景中不同哈希算法乃至多哈希算法组合的高速计算需求,纯软件方式难以满足性能需求,基于FPGA或ASIC的硬件方式又面临灵活性不足的问题,设计了一种异构且加速端硬件可重构的哈希算法高能效计算系统。计算系统由算法硬件加速模块、数据传输模块、多线程管理模块实现,并且通过硬件的动态可重构设计提升了计算能效。实验结果表明,在Intel Stratix10 FPGA异构计算平台上,针对加解密计算,选择MD5、SHA-1、SHA-256、SHA-512和RIPEMD-160算法作为测试对象,所实现的系统相比Intel Core I7-10700CPU,最高可获得18.7倍的性能提升和34倍的能效提升,相比NVIDIA GTX 1650 SUPER GPU,最高可获得2倍的性能提升和5.6倍的能效提升。 展开更多
关键词 异构计算 哈希算法 SHA-256 硬件加速 现场可编程逻辑门阵列
在线阅读 下载PDF
基于Vitis AI的可行驶区域检测定制计算系统设计 被引量:1
3
作者 李慧琳 柴志雷 《现代信息科技》 2022年第1期73-78,共6页
针对基于卷积神经网络的可行驶区域检测方法计算耗时长、实时性差等问题,基于Vitis AI为其设计了一种定制计算系统,并通过采用模型定点化、网络剪枝、硬件定制等优化方法,实现了对可行驶区域检测方法的高效计算。实验结果表明,在Xilinx ... 针对基于卷积神经网络的可行驶区域检测方法计算耗时长、实时性差等问题,基于Vitis AI为其设计了一种定制计算系统,并通过采用模型定点化、网络剪枝、硬件定制等优化方法,实现了对可行驶区域检测方法的高效计算。实验结果表明,在Xilinx ZCU102异构计算平台上,可编程逻辑部分的工作频率为200 MHz时,所实现的可行使区域检测系统的识别帧率可达到46 FPS,计算性能可达903 GOPS,能效比为50.45 GOPS/W,可以较好地满足实际系统的需求。 展开更多
关键词 现场可编程门阵列 Vitis AI 可行驶区域检测 定制计算系统 卷积神经网络
在线阅读 下载PDF
基于异构计算平台的NEST类脑仿真器设计与实现
4
作者 朱铮皓 柴志雷 +1 位作者 华夏 徐聪 《微电子学与计算机》 2022年第7期54-62,共9页
类脑计算领域目前的研究主要聚焦于如何进行高性能且低功耗的大规模类脑仿真.NEST类脑仿真器应用生态完整,可支持大规模仿真并且具有良好的可扩展性,是目前类脑计算领域中应用最为广泛的仿真器.针对NEST仿真器进行大规模仿真时运行速度... 类脑计算领域目前的研究主要聚焦于如何进行高性能且低功耗的大规模类脑仿真.NEST类脑仿真器应用生态完整,可支持大规模仿真并且具有良好的可扩展性,是目前类脑计算领域中应用最为广泛的仿真器.针对NEST仿真器进行大规模仿真时运行速度慢、运行功耗高的问题,设计并实现了基于异构计算平台的NEST类脑仿真器.本设计采用硬件加速神经元更新、数据重排序设计、多线程设计、软硬件协同设计等方法优化了系统整体性能,在保证NEST仿真器良好应用生态的同时获得更高的计算能效.通过在Xilinx ZCU102异构计算平台上实现该仿真器,实验结果表明:在对经典的类脑应用皮质层视觉模型进行仿真时,神经元更新部分性能是AMD3600X的11.9倍,PYNQ集群的1.2倍,能效是AMD3600X的57.9倍、PYNQ集群的3.1倍;NEST仿真器整体性能是AMD3600X的2.0倍,PYNQ集群的2.1倍,能效是AMD3600X的10.1倍、PYNQ集群的5.8倍,为基于NEST进行大规模类脑仿真提供了一种更高能效的方式. 展开更多
关键词 NEST仿真器 异构计算平台 可编程逻辑门阵列 类脑计算 软硬件协同优化
在线阅读 下载PDF
基于双重注意力时空图卷积网络的行人轨迹预测 被引量:1
5
作者 向晓倩 陈璟 《浙江大学学报(工学版)》 EI CAS CSCD 北大核心 2024年第12期2586-2595,共10页
当前行人轨迹预测研究面临两大挑战:1)如何有效提取行人前后帧之间的时空相关性;2)如何避免在轨迹采样过程中受到采样偏差的影响而导致性能下降.针对以上问题,提出基于双重注意力时空图卷积网络与目的抽样网络的行人轨迹预测模型.利用... 当前行人轨迹预测研究面临两大挑战:1)如何有效提取行人前后帧之间的时空相关性;2)如何避免在轨迹采样过程中受到采样偏差的影响而导致性能下降.针对以上问题,提出基于双重注意力时空图卷积网络与目的抽样网络的行人轨迹预测模型.利用时间注意力捕获行人前后帧的关联性,利用空间注意力获取周围行人之间的相关性,通过时空图卷积进一步提取行人之间的时空相关性.引入可学习的抽样网络解决随机抽样导致的分布不均匀的问题.大量实验表明,在ETH和UCY数据集上,新方法的精度与当前最先进的方法相当,且模型参数量减少1.65×10^(4),推理时间缩短0.147 s;在SDD数据集上精度虽略有下降,但模型参数量减少了3.46×10^(4),展现出良好的性能平衡,能为行人轨迹预测提供新的有效途径. 展开更多
关键词 轨迹预测 深度学习 图卷积网络 时空图卷积 时间注意力 空间注意力 轨迹采样
在线阅读 下载PDF
基于局部信息融合的点云3D目标检测算法 被引量:1
6
作者 张林杰 柴志雷 王宁 《浙江大学学报(工学版)》 EI CAS CSCD 北大核心 2024年第11期2219-2229,共11页
针对当前基于点云的三维目标检测算法缺乏目标准确的空间位置信息,提出局部信息编码模块和后期交叉融合模块的三维目标检测算法.在特征提取阶段,模型通过三维稀疏卷积高效地编码全局特征.局部信息编码模块利用目标内部的原始点云信息,... 针对当前基于点云的三维目标检测算法缺乏目标准确的空间位置信息,提出局部信息编码模块和后期交叉融合模块的三维目标检测算法.在特征提取阶段,模型通过三维稀疏卷积高效地编码全局特征.局部信息编码模块利用目标内部的原始点云信息,构建目标的细粒度语义信息,通过自注意力机制对这些信息进行重新加权,增强局部特征的表达能力.提出交叉融合模块,用于局部特征与全局特征的信息交互,产生表达能力更强的目标检测特征.使用KITTI和Waymo公开数据集,验证所提出的方法.在KITTI数据集的简单、中等和困难任务上,本文方法的平均准确率AP0.7分别达到了91.60%、82.53%和77.83%,在Waymo数据集上的平均准确率AP0.7达到74.92%. 展开更多
关键词 点云 稀疏卷积 局部信息 注意力机制 交叉融合
在线阅读 下载PDF
基于信息瓶颈孪生自编码网络的红外与可见光图像融合
7
作者 马路遥 罗晓清 张战成 《红外技术》 CSCD 北大核心 2024年第3期314-324,共11页
红外与可见光图像融合方法中存在信息提取和特征解耦不充分、可解释性较低等问题,为了充分提取并融合源图像有效信息,本文提出了一种基于信息瓶颈孪生自编码网络的红外与可见光图像融合方法(DIBF:Double Information Bottleneck Fusion... 红外与可见光图像融合方法中存在信息提取和特征解耦不充分、可解释性较低等问题,为了充分提取并融合源图像有效信息,本文提出了一种基于信息瓶颈孪生自编码网络的红外与可见光图像融合方法(DIBF:Double Information Bottleneck Fusion)。该方法通过在孪生分支上构建信息瓶颈模块实现互补特征与冗余特征的解耦,进而将互补信息的表达过程对应于信息瓶颈前半部分的特征拟合过程,将冗余特征的压缩过程对应于信息瓶颈后半部分的特征压缩过程,巧妙地将图像融合中信息提取与融合表述为信息瓶颈权衡问题,通过寻找信息最优表达来实现融合。在信息瓶颈模块中,网络通过训练得到特征的信息权重图,并依据信息权重图,使用均值特征对冗余特征进行压缩,同时通过损失函数促进互补信息的表达,压缩与表达两部分权衡优化同步进行,冗余信息和互补信息也在此过程中得到解耦。在融合阶段,将信息权重图应用在融合规则中,提高了融合图像的信息丰富性。通过在标准图像TNO数据集上进行主客观实验,与传统和近来融合方法进行比较分析,结果显示本文方法能有效融合红外与可见光图像中的有用信息,在视觉感知和定量指标上均取得较好的效果。 展开更多
关键词 信息瓶颈 孪生自编码 解耦表征 红外与可见光 图像融合
在线阅读 下载PDF
软硬件协同的图像放大系统设计
8
作者 樊荣 柴志雷 《科学技术创新》 2024年第2期115-118,共4页
图像放大应用场景广泛,使用插值的图像放大计算速度块,但基于插值的放大处理放大效果一般,基于卷积神经网络模型的图像放大效果优秀,但是处理速度不够,本文采用一种简易的双层模型实现图像放大,并通过FPGA设计实现双层模型硬件加速器,在... 图像放大应用场景广泛,使用插值的图像放大计算速度块,但基于插值的放大处理放大效果一般,基于卷积神经网络模型的图像放大效果优秀,但是处理速度不够,本文采用一种简易的双层模型实现图像放大,并通过FPGA设计实现双层模型硬件加速器,在PYNQ-Z1板卡上通过软件方式调用双层模型加速器进行图像放大,从而实现了软硬件协同的图像放大系统,本文设计的图像放大系统比三次卷积插值处理速度快22%,放大效果上PSNR高0.76,有着明显的视觉提升效果。 展开更多
关键词 图像放大 双层模型 FPGA PYNQ-Z1
在线阅读 下载PDF
基于迭代算法的半导体光放大器动态模型构建 被引量:2
9
作者 徐贵勇 胡立发 +2 位作者 邓灿冉 张士勋 楚广勇 《激光技术》 CAS CSCD 北大核心 2020年第2期255-260,共6页
为了分析并精确预测半导体光放大器的性能,对InP-InGaAsP均匀掩埋的半导体光放大器建立了一种有效的数学模型,考虑了自发辐射与受激辐射之间的关系,实时模拟分析了偏置电流、输入功率对增益和噪声指数的影响。结果表明,在偏置电流为120m... 为了分析并精确预测半导体光放大器的性能,对InP-InGaAsP均匀掩埋的半导体光放大器建立了一种有效的数学模型,考虑了自发辐射与受激辐射之间的关系,实时模拟分析了偏置电流、输入功率对增益和噪声指数的影响。结果表明,在偏置电流为120mA、输入功率为-10dBm时,半导体光放大器的性能最佳。该模型能够对半导体光放大器的设计提供一定的借鉴。 展开更多
关键词 光通信 半导体光放大器模型 噪声指数 增益
在线阅读 下载PDF
基于无监督深度学习的红外图像与可见光图像融合算法 被引量:3
10
作者 张宇苏 吴小俊 +1 位作者 李辉 徐天阳 《南京师范大学学报(工程技术版)》 CAS 2023年第1期1-9,共9页
红外和可见光图像表征了互补的场景信息.现有的基于深度学习的融合方法大多通过独立提取网络分别提取两个源图像特征,从而丢失了源图像之间的深度特征联系.基于此,提出了一种新的基于无监督深度学习的红外图像与可见光图像融合算法,针... 红外和可见光图像表征了互补的场景信息.现有的基于深度学习的融合方法大多通过独立提取网络分别提取两个源图像特征,从而丢失了源图像之间的深度特征联系.基于此,提出了一种新的基于无监督深度学习的红外图像与可见光图像融合算法,针对不同模态的特点采用不同的编码方式提取图像特征,利用一个模态的信息补充另一个模态的信息,并对提取到的特征进行融合,最后根据融合特征重建融合图像.该算法可在两个模态的特征提取路径之间建立交互,不仅可预融合梯度信息和强度信息,且能增强后续处理的信息.同时设计了损失函数,引导模型保留可见光的细节纹理,并保持红外的强度分布.将所提算法与多种融合算法在公开数据集上进行对比实验,结果表明,所提算法获得了良好的视觉效果,客观指标评价方面对比现有的优秀算法也有一定的提升. 展开更多
关键词 图像融合 可见光图像 红外图像 无监督学习 卷积神经网络
在线阅读 下载PDF
特征融合与分发的多专家并行推荐算法框架 被引量:3
11
作者 杨哲 葛洪伟 李婷 《浙江大学学报(工学版)》 EI CAS CSCD 北大核心 2023年第7期1317-1325,共9页
为了解决点击率预测任务中现存的参数共享和计算耗费较高的问题,提出特征融合与分发的多专家并行推荐算法框架.利用该方法不仅可以提高并行架构对不同类型特征的分辨能力,学习表现力更强的特征输入,还能够在显式特征和隐式特征之间进行... 为了解决点击率预测任务中现存的参数共享和计算耗费较高的问题,提出特征融合与分发的多专家并行推荐算法框架.利用该方法不仅可以提高并行架构对不同类型特征的分辨能力,学习表现力更强的特征输入,还能够在显式特征和隐式特征之间进行参数共享,缓和反向传播期间的梯度,提高模型的性能.该框架是轻量级而且与模型无关的,可以泛化应用在众多主流并行架构的推荐算法上.在3个公共数据集上的大量实验结果表明,利用该算法框架,能够有效地提高SOTA模型的性能. 展开更多
关键词 推荐系统 点击率预测 深度学习 多专家模型
在线阅读 下载PDF
高速数字喷墨打印领域专用SoC研究与设计
12
作者 高昊晖 樊荣 +1 位作者 缪永杰 柴志雷 《微电子学与计算机》 2022年第8期86-96,共11页
针对高速数字喷墨打印对高带宽、低延迟、低抖动的打印数据传输,以及高并发的位操作喷孔控制等需求,设计了一种领域专用SoC架构并实现了软硬件系统.通过StandaloneOS下的轻量级网络传输减少了操作系统带来的传输抖动,保持稳定高速的数... 针对高速数字喷墨打印对高带宽、低延迟、低抖动的打印数据传输,以及高并发的位操作喷孔控制等需求,设计了一种领域专用SoC架构并实现了软硬件系统.通过StandaloneOS下的轻量级网络传输减少了操作系统带来的传输抖动,保持稳定高速的数据传输;基于片内高速总线提升了主控系统与喷头控制模块之间的传输带宽,降低了信号传递的延迟;通过设计位操作协处理模块,实现了对喷孔阵列的高并发控制.基于ZYNQ7020 FPGA SoC平台实现了上述SoC架构及系统,实验结果表明:该系统从上位机接收打印数据时,采用千兆以太网传输速率可以稳定保持在947 Mbps;片内总线传输带宽可达800 MB/s,指令传输延迟在10 ns内;系统的位操作数据处理频率可达64 MHz;整个系统的数据吞吐率可达1500 Mbit/s,数据传输抖动在20 ns内.该系统可驱动具有30720个喷孔的打印机喷头以600 dpi的打印精度完成200 cm/s的打印工作,在1200 dpi的打印精度下仍表现出优良的性能,为突破高速数字喷墨打印的速度瓶颈提供了新的技术思路. 展开更多
关键词 数字喷墨打印 领域专用SoC 异构计算 现场可编程门阵列 并发位操作
在线阅读 下载PDF
基于PYNQ集群的内存负载分析系统设计
13
作者 华夏 柴志雷 张曦煌 《现代信息科技》 2022年第8期1-5,共5页
在分布式计算平台上研究脉冲神经网络(SNN)的工作负载特性时,快速确定SNN模型构建所需的内存消耗以及平台的网络承载能力,是提高工作负载研究效率的重要手段。针对该问题,文章搭建了PYNQ集群分布式计算平台,设计了集群内存负载分析系统... 在分布式计算平台上研究脉冲神经网络(SNN)的工作负载特性时,快速确定SNN模型构建所需的内存消耗以及平台的网络承载能力,是提高工作负载研究效率的重要手段。针对该问题,文章搭建了PYNQ集群分布式计算平台,设计了集群内存负载分析系统。实验表明:内存负载分析系统在内存消耗的预测方面取得了97.98%的平均准确率,在预测集群网络承载能力方面取得了97.19%的准确率,通过分析集群承载SNN模型时的内存负载,有效提升了集群上的SNN工作负载研究效率。 展开更多
关键词 脉冲神经网络(SNN) 分布式计算平台 计算能效 NEST仿真器
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部