期刊文献+
共找到13篇文章
< 1 >
每页显示 20 50 100
端智能推理加速技术综述
1
作者 章晋睿 龙婷婷 +3 位作者 张德宇 许愿 任炬 张尧学 《电子学报》 北大核心 2025年第4期1063-1102,共40页
智能下沉是迈向泛在智能时代的必经之路,也推动了端智能(on-device intelligence)技术的飞速发展.通过在终端设备直接部署运行深度学习模型,端智能在实时性、安全性、个性化等方面具有天然优势,已在自动驾驶、卫星侦察、虚拟现实/增强现... 智能下沉是迈向泛在智能时代的必经之路,也推动了端智能(on-device intelligence)技术的飞速发展.通过在终端设备直接部署运行深度学习模型,端智能在实时性、安全性、个性化等方面具有天然优势,已在自动驾驶、卫星侦察、虚拟现实/增强现实(Virtual Reality/Augmented Reality,VR/AR)等众多场景广泛应用.然而,随着深度学习模型参数量不断增大,端侧受限的硬件资源已难以支撑不断增长的计算开销.为提升终端设备在模型推理的计算效率,研究人员从模型算法、编译软件、设备硬件等多个层面开展了系统性优化,有效推动了端智能的发展与演进.本文从算法、软硬件结合优化等方面对现有端侧深度学习模型推理优化工作进行了总结,涵盖模型压缩技术、模型-软件-硬件的协同设计、模型异构并行部署策略以及大模型的端侧优化技术.最后,本文梳理了当前端智能推理加速技术所面临的挑战,并对未来发展趋势进行了展望. 展开更多
关键词 端智能 模型压缩 推理加速 深度学习 软硬件结合优化
在线阅读 下载PDF
基于剪枝与量化的ResNet模型硬件加速方法
2
作者 曾烨林 林栎 赵亮 《计算机工程与设计》 北大核心 2025年第6期1601-1608,共8页
为快速、方便、正确地将卷积神经网络部署于嵌入式平台实现硬件加速,并解决在硬件部署时遇到的模型计算量大、占用存储多、部署困难等问题,提出一种基于ResNet模型的通道剪枝结合混合精度量化的方法,将模型压缩后,部署于神经网络处理器(... 为快速、方便、正确地将卷积神经网络部署于嵌入式平台实现硬件加速,并解决在硬件部署时遇到的模型计算量大、占用存储多、部署困难等问题,提出一种基于ResNet模型的通道剪枝结合混合精度量化的方法,将模型压缩后,部署于神经网络处理器(neural processing unit, NPU)实现硬件加速。在传统的模型剪枝和量化基础上,采用通道剪枝结合混合精度量化的方法,在保证模型性能的前提下最大程度压缩网络模型。硬件部署推理实验结果表明,该方法可实现对原始模型压缩7.75倍,模型推理速度提升2.55倍,实验验证了该方法对ResNet模型的压缩和硬件推理加速具有一定效果。 展开更多
关键词 通道剪枝 神经网络处理器 混合精度量化 硬件加速 模型压缩 卷积神经网络 推理加速
在线阅读 下载PDF
基于深度卷积神经网络的汽车图像分类算法与加速研究 被引量:4
3
作者 黄佳美 张伟彬 熊官送 《现代电子技术》 北大核心 2024年第7期140-144,共5页
在非法占用公交车道违规车辆等领域的边缘计算与识别中,针对基于深度卷积神经网络的图像物体分类算法模型算力需求大与边缘设备部署后有限资源的突出矛盾,如何设计边缘计算设备的加速单元以保证分类算法的精度与实时性具有重要意义。针... 在非法占用公交车道违规车辆等领域的边缘计算与识别中,针对基于深度卷积神经网络的图像物体分类算法模型算力需求大与边缘设备部署后有限资源的突出矛盾,如何设计边缘计算设备的加速单元以保证分类算法的精度与实时性具有重要意义。针对上述问题,提出一种基于深度卷积神经网络的公交分类算法,该方法在现场可编程逻辑门阵列上实现了公交车图像分类算法的加速。通过基于迁移学习方法对ResNet50预训练模型进行微调,采用嵌入式端的推理加速实现对模型的推理,并对FPGA加速方案进行推理部署实现。结果表明,该算法具有硬件配置灵活、信息处理加速快的优点,这为实现神经网络在嵌入式平台的高效、高速应用提供了有效解决方案。 展开更多
关键词 图像分类 边缘计算 卷积神经网络 迁移学习 ResNet50模型 加速推理
在线阅读 下载PDF
基于深度学习预提取RoI的AprilTag检测
4
作者 刘艳 王卓 《计算机工程与设计》 北大核心 2025年第8期2335-2341,共7页
为加速AprilTag检测,提出了一种基于改进YOLOv5s预提取RoI(region of interest)的AprilTag检测方法。改进YOLOv5s网络,在输入灰度图像的单通道模式下,分别采用Ghost Bottleneck和ConvNeXt Block替换主干网络和颈部网络的C3和瓶颈模块,... 为加速AprilTag检测,提出了一种基于改进YOLOv5s预提取RoI(region of interest)的AprilTag检测方法。改进YOLOv5s网络,在输入灰度图像的单通道模式下,分别采用Ghost Bottleneck和ConvNeXt Block替换主干网络和颈部网络的C3和瓶颈模块,提高模型的推理速度和泛化能力;通过亮度增强扩充数据集,提高模型鲁棒性。基于改进的YOLOv5网络进行AprilTag预识别,通过输出锚框划分RoI进行AprilTag检测,缩小图像处理范围,提高计算效率。实验结果表明,提出的AprilTag检测方法在1080P图像下FPS比传统AprilTag算法提高了77.42%以上。 展开更多
关键词 AprilTag检测 YOLOv5s 感兴趣区域 GhostNet ConvNeXt 数据增强 推理加速
在线阅读 下载PDF
基于安全大模型的网络安全威胁检测框架研究 被引量:2
5
作者 李橙 陈铭丰 +2 位作者 苏嘉珺 杨磊 梁海航 《计算机应用与软件》 北大核心 2025年第5期179-190,共12页
针对网络安全风险检测领域存在的难以定位真实攻击、研判处置效率低、安全人员技术要求高等问题,提出一种基于安全大模型的威胁检测框架,通过语料库构建、模型预训练、指令微调、模型推理加速等手段构建一套性能优秀的网络安全垂直领域... 针对网络安全风险检测领域存在的难以定位真实攻击、研判处置效率低、安全人员技术要求高等问题,提出一种基于安全大模型的威胁检测框架,通过语料库构建、模型预训练、指令微调、模型推理加速等手段构建一套性能优秀的网络安全垂直领域生成式人工智能大模型。在此基础上,为进一步提升模型准确率与检测效率,围绕安全大模型与传统规则模型、机器学习小模型开展多维协同研究,构建三位一体的网络安全威胁检测框架,并在实际业务环境中进行测试。实验结果表明,该框架可以保证网络风险平均检出率达到95%以上,误报率低于5%,同时极大提高检测效率、降低人力成本,拥有良好的应用价值。 展开更多
关键词 网络安全 安全大模型 生成式人工智能 模型推理加速 模型协同
在线阅读 下载PDF
面向深度学习编译器的多粒度量化框架支持与优化
6
作者 魏铭康 李嘉楠 +3 位作者 韩林 高伟 赵荣彩 王洪生 《计算机工程》 北大核心 2025年第5期62-72,共11页
随着各大厂商对大模型应用部署需求的激增,深度学习编译器TVM(Tensor Virtual Machine)的单一量化方式精度下降,已无法满足部署需求。设计并构建一种可选粒度的模型量化框架,具体包括逐层与逐通道量化流程的支持,以及阈值搜索与自适应... 随着各大厂商对大模型应用部署需求的激增,深度学习编译器TVM(Tensor Virtual Machine)的单一量化方式精度下降,已无法满足部署需求。设计并构建一种可选粒度的模型量化框架,具体包括逐层与逐通道量化流程的支持,以及阈值搜索与自适应舍入优化算法的实现。首先,基于量化模块“relay.quantize”构建信息标注、阈值校准与量化图实现的框架流程,并添加粒度属性以显式识别量化方式。其次,针对预定义校准方法无法确定有效量化信息的问题,对量化中的阈值校准、权重舍入进行调优,提高量化后模型精度。实验采用ImageNet数据集对视觉网络进行测试,针对MobileNetV1新量化方案将8 bit量化后模型精度损失降低到2.3%,调优后该损失降低到0.7%,实验结果表明多粒度量化框架可有效降低量化误差。 展开更多
关键词 模型量化 模型部署 模型压缩 推理加速 深度学习编译器
在线阅读 下载PDF
大模型关键技术与应用 被引量:12
7
作者 韩炳涛 刘涛 《中兴通讯技术》 北大核心 2024年第2期76-88,共13页
介绍了自ChatGPT发布以来,大模型关键技术和应用的主要进展。在大模型设计方面,模型规模不断增加,但已有放缓趋势,更长的上下文以及多模态已经成为主流,计算效率明显提升;在模型训练方面,从单纯追求数据数量逐渐转变为关注数据的多样性... 介绍了自ChatGPT发布以来,大模型关键技术和应用的主要进展。在大模型设计方面,模型规模不断增加,但已有放缓趋势,更长的上下文以及多模态已经成为主流,计算效率明显提升;在模型训练方面,从单纯追求数据数量逐渐转变为关注数据的多样性和质量,特别是如何使用合成数据训练大模型成为主流探索方向,这是迈向通用人工智能(AGI)的关键;在模型推理方面,模型量化和推理引擎优化极大降低了模型使用成本,诸如投机采样等新兴算法逐渐成熟。在应用层,Agent技术获得了重大进展,在克服大模型固有缺陷方面发挥了不可替代的作用。越来越多的企业开始规划、研发以及使用大模型,企业级大模型应用架构日益成熟完善,并以场景、技术、算法三要素为抓手加速大模型商业价值闭环。 展开更多
关键词 大模型 模型训练 推理加速 大模型安全 智能体
在线阅读 下载PDF
基于改进YOLOv7的湖面漂浮物目标检测算法 被引量:5
8
作者 徐宏伟 李然 张家旭 《现代电子技术》 北大核心 2024年第1期105-110,共6页
为提高湖面多种类和小体积的漂浮垃圾检测识别的准确度与推理检测速度,结合湖面垃圾漂浮物的图像特征,采用半结构化剪枝技术创建X-Toss剪枝框架,并基于YOLOv7目标检测模型,提出一种轻量化湖面漂浮物实时检测方法C-X-YOLOv7。X-Toss剪枝... 为提高湖面多种类和小体积的漂浮垃圾检测识别的准确度与推理检测速度,结合湖面垃圾漂浮物的图像特征,采用半结构化剪枝技术创建X-Toss剪枝框架,并基于YOLOv7目标检测模型,提出一种轻量化湖面漂浮物实时检测方法C-X-YOLOv7。X-Toss剪枝框架使用DFS算法生成父子卷积核计算图,利用特定的内核模式剪枝卷积核,降低迭代剪枝的计算成本。融合CA注意力机制对模型进行加权,减少模型过拟合现象,提高模型准确性和泛化能力。结果表明:对湖面垃圾检测识别,C-X-YOLOv7模型识别准确率为91.7%,召回率为91.2%,与YOLOv7模型对比分别提升2.6%、2.5%;推理加速度上,X-Toss剪枝框架在RTX 2080 Ti与NVIDIA Jetson TX2上分别实现YOLOv7的1.98×和2.17×的加速比,相较于PD、NMS、NS等剪枝框架,X-Toss的推理加速比和能耗均有提升。研究表明C-X-YOLOv7湖面漂浮物检测方法为湖面垃圾检测识别提供了一种新思路。 展开更多
关键词 目标检测 YOLOv7 剪枝技术 半结构化剪枝 DFS算法 注意力机制 推理加速 湖面漂浮物
在线阅读 下载PDF
Swin Transformer轻量化:融合权重共享、蒸馏与剪枝的高效策略
9
作者 韩博 周顺 +3 位作者 范建华 魏祥麟 胡永杨 朱艳萍 《电信科学》 北大核心 2024年第9期66-74,共9页
偏移窗口的分层视觉转换器(Swin Transformer)因其优秀的模型能力而在计算机视觉领域引起了广泛的关注,然而Swin Transformer模型有着较高的计算复杂度,限制了其在计算资源有限设备上的适用性。为缓解该问题,提出一种融合权重共享及蒸... 偏移窗口的分层视觉转换器(Swin Transformer)因其优秀的模型能力而在计算机视觉领域引起了广泛的关注,然而Swin Transformer模型有着较高的计算复杂度,限制了其在计算资源有限设备上的适用性。为缓解该问题,提出一种融合权重共享及蒸馏的模型剪枝压缩方法。首先,在各层之间实现了权重共享,并添加变换层实现权重变换以增加多样性。接下来,构建并分析变换块的参数依赖映射图,构建分组矩阵F记录所有参数之间的依赖关系,确定需要同时剪枝的参数。最后,蒸馏被用于恢复模型性能。在ImageNet-Tiny-200公开数据集上的试验表明,在模型计算复杂度减少32%的情况下,最低仅造成约3%的性能下降,有效降低了模型的计算复杂度。为实现在计算资源受限环境中部署高性能人工智能模型提供了一种解决方案。 展开更多
关键词 偏移窗口的分层视觉转换器 模型轻量化 推理加速 剪枝 蒸馏 权重共享
在线阅读 下载PDF
深度学习的10年回顾与展望 被引量:2
10
作者 韩炳涛 刘涛 唐波 《中兴通讯技术》 2022年第6期75-84,共10页
过去10年深度学习在算法、算力、数据方面获得了长足发展,使人工智能(AI)技术突破商用限制,行业应用场景日益广泛,产业规模持续扩大。在基础模型方面出现了卷积、注意力机制等关键突破;在学习方法方面,强化学习、自监督学习、大模型并... 过去10年深度学习在算法、算力、数据方面获得了长足发展,使人工智能(AI)技术突破商用限制,行业应用场景日益广泛,产业规模持续扩大。在基础模型方面出现了卷积、注意力机制等关键突破;在学习方法方面,强化学习、自监督学习、大模型并行训练等使模型学习能力大大加强。新型AI计算芯片不断涌现,使计算能效提升百倍。未来10年,深度学习若要保持可持续的指数增长态势,绿色、高效、安全将成为新的核心要素。空间计算、近似计算等技术有望使AI芯片效能继续获得百倍提升。一系列生态融合工具的出现将解决目前日趋严峻的生态碎片化问题。AI安全、可信将成为AI技术应用的基本要求。 展开更多
关键词 深度学习 AI芯片 推理加速 可信AI 开源
在线阅读 下载PDF
基于嵌入式平台的车前红外行人检测方法研究 被引量:1
11
作者 张良 李鑫 +2 位作者 赵晓敏 蒋瑞洋 张国栋 《汽车技术》 CSCD 北大核心 2023年第1期9-14,共6页
针对当前目标检测方法普遍需要高功耗GPU计算平台、易受光照条件影响的问题,提出2种基于嵌入式平台的车前红外行人检测方法:将训练好的YOLOv4-tiny模型使用英伟达开源推理加速库TensorRT进行优化,部署于嵌入式平台;以YOLOv4-tiny模型作... 针对当前目标检测方法普遍需要高功耗GPU计算平台、易受光照条件影响的问题,提出2种基于嵌入式平台的车前红外行人检测方法:将训练好的YOLOv4-tiny模型使用英伟达开源推理加速库TensorRT进行优化,部署于嵌入式平台;以YOLOv4-tiny模型作为算法的基本架构,结合视觉注意力机制和空间金字塔池化思想,同时增加1个YOLO层,提出YOLOv4-tiny+3L+SPP+CBAM网络模型。将2种方法在FLIR数据集上进行训练与测试,并在Jetson TX2嵌入式平台上进行试验,试验结果表明:相较于原始网络YOLOv4-tiny,所提出的第1种方法平均准确率降低0.54%,推理速度提升86.43%(帧速率达26.1帧/s);提出的第2种方法平均准确率提升16.21%,推理速度降低22.86%(帧速率达10.8帧/s)。2种方法均可兼顾准确率和实时性,能够满足车前红外行人检测的需要。 展开更多
关键词 目标检测 红外图像 开源推理加速 注意力机制 Jetson TX2平台
在线阅读 下载PDF
安全帽佩戴检测网络模型的轻量化设计 被引量:7
12
作者 郭奕裕 周箩鱼 《计算机工程》 CAS CSCD 北大核心 2023年第4期312-320,共9页
现有的安全帽佩戴检测网络模型存在准确率低、推理速度慢、部署到边缘计算设备时精度和实时性均达不到应用要求等问题。提出一种轻量化设计的DT-YOLO模型,对YOLOv4-Tiny目标检测模型进行改进,通过增加一个检测层提高模型在密集场景下对... 现有的安全帽佩戴检测网络模型存在准确率低、推理速度慢、部署到边缘计算设备时精度和实时性均达不到应用要求等问题。提出一种轻量化设计的DT-YOLO模型,对YOLOv4-Tiny目标检测模型进行改进,通过增加一个检测层提高模型在密集场景下对小目标的检测能力,并引入空间金字塔池化模块,提高模型对不同尺寸目标的检测能力。使用局部稀疏因子衰减算法进行稀疏化训练,从而使经过稀疏化训练后模型的平均精度均值(mAP)得到提高。根据缩放系数判断通道的重要性,并进行模型的通道剪枝,压缩模型的大小和计算量。使用TensorRT推理加速引擎进行网络层水平和垂直融合,消除拼接层操作,并将参数压缩成16位浮点型,提高模型的推理速度,最后在Jeston Nano边缘计算设备上实现模型部署。实验结果表明,与YOLOv4-Tiny模型相比,DT-YOLO模型的mAP提高了3.6个百分点,模型大小减少了83.5%,帧率提高137.7%,能够满足安全帽佩戴检测的要求。 展开更多
关键词 安全帽佩戴检测 YOLOv4-Tiny模型改进 局部稀疏因子衰减 模型压缩 TensorRT推理加速引擎 Jeston Nano边缘计算设备
在线阅读 下载PDF
基于YOLO的矿井外因火灾早期识别轻量化算法
13
作者 王凯 卢锋 +3 位作者 王纪硕 黄露露 王炎林 马艳飞 《煤炭学报》 2025年第9期4194-4206,共13页
煤矿井下外因火灾致灾因素众多且一旦发火致灾后果严重,火灾隐患的早期识别与处置成为风险防控的有效手段,但井下环境干扰因素繁多,且当前无公开的煤矿井下外因火灾数据集,使得现有目标检测算法对外因火灾早期识别的速度与检测精度面临... 煤矿井下外因火灾致灾因素众多且一旦发火致灾后果严重,火灾隐患的早期识别与处置成为风险防控的有效手段,但井下环境干扰因素繁多,且当前无公开的煤矿井下外因火灾数据集,使得现有目标检测算法对外因火灾早期识别的速度与检测精度面临诸多挑战。为解决矿井复杂环境下外因火灾早期难以精准识别的难题,基于You Only Look Once v8s(YOLOv8s)将DCNv3可变形卷积模块嵌入到特征提取网络中,引入RepGFPN重参数化特征金字塔,并添加P_(2)小目标检测层等措施构建了Ⅵ–YOLO模型,同时构建了6400张多场景火灾图像、矿井无火图像和矿井模拟火灾图像的可见光火灾探测数据集。通过开展Ⅵ–YOLO模型与其他主流单阶段目标检测算法对比实验,基于OpenⅥNO与TensorRT对Ⅵ–YOLO模型进行推理加速,验证了模型在CPU设备和GPU设备部署应用的可行性,并将模型部署于低算力平台Jetson Nano B01中,验证了边缘端部署的可行性。结果表明,Ⅵ–YOLO模型相比基线模型mAP@0.5提升了2.4%,召回率提升0.8%,多尺度火灾特征的有效检测能力更佳;Ⅵ–YOLO模型mAP@0.5达90.1%,大幅超越同类单阶段目标检测算法,Ⅵ–YOLO模型检测速度为25 f/s,满足了井下视觉区域内火灾实时检测需求;在OpenⅥNO框架进行结构优化和模型精度量化后,半精度模型的推理时间为49.6 ms,减少了301.9 ms,检测速度达到19 f/s,速度提升约6.3倍;在TensorRT框架进行结构优化和模型精度量化,半精度模型的推理时间为4.6 ms,减少了32.4 ms,检测速度为118 f/s,速度提升4.7倍;在Jetson Nano B01部署及TensorRT框架下,单精度模型推理速度提升至12.3 f/s,mAP@0.5为97.6%,半精度模型推理速度提升至15.2 f/s,mAP@0.5为97.5%,为模型在CPU、GPU设备和低算力设备的部署应用提供了新思路。 展开更多
关键词 YOLOv8 外因火灾 可变形卷积 小目标检测 推理加速
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部