期刊文献+
共找到4篇文章
< 1 >
每页显示 20 50 100
基于修补粒子群算法的动态网格数据流优化 被引量:2
1
作者 孙凌 周琳 《实验室研究与探索》 CAS 北大核心 2011年第6期208-212,共5页
针对粒子群优化算法存在的早熟收敛问题,提出了一种既保持粒子活性又保证粒子快速收敛于全局极值点的修补粒子群算法。在修补更新方程中设置参数以限制粒子在搜索区域内、采用减弱速度更新的策略减少速度更新的次,如果种群多样性逐步减... 针对粒子群优化算法存在的早熟收敛问题,提出了一种既保持粒子活性又保证粒子快速收敛于全局极值点的修补粒子群算法。在修补更新方程中设置参数以限制粒子在搜索区域内、采用减弱速度更新的策略减少速度更新的次,如果种群多样性逐步减小下限时,种群纷纷远离该最优位置,而当种群多样性逐步增大超出上限时,种群又开始向整体最优位置靠拢,从而保持了粒子的多样性。数值实验结果表明,算法在解决问题上表现出了良好的性能。 展开更多
关键词 禁忌 约束 粒子群算法 数据流优化
在线阅读 下载PDF
面向YOLO神经网络的数据流架构优化研究 被引量:2
2
作者 穆宇栋 李文明 +5 位作者 范志华 吴萌 吴海彬 安学军 叶笑春 范东睿 《计算机学报》 北大核心 2025年第1期82-99,共18页
YOLO目标检测算法具有速度快、精度高、结构简单、性能稳定等优点,因此在多种对实时性要求较高的场景中得到广泛应用。传统的控制流架构在执行YOLO神经网络时面临计算部件利用率低、功耗高、能效较低等挑战。相较而言,数据流架构的执行... YOLO目标检测算法具有速度快、精度高、结构简单、性能稳定等优点,因此在多种对实时性要求较高的场景中得到广泛应用。传统的控制流架构在执行YOLO神经网络时面临计算部件利用率低、功耗高、能效较低等挑战。相较而言,数据流架构的执行模式与神经网络算法匹配度高,更能充分挖掘其中的数据并行性。然而,在数据流架构上部署YOLO神经网络时面临三个问题:(1)数据流架构的数据流图映射并不能结合YOLO神经网络中卷积层卷积核较小的特点,造成卷积运算数据复用率过低的问题,并进一步降低计算部件利用率;(2)数据流架构在算子调度时无法利用算子间结构高度耦合的特点,导致大量数据重复读取;(3)数据流架构上的数据存取与执行高度耦合、串序执行,导致数据存取延迟过高。为解决这些问题,本文设计了面向YOLO神经网络的数据流加速器DFU-Y。首先,结合卷积嵌套循环的执行模式,本文分析了小卷积核卷积运算的数据复用特征,并提出了更有利于执行单元内部数据复用的数据流图映射算法,从而整体提升卷积运行效率;然后,为充分利用结构耦合的算子间的数据复用,DFU-Y提出数据流图层次上的算子融合调度机制以减少数据存取次数、提升神经网络运行效率;最后,DFU-Y通过双缓存解耦合数据存取与执行,从而并行执行数据存取与运算,掩盖了程序间的数据传输延迟,提高了计算部件利用率。实验表明,相较数据流架构(DFU)和GPU(NVIDIA Xavier NX),DFU-Y分别获得2.527倍、1.334倍的性能提升和2.658倍、3.464倍的能效提升;同时,相较YOLO专用加速器(Arria-YOLO),DFU-Y在保持较好通用性的同时,达到了其性能的72.97%、能效的87.41%。 展开更多
关键词 YOLO算法 数据流架构 数据流优化 卷积神经网络 神经网络加速
在线阅读 下载PDF
支持数据流分发的组合服务协调框架 被引量:1
3
作者 翟岩龙 宿红毅 +1 位作者 肖玮 战守义 《北京理工大学学报》 EI CAS CSCD 北大核心 2009年第12期1091-1095,1109,共6页
针对集中式Web服务组合的性能缺陷以及完全分布式Web服务组合中组件服务重用性差等问题,提出一种基于集中控制流分散数据流模式的Web服务组合协调框架.描述了框架中运行的协调协议的形式化定义、模型和语法结构.采用数据流分析方法优化... 针对集中式Web服务组合的性能缺陷以及完全分布式Web服务组合中组件服务重用性差等问题,提出一种基于集中控制流分散数据流模式的Web服务组合协调框架.描述了框架中运行的协调协议的形式化定义、模型和语法结构.采用数据流分析方法优化组合服务.提出从BPEL到协调协议的转换算法.实验结果表明,采用此协调框架的组合服务不仅保持了组件服务的可重用性,而且在响应时间和事务处理能力等方面性能有显著提高. 展开更多
关键词 WEB服务组合 协调框架 协调协议 数据流优化
在线阅读 下载PDF
基于FPGA的CNN图像识别加速与优化 被引量:9
4
作者 齐延荣 周夏冰 +1 位作者 李斌 周清雷 《计算机科学》 CSCD 北大核心 2021年第4期205-212,共8页
目前,CNN已广泛应用于许多应用场景中,包括图像分类、语音识别、视频分析、文档分析等。由于CNN计算密集,常以GPU进行加速,但GPU功耗高,不适用于CNN推理阶段。基于此,文中研究了基于FPGA的CNN图像识别加速与优化的应用方法,利用Intel F... 目前,CNN已广泛应用于许多应用场景中,包括图像分类、语音识别、视频分析、文档分析等。由于CNN计算密集,常以GPU进行加速,但GPU功耗高,不适用于CNN推理阶段。基于此,文中研究了基于FPGA的CNN图像识别加速与优化的应用方法,利用Intel FPGA提供的OpenCL SDK,在FPGA板卡上设计并优化了CNN前向模型。首先,针对计算量问题,通过功能模块划分,充分发挥FPGA的高计算效能优势。其次,优化核心算法,提高运行速度;分析特征图处理操作,利用参数共享策略降低数据存储量;采用通道传输数据,减少访问片外存储次数。最后,对数据缓存、数据流、循环进行优化设计,缓解了FPGA片上的资源限制;通过量化参数降低FPGA内存资源占用量。实验结果表明,FPGA具有较低的功耗,CPU的功耗是其2.1倍,而GPU的功耗是其6.5倍;与近年来相关领域文献中提出的方法相比,所提方法具有较高的吞吐量和计算性能。 展开更多
关键词 CNN FPGA 图像识别 OPENCL 模块划分 数据流优化
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部