期刊文献+
共找到10篇文章
< 1 >
每页显示 20 50 100
基于开放运算语言加速的数字全息卷积重建算法实现 被引量:1
1
作者 罗洪艳 周珞一 +2 位作者 赵震 郭洪 冯晓波 《电子与信息学报》 EI CSCD 北大核心 2022年第9期3258-3265,共8页
针对数字全息重建算法计算速度慢、实时应用能力弱以及现有GPU加速策略跨平台移植性差等问题,该文提出一种利用开放运算语言(OpenCL)架构提高数字全息重建算法执行效率的方案。该方案充分利用OpenCL架构的异构协同计算能力,对数字全息... 针对数字全息重建算法计算速度慢、实时应用能力弱以及现有GPU加速策略跨平台移植性差等问题,该文提出一种利用开放运算语言(OpenCL)架构提高数字全息重建算法执行效率的方案。该方案充分利用OpenCL架构的异构协同计算能力,对数字全息卷积重建算法进行CPU+GPU的异构运行设计,并采用数据并行模式编程实现。针对不同分辨率数字全息图、不同GPU加速平台的测试结果表明,该加速策略的平均执行时间均比CPU低1个数量级,最高总加速比达到54.2,并行运算加速比甚至高达94.7,且具有规模增长性及良好的跨平台特性,加速效率显著,更加适用于数字全息技术的工程化实现及实时性应用场合。 展开更多
关键词 数字全息 重建算法 开放运算语言 并行计算
在线阅读 下载PDF
基于OpenCL的异构系统并行编程 被引量:23
2
作者 詹云 赵新灿 谭同德 《计算机工程与设计》 CSCD 北大核心 2012年第11期4191-4195,4293,共6页
针对异构处理器在传统通用计算中利用率低的问题,提出基于开放计算语言OpenCL(open computing language)的新的通用计算技术,它提供了统一的编程模型。介绍了OpenCL的特点、架构及实现原理等,并提出OpenCL性能优化策略。将OpenCL与计算... 针对异构处理器在传统通用计算中利用率低的问题,提出基于开放计算语言OpenCL(open computing language)的新的通用计算技术,它提供了统一的编程模型。介绍了OpenCL的特点、架构及实现原理等,并提出OpenCL性能优化策略。将OpenCL与计算统一设备架构CUDA(compute unified device architecture)及其它通用计算技术进行对比。对比结果表明,OpenCL能够充分发挥异构处理平台上各种处理器的性能潜力,充分合理地分配任务,为进行大规模并行计算提供了新的强有力的工具。 展开更多
关键词 异构处理器 通用计算 开放计算语言(opencl) 性能优化 计算统一设备架构(CUDA)
在线阅读 下载PDF
基于OpenCL的加速鲁棒特征算法并行实现 被引量:3
3
作者 郭景 陈贤富 《中国科学技术大学学报》 CAS CSCD 北大核心 2017年第10期808-816,共9页
加速鲁棒特征算法(speed up robust features,SURF)的时间复杂度大,传统串行计算的方法,实时性难以保证.针对上述问题,提出一种基于OpenCL架构的SURF并行实现方法.首先对算法中的积分图的计算、Hessian响应图、特征点主方向、特征点描... 加速鲁棒特征算法(speed up robust features,SURF)的时间复杂度大,传统串行计算的方法,实时性难以保证.针对上述问题,提出一种基于OpenCL架构的SURF并行实现方法.首先对算法中的积分图的计算、Hessian响应图、特征点主方向、特征点描述等步骤实施数据并行和任务并行处理,并给出详细的算法流程.接着从OpenCL架构的数据传输、内存访问以及负载均衡等方面优化算法性能.实验结果表明,该算法对不同分辨率的图片均实现了10倍以上的加速比,一些高分辨率的图片甚至可以达到39.5倍,并且算法适用于多种通用计算平台. 展开更多
关键词 加速鲁棒特征 开放运算语言 图像处理器 并行计算
在线阅读 下载PDF
基于MPI和OpenCL多层次并行图像卷积算法设计
4
作者 王继刚 刘惠 姜滨 《中兴通讯技术》 2015年第2期53-55,62,共4页
通过对图像卷积算法的分析,发现算法在对图像处理的过程中具有很高的并行性。提出了一种结合异构开发框架开放运算语言(Open CL)和并行开发库消息传递接口(MPI)的算法,在支持图形处理器(GPU)的异构集群环境下设计并实现了图像卷积算法... 通过对图像卷积算法的分析,发现算法在对图像处理的过程中具有很高的并行性。提出了一种结合异构开发框架开放运算语言(Open CL)和并行开发库消息传递接口(MPI)的算法,在支持图形处理器(GPU)的异构集群环境下设计并实现了图像卷积算法的多层次并行实现,使得算法在处理速度上有了显著的提升。 展开更多
关键词 异构集群 消息传递接口 开放运算语言 图像卷积
在线阅读 下载PDF
基于OpenCL的图形处理器FDTD算法仿真研究 被引量:2
5
作者 龚兴全 李康 孔凡敏 《系统仿真学报》 CAS CSCD 北大核心 2014年第8期1639-1643,1651,共6页
大型电磁仿真计算的时域有限差分(FDTD)仿真计算通常是十分耗时的,通用图形处理器(GPGPU)技术为其提供了一种合适的解决方案。通过分析FDTD算法特征以及Courant稳定性及数值色散稳定条件,阐述其在并行计算方面的优势。OpenCL是一种新的... 大型电磁仿真计算的时域有限差分(FDTD)仿真计算通常是十分耗时的,通用图形处理器(GPGPU)技术为其提供了一种合适的解决方案。通过分析FDTD算法特征以及Courant稳定性及数值色散稳定条件,阐述其在并行计算方面的优势。OpenCL是一种新的开放的行业标准,可以用来开发在CPUs,GPUs及其它各种平台上通用的程序。通过阐述OpenCL硬件基础,执行环境,实现方法来增进对其概念的掌握。为充分发挥异构处理平台下GPU的计算能力,提出了基于开放运算语言(OpenCL)模型,并且利用图形处理器并行FDTD仿真的实现方法。并与传统CPU计算相比较,验证计算结果的精确性。通过分析不同网格数量的速度提升情况,结果表明基于OpenCL的GPU计算速度与单CPU相比可以提升几十倍。 展开更多
关键词 图形处理器 开放运算语言 时域有限差分方法 加速比
在线阅读 下载PDF
基于OpenCL的流式应用程序在MPSoC上的动态并行度伸缩调度
6
作者 黄姗 石晶林 萧放 《高技术通讯》 CSCD 北大核心 2016年第12期925-934,共10页
分析了嵌入式系统应用程序的复杂化和多样化趋势,面向嵌入式系统常见的流式应用程序,提出了基于开放运算语言(OpenCL)的统一编程框架,并在此框架的基础上设计一个运行时系统,在应用程序可用计算资源发生变化的场景下,该系统可在线调整... 分析了嵌入式系统应用程序的复杂化和多样化趋势,面向嵌入式系统常见的流式应用程序,提出了基于开放运算语言(OpenCL)的统一编程框架,并在此框架的基础上设计一个运行时系统,在应用程序可用计算资源发生变化的场景下,该系统可在线调整应用程序的并行度,并进行动态调度。实验结果显示,与已有的Flextream动态调度系统相比,该调度系统在性能上最高可以提场17%,在动态调度的时间开销上最多可以降低7%。 展开更多
关键词 多处理器片上系统(MPSoC) 开放运算语言(opencl) 编程框架 并行度伸缩 运行时系统
在线阅读 下载PDF
CPU-GPU协同加速Kriging插值的负载均衡方法 被引量:2
7
作者 姜春雷 张树清 《国防科技大学学报》 EI CAS CSCD 北大核心 2015年第5期35-39,148,共6页
Kriging插值算法被广泛应用于地学各领域,有着极其重要的现实意义,但在面对大规模输出网格及大量输入采样点时,不可避免地遇到了性能瓶颈。利用Open CL和Open MP在异构平台上实现了CPU与GPU协同加速普通Kriging插值。针对Kriging插值中... Kriging插值算法被广泛应用于地学各领域,有着极其重要的现实意义,但在面对大规模输出网格及大量输入采样点时,不可避免地遇到了性能瓶颈。利用Open CL和Open MP在异构平台上实现了CPU与GPU协同加速普通Kriging插值。针对Kriging插值中采样点的不规则分布及CPU和GPU由于体系结构差异对其的不同适应性,提出一种基于不同设备间计算性能的差异和数据分布特点的负载均衡方法。试验结果表明,该方法能有效提高普通Kriging插值速度,同时还能节约存储空间和提高访存效率。 展开更多
关键词 通用计算图形处理器 开放运算语言 KRIGING插值 负载均衡
在线阅读 下载PDF
基于GPU的多类支持向量机改进算法 被引量:2
8
作者 顾德闯 杨永健 《吉林大学学报(理学版)》 CAS CSCD 北大核心 2015年第1期107-111,共5页
针对支持向量机算法耗时较长的问题,利用并行计算思想,基于图形处理器对多类支持向量机算法——Crammer-Singer算法进行改进,并利用循环展开、数据暂留、缓存和开放运算语言等技术对算法加以实现.分别在4个数据集上对原算法和改进算法... 针对支持向量机算法耗时较长的问题,利用并行计算思想,基于图形处理器对多类支持向量机算法——Crammer-Singer算法进行改进,并利用循环展开、数据暂留、缓存和开放运算语言等技术对算法加以实现.分别在4个数据集上对原算法和改进算法进行对比实验,结果表明,改进算法在性能上获得了较大提升. 展开更多
关键词 支持向量机 多分类 图形处理器 并行计算 开放运算语言
在线阅读 下载PDF
基于GPU的目标识别算法的并行化研究
9
作者 刘宝平 陈庆奎 +1 位作者 李金静 刘伯成 《太原理工大学学报》 CAS 北大核心 2015年第6期713-718 726,726,共7页
针对可变形部件模型算法(DPM)的计算量大,无法完成实时检测等问题,通过GPU编程模型CUDA,在Nvidia GPU上实现了HOG算法和DPM算法的并行化;采用OpenCL编程模型实现了DPM算法在集成显卡上的并行化。通过CPU和GPU的协同计算,保证目标识别效... 针对可变形部件模型算法(DPM)的计算量大,无法完成实时检测等问题,通过GPU编程模型CUDA,在Nvidia GPU上实现了HOG算法和DPM算法的并行化;采用OpenCL编程模型实现了DPM算法在集成显卡上的并行化。通过CPU和GPU的协同计算,保证目标识别效果的前提下,并行化的算法的执行效率相比于OpenCV中的CPU或GPU实现有明显的提高;通过对目标识别算法的并行化,结合其他算法,使得这类复杂算法能够在一些需要实时监测的工程领域中得到应用。 展开更多
关键词 梯度方向直方图 可变形部件模型 图形处理器 协同计算 统一计算设备架构 开放运算语言
在线阅读 下载PDF
领域专用低延迟高带宽TCP/IP卸载引擎设计与实现 被引量:10
10
作者 冯一飞 丁楠 +1 位作者 叶钧超 柴志雷 《计算机工程》 CAS CSCD 北大核心 2022年第9期162-170,共9页
针对量化高频交易应用场景对数据传输低延迟高带宽的需求,定制一种领域专用的TCP/IP协议栈,并将其卸载到专用硬件加速模块上。采用模块化设计实现专用硬件逻辑,并与FAST协议硬件加速模块共同构成完整的低延迟高带宽高频交易系统。通过... 针对量化高频交易应用场景对数据传输低延迟高带宽的需求,定制一种领域专用的TCP/IP协议栈,并将其卸载到专用硬件加速模块上。采用模块化设计实现专用硬件逻辑,并与FAST协议硬件加速模块共同构成完整的低延迟高带宽高频交易系统。通过调整最大报文长度,实现64 Byte数据对齐,提升内核与高带宽内存(HBM)间的读写速率,并对内存结构进行优化,实现主机端与HBM间的4通道并行读写管理。对各功能模块进行数据流优化,最终构建全流水线架构。模块间统一使用AXI4-Stream接口连接,并绕过内存进行数据传输,实现传输性能的提升。实验结果表明,TCP/IP卸载引擎在Xilinx Alevo U50数据中心加速卡上可获得38.28 Gb/s的网络吞吐率,基础网络通信穿刺延迟最低为468.4 ns,在叠加FAST解码协议后延迟为677.9 ns,与传统软件处理网络堆栈(Intel i9-9900x+9802BF)的方式相比,TCP/IP引擎的吞吐率提升1倍,延迟降低为1/12,且延迟稳定,波动范围在10 ns左右,在满足量化高频交易场景需要的同时,有效减轻了CPU的负载。 展开更多
关键词 领域专用 传输控制协议/互联网协议卸载引擎 高带宽低延迟 可编程逻辑门阵列 开放运算语言
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部