期刊文献+
共找到21篇文章
< 1 2 >
每页显示 20 50 100
开放式计算语言加速的分段前缀和并行算法
1
作者 肖汉 李彩林 +1 位作者 郭宝云 周清雷 《科学技术与工程》 北大核心 2019年第31期215-221,共7页
针对数值计算中前缀和运算数据量大、耗时巨大这一难题,提出了一种基于开放式计算语言(open computing language,OpenCL)的分段式前缀和并行算法。首先进行了分段式前缀和算法的并行性分析,对任务进行了层次化分解与组合,设计了两级并... 针对数值计算中前缀和运算数据量大、耗时巨大这一难题,提出了一种基于开放式计算语言(open computing language,OpenCL)的分段式前缀和并行算法。首先进行了分段式前缀和算法的并行性分析,对任务进行了层次化分解与组合,设计了两级并行的分段式前缀和算法;然后通过OpenCL编程将前缀和并行算法映射到CPU+GPU系统平台上,实现了层次化并行前缀和处理;最后,根据计算单元(compute unit,CU)的资源条件,增加CU中本地存储器的分配,通过改进工作节点的访问模式来降低bank冲突,提高访存速度。实验结果表明,与基于AMD Opteron 2439 SE CPU的串行算法、基于OpenMP(open multi-processing)并行算法和基于统一计算设备架构并行算法性能相比,前缀和并行算法在OpenCL架构下NVIDIA Tesla C2075计算平台上分别获得了33.51倍、6.26倍和2.41倍的加速比。验证了提出的并行优化方法的有效性和性能可移植性。 展开更多
关键词 分段式前缀和 图形处理器 开放计算语言 并行算法 性能优化
在线阅读 下载PDF
基于OpenCL的累积汇流并行计算
2
作者 龙满生 罗文浪 《计算机工程与应用》 CSCD 2014年第3期22-29,116,共9页
大尺度、高分辨率数字地形数据应用需求的增长,给计算密集型的累积汇流等数字地形分析算法带来了新的挑战。针对CPU/GPU(Graphics Processing Unit)异构计算平台的特点,提出了一种基于OpenCL(Open Computing Language)的多流向累积汇流... 大尺度、高分辨率数字地形数据应用需求的增长,给计算密集型的累积汇流等数字地形分析算法带来了新的挑战。针对CPU/GPU(Graphics Processing Unit)异构计算平台的特点,提出了一种基于OpenCL(Open Computing Language)的多流向累积汇流算法的并行化策略,具有更好的平台独立性和可移植性,简化了CPU/GPU异构平台下的并行应用程序设计。累积汇流并行算法包括时空独立型的流量分配和空间依赖型的累积入流两个过程,均定义为OpenCL内核并交由OpenCL设备并行执行,其中累积入流过程借助流量转移矩阵由递归式转换为迭代式来实现并行计算。与基于流量转移矩阵的并行汇流算法相比,尽管基于单元入度矩阵的并行汇流算法可以降低迭代过程中的计算冗余,但需要采用具有较大延迟的原子操作以及需要更多的迭代次数,在有限的GPU计算资源下,两种算法性能差异不明显。实验结果表明,并行累积汇流算法在NVIDIA GeForce GT 650M GPU上获得了较好的加速比,加速性能随格网尺度增加而有所增加,其中流量分配获得了约50~70倍的加速比,累积入流获得了10~20倍的加速比,展示了利用OpenCL在GPU等并行计算设备上进行大规模数字地形分析的潜在优势。 展开更多
关键词 并行计算 累积汇流 图形处理器 开放计算语言
在线阅读 下载PDF
基于异构平台的图像中值滤波的OpenCL加速算法 被引量:5
3
作者 肖诗洋 王镭 +1 位作者 杜莹 肖汉 《河北大学学报(自然科学版)》 CAS 北大核心 2024年第1期92-103,共12页
图像噪声降低了图像信噪比和质量,去噪是图像处理工作的重要环节之一.本文提出了一种基于开放式计算语言(OpenCL)架构的图像中值滤波快速降噪并行算法.介绍了OpenCL体系结构特点和中值滤波处理流程.根据图形处理器(GPU)的并发结构特点,... 图像噪声降低了图像信噪比和质量,去噪是图像处理工作的重要环节之一.本文提出了一种基于开放式计算语言(OpenCL)架构的图像中值滤波快速降噪并行算法.介绍了OpenCL体系结构特点和中值滤波处理流程.根据图形处理器(GPU)的并发结构特点,对图像中值滤波功能模块进行了并行优化,降低了算法复杂度.通过充分激活NDRange索引空间中的工作组和工作项来提高数据访问效率,优化内核工作组配置参数,实现了中值滤波器的并行处理.实验结果表明,在图像质量保持不变的情况下,与基于CPU的串行算法、基于开放多处理(OpenMP)并行算法和基于统一计算设备架构(CUDA)并行算法性能相比,图像中值滤波并行算法在OpenCL架构下NVIDIA GPU计算平台上分别获得了29.74、17.29、1.15倍的加速比.验证了算法的有效性和平台的可移植性,基本满足应用的实时性处理要求. 展开更多
关键词 中值滤波 椒盐噪声 图形处理器 开放计算语言 并行算法
在线阅读 下载PDF
轻量级卷积神经网络的硬件加速方法
4
作者 吕文浩 支小莉 童维勤 《计算机工程与设计》 北大核心 2024年第3期699-706,共8页
为提升轻量级卷积神经网络在硬件平台的资源利用效率和推理速度,基于软硬件协同优化的思想,提出一种面向FPGA平台的轻量级卷积神经网络加速器,并针对网络结构的特性设计专门的硬件架构。与多级并行策略结合,设计一种统一的卷积层计算单... 为提升轻量级卷积神经网络在硬件平台的资源利用效率和推理速度,基于软硬件协同优化的思想,提出一种面向FPGA平台的轻量级卷积神经网络加速器,并针对网络结构的特性设计专门的硬件架构。与多级并行策略结合,设计一种统一的卷积层计算单元。为降低模型存储成本、提高加速器的吞吐量,提出一种基于可微阈值的选择性移位量化方案,使计算单元能够以硬件友好的形式执行计算。实验结果表明,在Arria 10 FPGA平台上部署的MobileNetV2加速器能够达到311 fps的推理速度,相比CPU版本实现了约9.3倍的加速比、GPU版本约3倍的加速比。在吞吐量方面,加速器能够实现98.62 GOPS。 展开更多
关键词 软硬件协同优化 现场可编程门阵列 轻量级卷积神经网络 移位量化 并行计算 硬件加速 开放计算语言
在线阅读 下载PDF
基于OpenCL的异构系统并行编程 被引量:23
5
作者 詹云 赵新灿 谭同德 《计算机工程与设计》 CSCD 北大核心 2012年第11期4191-4195,4293,共6页
针对异构处理器在传统通用计算中利用率低的问题,提出基于开放计算语言OpenCL(open computing language)的新的通用计算技术,它提供了统一的编程模型。介绍了OpenCL的特点、架构及实现原理等,并提出OpenCL性能优化策略。将OpenCL与计算... 针对异构处理器在传统通用计算中利用率低的问题,提出基于开放计算语言OpenCL(open computing language)的新的通用计算技术,它提供了统一的编程模型。介绍了OpenCL的特点、架构及实现原理等,并提出OpenCL性能优化策略。将OpenCL与计算统一设备架构CUDA(compute unified device architecture)及其它通用计算技术进行对比。对比结果表明,OpenCL能够充分发挥异构处理平台上各种处理器的性能潜力,充分合理地分配任务,为进行大规模并行计算提供了新的强有力的工具。 展开更多
关键词 异构处理器 通用计算 开放计算语言(OpenCL) 性能优化 计算统一设备架构(CUDA)
在线阅读 下载PDF
面向OpenCL的GPGPU微基准测试程序集的研究与实现 被引量:2
6
作者 杨海燕 史晓华 +3 位作者 孙清越 晏望龙 严鑫 金茂忠 《系统工程与电子技术》 EI CSCD 北大核心 2013年第12期2631-2642,共12页
随着通用图形处理器(general-purpose graphics processing unit,GPGPU)的广泛应用,GPGPU成为当前实现计算并行化的主要硬件平台之一。开放计算语言(open computing language,OpenCL)是一个开放的、面向异构系统平台的并行计算标准,支... 随着通用图形处理器(general-purpose graphics processing unit,GPGPU)的广泛应用,GPGPU成为当前实现计算并行化的主要硬件平台之一。开放计算语言(open computing language,OpenCL)是一个开放的、面向异构系统平台的并行计算标准,支持在包括图形处理器(graphics processing unit,GPU)在内的多种微处理器架构上开发和运行并行程序。针对OpenCL平台开发了一套较完整的GPGPU微基准测试程序集,全面测试了GPU的单精浮点运算能力、GPU体系结构中各类存储单元的读写带宽及最佳访问模式等。这些面向OpenCL的GPGPU微基准测试程序,对OpenCL及GPGPU软件架构的设计者及使用者,均具有重要的实用和参考价值。 展开更多
关键词 计算机系统结构 微基准测试程序集 通用图形处理器 开放计算语言
在线阅读 下载PDF
基于Chan-Vese模型的面向多核CPU和GPU的人脸轮廓提取并行算法 被引量:1
7
作者 王丽娜 史晓华 《计算机应用》 CSCD 北大核心 2014年第11期3121-3125,共5页
针对人脸轮廓提取中Chan-Vese模型计算量大、分割速度缓慢等问题,采用开放计算语言(OpenCL)并行编程模型,提出了一种基于图形处理器(GPU)和多核CPU加速的并行算法。该算法首先将模型的框架进行重构,消除模型中的数据依赖关系;然后,利用... 针对人脸轮廓提取中Chan-Vese模型计算量大、分割速度缓慢等问题,采用开放计算语言(OpenCL)并行编程模型,提出了一种基于图形处理器(GPU)和多核CPU加速的并行算法。该算法首先将模型的框架进行重构,消除模型中的数据依赖关系;然后,利用开放计算语言对算法进行并行化以及相应的优化。实验结果表明,与单线程算法相比,在NVIDIA GTX660和AMD FX-8530下达到了较高的加速比。 展开更多
关键词 CHAN-VESE模型 并行 开放计算语言 人脸轮廓提取
在线阅读 下载PDF
基于OpenCL的MD5破解算法 被引量:5
8
作者 翁捷 吴强 杨灿群 《计算机工程》 CAS CSCD 北大核心 2011年第4期119-121,共3页
在基于GPU的异构平台上,采用开放计算语言(OpenCL)实现破解算法,利用分轮生成攻击密码、图形渲染管线加速存取以及多密码并行等方法对算法进行优化,在Intel四核CPU Q8230(2.3 GHz)和一片NVIDIA GT200组成的平台上进行实验。实验结果表明... 在基于GPU的异构平台上,采用开放计算语言(OpenCL)实现破解算法,利用分轮生成攻击密码、图形渲染管线加速存取以及多密码并行等方法对算法进行优化,在Intel四核CPU Q8230(2.3 GHz)和一片NVIDIA GT200组成的平台上进行实验。实验结果表明,在相同CPU平台上该算法能够获得高于破解软件John the ripper 17倍的破解速度。 展开更多
关键词 开放计算语言 带随机数的MD5算法 图形处理器 强力攻击
在线阅读 下载PDF
面向CPUs-GPUs系统的OpenCL任务调度框架 被引量:5
9
作者 王浩 王浩枫 《计算机工程与设计》 北大核心 2022年第7期1955-1963,共9页
为解决OpenCL多任务环境的自适应调度问题,分析资源竞争导致的内核执行效率下降情况,提出一个可在CPU-GPU异构平台上高效调度多个程序内核的OpenCL任务调度框架。通过随机森林模型分析OpenCL任务在不同设备上的运行状态,提出一套量化Ope... 为解决OpenCL多任务环境的自适应调度问题,分析资源竞争导致的内核执行效率下降情况,提出一个可在CPU-GPU异构平台上高效调度多个程序内核的OpenCL任务调度框架。通过随机森林模型分析OpenCL任务在不同设备上的运行状态,提出一套量化OpenCL内核数据传输的公式,提高OpenCL任务分析的准确性;采用负载均衡程度和单任务调度时间混合指标策略,保证系统执行效率,保障单个任务的执行效率。通过实验验证该框架的良好性能,实验结果表明,在不同程度的资源竞争的情况下,与两种常见的调度策略相比,该框架在负载均衡和任务执行效率指标方面均有提升。 展开更多
关键词 开放计算语言 资源竞争 任务调度 异构系统 机器学习 任务分析 负载均衡
在线阅读 下载PDF
面向OpenCL架构的Harris角点检测算法 被引量:7
10
作者 肖汉 马歌 周清雷 《计算机科学》 CSCD 北大核心 2014年第7期306-309,321,共5页
Harris角点检测算法是计算机视觉领域中使用非常广泛的点特征提取算法,它计算简单,稳定性强,但运算速度慢。当前已有算法优化研究一般只针对单一硬件平台,它们很难实现在不同平台上的高效运行。为此提出一种基于开放式计算语言(OpenCL)... Harris角点检测算法是计算机视觉领域中使用非常广泛的点特征提取算法,它计算简单,稳定性强,但运算速度慢。当前已有算法优化研究一般只针对单一硬件平台,它们很难实现在不同平台上的高效运行。为此提出一种基于开放式计算语言(OpenCL)设计思想的Harris角点检测并行算法,其采用图形处理器(GPU)中共享存储器、常量存储器和锁页内存机制在OpenCL框架下完成影像角点检测的全过程。实验结果表明,基于OpenCL的Harris角点检测并行算法相比CPU上的串行算法可获得的加速比高达77倍,执行效率明显提高,对于大规模数据处理表现出良好的实时处理能力。 展开更多
关键词 图形处理器 开放计算语言 影像 角点检测 HARRIS算子
在线阅读 下载PDF
基于OpenCL的尺度不变特征变换算法的并行设计与实现 被引量:3
11
作者 许川佩 王光 《计算机应用》 CSCD 北大核心 2016年第7期1801-1806,共6页
针对尺度不变特征变换(SIFT)算法实时性差的问题,提出了利用开放式计算语言(Open CL)并行优化的SIFT算法。首先,通过对原算法各步骤进行组合拆分、重构特征点在内存中的数据索引等方式对原算法进行并行化重构,使得算法的中间计算结... 针对尺度不变特征变换(SIFT)算法实时性差的问题,提出了利用开放式计算语言(Open CL)并行优化的SIFT算法。首先,通过对原算法各步骤进行组合拆分、重构特征点在内存中的数据索引等方式对原算法进行并行化重构,使得算法的中间计算结果能够完全在显存中完成交互;然后,采用复用全局内存对象、共享局部内存、优化内存读取等策略对原算法各步骤进行并行设计,提高数据读取效率,降低传输延时;最后,利用Open CL语言在图形处理单元(GPU)上实现了SIFT算法的细粒度并行加速,并在中央处理器(CPU)上完成了移植。与原SIFT算法配准效果相近时,并行化的算法在GPU和CPU平台上特征提取速度分别提升了10.51~19.33和2.34~4.74倍。实验结果表明,利用Open CL并行加速的SIFT算法能够有效提高图像配准的实时性,并能克服统一计算设备架构(CUDA)因移植困难而不能充分利用异构系统中多种计算核心的缺点。 展开更多
关键词 尺度不变特征变换算法 开放计算语言 复用内存对象 细粒度并行 异构系统
在线阅读 下载PDF
基于OpenCL的Gzip数据压缩算法 被引量:8
12
作者 赵雅倩 李龙 +4 位作者 郭跃超 史宏志 郭振华 魏士欣 陈继承 《计算机应用》 CSCD 北大核心 2018年第A01期112-115,130,共5页
目前,数据压缩算法主要基于串行编程模型设计和实现,导致数据压缩速率较低,因而无法满足大数据分析和处理等应用的实时性需求。为了解决这个问题,以常用数据压缩算法Gzip为蓝本,提出一种实现无损数据压缩算法的专用硬件电路。首先,采用... 目前,数据压缩算法主要基于串行编程模型设计和实现,导致数据压缩速率较低,因而无法满足大数据分析和处理等应用的实时性需求。为了解决这个问题,以常用数据压缩算法Gzip为蓝本,提出一种实现无损数据压缩算法的专用硬件电路。首先,采用多字典并行查找的设计方案提高重复数据的查找速率;接着,采用匹配长度拼接技术提升数据的压缩效果;最后,采用开放计算语言(Open CL)实现了所提出的专用硬件电路。基于现场可编程门阵列(FPGA)进行功能验证和性能评测,结果表明:与基于串行编程模型设计和实现的数据压缩算法相比,所提出的硬件电路在取得适当压缩率的同时,显著地提高了数据的压缩速率,压缩速率可达12 Gb/s。 展开更多
关键词 数据压缩 开放计算语言 Gzip算法 现场可编程门阵列 硬件加速
在线阅读 下载PDF
基于OpenCL机器视觉算法GPU实现 被引量:5
13
作者 吴进 刘应 +1 位作者 刘镇弢 李乔深 《计算机工程与设计》 北大核心 2019年第2期346-351,共6页
针对不断增长的对机器视觉算法处理效率和实时性的要求,研究基于异构编程框架OpenCL对机器视觉算法在通用计算机图形处理单元(GPU)上的并行处理和加速方法,提出结合存储分配、指令流优化、数据重用等方法的并行优化策略。在Sobel边缘检... 针对不断增长的对机器视觉算法处理效率和实时性的要求,研究基于异构编程框架OpenCL对机器视觉算法在通用计算机图形处理单元(GPU)上的并行处理和加速方法,提出结合存储分配、指令流优化、数据重用等方法的并行优化策略。在Sobel边缘检测、Canny边缘检测、Harris角点检测、高斯图像金字塔4个不同并行度视觉算法上进行验证,验证结果表明,在不考虑数据传输的情况下,对比CPU串行实现取得了平均6.16的加速比,对比OpenCV的GPU库(即CUDA实现)取得了1.12-5.47的加速比,验证了所提优化策略的有效性。 展开更多
关键词 开放计算语言 图形处理器 并行加速 机器视觉算法 异构框架
在线阅读 下载PDF
OclDNN:一种可应用于TensorFlow的通用DNN库 被引量:1
14
作者 陈锐 孙羽菲 +4 位作者 郭强 隋轶丞 周振辉 石昌青 张玉志 《计算机工程》 CAS CSCD 北大核心 2023年第4期138-148,共11页
深度学习模型的构建、训练以及推理离不开TensorFlow等机器学习框架中深度学习算子的支撑,对于卷积、池化等深度学习中被高频调用或计算量较大的算子,机器学习框架一般通过调用深度神经网络(DNN)库来提升计算效能。现有DNN库主要由英伟... 深度学习模型的构建、训练以及推理离不开TensorFlow等机器学习框架中深度学习算子的支撑,对于卷积、池化等深度学习中被高频调用或计算量较大的算子,机器学习框架一般通过调用深度神经网络(DNN)库来提升计算效能。现有DNN库主要由英伟达、AMD等少数国外厂商开发并根据自有硬件设备特点进行优化,但其封闭性导致其他厂商生产的通用加速器难以在深度学习领域发挥作用。为解决现有DNN库无法支持国产加速器的问题,使得深度学习模型能够调用国产加速器进行运算,研究跨平台的通用DNN库,通过对开源MIOpen的结构特点和调用方式进行分析,提出修改和重构该库的方法,并实现一种基于OpenCL的DNN(OclDNN)库。考虑到TensorFlow较高的流行度及其对DNN库调用的特殊性与复杂性,研究通用DNN库在TensorFlow中的集成方法,通过StreamExecutor中的OpenCL平台实现对OclDNN的调用。实验结果表明,OclDNN在英伟达、华为等不同厂商的计算设备上运算结果正确可靠,在相同实验环境下,深度学习算子使用OclDNN时的加速性能比传统CPU并行算法提升了5~60倍。 展开更多
关键词 深度神经网络库 深度学习 开放计算语言 硬件加速器 TensorFlow框架
在线阅读 下载PDF
基于OpenCL的图像灰度化并行算法研究 被引量:10
15
作者 肖汉 郭宝云 +1 位作者 李彩林 肖诗洋 《江西师范大学学报(自然科学版)》 CAS 北大核心 2020年第5期462-471,共10页
随着图像数据量的增加,传统单核处理器或多处理器结构的计算方式已无法满足图像灰度化实时处理需求.该文利用图像处理器(GPU)在异构并行计算的优势,提出了基于开放式计算语言(OpenCL)的图像灰度化并行算法.通过分析加权平均图像灰度化... 随着图像数据量的增加,传统单核处理器或多处理器结构的计算方式已无法满足图像灰度化实时处理需求.该文利用图像处理器(GPU)在异构并行计算的优势,提出了基于开放式计算语言(OpenCL)的图像灰度化并行算法.通过分析加权平均图像灰度化数据处理的并行性,对任务进行了层次化分解,设计了2级并行的并行算法并映射到“CPU+GPU”异构计算平台上.实验结果显示:图像灰度化并行算法在OpenCL架构下NVIDIA GPU计算平台上相比串行算法、多核CPU并行算法和CUDA并行算法的性能分别获得了27.04倍、4.96倍和1.21倍的加速比.该文提出的并行优化方法的有效性和性能可移植性得到了验证. 展开更多
关键词 图像灰度化 加权平均 图形处理器 开放计算语言 并行算法
在线阅读 下载PDF
面向异构架构的传递闭包并行算法 被引量:3
16
作者 肖汉 郭宝云 +1 位作者 李彩林 周清雷 《计算机工程》 CAS CSCD 北大核心 2021年第8期131-139,共9页
传统求图传递闭包的方法存在计算量大与计算时间长的问题。为加快处理大数据量的传递闭包算法的计算速度,结合算法密集计算和开放式计算语言(OpenCL)框架的特征,采用本地存储器优化的并行子矩阵乘和分块的矩阵乘并行计算,提出一种基于Op... 传统求图传递闭包的方法存在计算量大与计算时间长的问题。为加快处理大数据量的传递闭包算法的计算速度,结合算法密集计算和开放式计算语言(OpenCL)框架的特征,采用本地存储器优化的并行子矩阵乘和分块的矩阵乘并行计算,提出一种基于OpenCL的传递闭包并行算法。利用本地存储器优化的并行子矩阵乘算法来优化计算步骤,提高图形处理器(GPU)的存储器利用率,降低数据获取延迟。通过分块矩阵乘并行计算算法实现大数据量的矩阵乘,提高GPU计算核心的利用率。数据结果表明,与CPU串行算法、基于开放多处理的并行算法和基于统一设备计算架构的并行算法相比,传递闭包并行算法在OpenCL架构下NVIDIA GeForce GTX 1070计算平台上分别获得了593.14倍、208.62倍和1.05倍的加速比。 展开更多
关键词 矩阵乘 传递闭包 图形处理器 开放计算语言 并行算法
在线阅读 下载PDF
CPU+GPU异构并行的矩阵转置算法研究 被引量:4
17
作者 肖汉 李彩林 +1 位作者 李琦 周清雷 《东北师大学报(自然科学版)》 CAS 北大核心 2019年第4期70-77,共8页
针对当前算法优化研究一般局限于单一硬件平台、很难实现在不同平台上高效运行的问题,利用图形处理器(GPU)提出了基于开放式计算语言(OpenCL)的矩阵转置并行算法.通过矩阵子块粗粒度并行、矩阵元素细粒度并行、工作项与数据的空间映射... 针对当前算法优化研究一般局限于单一硬件平台、很难实现在不同平台上高效运行的问题,利用图形处理器(GPU)提出了基于开放式计算语言(OpenCL)的矩阵转置并行算法.通过矩阵子块粗粒度并行、矩阵元素细粒度并行、工作项与数据的空间映射和本地存储器优化方法的应用,使矩阵转置算法在GPU计算平台上的性能提高了12倍.实验结果表明,与基于CPU的串行算法、基于开放多处理(OpenMP)并行算法和基于统一计算设备架构(CUDA)并行算法性能相比,矩阵转置并行算法在OpenCL架构下NVIDIA GPU计算平台上分别获得了12.26,2.23和1.50的加速比.该算法不仅性能高,而且实现了在不同计算平台间的性能移植. 展开更多
关键词 矩阵转置 图形处理器 开放计算语言 并行算法
在线阅读 下载PDF
异构平台上基于OpenCL的矩阵乘并行算法 被引量:3
18
作者 肖汉 肖诗洋 +1 位作者 李彩林 周清雷 《西南大学学报(自然科学版)》 CAS CSCD 北大核心 2020年第11期147-153,共7页
在分析开放式计算语言(OpenCL)平台底层硬件构架的基础上,从数据本地化、计算资源利用率和访存带宽利用率等多个不同角度优化了矩阵乘算法,并实现了矩阵乘算法在OpenCL架构下的加速.实验数据显示,与基于CPU的单线程算法、基于OpenMP多... 在分析开放式计算语言(OpenCL)平台底层硬件构架的基础上,从数据本地化、计算资源利用率和访存带宽利用率等多个不同角度优化了矩阵乘算法,并实现了矩阵乘算法在OpenCL架构下的加速.实验数据显示,与基于CPU的单线程算法、基于OpenMP多线程算法和基于统一计算设备架构(CUDA)并行算法相比,基于OpenCL架构的矩阵乘并行算法效率更高. 展开更多
关键词 矩阵乘 图形处理器 开放计算语言 并行算法
在线阅读 下载PDF
一种面向OpenCL架构的矩阵-向量乘并行算法与实现 被引量:2
19
作者 肖汉 周清雷 姚鹏姿 《小型微型计算机系统》 CSCD 北大核心 2019年第1期26-30,共5页
矩阵-向量乘法算法的时间复杂度大,传统计算方法的实时性和跨平台性难以保证.本文提出一种基于开放式计算语言(Open Computing Language,OpenCL)的矩阵-向量乘并行算法,矩阵-向量乘法过程被分解成若干具有不同粒度的子任务.根据相应的... 矩阵-向量乘法算法的时间复杂度大,传统计算方法的实时性和跨平台性难以保证.本文提出一种基于开放式计算语言(Open Computing Language,OpenCL)的矩阵-向量乘并行算法,矩阵-向量乘法过程被分解成若干具有不同粒度的子任务.根据相应的并行度,每个工作组进行矩阵中的行块与列向量的乘积,每个工作项进行行块中行向量与列向量的乘积,并把计算任务分别分配到计算单元和处理单元进行处理.实验结果表明,与基于CPU的串行算法、基于OpenMP并行算法和基于统一计算设备架构(Compute Unified Device Architecture,CUDA)并行算法性能相比,矩阵-向量乘并行算法在OpenCL架构下NVIDIA图形处理器(Graphic Processing Unit,GPU)计算平台上分别获得了20. 86倍、6. 39倍和1. 49倍的加速比.验证了提出的并行优化方法的有效性和性能可移植性. 展开更多
关键词 矩阵-向量乘 图形处理器 开放计算语言 并行算法
在线阅读 下载PDF
基于均匀尺度不变局部三元模式的背景建模及其在Intel HD显卡上的并行实现 被引量:1
20
作者 林泽诚 朱建清 +1 位作者 廖胜才 李子青 《计算机应用》 CSCD 北大核心 2015年第8期2274-2279,共6页
针对尺度不变局部三元模式(SILTP)背景建模算法复杂度较高、计算速度较慢,不利于高速视频处理的问题,提出了一种新的均匀尺度不变局部三元模式(USILTP)背景建模并行算法。首先,通过规范SILTP编码的跳变次数得到USILTP纹理特征,实现了SI... 针对尺度不变局部三元模式(SILTP)背景建模算法复杂度较高、计算速度较慢,不利于高速视频处理的问题,提出了一种新的均匀尺度不变局部三元模式(USILTP)背景建模并行算法。首先,通过规范SILTP编码的跳变次数得到USILTP纹理特征,实现了SILTP特征降维;其次,设计并实现基于英特尔核芯显卡(Intel HD)及开放式计算语言(Open CL)的USILTP背景建模并行算法,进一步加速了USILTP背景建模算法;最后,通过融合多颜色通道模型结果,优化了USILTP背景建模算法的前景效果。实验结果表明,在Intel HD 4600上处理320×240分辨率的视频,该算法将速度提升至98 frame/s,比SILTP背景建模算法快4倍;在前景检测方面,该算法在背景公开数据库上的性能比SILTP背景建模算法提升了2.1%。 展开更多
关键词 尺度不变局部三元模式 英特尔核芯显卡 开放计算语言 背景建模
在线阅读 下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部