期刊文献+
共找到12篇文章
< 1 >
每页显示 20 50 100
开放式计算语言加速的分段前缀和并行算法
1
作者 肖汉 李彩林 +1 位作者 郭宝云 周清雷 《科学技术与工程》 北大核心 2019年第31期215-221,共7页
针对数值计算中前缀和运算数据量大、耗时巨大这一难题,提出了一种基于开放式计算语言(open computing language,OpenCL)的分段式前缀和并行算法。首先进行了分段式前缀和算法的并行性分析,对任务进行了层次化分解与组合,设计了两级并... 针对数值计算中前缀和运算数据量大、耗时巨大这一难题,提出了一种基于开放式计算语言(open computing language,OpenCL)的分段式前缀和并行算法。首先进行了分段式前缀和算法的并行性分析,对任务进行了层次化分解与组合,设计了两级并行的分段式前缀和算法;然后通过OpenCL编程将前缀和并行算法映射到CPU+GPU系统平台上,实现了层次化并行前缀和处理;最后,根据计算单元(compute unit,CU)的资源条件,增加CU中本地存储器的分配,通过改进工作节点的访问模式来降低bank冲突,提高访存速度。实验结果表明,与基于AMD Opteron 2439 SE CPU的串行算法、基于OpenMP(open multi-processing)并行算法和基于统一计算设备架构并行算法性能相比,前缀和并行算法在OpenCL架构下NVIDIA Tesla C2075计算平台上分别获得了33.51倍、6.26倍和2.41倍的加速比。验证了提出的并行优化方法的有效性和性能可移植性。 展开更多
关键词 分段式前缀和 图形处理器 开放式计算语言 并行算法 性能优化
在线阅读 下载PDF
基于异构平台的图像中值滤波的OpenCL加速算法 被引量:5
2
作者 肖诗洋 王镭 +1 位作者 杜莹 肖汉 《河北大学学报(自然科学版)》 CAS 北大核心 2024年第1期92-103,共12页
图像噪声降低了图像信噪比和质量,去噪是图像处理工作的重要环节之一.本文提出了一种基于开放式计算语言(OpenCL)架构的图像中值滤波快速降噪并行算法.介绍了OpenCL体系结构特点和中值滤波处理流程.根据图形处理器(GPU)的并发结构特点,... 图像噪声降低了图像信噪比和质量,去噪是图像处理工作的重要环节之一.本文提出了一种基于开放式计算语言(OpenCL)架构的图像中值滤波快速降噪并行算法.介绍了OpenCL体系结构特点和中值滤波处理流程.根据图形处理器(GPU)的并发结构特点,对图像中值滤波功能模块进行了并行优化,降低了算法复杂度.通过充分激活NDRange索引空间中的工作组和工作项来提高数据访问效率,优化内核工作组配置参数,实现了中值滤波器的并行处理.实验结果表明,在图像质量保持不变的情况下,与基于CPU的串行算法、基于开放多处理(OpenMP)并行算法和基于统一计算设备架构(CUDA)并行算法性能相比,图像中值滤波并行算法在OpenCL架构下NVIDIA GPU计算平台上分别获得了29.74、17.29、1.15倍的加速比.验证了算法的有效性和平台的可移植性,基本满足应用的实时性处理要求. 展开更多
关键词 中值滤波 椒盐噪声 图形处理器 开放式计算语言 并行算法
在线阅读 下载PDF
轻量级卷积神经网络的硬件加速方法
3
作者 吕文浩 支小莉 童维勤 《计算机工程与设计》 北大核心 2024年第3期699-706,共8页
为提升轻量级卷积神经网络在硬件平台的资源利用效率和推理速度,基于软硬件协同优化的思想,提出一种面向FPGA平台的轻量级卷积神经网络加速器,并针对网络结构的特性设计专门的硬件架构。与多级并行策略结合,设计一种统一的卷积层计算单... 为提升轻量级卷积神经网络在硬件平台的资源利用效率和推理速度,基于软硬件协同优化的思想,提出一种面向FPGA平台的轻量级卷积神经网络加速器,并针对网络结构的特性设计专门的硬件架构。与多级并行策略结合,设计一种统一的卷积层计算单元。为降低模型存储成本、提高加速器的吞吐量,提出一种基于可微阈值的选择性移位量化方案,使计算单元能够以硬件友好的形式执行计算。实验结果表明,在Arria 10 FPGA平台上部署的MobileNetV2加速器能够达到311 fps的推理速度,相比CPU版本实现了约9.3倍的加速比、GPU版本约3倍的加速比。在吞吐量方面,加速器能够实现98.62 GOPS。 展开更多
关键词 软硬件协同优化 现场可编程门阵列 轻量级卷积神经网络 移位量化 并行计算 硬件加速 开放式计算语言
在线阅读 下载PDF
面向OpenCL架构的Harris角点检测算法 被引量:7
4
作者 肖汉 马歌 周清雷 《计算机科学》 CSCD 北大核心 2014年第7期306-309,321,共5页
Harris角点检测算法是计算机视觉领域中使用非常广泛的点特征提取算法,它计算简单,稳定性强,但运算速度慢。当前已有算法优化研究一般只针对单一硬件平台,它们很难实现在不同平台上的高效运行。为此提出一种基于开放式计算语言(OpenCL)... Harris角点检测算法是计算机视觉领域中使用非常广泛的点特征提取算法,它计算简单,稳定性强,但运算速度慢。当前已有算法优化研究一般只针对单一硬件平台,它们很难实现在不同平台上的高效运行。为此提出一种基于开放式计算语言(OpenCL)设计思想的Harris角点检测并行算法,其采用图形处理器(GPU)中共享存储器、常量存储器和锁页内存机制在OpenCL框架下完成影像角点检测的全过程。实验结果表明,基于OpenCL的Harris角点检测并行算法相比CPU上的串行算法可获得的加速比高达77倍,执行效率明显提高,对于大规模数据处理表现出良好的实时处理能力。 展开更多
关键词 图形处理器 开放式计算语言 影像 角点检测 HARRIS算子
在线阅读 下载PDF
基于OpenCL的尺度不变特征变换算法的并行设计与实现 被引量:3
5
作者 许川佩 王光 《计算机应用》 CSCD 北大核心 2016年第7期1801-1806,共6页
针对尺度不变特征变换(SIFT)算法实时性差的问题,提出了利用开放式计算语言(Open CL)并行优化的SIFT算法。首先,通过对原算法各步骤进行组合拆分、重构特征点在内存中的数据索引等方式对原算法进行并行化重构,使得算法的中间计算结... 针对尺度不变特征变换(SIFT)算法实时性差的问题,提出了利用开放式计算语言(Open CL)并行优化的SIFT算法。首先,通过对原算法各步骤进行组合拆分、重构特征点在内存中的数据索引等方式对原算法进行并行化重构,使得算法的中间计算结果能够完全在显存中完成交互;然后,采用复用全局内存对象、共享局部内存、优化内存读取等策略对原算法各步骤进行并行设计,提高数据读取效率,降低传输延时;最后,利用Open CL语言在图形处理单元(GPU)上实现了SIFT算法的细粒度并行加速,并在中央处理器(CPU)上完成了移植。与原SIFT算法配准效果相近时,并行化的算法在GPU和CPU平台上特征提取速度分别提升了10.51~19.33和2.34~4.74倍。实验结果表明,利用Open CL并行加速的SIFT算法能够有效提高图像配准的实时性,并能克服统一计算设备架构(CUDA)因移植困难而不能充分利用异构系统中多种计算核心的缺点。 展开更多
关键词 尺度不变特征变换算法 开放式计算语言 复用内存对象 细粒度并行 异构系统
在线阅读 下载PDF
基于OpenCL的图像灰度化并行算法研究 被引量:10
6
作者 肖汉 郭宝云 +1 位作者 李彩林 肖诗洋 《江西师范大学学报(自然科学版)》 CAS 北大核心 2020年第5期462-471,共10页
随着图像数据量的增加,传统单核处理器或多处理器结构的计算方式已无法满足图像灰度化实时处理需求.该文利用图像处理器(GPU)在异构并行计算的优势,提出了基于开放式计算语言(OpenCL)的图像灰度化并行算法.通过分析加权平均图像灰度化... 随着图像数据量的增加,传统单核处理器或多处理器结构的计算方式已无法满足图像灰度化实时处理需求.该文利用图像处理器(GPU)在异构并行计算的优势,提出了基于开放式计算语言(OpenCL)的图像灰度化并行算法.通过分析加权平均图像灰度化数据处理的并行性,对任务进行了层次化分解,设计了2级并行的并行算法并映射到“CPU+GPU”异构计算平台上.实验结果显示:图像灰度化并行算法在OpenCL架构下NVIDIA GPU计算平台上相比串行算法、多核CPU并行算法和CUDA并行算法的性能分别获得了27.04倍、4.96倍和1.21倍的加速比.该文提出的并行优化方法的有效性和性能可移植性得到了验证. 展开更多
关键词 图像灰度化 加权平均 图形处理器 开放式计算语言 并行算法
在线阅读 下载PDF
面向异构架构的传递闭包并行算法 被引量:3
7
作者 肖汉 郭宝云 +1 位作者 李彩林 周清雷 《计算机工程》 CAS CSCD 北大核心 2021年第8期131-139,共9页
传统求图传递闭包的方法存在计算量大与计算时间长的问题。为加快处理大数据量的传递闭包算法的计算速度,结合算法密集计算和开放式计算语言(OpenCL)框架的特征,采用本地存储器优化的并行子矩阵乘和分块的矩阵乘并行计算,提出一种基于Op... 传统求图传递闭包的方法存在计算量大与计算时间长的问题。为加快处理大数据量的传递闭包算法的计算速度,结合算法密集计算和开放式计算语言(OpenCL)框架的特征,采用本地存储器优化的并行子矩阵乘和分块的矩阵乘并行计算,提出一种基于OpenCL的传递闭包并行算法。利用本地存储器优化的并行子矩阵乘算法来优化计算步骤,提高图形处理器(GPU)的存储器利用率,降低数据获取延迟。通过分块矩阵乘并行计算算法实现大数据量的矩阵乘,提高GPU计算核心的利用率。数据结果表明,与CPU串行算法、基于开放多处理的并行算法和基于统一设备计算架构的并行算法相比,传递闭包并行算法在OpenCL架构下NVIDIA GeForce GTX 1070计算平台上分别获得了593.14倍、208.62倍和1.05倍的加速比。 展开更多
关键词 矩阵乘 传递闭包 图形处理器 开放式计算语言 并行算法
在线阅读 下载PDF
CPU+GPU异构并行的矩阵转置算法研究 被引量:4
8
作者 肖汉 李彩林 +1 位作者 李琦 周清雷 《东北师大学报(自然科学版)》 CAS 北大核心 2019年第4期70-77,共8页
针对当前算法优化研究一般局限于单一硬件平台、很难实现在不同平台上高效运行的问题,利用图形处理器(GPU)提出了基于开放式计算语言(OpenCL)的矩阵转置并行算法.通过矩阵子块粗粒度并行、矩阵元素细粒度并行、工作项与数据的空间映射... 针对当前算法优化研究一般局限于单一硬件平台、很难实现在不同平台上高效运行的问题,利用图形处理器(GPU)提出了基于开放式计算语言(OpenCL)的矩阵转置并行算法.通过矩阵子块粗粒度并行、矩阵元素细粒度并行、工作项与数据的空间映射和本地存储器优化方法的应用,使矩阵转置算法在GPU计算平台上的性能提高了12倍.实验结果表明,与基于CPU的串行算法、基于开放多处理(OpenMP)并行算法和基于统一计算设备架构(CUDA)并行算法性能相比,矩阵转置并行算法在OpenCL架构下NVIDIA GPU计算平台上分别获得了12.26,2.23和1.50的加速比.该算法不仅性能高,而且实现了在不同计算平台间的性能移植. 展开更多
关键词 矩阵转置 图形处理器 开放式计算语言 并行算法
在线阅读 下载PDF
异构平台上基于OpenCL的矩阵乘并行算法 被引量:3
9
作者 肖汉 肖诗洋 +1 位作者 李彩林 周清雷 《西南大学学报(自然科学版)》 CAS CSCD 北大核心 2020年第11期147-153,共7页
在分析开放式计算语言(OpenCL)平台底层硬件构架的基础上,从数据本地化、计算资源利用率和访存带宽利用率等多个不同角度优化了矩阵乘算法,并实现了矩阵乘算法在OpenCL架构下的加速.实验数据显示,与基于CPU的单线程算法、基于OpenMP多... 在分析开放式计算语言(OpenCL)平台底层硬件构架的基础上,从数据本地化、计算资源利用率和访存带宽利用率等多个不同角度优化了矩阵乘算法,并实现了矩阵乘算法在OpenCL架构下的加速.实验数据显示,与基于CPU的单线程算法、基于OpenMP多线程算法和基于统一计算设备架构(CUDA)并行算法相比,基于OpenCL架构的矩阵乘并行算法效率更高. 展开更多
关键词 矩阵乘 图形处理器 开放式计算语言 并行算法
在线阅读 下载PDF
一种面向OpenCL架构的矩阵-向量乘并行算法与实现 被引量:2
10
作者 肖汉 周清雷 姚鹏姿 《小型微型计算机系统》 CSCD 北大核心 2019年第1期26-30,共5页
矩阵-向量乘法算法的时间复杂度大,传统计算方法的实时性和跨平台性难以保证.本文提出一种基于开放式计算语言(Open Computing Language,OpenCL)的矩阵-向量乘并行算法,矩阵-向量乘法过程被分解成若干具有不同粒度的子任务.根据相应的... 矩阵-向量乘法算法的时间复杂度大,传统计算方法的实时性和跨平台性难以保证.本文提出一种基于开放式计算语言(Open Computing Language,OpenCL)的矩阵-向量乘并行算法,矩阵-向量乘法过程被分解成若干具有不同粒度的子任务.根据相应的并行度,每个工作组进行矩阵中的行块与列向量的乘积,每个工作项进行行块中行向量与列向量的乘积,并把计算任务分别分配到计算单元和处理单元进行处理.实验结果表明,与基于CPU的串行算法、基于OpenMP并行算法和基于统一计算设备架构(Compute Unified Device Architecture,CUDA)并行算法性能相比,矩阵-向量乘并行算法在OpenCL架构下NVIDIA图形处理器(Graphic Processing Unit,GPU)计算平台上分别获得了20. 86倍、6. 39倍和1. 49倍的加速比.验证了提出的并行优化方法的有效性和性能可移植性. 展开更多
关键词 矩阵-向量乘 图形处理器 开放式计算语言 并行算法
在线阅读 下载PDF
基于均匀尺度不变局部三元模式的背景建模及其在Intel HD显卡上的并行实现 被引量:1
11
作者 林泽诚 朱建清 +1 位作者 廖胜才 李子青 《计算机应用》 CSCD 北大核心 2015年第8期2274-2279,共6页
针对尺度不变局部三元模式(SILTP)背景建模算法复杂度较高、计算速度较慢,不利于高速视频处理的问题,提出了一种新的均匀尺度不变局部三元模式(USILTP)背景建模并行算法。首先,通过规范SILTP编码的跳变次数得到USILTP纹理特征,实现了SI... 针对尺度不变局部三元模式(SILTP)背景建模算法复杂度较高、计算速度较慢,不利于高速视频处理的问题,提出了一种新的均匀尺度不变局部三元模式(USILTP)背景建模并行算法。首先,通过规范SILTP编码的跳变次数得到USILTP纹理特征,实现了SILTP特征降维;其次,设计并实现基于英特尔核芯显卡(Intel HD)及开放式计算语言(Open CL)的USILTP背景建模并行算法,进一步加速了USILTP背景建模算法;最后,通过融合多颜色通道模型结果,优化了USILTP背景建模算法的前景效果。实验结果表明,在Intel HD 4600上处理320×240分辨率的视频,该算法将速度提升至98 frame/s,比SILTP背景建模算法快4倍;在前景检测方面,该算法在背景公开数据库上的性能比SILTP背景建模算法提升了2.1%。 展开更多
关键词 尺度不变局部三元模式 英特尔核芯显卡 开放式计算语言 背景建模
在线阅读 下载PDF
并行Harris特征点检测算法 被引量:2
12
作者 朱超 吴素萍 《计算机科学》 CSCD 北大核心 2019年第S11期289-293,共5页
针对三维重建大数据量问题中的特征点提取算法,存在运算量大、耗时多、效率低等问题,文中对Harris特征点检测算法进行改进,提出了基于OpenMP的多核CPU和基于CUDA及OpenCL框架的GPU下的Harris特征点检测并行算法。在不同实验平台进行对... 针对三维重建大数据量问题中的特征点提取算法,存在运算量大、耗时多、效率低等问题,文中对Harris特征点检测算法进行改进,提出了基于OpenMP的多核CPU和基于CUDA及OpenCL框架的GPU下的Harris特征点检测并行算法。在不同实验平台进行对比实验,实验结果表明,基于CUDA及OpenCL框架的GPU并行特征点检测算法具有良好的数据和平台可扩展性,基于GPU并行特征点检测算法的加速比最高可达91.19,加速效果显著。基于OpenMP的多核CPU特征点检测算法具有良好的多核可扩展性。 展开更多
关键词 HARRIS 特征点检测 共享存储并行编程 计算机统一设备架构 开放式计算语言 并行算法
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部