期刊文献+
共找到106篇文章
< 1 2 6 >
每页显示 20 50 100
基于OpenCL的超低延迟行情加速系统设计与实现
1
作者 冯一飞 丁楠 +1 位作者 叶钧超 柴志雷 《计算机应用与软件》 北大核心 2025年第3期15-21,共7页
针对量化高频交易中对数据处理的低延迟需求,定制一种超低延迟的行情系统,包含网络通信、数据解码和数据分析三部分功能,并在FPGA上进行实现。对各功能模块进行并行优化,构建全流水架构;对内存架构进行优化设计,提高数据传输速率;使用... 针对量化高频交易中对数据处理的低延迟需求,定制一种超低延迟的行情系统,包含网络通信、数据解码和数据分析三部分功能,并在FPGA上进行实现。对各功能模块进行并行优化,构建全流水架构;对内存架构进行优化设计,提高数据传输速率;使用流接口实现模块间数据传输优化,降低数据处理延迟。实验结果表明:在Alveo U50上最大吞吐率可达38.4 Gbit/s,行情处理延迟最低为678 ns,波动稳定在10 ns间,与软件方案相比,性能提升12倍,吞吐率提升1.87倍,且延迟稳定。 展开更多
关键词 VITIS opencl 现场可编程门阵列 高频量化交易 超低延迟 系统开发设计
在线阅读 下载PDF
基于异构平台的图像中值滤波的OpenCL加速算法 被引量:6
2
作者 肖诗洋 王镭 +1 位作者 杜莹 肖汉 《河北大学学报(自然科学版)》 CAS 北大核心 2024年第1期92-103,共12页
图像噪声降低了图像信噪比和质量,去噪是图像处理工作的重要环节之一.本文提出了一种基于开放式计算语言(OpenCL)架构的图像中值滤波快速降噪并行算法.介绍了OpenCL体系结构特点和中值滤波处理流程.根据图形处理器(GPU)的并发结构特点,... 图像噪声降低了图像信噪比和质量,去噪是图像处理工作的重要环节之一.本文提出了一种基于开放式计算语言(OpenCL)架构的图像中值滤波快速降噪并行算法.介绍了OpenCL体系结构特点和中值滤波处理流程.根据图形处理器(GPU)的并发结构特点,对图像中值滤波功能模块进行了并行优化,降低了算法复杂度.通过充分激活NDRange索引空间中的工作组和工作项来提高数据访问效率,优化内核工作组配置参数,实现了中值滤波器的并行处理.实验结果表明,在图像质量保持不变的情况下,与基于CPU的串行算法、基于开放多处理(OpenMP)并行算法和基于统一计算设备架构(CUDA)并行算法性能相比,图像中值滤波并行算法在OpenCL架构下NVIDIA GPU计算平台上分别获得了29.74、17.29、1.15倍的加速比.验证了算法的有效性和平台的可移植性,基本满足应用的实时性处理要求. 展开更多
关键词 中值滤波 椒盐噪声 图形处理器 开放式计算语言 并行算法
在线阅读 下载PDF
基于OpenCL的拉普拉斯图像增强算法优化研究 被引量:19
3
作者 贾海鹏 张云泉 +2 位作者 龙国平 徐建良 李焱 《计算机科学》 CSCD 北大核心 2012年第5期271-277,共7页
OpenCL是面向异构计算平台的通用编程框架,然而由于硬件体系结构的差异,如何在平台间功能移植的基础上实现性能移植仍是有待研究的问题。当前已有算法优化研究一般只针对单一硬件平台,它们很难实现在不同平台上的高效运行。在分析了不同... OpenCL是面向异构计算平台的通用编程框架,然而由于硬件体系结构的差异,如何在平台间功能移植的基础上实现性能移植仍是有待研究的问题。当前已有算法优化研究一般只针对单一硬件平台,它们很难实现在不同平台上的高效运行。在分析了不同GPU平台底层硬件架构的基础上,从Global Memory的访存效率、GPU计算资源的有效利用率及其硬件资源的限制等多个角度考察了不同优化方法在不同GPU硬件平台上对性能的影响;并在此基础上实现了基于OpenCL的拉普拉斯图像增强算法。实验结果表明,优化后的算法在不考虑数据传输时间的前提下,在AMD和NVIDIA GPU上都取得了3.7~136.1倍、平均56.7倍的性能加速,优化后的kernel比NVIDIA NPP库中相应函数也取得了12.3%~346.7%、平均143.1%的性能提升,验证了提出的优化方法的有效性和性能可移植性。 展开更多
关键词 opencl 通用计算 拉普拉斯算法 跨平台
在线阅读 下载PDF
基于OpenCL的Viola-Jones人脸检测算法性能优化研究 被引量:14
4
作者 贾海鹏 张云泉 +1 位作者 袁良 李士刚 《计算机学报》 EI CSCD 北大核心 2016年第9期1775-1789,共15页
Viola-Jones人脸检测算法是最为成功的可实用的人脸检测算法之一.然而,随着该算法所在领域数据处理规模的不断扩大,现有算法的性能已经越来越无法满足日益增长的交互性与实时性要求.使用GPU计算平台提升该算法性能,以满足日益增长的实... Viola-Jones人脸检测算法是最为成功的可实用的人脸检测算法之一.然而,随着该算法所在领域数据处理规模的不断扩大,现有算法的性能已经越来越无法满足日益增长的交互性与实时性要求.使用GPU计算平台提升该算法性能,以满足日益增长的实时性要求已经成为研究热点.然而,该算法在对GPU的实现和优化中,存在线程间负载不均衡的非规则特性,如果仅使用传统的优化方法,则难以在GPU计算平台上达到较高性能.针对此种情况,该文构建了针对此类算法的并行优化框架,通过Uberkernel、粗粒度并行、Persistent Thread、线程与数据的动态映射、全局及本地队列等优化方法的应用,突破了负载不均衡非规则特性导致的性能瓶颈,大幅提高了人脸检测算法在GPU计算平台上的性能.同时,该文通过对不同GPU计算平台关键性能参数的定义、抽取和传递,实现了该算法在不同GPU计算平台间的性能移植.实验结果表明,与OpenCV2.4中经过高度优化的CPU版本在Intel Xeon X5550CPU上的性能相比,优化后的算法在AMD HD7970和NVIDIA GTX680两个不同GPU计算平台上分别达到了11.24-20.27和9.24-17.62倍的加速比,不仅实现了高性能,而且实现了在不同GPU计算平台间的性能移植. 展开更多
关键词 opencl 负载不均衡 任务队列 线程与任务动态映射 性能移植
在线阅读 下载PDF
异构平台上基于OpenCL的FFT实现与优化 被引量:8
5
作者 李焱 张云泉 +1 位作者 王可 赵美超 《计算机科学》 CSCD 北大核心 2011年第8期284-286,296,共4页
快速傅立叶变换作为20世纪公认的最重要的基础算法之一,在大规模科学计算处理、数字信号处理、图形图像仿真等众多领域有着广泛的应用。OpenCL是首个面向异构系统通用的并行编程标准,为软件开发人员提供了统一的面向异构系统的并行编程... 快速傅立叶变换作为20世纪公认的最重要的基础算法之一,在大规模科学计算处理、数字信号处理、图形图像仿真等众多领域有着广泛的应用。OpenCL是首个面向异构系统通用的并行编程标准,为软件开发人员提供了统一的面向异构系统的并行编程环境。首先,在异构平台Cell和GPU上使用OpenCL实现了基于2的幂一维FFT,并对其进行了测试和分析,在Cell平台上当数据规模适中时它能够达到SDK性能的65%,当数据规模继续增大时,相对性能有所降低。此外,针对Nvidia Fermi平台,手工调优了小因子的FFT,使其性能接近于CUFFT的140%。 展开更多
关键词 FFT opencl Cell CUDA GPU 快速傅立叶变换
在线阅读 下载PDF
基于OpenCL的异构系统并行编程 被引量:23
6
作者 詹云 赵新灿 谭同德 《计算机工程与设计》 CSCD 北大核心 2012年第11期4191-4195,4293,共6页
针对异构处理器在传统通用计算中利用率低的问题,提出基于开放计算语言OpenCL(open computing language)的新的通用计算技术,它提供了统一的编程模型。介绍了OpenCL的特点、架构及实现原理等,并提出OpenCL性能优化策略。将OpenCL与计算... 针对异构处理器在传统通用计算中利用率低的问题,提出基于开放计算语言OpenCL(open computing language)的新的通用计算技术,它提供了统一的编程模型。介绍了OpenCL的特点、架构及实现原理等,并提出OpenCL性能优化策略。将OpenCL与计算统一设备架构CUDA(compute unified device architecture)及其它通用计算技术进行对比。对比结果表明,OpenCL能够充分发挥异构处理平台上各种处理器的性能潜力,充分合理地分配任务,为进行大规模并行计算提供了新的强有力的工具。 展开更多
关键词 异构处理器 通用计算 开放计算语言(opencl) 性能优化 计算统一设备架构(CUDA)
在线阅读 下载PDF
面向OpenCL模型的GPU性能优化 被引量:21
7
作者 陈钢 吴百锋 《计算机辅助设计与图形学学报》 EI CSCD 北大核心 2011年第4期571-581,共11页
GPU的高性价比吸引了越来越多的通用计算.为充分发挥异构处理平台下GPU的通用计算能力,提出面向OpenCL模型的性能优化方法.该方法建立源程序的多面体表示,分别对GPU的全局存储器和快速存储器进行优化与分配;通过检测存储访问模式... GPU的高性价比吸引了越来越多的通用计算.为充分发挥异构处理平台下GPU的通用计算能力,提出面向OpenCL模型的性能优化方法.该方法建立源程序的多面体表示,分别对GPU的全局存储器和快速存储器进行优化与分配;通过检测存储访问模式发掘可向量化的存储访问实例,利用数据空间变换对存储访问模式进行转换,进而使用向量数据类型提高片外存储器的带宽利用率;通过检测程序中的数据重用,根据数据的访问属性和OpenCL存储模型的特性实现快速存储器的有效分配与优化,提高了片上存储器的使用效率.采用文中方法对6个测试程序进行实验的结果表明,程序的性能提高了1.6~8.4倍,证实了其有效性. 展开更多
关键词 opencl GPU 性能优化 异构处理 通用计算 多面体表示
在线阅读 下载PDF
基于OpenCL的图像积分图算法优化研究 被引量:6
8
作者 贾海鹏 张云泉 徐建良 《计算机科学》 CSCD 北大核心 2013年第2期1-7,共7页
图像积分图算法在快速特征检测中有着广泛的应用,通过GPU对其进行性能加速有着重要的现实意义。然而由于GPU硬件架构的复杂性和不同硬件体系架构间的差异性,完成图像积分图算法在GPU上的优化,进而实现不同GPU平台间的性能移植是一件非... 图像积分图算法在快速特征检测中有着广泛的应用,通过GPU对其进行性能加速有着重要的现实意义。然而由于GPU硬件架构的复杂性和不同硬件体系架构间的差异性,完成图像积分图算法在GPU上的优化,进而实现不同GPU平台间的性能移植是一件非常困难的工作。在分析不同GPU平台底层硬件架构的基础上,从片外访存带宽利用率、计算资源利用率和数据本地化等多个角度考察了不同优化方法在不同GPU硬件平台上对性能的影响。并在此基础上实现了基于OpenCL的图像积分图算法。实验结果表明,优化后的算法在AMD和NVIDIA GPU上分别取得了11.26和12.38倍的性能加速,优化后的GPU kernel比NVIDIA NPP库中的相应函数也分别取得了55.01%和65.17%的性能提升。验证了提出的优化方法的有效性和性能可移植性。 展开更多
关键词 opencl GPU 图像积分图算法 跨平台
在线阅读 下载PDF
面向OpenCL架构的大规模生物序列比对 被引量:2
9
作者 陈钢 韦刚 +2 位作者 李国波 裴颂文 吴百锋 《小型微型计算机系统》 CSCD 北大核心 2012年第2期392-398,共7页
为提高生物序列比对算法的性能和效率,提出一种异构处理平台下可移植的大规模生物序列比对算法及其优化方法.通过改变原有Smith-Waterman算法的计算流程和数据依赖关系,增加序列比对的并行性;通过改变存储器布局后使用向量数据类型,提... 为提高生物序列比对算法的性能和效率,提出一种异构处理平台下可移植的大规模生物序列比对算法及其优化方法.通过改变原有Smith-Waterman算法的计算流程和数据依赖关系,增加序列比对的并行性;通过改变存储器布局后使用向量数据类型,提高全局存储器的带宽利用率;通过增加偏移量改变存储器模块的映射方式,避免模块访问冲突,提高局部存储器的使用效率.实验结果表明,优化后的生物序列比对性能提升了近100倍. 展开更多
关键词 opencl GPU 生物序列比对 SMITH-WATERMAN算法
在线阅读 下载PDF
OpenCL加速的基于虚拟节点法的柔性体实时切割仿真 被引量:2
10
作者 贾世宇 潘振宽 张维忠 《计算机辅助设计与图形学学报》 EI CSCD 北大核心 2014年第10期1852-1859,共8页
为了提高柔性体变形仿真运行速度并且解决切割对变形计算稳定性的负面影响,提出了能与GPU加速的变形算法协同运作的基于虚拟节点法的柔性体实时切割仿真方法.柔性体模型由真实四面体网格嵌入虚拟四面体网格中构成,前者用于碰撞处理和图... 为了提高柔性体变形仿真运行速度并且解决切割对变形计算稳定性的负面影响,提出了能与GPU加速的变形算法协同运作的基于虚拟节点法的柔性体实时切割仿真方法.柔性体模型由真实四面体网格嵌入虚拟四面体网格中构成,前者用于碰撞处理和图形渲染,而后者则用于变形计算.切割算法首先分裂真实四面体网格;然后复制包含超过一块真实四面体连通碎片的虚拟四面体,每个复制品包含一块真实四面体碎片;再根据真实四面体之间的连接关系更新虚拟四面体之间的连接关系;最后更新真实四面体网格与虚拟四面体网格之间的镶嵌关系.为了确保仿真系统不被限制在NVIDIA公司的GPU上,GPU加速使用OpenCL实现.仿真测试结果表明,该方法可以在任意多次切割情况下保持变形计算稳定不发散,并且在NVIDIA公司和AMD公司的GPU上都可以正确运行. 展开更多
关键词 柔性体 实时变形 实时切割仿真 虚拟节点法 GPU加速 opencl
在线阅读 下载PDF
基于OpenCL的Prewitt算法的并行实现 被引量:5
11
作者 马歌 肖汉 《现代电子技术》 2014年第20期103-106,共4页
Prewitt算法是数字图像分割中最常用的边缘检测算法。采用传统CPU上的串行方法实现该算法需要较大的计算量、耗时较长,因此,通过GPU对其进行性能加速有着重要的意义。然而由于GPU硬件体系结构的差异性,跨平台移植是一件非常困难的工作... Prewitt算法是数字图像分割中最常用的边缘检测算法。采用传统CPU上的串行方法实现该算法需要较大的计算量、耗时较长,因此,通过GPU对其进行性能加速有着重要的意义。然而由于GPU硬件体系结构的差异性,跨平台移植是一件非常困难的工作。针对上述问题,提出了一种基于OpenCL异构框架的Prewitt图像边缘检测并行算法。实验结果表明,该并行算法比CPU上的串行算法运行速度快,加速比可达30倍,有效地提高了大规模数据处理的效率,可移植性好,具有较高的应用价值。 展开更多
关键词 opencl 异构框架 边缘检测 Prewitt算法 并行实现
在线阅读 下载PDF
基于OpenCL并行流动影响三维共晶生长多相场模拟 被引量:1
12
作者 朱昶胜 金显 +1 位作者 冯力 肖荣振 《兰州理工大学学报》 CAS 北大核心 2019年第1期11-17,共7页
基于KKSO三维多元合金共晶多相场模型,研究了OpenCL+GPU软硬件体系结构的高性能计算方法,以CBr_4-C_2Cl_6为例,分别在AMD和NVIDIA 2种异构平台上通过多进程和多线程的并发执行实现了强迫对流下三维共晶组织的演化过程.结果表明:当计算... 基于KKSO三维多元合金共晶多相场模型,研究了OpenCL+GPU软硬件体系结构的高性能计算方法,以CBr_4-C_2Cl_6为例,分别在AMD和NVIDIA 2种异构平台上通过多进程和多线程的并发执行实现了强迫对流下三维共晶组织的演化过程.结果表明:当计算规模相同时,分别在不同的平台上取得了一定的加速比.对并行算法在一定程度上进行优化,与CPU平台上的串行算法相比优化后的并行算法在异构平台上分别达到了20.2倍和23.6倍的加速比,大大提高了计算效率.同时,以其强大的浮点计算能力获取较为准确的模拟结果,达到计算效率和可移植性的双重需求,解决了传统求解相场模型存在的计算量大、效率低、限于定性研究等问题. 展开更多
关键词 opencl KKSO模型 共晶生长 相场法 数值模拟
在线阅读 下载PDF
基于国产软硬件的OpenCL计算平台研究 被引量:2
13
作者 安婷玉 郭宝宝 《计算机工程与科学》 CSCD 北大核心 2019年第11期1919-1923,共5页
随着智能计算和大数据应用的发展,人们对GPU等加速部件的需求不断增长。基于国产基础软硬件平台运行显控应用做加速计算的需求,研究了OpenCL计算平台的移植和实现途径,就国产软硬件平台进行GPU计算做出了初步探索。研究的计算平台包括M... 随着智能计算和大数据应用的发展,人们对GPU等加速部件的需求不断增长。基于国产基础软硬件平台运行显控应用做加速计算的需求,研究了OpenCL计算平台的移植和实现途径,就国产软硬件平台进行GPU计算做出了初步探索。研究的计算平台包括Mesa、ROCm、Pocl和Beignet,最后给出了如何将ROCm在国产平台上移植适配的思路和解决方案。 展开更多
关键词 国产基础软硬件 opencl计算平台 移植 GPU计算
在线阅读 下载PDF
基于OpenCL并行的挡板对珠光体生长的相场法模拟
14
作者 朱昶胜 李玉杰 +2 位作者 马芳兰 冯力 雷鹏 《兰州理工大学学报》 CAS 北大核心 2021年第2期13-20,共8页
建立了耦合相场和溶质场的KKSO模型,采用OpenCL并行计算模拟了Fe-C合金共析生长过程,研究了不同形状和不同位置的挡板对层片状珠光体协同生长的影响.结果表明:GPU计算效率相对于串行CPU,最高可达88倍的加速比,并且随着模拟规模的增大,GP... 建立了耦合相场和溶质场的KKSO模型,采用OpenCL并行计算模拟了Fe-C合金共析生长过程,研究了不同形状和不同位置的挡板对层片状珠光体协同生长的影响.结果表明:GPU计算效率相对于串行CPU,最高可达88倍的加速比,并且随着模拟规模的增大,GPU的加速性能越高;挡板的存在直接影响珠光体的形貌演化,其使挡板下方的珠光体生长被限制,穿过挡板间隙的珠光体形貌发生改变;当挡板位于渗碳体和铁素体界面正上方时,挡板两侧渗碳体相合并为不规则形状,渗碳体相前沿碳原子不能满足其生长需求,停止生长,相邻铁素体合为一个相.因此挡板的存在可以控制珠光体的生长形貌. 展开更多
关键词 KKSO模型 opencl FE-C合金 层片状珠光体 挡板
在线阅读 下载PDF
面向神威·太湖之光的国产异构众核处理器OpenCL编译系统 被引量:8
15
作者 伍明川 黄磊 +2 位作者 刘颖 何先波 冯晓兵 《计算机学报》 EI CSCD 北大核心 2018年第10期2236-2250,共15页
近年来硬件设计呈现出异构化的趋势,如何有效开发并行程序成为制约异构系统发展的瓶颈之一已成为业界共识.我国自主研制的"神威·太湖之光"超级计算机,采用了国产片上异构众核处理器SW26010,为了降低程序员的编程难度,同... 近年来硬件设计呈现出异构化的趋势,如何有效开发并行程序成为制约异构系统发展的瓶颈之一已成为业界共识.我国自主研制的"神威·太湖之光"超级计算机,采用了国产片上异构众核处理器SW26010,为了降低程序员的编程难度,同时提高软件的移植效率,作者设计并实现了支持国产SW26010众核处理器的OpenCL编译系统.该编译系统实现了OpenCL平台模型、内存模型和执行模型到SW26010众核处理器的映射与优化机制,同时生成性能良好的可执行文件.最后通过实验验证了该编译系统的正确性和有效性,典型OpenCL应用经该编译系统编译后,在中小输入规模下,性能显著优于Intel Xeon Phi,与NVIDIA GPU可比;在较大输入规模下,受限于局存SPM的容量限制,性能略低于NVIDIA GPU. 展开更多
关键词 opencl 异构 国产众核处理器 编译系统
在线阅读 下载PDF
基于OpenCL的实时KD-Tree与动态场景光线跟踪 被引量:8
16
作者 卢贺齐 鲍鹏 冯结青 《计算机辅助设计与图形学学报》 EI CSCD 北大核心 2013年第7期963-973,共11页
目前,基于GPU或多核CPU加速的光线跟踪算法是与硬件相关的.研究具有跨平台性能的实时光线跟踪算法既具有挑战性,又具有很强的应用价值.为此,提出一种基于OpenCL并且跨平台的动态场景实时光线跟踪绘制算法.首先通过对通用GPU并行处理性... 目前,基于GPU或多核CPU加速的光线跟踪算法是与硬件相关的.研究具有跨平台性能的实时光线跟踪算法既具有挑战性,又具有很强的应用价值.为此,提出一种基于OpenCL并且跨平台的动态场景实时光线跟踪绘制算法.首先通过对通用GPU并行处理性能进行发掘,将光线跟踪中KD-Tree建立、场景遍历和绘制3个过程均设计在GPU上,而CPU只负责其中各过程的调度,从而充分利用了GPU的计算性能,并有效地降低了数据传输开销;通过设计并行分区、并行SAH、紧密的数据管理以及区间性叶结点存储等算法,在GPU中高效、高质量地建立动态场景的KD-Tree,同时高质量的KD-Tree也有效地加速了场景的遍历速度.该算法以广度优先和大规模并行模式建立KD-Tree,更具通用性,既可以运行于NVIDIA GPU(CUDA GPU),也可以运行于AMD GPU.实验结果表明,文中算法可以在NVIDIA GPU和AMD GPU上对中等规模的动态场景实现实时光线跟踪绘制. 展开更多
关键词 KD—Tree 表面积启发式 GPU并行计算 opencl 光线跟踪 动态场景
在线阅读 下载PDF
基于OpenCL的图像模糊化算法优化研究 被引量:6
17
作者 张樱 张云泉 龙国平 《计算机科学》 CSCD 北大核心 2012年第3期260-264,共5页
现代GPU一般都提供特定硬件(如纹理部件、光栅化部件及各种片上缓存)以加速二维图像的处理和显示过程,相应的编程模型(CUDA、OpenCL)都定义了特定程序设计接口(CUDA的纹理内存,OpenCL的图像对象)以便图像应用能利用相关硬件支持。以典... 现代GPU一般都提供特定硬件(如纹理部件、光栅化部件及各种片上缓存)以加速二维图像的处理和显示过程,相应的编程模型(CUDA、OpenCL)都定义了特定程序设计接口(CUDA的纹理内存,OpenCL的图像对象)以便图像应用能利用相关硬件支持。以典型图像模糊化处理算法在AMD平台GPU的优化为例,探讨了OpenCL的图像对象在图像算法优化上的适用范围,尤其是分析了其相对于更通用的基于全局内存加片上局部存储进行性能优化的方法的优劣。实验结果表明,图像对象只有在图像为四通道且计算过程中需要缓存的数据量较小时才能带来较好的性能改善,其余情况采用全局内存加局部存储都能获得较好性能。优化后的算法性能相对于精心实现的CPU版加速比为200~1000;相对于NVIDIA NPP库相应函数的性能加速比为1.3~5。 展开更多
关键词 AMD GPU BLUR opencl 图像对象
在线阅读 下载PDF
面向OpenCL架构的GPGPU量化性能模型 被引量:3
18
作者 朱俊峰 陈钢 +1 位作者 张珂良 吴百锋 《小型微型计算机系统》 CSCD 北大核心 2013年第5期1118-1125,共8页
为了评估数据并行(DLP)应用并行化后在GPU体系结构上的执行性能,针对OpenCL架构提出一种GPGPU量化性能模型.该模型充分考虑了影响GPGPU程序性能的各种因素:全局存储器访问、局部存储器访问、计算与访存重叠、条件分支转移和同步.通过对... 为了评估数据并行(DLP)应用并行化后在GPU体系结构上的执行性能,针对OpenCL架构提出一种GPGPU量化性能模型.该模型充分考虑了影响GPGPU程序性能的各种因素:全局存储器访问、局部存储器访问、计算与访存重叠、条件分支转移和同步.通过对DLP应用的静态分析并设定具体的OpenCL执行配置,在无需编写实际GPGPU程序的前提下采用该模型即可估算出DLP应用在GPU体系结构上的执行时间.在AMD RadeonTMHD 5870 GPU和NVIDIA GeForceTMGTX 280 GPU上对矩阵乘法与并行前缀和的分析与实验结果表明:该性能模型能够相对准确地评估DLP应用并行化后的执行时间. 展开更多
关键词 GPU GPGPU 数据并行 opencl 性能模型
在线阅读 下载PDF
利用OpenCL设计并优化FPGA上的全连接神经网络 被引量:5
19
作者 周鑫 安虹 +2 位作者 迟孟贤 金旭 韩文廷 《小型微型计算机系统》 CSCD 北大核心 2019年第2期348-352,共5页
随着深度学习神经网络的发展,FPGA上的神经网络开发获得了广泛关注.本文利用Intel FPGA提供的OpenCL SDK,在FPGA板卡上设计并实现了完整的全连接神经网络的前向模型,并针对基准系统中的存储瓶颈,通过分组划分、数据复用、优化激活函数... 随着深度学习神经网络的发展,FPGA上的神经网络开发获得了广泛关注.本文利用Intel FPGA提供的OpenCL SDK,在FPGA板卡上设计并实现了完整的全连接神经网络的前向模型,并针对基准系统中的存储瓶颈,通过分组划分、数据复用、优化激活函数、单指令多数据流、浮点数半精化等策略进行优化,平衡了系统中的资源占用情况,扩大了电路规模,提升了系统性能;优化后的版本与基准版本相比,得到了2. 19x的加速.优化后,系统的主频达到380MHz,RAM占用率达到94%,DSP占用率达到42%. 展开更多
关键词 FPGA opencl 全连接神经网络 优化
在线阅读 下载PDF
面向OpenCL的Mali GPU仿真器构建研究 被引量:2
20
作者 崔继岳 梅魁志 +1 位作者 刘冬冬 李博良 《西安交通大学学报》 EI CAS CSCD 北大核心 2015年第2期20-24,68,共6页
针对嵌入式GPU通用计算的仿真器构建需求,通过对通用图形处理单元仿真器(general purpose graphics processing unit-simulator,GPGPU-sim)的计算核心、存储结构与Mali GPU的异同进行比较分析,首先建立面向OpenCL的Mali GPU仿真器的流... 针对嵌入式GPU通用计算的仿真器构建需求,通过对通用图形处理单元仿真器(general purpose graphics processing unit-simulator,GPGPU-sim)的计算核心、存储结构与Mali GPU的异同进行比较分析,首先建立面向OpenCL的Mali GPU仿真器的流程与结构,并设计计算单元数、寄存器数、最小并行粒度等GPU微体系结构参数的获取方法,在对GPGPU-sim进行修改和配置后,实现了对特定GPU架构的仿真器构建。使用矩阵相乘、图像处理等OpenCL程序对仿真器的准确性进行测试,以程序在仿真器和硬件平台上的执行周期数差距作为评估依据。实验结果表明:对于测试程序集中优化前的OpenCL程序,其中70%的程序在两个平台上的运行周期数差距不超过30%;对于优化后的OpenCL程序,其中90%的程序的运行周期数差距不超过30%。由此证明,构建的GPU仿真器能够满足OpenCL程序的仿真与性能评估。 展开更多
关键词 图形处理器 opencl 微体系结构参数 仿真器
在线阅读 下载PDF
上一页 1 2 6 下一页 到第
使用帮助 返回顶部