期刊文献+
共找到258篇文章
< 1 2 13 >
每页显示 20 50 100
GPGPU和CUDA统一内存研究现状综述 被引量:2
1
作者 庞文豪 王嘉伦 翁楚良 《计算机工程》 CAS CSCD 北大核心 2024年第12期1-15,共15页
在大数据背景下,随着科学计算、人工智能等领域的快速发展,各领域对硬件的算力要求越来越高。图形处理器(GPU)特殊的硬件架构,使其适合进行高并行度的计算,并且近年来GPU与人工智能、科学计算等领域互相发展促进,使GPU功能细化,逐渐发... 在大数据背景下,随着科学计算、人工智能等领域的快速发展,各领域对硬件的算力要求越来越高。图形处理器(GPU)特殊的硬件架构,使其适合进行高并行度的计算,并且近年来GPU与人工智能、科学计算等领域互相发展促进,使GPU功能细化,逐渐发展出了成熟的通用图形处理器(GPGPU),目前GPGPU已成为中央处理器(CPU)最重要的协处理器之一。然而,GPU硬件配置在出厂后不容易更改且显存容量有限,在处理大数据集时显存容量不足的缺点对计算性能造成较大的影响。统一计算设备架构(CUDA)6.0推出了统一内存,使GPGPU和CPU可以共享虚拟内存空间,以此来简化异构编程和扩展GPGPU可访问的内存空间。统一内存为GPGPU处理大数据集提供了一项可行的解决方案,在一定程度上缓解了GPU显存容量较小的问题,但是统一内存的使用也带来了一些性能问题,如何在统一内存中做好内存管理成为性能提升的关键。本研究对CUDA统一内存的发展和应用进行综述,包括CUDA统一内存的特性、发展、优势和局限性以及在人工智能、大数据处理系统等领域的应用和未来的发展前景,为未来使用和优化CUDA统一内存的研究工作提供有价值的参考。 展开更多
关键词 通用图形处理器 统一内存 显存超额订阅 数据管理 异构系统
在线阅读 下载PDF
基于GPGPU的Lattice-Boltzmann数值模拟算法 被引量:11
2
作者 周季夫 钟诚文 +2 位作者 尹世群 解建飞 张勇 《计算机辅助设计与图形学学报》 EI CSCD 北大核心 2008年第7期912-918,共7页
对Lattice Boltzmann方法(LBM)在GPGPU下的建模和算法进行了一系列研究,使得该方法在GPU下的计算加速比提升,大大缩短计算过程的时间消耗.重新设计了GPU的计算流程,在舍弃pixel buffer离屏渲染的同时,采用最新的帧缓存对象,多重纹理、... 对Lattice Boltzmann方法(LBM)在GPGPU下的建模和算法进行了一系列研究,使得该方法在GPU下的计算加速比提升,大大缩短计算过程的时间消耗.重新设计了GPU的计算流程,在舍弃pixel buffer离屏渲染的同时,采用最新的帧缓存对象,多重纹理、多通道渲染和乒乓技术来设计一套基于方腔的LBM数值模拟程序,最终使GPU的计算时间缩短到CPU计算时间的六分之一. 展开更多
关键词 基于图形处理器的通用计算 帧缓存扩展 多重渲染目标 Lattice-Boltzmann方法 反弹边界 乒乓技术
在线阅读 下载PDF
基于GPGPU和CUDA的高速AES算法的实现和优化 被引量:3
3
作者 顾青 高能 +1 位作者 包珍珍 向继 《中国科学院研究生院学报》 CAS CSCD 北大核心 2011年第6期776-785,共10页
随着高性能计算需求的不断增长,人们开始将目光投向具有强大计算能力及高存储带宽的GPU设备.与擅长处理复杂性逻辑事务的CPU相比,GPGPU(general purpose graphicprocessing unit,通用图形处理器)更适合于大规模数据并行处理.CUDA(comput... 随着高性能计算需求的不断增长,人们开始将目光投向具有强大计算能力及高存储带宽的GPU设备.与擅长处理复杂性逻辑事务的CPU相比,GPGPU(general purpose graphicprocessing unit,通用图形处理器)更适合于大规模数据并行处理.CUDA(compute unified devicearchitecture,统一计算架构)的出现更加速了GPGPU应用面的扩张.基于GPGPU和CUDA技术对AES算法的实现进行加速,得到整体吞吐量6~7Gbit/s的速度.如果不考虑数据加载时间,对于1MB以上的输入规模,吞吐量可以达到20Gbit/s. 展开更多
关键词 通用图像处理器 统一计算架构 AES算法 并行计算
在线阅读 下载PDF
面向OpenCL的GPGPU微基准测试程序集的研究与实现 被引量:2
4
作者 杨海燕 史晓华 +3 位作者 孙清越 晏望龙 严鑫 金茂忠 《系统工程与电子技术》 EI CSCD 北大核心 2013年第12期2631-2642,共12页
随着通用图形处理器(general-purpose graphics processing unit,GPGPU)的广泛应用,GPGPU成为当前实现计算并行化的主要硬件平台之一。开放计算语言(open computing language,OpenCL)是一个开放的、面向异构系统平台的并行计算标准,支... 随着通用图形处理器(general-purpose graphics processing unit,GPGPU)的广泛应用,GPGPU成为当前实现计算并行化的主要硬件平台之一。开放计算语言(open computing language,OpenCL)是一个开放的、面向异构系统平台的并行计算标准,支持在包括图形处理器(graphics processing unit,GPU)在内的多种微处理器架构上开发和运行并行程序。针对OpenCL平台开发了一套较完整的GPGPU微基准测试程序集,全面测试了GPU的单精浮点运算能力、GPU体系结构中各类存储单元的读写带宽及最佳访问模式等。这些面向OpenCL的GPGPU微基准测试程序,对OpenCL及GPGPU软件架构的设计者及使用者,均具有重要的实用和参考价值。 展开更多
关键词 计算机系统结构 微基准测试程序集 通用图形处理器 开放计算语言
在线阅读 下载PDF
基于GPGPU的海量山地地形数据的实时绘制算法 被引量:3
5
作者 王春 马纯永 陈戈 《计算机应用》 CSCD 北大核心 2009年第8期2105-2108,共4页
针对山地地形海量数据的特点,基于GPU的GeometricalClipmap算法,应用简化的工作流程,结合GPGPU技术,采用了一种更为合理的高程数据组织交换模式,通过引入高程误差数据巧妙地解决不同分辨率之间的裂缝问题,并对高分辨率的遥感影像作为地... 针对山地地形海量数据的特点,基于GPU的GeometricalClipmap算法,应用简化的工作流程,结合GPGPU技术,采用了一种更为合理的高程数据组织交换模式,通过引入高程误差数据巧妙地解决不同分辨率之间的裂缝问题,并对高分辨率的遥感影像作为地形纹理的实现方法加以补充,进而实现可应用于虚拟现实系统的海量地形数据的实时可视化。 展开更多
关键词 基于GPU的通用计算 几何体剪切图 山地地形 海量数据
在线阅读 下载PDF
基于2阶段同步的GPGPU线程块压缩调度方法 被引量:1
6
作者 张军 何炎祥 +2 位作者 沈凡凡 江南 李清安 《计算机研究与发展》 EI CSCD 北大核心 2016年第6期1173-1185,共13页
通用图形处理器(general purpose graphics processing unit,GPGPU)在面向高性能计算、高吞吐量的通用计算领域的应用日益广泛,它采用的SIMD(single instruction multiple data)执行模式使其能获得强大的并行计算能力.目前主流的通用图... 通用图形处理器(general purpose graphics processing unit,GPGPU)在面向高性能计算、高吞吐量的通用计算领域的应用日益广泛,它采用的SIMD(single instruction multiple data)执行模式使其能获得强大的并行计算能力.目前主流的通用图形处理器均通过大量高度并行的线程完成计算任务的高效执行.但是在处理条件分支转移的控制流中,由于通用图形处理器采用串行的方式顺序处理不同的分支路径,使得其并行计算能力受到影响.在分析讨论前人针对分支转移处理低效的线程块压缩重组调度方法的基础上,提出了2阶段同步的线程块压缩重组调度方法 TSTBC(two-stage synchronization based thread block compaction scheduling),通过线程块压缩重组适合性判断逻辑部件,分2个阶段对线程块进行压缩重组有效性分析,进一步减少了无效的线程块压缩重组次数.模拟实验结果表明:该方法较好地提高了线程块的压缩重组有效性,相对于其他同类方法降低了对线程组内部数据局部性的破坏,并使得片上一级数据cache的访问失效率得到有效降低;相对于基准体系结构,系统性能提升了19.27%. 展开更多
关键词 通用图形处理器 线程调度 线程块压缩重组 2阶段同步 分支转移
在线阅读 下载PDF
基于通用图形处理器的神经网络并行推理加速
7
作者 王重熙 章隆兵 《高技术通讯》 北大核心 2025年第3期250-261,共12页
通用图形处理器(general purpose graphics processing unit,GPGPU)是目前加速人工智能(artificial intelligence,AI)负载最主要的算力来源,其内存带宽和峰值算力随着AI模型的发展而迅速提高。然而,在神经网络的推理过程中,单样本或小... 通用图形处理器(general purpose graphics processing unit,GPGPU)是目前加速人工智能(artificial intelligence,AI)负载最主要的算力来源,其内存带宽和峰值算力随着AI模型的发展而迅速提高。然而,在神经网络的推理过程中,单样本或小批量的推理难以同时充分利用通用图形处理器中不同的计算、存储和访存资源,造成部分资源闲置。对此,本文提出了基于通用图形处理器的神经网络并行推理加速方法,在通用图形处理器上同时推理多个神经网络,通过同时执行互补的神经网络层充分利用通用图形处理器中的各类资源。首先,使用PyTorch中的统一计算设备架构(compute unified device architecture,CUDA)流以及直接在CUDA流中调用CUDA基础线性代数子程序库(CUDA basic linear algebra subprograms,cuBLAS)和CUDA深度神经网络库(CUDA deep neural network library,cuDNN)2种方式,在它们并行加速效果不及预期的情况下,根据性能分析结果确定了NVIDIA通用图形处理器负载调度机制中对多负载并行的限制因素。随后,基于特定的调度机制,提出了更适合多负载并行核函数的设计方法,并实现了主要的神经网络算子,基于此方法在真实的通用图形处理器平台上实现了神经网络并行推理加速。在RTX3080通用图形处理器上的测试结果表明,该神经网络并行推理加速方法对主流神经网络的并行推理达到了平均1.94倍的加速效果,相较于直接调用cuBLAS和cuDNN库平均1.34倍的加速效果提高了45%,不仅验证了在通用图形处理器上实现神经网络并行推理加速的可行性,同时也为其他各类负载在通用图形处理器上的多负载并行加速提供了道路。 展开更多
关键词 多负载并行加速 神经网络推理 通用图形处理器
在线阅读 下载PDF
基于GPGPU的准实时测频技术
8
作者 张朝晖 於建生 +1 位作者 薛钰娟 徐勤建 《雷达科学与技术》 2011年第2期183-187,共5页
简要介绍了GPGPU技术及CUDA编程架构,并在CUDA技术的基础上应用现代信号处理的方法实现了对超高速采样信号的准实时数字测频算法。仿真表明算法内核的计算延时很小;通过对现场1GHz超高速采样实际信号数据的验证,证明该技术能够满足准实... 简要介绍了GPGPU技术及CUDA编程架构,并在CUDA技术的基础上应用现代信号处理的方法实现了对超高速采样信号的准实时数字测频算法。仿真表明算法内核的计算延时很小;通过对现场1GHz超高速采样实际信号数据的验证,证明该技术能够满足准实时测量频率和其他脉冲参数的要求,同时对每一脉冲还可给出测频参考误差;并且在典型信噪比下,测频精度远高于模拟测频接收机。该实现与其他实现方案相比,灵活性更好,性价比更高,具有良好的应用前景。 展开更多
关键词 通用图形处理器(gpgpu) 准实时 数字测频 超高速采样
在线阅读 下载PDF
基于GPGPU的生物序列快速比对 被引量:5
9
作者 马海晨 韦刚 吴百峰 《计算机工程》 CAS CSCD 2012年第4期241-244,共4页
在CPU-GPU异构平台下,提出一种高效的生物序列比对方案。该方案利用GPU的并行处理能力,通过对读延迟、写延迟、重组函数及数据传输进行优化,在OpenCL框架下重构Smith-Waterman算法,加快生物序列比对速度。实验结果证明,与CPU上传统的串... 在CPU-GPU异构平台下,提出一种高效的生物序列比对方案。该方案利用GPU的并行处理能力,通过对读延迟、写延迟、重组函数及数据传输进行优化,在OpenCL框架下重构Smith-Waterman算法,加快生物序列比对速度。实验结果证明,与CPU上传统的串行算法相比,该算法最高可获得约100倍的性能提升。 展开更多
关键词 生物信息学 序列比对 通用图形处理器 SMITH-WATERMAN算法 OpenCL框架
在线阅读 下载PDF
基于GPGPU的实体表面实时提取 被引量:1
10
作者 黎柏春 杨建宇 +1 位作者 于天彪 王宛山 《计算机工程与设计》 CSCD 北大核心 2014年第12期4273-4277,共5页
为实时提取三维实体表面,提出一种基于GPGPU并行计算的实体表面实时提取方法。在分析深度剥离算法原理和GPU图形绘制管线的基础上,给出在GPU上利用深度剥离算法实现实时提取三维实体表面的算法;通过OpenGL的高级着色语言GLSL控制GPU的... 为实时提取三维实体表面,提出一种基于GPGPU并行计算的实体表面实时提取方法。在分析深度剥离算法原理和GPU图形绘制管线的基础上,给出在GPU上利用深度剥离算法实现实时提取三维实体表面的算法;通过OpenGL的高级着色语言GLSL控制GPU的图形绘制管线实现了该算法,给出其伪代码。以龙、叶轮和刀具扫描体的模型为应用实例验证了该算法效果良好,特别是对于刀具扫描体表面的提取,可满足实时性要求。 展开更多
关键词 通用图形处理器 深度剥离 表面提取 OPENGL OpenGL着色语言
在线阅读 下载PDF
基于GPGPU的大整数矩阵行列式快速准确计算方法 被引量:1
11
作者 魏渐俊 陈良育 《计算机工程》 CAS CSCD 北大核心 2018年第3期47-54,共8页
传统计算数值矩阵行列式的方法多数基于串行计算,存在初等变换频繁、计算缓慢等问题。为此,提出基于通用计算图形处理器(GPGPU)的计算方法,以快速准确解决大整数矩阵行列式计算问题。在众核环境下利用GPGPU和模方法并行求解整数矩阵行列... 传统计算数值矩阵行列式的方法多数基于串行计算,存在初等变换频繁、计算缓慢等问题。为此,提出基于通用计算图形处理器(GPGPU)的计算方法,以快速准确解决大整数矩阵行列式计算问题。在众核环境下利用GPGPU和模方法并行求解整数矩阵行列式,以加速计算过程并避免浮点运算误差,同时运用中国剩余定理得到准确计算结果。实验结果表明,与常用Maple、NTL等计算软件相比,该方法计算速度快,消耗内存少,可解决计算过程中内存膨胀的问题,对于高阶整数矩阵行列式优势较为明显。 展开更多
关键词 通用计算图形处理器 行列式 高性能计算 并行算法 模方法
在线阅读 下载PDF
隐私计算环境下深度学习的GPU加速技术综述 被引量:1
12
作者 秦智翔 杨洪伟 +2 位作者 郝萌 何慧 张伟哲 《信息安全研究》 CSCD 北大核心 2024年第7期586-593,共8页
随着深度学习技术的不断发展,神经网络模型的训练时间越来越长,使用GPU计算对神经网络训练进行加速便成为一项关键技术.此外,数据隐私的重要性也推动了隐私计算技术的发展.首先介绍了深度学习、GPU计算的概念以及安全多方计算、同态加密... 随着深度学习技术的不断发展,神经网络模型的训练时间越来越长,使用GPU计算对神经网络训练进行加速便成为一项关键技术.此外,数据隐私的重要性也推动了隐私计算技术的发展.首先介绍了深度学习、GPU计算的概念以及安全多方计算、同态加密2种隐私计算技术,而后探讨了明文环境与隐私计算环境下深度学习的GPU加速技术.在明文环境下,介绍了数据并行和模型并行2种基本的深度学习并行训练模式,分析了重计算和显存交换2种不同的内存优化技术,并介绍了分布式神经网络训练过程中的梯度压缩技术.介绍了在隐私计算环境下安全多方计算和同态加密2种不同隐私计算场景下的深度学习GPU加速技术.简要分析了2种环境下GPU加速深度学习方法的异同. 展开更多
关键词 深度学习 GPU计算 隐私计算 安全多方计算 同态加密
在线阅读 下载PDF
面向GPU并行编程的线程同步综述 被引量:1
13
作者 高岚 赵雨晨 +2 位作者 张伟功 王晶 钱德沛 《软件学报》 EI CSCD 北大核心 2024年第2期1028-1047,共20页
并行计算已成为主流趋势.在并行计算系统中,同步是关键设计之一,对硬件性能的充分利用至关重要.近年来,GPU(graphic processing unit,图形处理器)作为应用最为广加速器得到了快速发展,众多应用也对GPU线程同步提出更高要求.然而,现有GP... 并行计算已成为主流趋势.在并行计算系统中,同步是关键设计之一,对硬件性能的充分利用至关重要.近年来,GPU(graphic processing unit,图形处理器)作为应用最为广加速器得到了快速发展,众多应用也对GPU线程同步提出更高要求.然而,现有GPU系统却难以高效地支持真实应用中复杂的线程同步.研究者虽然提出了很多支持GPU线程同步的方法并取得了较大进展,但GPU独特的体系结构及并行模式导致GPU线程同步的研究仍然面临很多挑战.根据不同的线程同步目的和粒度对GPU并行编程中的线程同步进行分类.在此基础上,围绕GPU线程同步的表达和执行,首先分析总结GPU线程同步存在的难以高效表达、错误频发、执行效率低的关键问题及挑战;而后依据不同的GPU线程同步粒度,从线程同步表达方法和性能优化方法两个方面入手,介绍近年来学术界和产业界对GPU线程竞争同步及合作同步的研究,对现有研究方法进行分析与总结.最后,指出GPU线程同步未来的研究趋势和发展前景,并给出可能的研究思路,从而为该领域的研究人员提供参考. 展开更多
关键词 通用图形处理器(gpgpu) 并行编程 线程同步 性能优化
在线阅读 下载PDF
gEdge:基于容器技术的云边协同的异构计算框架 被引量:3
14
作者 汪沄 汤冬劼 +2 位作者 郭开诚 戚正伟 管海兵 《计算机学报》 EI CAS CSCD 北大核心 2024年第8期1883-1900,共18页
由于按需灵活配置、高可用性、高资源利用率等优点,云计算技术成为过去十年的主流计算范式.随着万物互联时代的到来,单独依赖云计算技术已经无法满足数以亿计的IoT设备及其数据流量的需求.边缘计算可以被看作是云计算的进化,它因5G网络... 由于按需灵活配置、高可用性、高资源利用率等优点,云计算技术成为过去十年的主流计算范式.随着万物互联时代的到来,单独依赖云计算技术已经无法满足数以亿计的IoT设备及其数据流量的需求.边缘计算可以被看作是云计算的进化,它因5G网络和物联网的崛起而诞生.随着云游戏、VR技术以及人工智能技术在日常生活中的广泛运用,对计算资源的需求也在日渐增长.然而,受体积与功耗限制,处于边缘的节点设备算力较弱.本文提出了gEdge:一种基于容器技术的云边协同的异构计算框架.该框架通过GPU虚拟化技术,将云端的物理GPU资源分为多块虚拟GPU资源,按需为边缘节点提供GPU算力资源,并且对用户容器无感知.实验表明,使用gEdge框架使边缘节点使用的容器镜像体积降低了48.8%,容器启动时间降低了35.5%,平均相对运行速度提高了213%. 展开更多
关键词 图形处理器 虚拟化技术 容器技术 边缘计算 云边协同
在线阅读 下载PDF
基于GPU和角正交投影视图的多视角投影全息图
15
作者 曹雪梅 张春晓 +4 位作者 管明祥 夏林中 郭丽丽 苗玉虎 曹士平 《深圳大学学报(理工版)》 CAS CSCD 北大核心 2024年第5期536-541,共6页
针对多视角投影全息图生成速度慢的问题,提出一种基于计算机图形处理单元(graphics processing unit,GPU)的多视角投影计算全息图合成方法.获取多个角正交投影视图,充分利用GPU强大的并行计算能力,同时计算多幅投影视图对全息图的作用,... 针对多视角投影全息图生成速度慢的问题,提出一种基于计算机图形处理单元(graphics processing unit,GPU)的多视角投影计算全息图合成方法.获取多个角正交投影视图,充分利用GPU强大的并行计算能力,同时计算多幅投影视图对全息图的作用,即在计算过程中同时将沿着投影方向移位后的一系列角正交投影视图乘以其相应的常数相位因子.其中,每个投影图像的投影角决定了其移位的距离和常数相位因子.将所有并行计算结果累加,可以得到一个包含物体三维信息的二维复矩阵,即菲涅尔全息图.相较于使用计算机中央处理器(central processing unit,CPU)进行计算,本方法显著提升了计算速度,将计算效率提高了30~40倍,为多视角投影全息图的高效生成提供一种可行途径. 展开更多
关键词 信息处理技术 计算全息 全息显示 图形处理单元 角正交投影视图 多视角投影全息
在线阅读 下载PDF
基于图形处理器的水下目标传递函数多频点处理方法
16
作者 钱浩然 王斌 《舰船科学技术》 北大核心 2024年第14期153-157,共5页
为了提高水下目标宽带回波的计算速度,本文提出一种基于图形处理器GPU的散射传递函数多频点快速计算解决方案。相较于传统算法中逐个频率点计算的方式,CUDA快速算法充分利用各频点处目标强度的相对独立性,基于GPU的硬件特点,同时计算宽... 为了提高水下目标宽带回波的计算速度,本文提出一种基于图形处理器GPU的散射传递函数多频点快速计算解决方案。相较于传统算法中逐个频率点计算的方式,CUDA快速算法充分利用各频点处目标强度的相对独立性,基于GPU的硬件特点,同时计算宽带内的散射声场,从而显著提高了计算效率。本文以潜航器模型为算例,对不同网格数量下模型的目标散射传递函数计算速度进行对比分析。仿真结果表明,相较于传统的CPU串行计算,采用CUDA快速算法能够实现超过80的加速比,有效提高了计算速度。 展开更多
关键词 板块元方法 图像处理器 计算统一设备架构 并行计算
在线阅读 下载PDF
GPU加速下的三维快速分解后向投影SAS成像算法
17
作者 陶鸿博 张东升 黄勇 《系统工程与电子技术》 EI CSCD 北大核心 2024年第10期3247-3256,共10页
后向投影(back projection,BP)算法是一种精确的时域成像算法,但BP算法的计算复杂度高,难以实现实时性成像,特别是在考虑三维成像时,BP算法的计算复杂度会进一步增加。提出一种应用在合成孔径声纳(synthetic aperture sonar,SAS)上的三... 后向投影(back projection,BP)算法是一种精确的时域成像算法,但BP算法的计算复杂度高,难以实现实时性成像,特别是在考虑三维成像时,BP算法的计算复杂度会进一步增加。提出一种应用在合成孔径声纳(synthetic aperture sonar,SAS)上的三维快速分解BP(fast factorized BP,FFBP)成像算法,并利用图形处理器(graphics processing unit,GPU)加速三维FFBP算法。经过对点目标的测试,计算时间从原本的263 s降低到了2.3 s,解决了SAS中的三维成像实时性问题。同时,验证了所提算法在非理想航迹下的成像效果。结果表明,在添加幅度不超过0.1 m(一个波长以内)的正弦扰动时,所提算法对点目标仍有良好的聚焦效果。 展开更多
关键词 快速分解后向投影 并行计算 图形处理器 合成孔径声纳 三维成像
在线阅读 下载PDF
基于异构平台的图像中值滤波的OpenCL加速算法 被引量:3
18
作者 肖诗洋 王镭 +1 位作者 杜莹 肖汉 《河北大学学报(自然科学版)》 CAS 北大核心 2024年第1期92-103,共12页
图像噪声降低了图像信噪比和质量,去噪是图像处理工作的重要环节之一.本文提出了一种基于开放式计算语言(OpenCL)架构的图像中值滤波快速降噪并行算法.介绍了OpenCL体系结构特点和中值滤波处理流程.根据图形处理器(GPU)的并发结构特点,... 图像噪声降低了图像信噪比和质量,去噪是图像处理工作的重要环节之一.本文提出了一种基于开放式计算语言(OpenCL)架构的图像中值滤波快速降噪并行算法.介绍了OpenCL体系结构特点和中值滤波处理流程.根据图形处理器(GPU)的并发结构特点,对图像中值滤波功能模块进行了并行优化,降低了算法复杂度.通过充分激活NDRange索引空间中的工作组和工作项来提高数据访问效率,优化内核工作组配置参数,实现了中值滤波器的并行处理.实验结果表明,在图像质量保持不变的情况下,与基于CPU的串行算法、基于开放多处理(OpenMP)并行算法和基于统一计算设备架构(CUDA)并行算法性能相比,图像中值滤波并行算法在OpenCL架构下NVIDIA GPU计算平台上分别获得了29.74、17.29、1.15倍的加速比.验证了算法的有效性和平台的可移植性,基本满足应用的实时性处理要求. 展开更多
关键词 中值滤波 椒盐噪声 图形处理器 开放式计算语言 并行算法
在线阅读 下载PDF
基于GPU的LBM迁移模块算法优化 被引量:2
19
作者 黄斌 柳安军 +3 位作者 潘景山 田敏 张煜 朱光慧 《计算机工程》 CAS CSCD 北大核心 2024年第2期232-238,共7页
格子玻尔兹曼方法(LBM)是一种基于介观模拟尺度的计算流体力学方法,其在计算时设置大量的离散格点,具有适合并行的特性。图形处理器(GPU)中有大量的算术逻辑单元,适合大规模的并行计算。基于GPU设计LBM的并行算法,能够提高计算效率。但... 格子玻尔兹曼方法(LBM)是一种基于介观模拟尺度的计算流体力学方法,其在计算时设置大量的离散格点,具有适合并行的特性。图形处理器(GPU)中有大量的算术逻辑单元,适合大规模的并行计算。基于GPU设计LBM的并行算法,能够提高计算效率。但是LBM算法迁移模块中每个格点的计算都需要与其他格点进行通信,存在较强的数据依赖。提出一种基于GPU的LBM迁移模块算法优化策略。首先分析迁移部分的实现逻辑,通过模型降维,将三维模型按照速度分量离散为多个二维模型,降低模型的复杂度;然后分析迁移模块计算前后格点中的数据差异,通过数据定位找到迁移模块的通信规律,并对格点之间的数据交换方式进行分类;最后使用分类的交换方式对离散的二维模型进行区域划分,设计新的数据通信方式,由此消除数据依赖的影响,将迁移模块完全并行化。对并行算法进行测试,结果显示:该算法在1.3×10^(8)规模网格下能达到1.92的加速比,表明算法具有良好的并行效果;同时对比未将迁移模块并行化的算法,所提优化策略能提升算法30%的并行计算效率。 展开更多
关键词 高性能计算 格子玻尔兹曼方法 图形处理器 并行优化 数据重排
在线阅读 下载PDF
Falcon后量子算法的密钥树生成部件GPU并行优化设计与实现 被引量:1
20
作者 张磊 赵光岳 +1 位作者 肖超恩 王建新 《计算机工程》 CAS CSCD 北大核心 2024年第9期208-215,共8页
近年来,后量子密码算法因其具有抗量子攻击的特性成为安全领域的研究热点。基于格的Falcon数字签名算法是美国国家标准与技术研究所(NIST)公布的首批4个后量子密码标准算法之一。密钥树生成是Falcon算法的核心部件,在实际运算中占用较... 近年来,后量子密码算法因其具有抗量子攻击的特性成为安全领域的研究热点。基于格的Falcon数字签名算法是美国国家标准与技术研究所(NIST)公布的首批4个后量子密码标准算法之一。密钥树生成是Falcon算法的核心部件,在实际运算中占用较多的时间和消耗较多的资源。为此,提出一种基于图形处理器(GPU)的Falcon密钥树并行生成方案。该方案使用奇偶线程联合控制的单指令多线程(SIMT)并行模式和无中间变量的直接计算模式,达到了提升速度和减少资源占用的目的。基于Python的CUDA平台进行了实验,验证结果的正确性。实验结果表明,Falcon密钥树生成在RTX 3060 Laptop的延迟为6 ms,吞吐量为167次/s,在计算单个Falcon密钥树生成部件时相对于CPU实现了1.17倍的加速比,在同时并行1024个Falcon密钥树生成部件时,GPU相对于CPU的加速比达到了约56倍,在嵌入式Jetson Xavier NX平台上的吞吐量为32次/s。 展开更多
关键词 后量子密码 Falcon算法 图形处理器 CUDA平台 并行计算
在线阅读 下载PDF
上一页 1 2 13 下一页 到第
使用帮助 返回顶部