期刊文献+
共找到242篇文章
< 1 2 13 >
每页显示 20 50 100
隐私计算环境下深度学习的GPU加速技术综述 被引量:1
1
作者 秦智翔 杨洪伟 +2 位作者 郝萌 何慧 张伟哲 《信息安全研究》 CSCD 北大核心 2024年第7期586-593,共8页
随着深度学习技术的不断发展,神经网络模型的训练时间越来越长,使用GPU计算对神经网络训练进行加速便成为一项关键技术.此外,数据隐私的重要性也推动了隐私计算技术的发展.首先介绍了深度学习、GPU计算的概念以及安全多方计算、同态加密... 随着深度学习技术的不断发展,神经网络模型的训练时间越来越长,使用GPU计算对神经网络训练进行加速便成为一项关键技术.此外,数据隐私的重要性也推动了隐私计算技术的发展.首先介绍了深度学习、GPU计算的概念以及安全多方计算、同态加密2种隐私计算技术,而后探讨了明文环境与隐私计算环境下深度学习的GPU加速技术.在明文环境下,介绍了数据并行和模型并行2种基本的深度学习并行训练模式,分析了重计算和显存交换2种不同的内存优化技术,并介绍了分布式神经网络训练过程中的梯度压缩技术.介绍了在隐私计算环境下安全多方计算和同态加密2种不同隐私计算场景下的深度学习GPU加速技术.简要分析了2种环境下GPU加速深度学习方法的异同. 展开更多
关键词 深度学习 GPU计算 隐私计算 安全多方计算 同态加密
在线阅读 下载PDF
gEdge:基于容器技术的云边协同的异构计算框架 被引量:3
2
作者 汪沄 汤冬劼 +2 位作者 郭开诚 戚正伟 管海兵 《计算机学报》 EI CAS CSCD 北大核心 2024年第8期1883-1900,共18页
由于按需灵活配置、高可用性、高资源利用率等优点,云计算技术成为过去十年的主流计算范式.随着万物互联时代的到来,单独依赖云计算技术已经无法满足数以亿计的IoT设备及其数据流量的需求.边缘计算可以被看作是云计算的进化,它因5G网络... 由于按需灵活配置、高可用性、高资源利用率等优点,云计算技术成为过去十年的主流计算范式.随着万物互联时代的到来,单独依赖云计算技术已经无法满足数以亿计的IoT设备及其数据流量的需求.边缘计算可以被看作是云计算的进化,它因5G网络和物联网的崛起而诞生.随着云游戏、VR技术以及人工智能技术在日常生活中的广泛运用,对计算资源的需求也在日渐增长.然而,受体积与功耗限制,处于边缘的节点设备算力较弱.本文提出了gEdge:一种基于容器技术的云边协同的异构计算框架.该框架通过GPU虚拟化技术,将云端的物理GPU资源分为多块虚拟GPU资源,按需为边缘节点提供GPU算力资源,并且对用户容器无感知.实验表明,使用gEdge框架使边缘节点使用的容器镜像体积降低了48.8%,容器启动时间降低了35.5%,平均相对运行速度提高了213%. 展开更多
关键词 图形处理器 虚拟化技术 容器技术 边缘计算 云边协同
在线阅读 下载PDF
面向GPU并行编程的线程同步综述 被引量:1
3
作者 高岚 赵雨晨 +2 位作者 张伟功 王晶 钱德沛 《软件学报》 EI CSCD 北大核心 2024年第2期1028-1047,共20页
并行计算已成为主流趋势.在并行计算系统中,同步是关键设计之一,对硬件性能的充分利用至关重要.近年来,GPU(graphic processing unit,图形处理器)作为应用最为广加速器得到了快速发展,众多应用也对GPU线程同步提出更高要求.然而,现有GP... 并行计算已成为主流趋势.在并行计算系统中,同步是关键设计之一,对硬件性能的充分利用至关重要.近年来,GPU(graphic processing unit,图形处理器)作为应用最为广加速器得到了快速发展,众多应用也对GPU线程同步提出更高要求.然而,现有GPU系统却难以高效地支持真实应用中复杂的线程同步.研究者虽然提出了很多支持GPU线程同步的方法并取得了较大进展,但GPU独特的体系结构及并行模式导致GPU线程同步的研究仍然面临很多挑战.根据不同的线程同步目的和粒度对GPU并行编程中的线程同步进行分类.在此基础上,围绕GPU线程同步的表达和执行,首先分析总结GPU线程同步存在的难以高效表达、错误频发、执行效率低的关键问题及挑战;而后依据不同的GPU线程同步粒度,从线程同步表达方法和性能优化方法两个方面入手,介绍近年来学术界和产业界对GPU线程竞争同步及合作同步的研究,对现有研究方法进行分析与总结.最后,指出GPU线程同步未来的研究趋势和发展前景,并给出可能的研究思路,从而为该领域的研究人员提供参考. 展开更多
关键词 通用图形处理器(GPGPU) 并行编程 线程同步 性能优化
在线阅读 下载PDF
基于GPU和角正交投影视图的多视角投影全息图
4
作者 曹雪梅 张春晓 +4 位作者 管明祥 夏林中 郭丽丽 苗玉虎 曹士平 《深圳大学学报(理工版)》 CAS CSCD 北大核心 2024年第5期536-541,共6页
针对多视角投影全息图生成速度慢的问题,提出一种基于计算机图形处理单元(graphics processing unit,GPU)的多视角投影计算全息图合成方法.获取多个角正交投影视图,充分利用GPU强大的并行计算能力,同时计算多幅投影视图对全息图的作用,... 针对多视角投影全息图生成速度慢的问题,提出一种基于计算机图形处理单元(graphics processing unit,GPU)的多视角投影计算全息图合成方法.获取多个角正交投影视图,充分利用GPU强大的并行计算能力,同时计算多幅投影视图对全息图的作用,即在计算过程中同时将沿着投影方向移位后的一系列角正交投影视图乘以其相应的常数相位因子.其中,每个投影图像的投影角决定了其移位的距离和常数相位因子.将所有并行计算结果累加,可以得到一个包含物体三维信息的二维复矩阵,即菲涅尔全息图.相较于使用计算机中央处理器(central processing unit,CPU)进行计算,本方法显著提升了计算速度,将计算效率提高了30~40倍,为多视角投影全息图的高效生成提供一种可行途径. 展开更多
关键词 信息处理技术 计算全息 全息显示 图形处理单元 角正交投影视图 多视角投影全息
在线阅读 下载PDF
基于图形处理器的水下目标传递函数多频点处理方法
5
作者 钱浩然 王斌 《舰船科学技术》 北大核心 2024年第14期153-157,共5页
为了提高水下目标宽带回波的计算速度,本文提出一种基于图形处理器GPU的散射传递函数多频点快速计算解决方案。相较于传统算法中逐个频率点计算的方式,CUDA快速算法充分利用各频点处目标强度的相对独立性,基于GPU的硬件特点,同时计算宽... 为了提高水下目标宽带回波的计算速度,本文提出一种基于图形处理器GPU的散射传递函数多频点快速计算解决方案。相较于传统算法中逐个频率点计算的方式,CUDA快速算法充分利用各频点处目标强度的相对独立性,基于GPU的硬件特点,同时计算宽带内的散射声场,从而显著提高了计算效率。本文以潜航器模型为算例,对不同网格数量下模型的目标散射传递函数计算速度进行对比分析。仿真结果表明,相较于传统的CPU串行计算,采用CUDA快速算法能够实现超过80的加速比,有效提高了计算速度。 展开更多
关键词 板块元方法 图像处理器 计算统一设备架构 并行计算
在线阅读 下载PDF
GPU加速下的三维快速分解后向投影SAS成像算法
6
作者 陶鸿博 张东升 黄勇 《系统工程与电子技术》 EI CSCD 北大核心 2024年第10期3247-3256,共10页
后向投影(back projection,BP)算法是一种精确的时域成像算法,但BP算法的计算复杂度高,难以实现实时性成像,特别是在考虑三维成像时,BP算法的计算复杂度会进一步增加。提出一种应用在合成孔径声纳(synthetic aperture sonar,SAS)上的三... 后向投影(back projection,BP)算法是一种精确的时域成像算法,但BP算法的计算复杂度高,难以实现实时性成像,特别是在考虑三维成像时,BP算法的计算复杂度会进一步增加。提出一种应用在合成孔径声纳(synthetic aperture sonar,SAS)上的三维快速分解BP(fast factorized BP,FFBP)成像算法,并利用图形处理器(graphics processing unit,GPU)加速三维FFBP算法。经过对点目标的测试,计算时间从原本的263 s降低到了2.3 s,解决了SAS中的三维成像实时性问题。同时,验证了所提算法在非理想航迹下的成像效果。结果表明,在添加幅度不超过0.1 m(一个波长以内)的正弦扰动时,所提算法对点目标仍有良好的聚焦效果。 展开更多
关键词 快速分解后向投影 并行计算 图形处理器 合成孔径声纳 三维成像
在线阅读 下载PDF
基于异构平台的图像中值滤波的OpenCL加速算法 被引量:3
7
作者 肖诗洋 王镭 +1 位作者 杜莹 肖汉 《河北大学学报(自然科学版)》 CAS 北大核心 2024年第1期92-103,共12页
图像噪声降低了图像信噪比和质量,去噪是图像处理工作的重要环节之一.本文提出了一种基于开放式计算语言(OpenCL)架构的图像中值滤波快速降噪并行算法.介绍了OpenCL体系结构特点和中值滤波处理流程.根据图形处理器(GPU)的并发结构特点,... 图像噪声降低了图像信噪比和质量,去噪是图像处理工作的重要环节之一.本文提出了一种基于开放式计算语言(OpenCL)架构的图像中值滤波快速降噪并行算法.介绍了OpenCL体系结构特点和中值滤波处理流程.根据图形处理器(GPU)的并发结构特点,对图像中值滤波功能模块进行了并行优化,降低了算法复杂度.通过充分激活NDRange索引空间中的工作组和工作项来提高数据访问效率,优化内核工作组配置参数,实现了中值滤波器的并行处理.实验结果表明,在图像质量保持不变的情况下,与基于CPU的串行算法、基于开放多处理(OpenMP)并行算法和基于统一计算设备架构(CUDA)并行算法性能相比,图像中值滤波并行算法在OpenCL架构下NVIDIA GPU计算平台上分别获得了29.74、17.29、1.15倍的加速比.验证了算法的有效性和平台的可移植性,基本满足应用的实时性处理要求. 展开更多
关键词 中值滤波 椒盐噪声 图形处理器 开放式计算语言 并行算法
在线阅读 下载PDF
基于GPU的LBM迁移模块算法优化 被引量:2
8
作者 黄斌 柳安军 +3 位作者 潘景山 田敏 张煜 朱光慧 《计算机工程》 CAS CSCD 北大核心 2024年第2期232-238,共7页
格子玻尔兹曼方法(LBM)是一种基于介观模拟尺度的计算流体力学方法,其在计算时设置大量的离散格点,具有适合并行的特性。图形处理器(GPU)中有大量的算术逻辑单元,适合大规模的并行计算。基于GPU设计LBM的并行算法,能够提高计算效率。但... 格子玻尔兹曼方法(LBM)是一种基于介观模拟尺度的计算流体力学方法,其在计算时设置大量的离散格点,具有适合并行的特性。图形处理器(GPU)中有大量的算术逻辑单元,适合大规模的并行计算。基于GPU设计LBM的并行算法,能够提高计算效率。但是LBM算法迁移模块中每个格点的计算都需要与其他格点进行通信,存在较强的数据依赖。提出一种基于GPU的LBM迁移模块算法优化策略。首先分析迁移部分的实现逻辑,通过模型降维,将三维模型按照速度分量离散为多个二维模型,降低模型的复杂度;然后分析迁移模块计算前后格点中的数据差异,通过数据定位找到迁移模块的通信规律,并对格点之间的数据交换方式进行分类;最后使用分类的交换方式对离散的二维模型进行区域划分,设计新的数据通信方式,由此消除数据依赖的影响,将迁移模块完全并行化。对并行算法进行测试,结果显示:该算法在1.3×10^(8)规模网格下能达到1.92的加速比,表明算法具有良好的并行效果;同时对比未将迁移模块并行化的算法,所提优化策略能提升算法30%的并行计算效率。 展开更多
关键词 高性能计算 格子玻尔兹曼方法 图形处理器 并行优化 数据重排
在线阅读 下载PDF
Falcon后量子算法的密钥树生成部件GPU并行优化设计与实现 被引量:1
9
作者 张磊 赵光岳 +1 位作者 肖超恩 王建新 《计算机工程》 CAS CSCD 北大核心 2024年第9期208-215,共8页
近年来,后量子密码算法因其具有抗量子攻击的特性成为安全领域的研究热点。基于格的Falcon数字签名算法是美国国家标准与技术研究所(NIST)公布的首批4个后量子密码标准算法之一。密钥树生成是Falcon算法的核心部件,在实际运算中占用较... 近年来,后量子密码算法因其具有抗量子攻击的特性成为安全领域的研究热点。基于格的Falcon数字签名算法是美国国家标准与技术研究所(NIST)公布的首批4个后量子密码标准算法之一。密钥树生成是Falcon算法的核心部件,在实际运算中占用较多的时间和消耗较多的资源。为此,提出一种基于图形处理器(GPU)的Falcon密钥树并行生成方案。该方案使用奇偶线程联合控制的单指令多线程(SIMT)并行模式和无中间变量的直接计算模式,达到了提升速度和减少资源占用的目的。基于Python的CUDA平台进行了实验,验证结果的正确性。实验结果表明,Falcon密钥树生成在RTX 3060 Laptop的延迟为6 ms,吞吐量为167次/s,在计算单个Falcon密钥树生成部件时相对于CPU实现了1.17倍的加速比,在同时并行1024个Falcon密钥树生成部件时,GPU相对于CPU的加速比达到了约56倍,在嵌入式Jetson Xavier NX平台上的吞吐量为32次/s。 展开更多
关键词 后量子密码 Falcon算法 图形处理器 CUDA平台 并行计算
在线阅读 下载PDF
基于图形处理器(GPU)的通用计算 被引量:227
10
作者 吴恩华 柳有权 《计算机辅助设计与图形学学报》 EI CSCD 北大核心 2004年第5期601-612,共12页
伴随着PC级微机的崛起和普及 ,多年来计算机图形的大部分应用发生了从工作站向微机的大转移 ,这种转移甚至发生在像虚拟现实、计算机仿真这样的实时 (中、小规模 )应用中 这一切的发生从很大程度上源自于图形处理硬件的发展和革新 近年... 伴随着PC级微机的崛起和普及 ,多年来计算机图形的大部分应用发生了从工作站向微机的大转移 ,这种转移甚至发生在像虚拟现实、计算机仿真这样的实时 (中、小规模 )应用中 这一切的发生从很大程度上源自于图形处理硬件的发展和革新 近年来 ,随着图形处理器 (GPU)性能的大幅度提高以及可编程特性的发展 ,人们首先开始将图形流水线的某些处理阶段以及某些图形算法从CPU向GPU转移 除了计算机图形学本身的应用 ,涉及到其他领域的计算 ,以至于通用计算近 2~ 3年来成为GPU的应用之一 ,并成为研究热点 文中从若干图形硬件发展的历史开始 ,介绍和分析最新GPU在通用计算方面的应用及其技术原理和发展状况 。 展开更多
关键词 图形处理器 通用计算 GPU 图形硬件 可编程性 代数运算 性能分析
在线阅读 下载PDF
软件雷达信号处理的多GPU并行技术 被引量:19
11
作者 秦华 周沫 +1 位作者 察豪 左炜 《西安电子科技大学学报》 EI CAS CSCD 北大核心 2013年第3期145-151,共7页
针对中央处理器(CPU)平台难以满足雷达信号处理实时性不足的问题,利用图形处理器(GPU)并行运算能力强的特点,在CPU-GPU异构系统中采用任务级、数据级和线程级并行策略,设计了基于多图形处理器的雷达信号处理并行算法.新算法根据图形处... 针对中央处理器(CPU)平台难以满足雷达信号处理实时性不足的问题,利用图形处理器(GPU)并行运算能力强的特点,在CPU-GPU异构系统中采用任务级、数据级和线程级并行策略,设计了基于多图形处理器的雷达信号处理并行算法.新算法根据图形处理器的访存机制进行优化设计,充分利用了图形处理器的并行计算资源.实验结果表明:基于4块图形处理器的多任务并行化计算平台与中央处理器平台相比较,加速比最大可达42.78,并且能够满足雷达信号处理的实时性要求. 展开更多
关键词 软件雷达 信号处理 并行计算 图形处理器
在线阅读 下载PDF
基于NVIDIA GPU的机载SAR实时成像处理算法CUDA设计与实现 被引量:18
12
作者 孟大地 胡玉新 +2 位作者 石涛 孙蕊 李晓波 《雷达学报(中英文)》 CSCD 2013年第4期481-491,共11页
合成孔径雷达(SAR)成像处理的运算量较大,在基于中央处理器(Central Processing Unit,CPU)的工作站或服务器上一般需要耗费较长的时间,无法满足实时性要求。借助于通用并行计算架构(CUDA)编程架构,该文提出一种基于图形处理器(GPU)的SA... 合成孔径雷达(SAR)成像处理的运算量较大,在基于中央处理器(Central Processing Unit,CPU)的工作站或服务器上一般需要耗费较长的时间,无法满足实时性要求。借助于通用并行计算架构(CUDA)编程架构,该文提出一种基于图形处理器(GPU)的SAR成像处理算法实现方案。该方案解决了GPU显存不足以容纳一景SAR数据时数据处理环节与内存/显存间数据传输环节的并行化问题,并能够支持多GPU设备的并行处理,充分利用了GPU设备的计算资源。在NVIDIA K20C和INTEL E5645上的测试表明,与传统基于GPU的SAR成像处理算法相比,该方案能够达到数十倍的速度提升,显著降低了处理设备的功耗,提高了处理设备的便携性,能够达到每秒约36兆采样点的实时处理速度。 展开更多
关键词 SAR 实时成像 图形处理器(GPU) 通用并行计算架构(CUDA)
在线阅读 下载PDF
基于GPU的串匹配算法研究 被引量:15
13
作者 张庆丹 戴正华 +1 位作者 冯圣中 孙凝晖 《计算机应用》 CSCD 北大核心 2006年第7期1735-1737,共3页
BF算法是串匹配算法中最基础的算法,但它是串行算法,不适合图形处理器(GraphicProcessing Unit,GPU)的体系结构。结合GPU的特殊体系结构,通过数据存取方式和计算策略的改进,充分利用了GPU的并行处理能力,从而基于GPU实现了BF算法。实验... BF算法是串匹配算法中最基础的算法,但它是串行算法,不适合图形处理器(GraphicProcessing Unit,GPU)的体系结构。结合GPU的特殊体系结构,通过数据存取方式和计算策略的改进,充分利用了GPU的并行处理能力,从而基于GPU实现了BF算法。实验结果表明基于GPU的并行算法能够取得较好的加速比,同时也给出了在现有GPU架构上有效实现通用计算的瓶颈。 展开更多
关键词 图形处理器 通用计算 串匹配 并行
在线阅读 下载PDF
基于GPU的稀疏矩阵向量乘优化 被引量:14
14
作者 白洪涛 欧阳丹彤 +2 位作者 李熙铭 李亭 何丽莉 《计算机科学》 CSCD 北大核心 2010年第8期168-171,181,共5页
针对稀疏矩阵运算难以发挥图形处理器的强大运算能力的现状,基于图形处理器的统一计算架构,在线程映射、数据复用等方面研究了一系列并行计算优化方法,从而完成了一种行压缩存储表示下的稀疏矩阵向量乘并行算法。这些优化方法包括:(1)利... 针对稀疏矩阵运算难以发挥图形处理器的强大运算能力的现状,基于图形处理器的统一计算架构,在线程映射、数据复用等方面研究了一系列并行计算优化方法,从而完成了一种行压缩存储表示下的稀疏矩阵向量乘并行算法。这些优化方法包括:(1)利用Warp内线程天然同步特性,Half-warp完成结果向量一个元素的计算;(2)取整读取数据,实现合并访问;(3)输入向量放入纹理存储器,数据复用;(4)申请分页锁定内存,加速数据传输;(5)使用共享存储器,加速数据存取。实验分析表明,提出的各种手段起到了优化的作用。与已有的CUDPP和SpMV library中的CSR-vector算法相比,本算法获得了更高的存储器带宽和浮点运算吞吐量;整体性能比CPU串行执行版本快了3倍以上。 展开更多
关键词 稀疏矩阵 行压缩存储 图形处理器 统一计算架构 优化策略
在线阅读 下载PDF
基于GPU的图形电磁计算加速算法 被引量:14
15
作者 杨正龙 金林 李蔚清 《电子学报》 EI CAS CSCD 北大核心 2007年第6期1056-1060,共5页
本文利用现代图形加速卡中GPU(Graphics Process Unit)的可编程管线,实现了图形电磁计算(GRECO)方法.与原有的方法相比,在利用物理光学和物理绕射理论的基础上,计算速度提高了20倍左右.并且利用GPU实现了射线追踪算法,用于目标上多次散... 本文利用现代图形加速卡中GPU(Graphics Process Unit)的可编程管线,实现了图形电磁计算(GRECO)方法.与原有的方法相比,在利用物理光学和物理绕射理论的基础上,计算速度提高了20倍左右.并且利用GPU实现了射线追踪算法,用于目标上多次散射的计算,使得GRECO方法可以快速计算具有凹腔结构目标的电磁散射.本方法对于目标识别和逆合成孔径成像等方面的研究具有重要的应用价值. 展开更多
关键词 电磁散射 图形电磁计算 图形处理单元(GPU)
在线阅读 下载PDF
基于图形处理器的电力系统稀疏线性方程组求解方法 被引量:9
16
作者 周挺辉 赵文恺 +2 位作者 严正 徐得超 江涵 《电力系统自动化》 EI CSCD 北大核心 2015年第2期74-80,共7页
针对电力系统大规模线性方程组的稀疏特点,提出了基于图形处理器(GPU)的直接求解方法。该方法首先利用基于先排序的分块对角加边形式(BBDF)划分方法对方程组系数矩阵进行分割,形成具有粗粒度和细粒度两层并行结构的线性方程组,然后... 针对电力系统大规模线性方程组的稀疏特点,提出了基于图形处理器(GPU)的直接求解方法。该方法首先利用基于先排序的分块对角加边形式(BBDF)划分方法对方程组系数矩阵进行分割,形成具有粗粒度和细粒度两层并行结构的线性方程组,然后利用GPU的线程块和线程并行特性对其分别予以求解。将上述方法应用到电力系统暂态稳定计算中,并对其加速效果进行了测试。测试结果表明,在目前普及的设备上,所提方法可获得3~4倍的加速比;在高端设备上,能够获得7~8倍的加速比。 展开更多
关键词 电力系统 并行计算 暂态稳定计算 图形处理器 稀疏技术 加速比
在线阅读 下载PDF
快速高效的碰撞检测算法 被引量:4
17
作者 印桂生 王海玲 +2 位作者 张菁 倪军 王建 《上海交通大学学报》 EI CAS CSCD 北大核心 2012年第6期962-966,971,共6页
为了提高碰撞检测算法的效率,提出了一种快速高效的碰撞检测方法.利用Morton码存储物体信息,给出一种改进的图层级结构,可快速分割物体空间,减少物体对相交检测;利用图形处理器(GPU)的并行处理特性进行物体包围盒层级树构建、树遍历,不... 为了提高碰撞检测算法的效率,提出了一种快速高效的碰撞检测方法.利用Morton码存储物体信息,给出一种改进的图层级结构,可快速分割物体空间,减少物体对相交检测;利用图形处理器(GPU)的并行处理特性进行物体包围盒层级树构建、树遍历,不仅可以快速处理碰撞检测中的事务,还可节省存储空间.实验表明,该方法能够快速构建物体层级结构,并能进行高效的碰撞检测计算. 展开更多
关键词 碰撞检测 计算机图形 层次结构 图形处理器 并行计算
在线阅读 下载PDF
基于图形处理器的并行方体计算 被引量:7
18
作者 周国亮 陈红 +2 位作者 李翠平 王珊 郑涛 《计算机学报》 EI CSCD 北大核心 2010年第10期1788-1808,共21页
方体(cube)计算是数据仓库和联机分析处理(Online analytical processing,OLAP)领域的核心问题,如何提高方体计算性能获得了学术界和工业界的广泛关注,但目前大部分方体算法都没有考虑最新的处理器架构.近年来,处理器从单一计算核心进... 方体(cube)计算是数据仓库和联机分析处理(Online analytical processing,OLAP)领域的核心问题,如何提高方体计算性能获得了学术界和工业界的广泛关注,但目前大部分方体算法都没有考虑最新的处理器架构.近年来,处理器从单一计算核心进化为多个或许多个计算核心,如多核CPU、图形处理器(Graphic Processing Units,GPU)等.为了充分利用现代处理器的多核资源,该文提出了基于GPU的并行方体算法GPU-Cubing,算法采用自底向上、广度优先的划分策略,每次并行完成一个cuboid的计算并输出;在计算cuboid过程中多个分区同步处理,分区内多线程并行.GPU-Cubing算法适合GPU体系结构,并行度高.与BUC算法相比,基于真实数据集的完全方体计算可以获得一个数量级以上的加速比,冰山方体获得至少2倍以上的加速. 展开更多
关键词 图形处理器 并行方体计算 实时数据仓库 联机分析处理
在线阅读 下载PDF
基于道路树分层的大电网潮流并行算法及其GPU优化实现 被引量:18
19
作者 陈德扬 李亚楼 +1 位作者 江涵 徐得超 《电力系统自动化》 EI CSCD 北大核心 2014年第22期63-69,共7页
针对大规模电网分析及能量管理系统对快速潮流计算的需求,提出了一种适于图形处理器(GPU)的基于道路树分层的稀疏矩阵直接分解算法,并结合该算法在GPU上实现了基于牛顿—拉夫逊法的潮流计算。为提高基于GPU的计算效率,首先在GPU上实现... 针对大规模电网分析及能量管理系统对快速潮流计算的需求,提出了一种适于图形处理器(GPU)的基于道路树分层的稀疏矩阵直接分解算法,并结合该算法在GPU上实现了基于牛顿—拉夫逊法的潮流计算。为提高基于GPU的计算效率,首先在GPU上实现了潮流方程式右端项生成、雅可比矩阵生成、LU分解以及前推回代求解,减少了CPU和GPU之间的数据传输时间。其次,针对GPU中寄存器—缓存—显存多级存储架构,改进数据存储方式,减少了读取延迟。进一步,考虑GPU线程组织特点,优化任务分配,增加了计算并行度。最后,对比基于CPU的电力系统分析综合程序(PSASP)潮流计算模块,进行了数值仿真测试。结果表明,随着节点数的增加,所提出的程序计算优势越来越显著,算例规模达到43 602个节点时可获得5.172倍的加速比,验证了算法的有效性和实用性。 展开更多
关键词 潮流计算 并行计算 图形处理器 稀疏线性方程组 道路树
在线阅读 下载PDF
图形处理器通用计算关键技术研究综述 被引量:28
20
作者 王海峰 陈庆奎 《计算机学报》 EI CSCD 北大核心 2013年第4期757-772,共16页
当前图形处理器的通用计算取得长足发展,为适应通用计算图形处理器在硬件体系结构和软件支持方面完成相应调整和改变,面对各种应用领域中数据规模增大的趋势,多GPU系统和GPU集群的研究应用日趋增多.以流处理器及图形处理器硬件体系为依... 当前图形处理器的通用计算取得长足发展,为适应通用计算图形处理器在硬件体系结构和软件支持方面完成相应调整和改变,面对各种应用领域中数据规模增大的趋势,多GPU系统和GPU集群的研究应用日趋增多.以流处理器及图形处理器硬件体系为依据,介绍学术和工业领域中流处理器及图形处理器体系变化趋势.从软件编程环境、硬件计算与通信等方面展开讨论,阐述通用计算中图形处理器的关键问题,包括编程模型及语言的发展和方向,存储模型的量化研究、访存模式和行为的优化以及分布式存储管理的热点问题,典型通信原型系统的对比及通信难点的分析,GPU片内和片间的负载均衡,可靠性和容错计算,GPU功耗评测及低功耗优化的研究进展.综述在海量数据处理、智能计算、复杂网络、集群应用领域中图形处理器的研究进展及成果.总结在通用计算发展中存在的技术问题和未来挑战. 展开更多
关键词 图形处理器 通用计算 可编程性 GPU集群
在线阅读 下载PDF
上一页 1 2 13 下一页 到第
使用帮助 返回顶部