期刊文献+
共找到26篇文章
< 1 2 >
每页显示 20 50 100
GPGPU和CUDA统一内存研究现状综述 被引量:2
1
作者 庞文豪 王嘉伦 翁楚良 《计算机工程》 CAS CSCD 北大核心 2024年第12期1-15,共15页
在大数据背景下,随着科学计算、人工智能等领域的快速发展,各领域对硬件的算力要求越来越高。图形处理器(GPU)特殊的硬件架构,使其适合进行高并行度的计算,并且近年来GPU与人工智能、科学计算等领域互相发展促进,使GPU功能细化,逐渐发... 在大数据背景下,随着科学计算、人工智能等领域的快速发展,各领域对硬件的算力要求越来越高。图形处理器(GPU)特殊的硬件架构,使其适合进行高并行度的计算,并且近年来GPU与人工智能、科学计算等领域互相发展促进,使GPU功能细化,逐渐发展出了成熟的通用图形处理器(GPGPU),目前GPGPU已成为中央处理器(CPU)最重要的协处理器之一。然而,GPU硬件配置在出厂后不容易更改且显存容量有限,在处理大数据集时显存容量不足的缺点对计算性能造成较大的影响。统一计算设备架构(CUDA)6.0推出了统一内存,使GPGPU和CPU可以共享虚拟内存空间,以此来简化异构编程和扩展GPGPU可访问的内存空间。统一内存为GPGPU处理大数据集提供了一项可行的解决方案,在一定程度上缓解了GPU显存容量较小的问题,但是统一内存的使用也带来了一些性能问题,如何在统一内存中做好内存管理成为性能提升的关键。本研究对CUDA统一内存的发展和应用进行综述,包括CUDA统一内存的特性、发展、优势和局限性以及在人工智能、大数据处理系统等领域的应用和未来的发展前景,为未来使用和优化CUDA统一内存的研究工作提供有价值的参考。 展开更多
关键词 通用图形处理器 统一内存 显存超额订阅 数据管理 异构系统
在线阅读 下载PDF
基于GPGPU的Lattice-Boltzmann数值模拟算法 被引量:11
2
作者 周季夫 钟诚文 +2 位作者 尹世群 解建飞 张勇 《计算机辅助设计与图形学学报》 EI CSCD 北大核心 2008年第7期912-918,共7页
对Lattice Boltzmann方法(LBM)在GPGPU下的建模和算法进行了一系列研究,使得该方法在GPU下的计算加速比提升,大大缩短计算过程的时间消耗.重新设计了GPU的计算流程,在舍弃pixel buffer离屏渲染的同时,采用最新的帧缓存对象,多重纹理、... 对Lattice Boltzmann方法(LBM)在GPGPU下的建模和算法进行了一系列研究,使得该方法在GPU下的计算加速比提升,大大缩短计算过程的时间消耗.重新设计了GPU的计算流程,在舍弃pixel buffer离屏渲染的同时,采用最新的帧缓存对象,多重纹理、多通道渲染和乒乓技术来设计一套基于方腔的LBM数值模拟程序,最终使GPU的计算时间缩短到CPU计算时间的六分之一. 展开更多
关键词 基于图形处理器的通用计算 帧缓存扩展 多重渲染目标 Lattice-Boltzmann方法 反弹边界 乒乓技术
在线阅读 下载PDF
基于GPGPU和CUDA的高速AES算法的实现和优化 被引量:3
3
作者 顾青 高能 +1 位作者 包珍珍 向继 《中国科学院研究生院学报》 CAS CSCD 北大核心 2011年第6期776-785,共10页
随着高性能计算需求的不断增长,人们开始将目光投向具有强大计算能力及高存储带宽的GPU设备.与擅长处理复杂性逻辑事务的CPU相比,GPGPU(general purpose graphicprocessing unit,通用图形处理器)更适合于大规模数据并行处理.CUDA(comput... 随着高性能计算需求的不断增长,人们开始将目光投向具有强大计算能力及高存储带宽的GPU设备.与擅长处理复杂性逻辑事务的CPU相比,GPGPU(general purpose graphicprocessing unit,通用图形处理器)更适合于大规模数据并行处理.CUDA(compute unified devicearchitecture,统一计算架构)的出现更加速了GPGPU应用面的扩张.基于GPGPU和CUDA技术对AES算法的实现进行加速,得到整体吞吐量6~7Gbit/s的速度.如果不考虑数据加载时间,对于1MB以上的输入规模,吞吐量可以达到20Gbit/s. 展开更多
关键词 通用图像处理器 统一计算架构 AES算法 并行计算
在线阅读 下载PDF
基于2阶段同步的GPGPU线程块压缩调度方法 被引量:1
4
作者 张军 何炎祥 +2 位作者 沈凡凡 江南 李清安 《计算机研究与发展》 EI CSCD 北大核心 2016年第6期1173-1185,共13页
通用图形处理器(general purpose graphics processing unit,GPGPU)在面向高性能计算、高吞吐量的通用计算领域的应用日益广泛,它采用的SIMD(single instruction multiple data)执行模式使其能获得强大的并行计算能力.目前主流的通用图... 通用图形处理器(general purpose graphics processing unit,GPGPU)在面向高性能计算、高吞吐量的通用计算领域的应用日益广泛,它采用的SIMD(single instruction multiple data)执行模式使其能获得强大的并行计算能力.目前主流的通用图形处理器均通过大量高度并行的线程完成计算任务的高效执行.但是在处理条件分支转移的控制流中,由于通用图形处理器采用串行的方式顺序处理不同的分支路径,使得其并行计算能力受到影响.在分析讨论前人针对分支转移处理低效的线程块压缩重组调度方法的基础上,提出了2阶段同步的线程块压缩重组调度方法 TSTBC(two-stage synchronization based thread block compaction scheduling),通过线程块压缩重组适合性判断逻辑部件,分2个阶段对线程块进行压缩重组有效性分析,进一步减少了无效的线程块压缩重组次数.模拟实验结果表明:该方法较好地提高了线程块的压缩重组有效性,相对于其他同类方法降低了对线程组内部数据局部性的破坏,并使得片上一级数据cache的访问失效率得到有效降低;相对于基准体系结构,系统性能提升了19.27%. 展开更多
关键词 通用图形处理器 线程调度 线程块压缩重组 2阶段同步 分支转移
在线阅读 下载PDF
基于通用图形处理器的神经网络并行推理加速
5
作者 王重熙 章隆兵 《高技术通讯》 北大核心 2025年第3期250-261,共12页
通用图形处理器(general purpose graphics processing unit,GPGPU)是目前加速人工智能(artificial intelligence,AI)负载最主要的算力来源,其内存带宽和峰值算力随着AI模型的发展而迅速提高。然而,在神经网络的推理过程中,单样本或小... 通用图形处理器(general purpose graphics processing unit,GPGPU)是目前加速人工智能(artificial intelligence,AI)负载最主要的算力来源,其内存带宽和峰值算力随着AI模型的发展而迅速提高。然而,在神经网络的推理过程中,单样本或小批量的推理难以同时充分利用通用图形处理器中不同的计算、存储和访存资源,造成部分资源闲置。对此,本文提出了基于通用图形处理器的神经网络并行推理加速方法,在通用图形处理器上同时推理多个神经网络,通过同时执行互补的神经网络层充分利用通用图形处理器中的各类资源。首先,使用PyTorch中的统一计算设备架构(compute unified device architecture,CUDA)流以及直接在CUDA流中调用CUDA基础线性代数子程序库(CUDA basic linear algebra subprograms,cuBLAS)和CUDA深度神经网络库(CUDA deep neural network library,cuDNN)2种方式,在它们并行加速效果不及预期的情况下,根据性能分析结果确定了NVIDIA通用图形处理器负载调度机制中对多负载并行的限制因素。随后,基于特定的调度机制,提出了更适合多负载并行核函数的设计方法,并实现了主要的神经网络算子,基于此方法在真实的通用图形处理器平台上实现了神经网络并行推理加速。在RTX3080通用图形处理器上的测试结果表明,该神经网络并行推理加速方法对主流神经网络的并行推理达到了平均1.94倍的加速效果,相较于直接调用cuBLAS和cuDNN库平均1.34倍的加速效果提高了45%,不仅验证了在通用图形处理器上实现神经网络并行推理加速的可行性,同时也为其他各类负载在通用图形处理器上的多负载并行加速提供了道路。 展开更多
关键词 多负载并行加速 神经网络推理 通用图形处理器
在线阅读 下载PDF
基于GPGPU的准实时测频技术
6
作者 张朝晖 於建生 +1 位作者 薛钰娟 徐勤建 《雷达科学与技术》 2011年第2期183-187,共5页
简要介绍了GPGPU技术及CUDA编程架构,并在CUDA技术的基础上应用现代信号处理的方法实现了对超高速采样信号的准实时数字测频算法。仿真表明算法内核的计算延时很小;通过对现场1GHz超高速采样实际信号数据的验证,证明该技术能够满足准实... 简要介绍了GPGPU技术及CUDA编程架构,并在CUDA技术的基础上应用现代信号处理的方法实现了对超高速采样信号的准实时数字测频算法。仿真表明算法内核的计算延时很小;通过对现场1GHz超高速采样实际信号数据的验证,证明该技术能够满足准实时测量频率和其他脉冲参数的要求,同时对每一脉冲还可给出测频参考误差;并且在典型信噪比下,测频精度远高于模拟测频接收机。该实现与其他实现方案相比,灵活性更好,性价比更高,具有良好的应用前景。 展开更多
关键词 通用图形处理器(gpgpu) 准实时 数字测频 超高速采样
在线阅读 下载PDF
基于GPGPU的生物序列快速比对 被引量:5
7
作者 马海晨 韦刚 吴百峰 《计算机工程》 CAS CSCD 2012年第4期241-244,共4页
在CPU-GPU异构平台下,提出一种高效的生物序列比对方案。该方案利用GPU的并行处理能力,通过对读延迟、写延迟、重组函数及数据传输进行优化,在OpenCL框架下重构Smith-Waterman算法,加快生物序列比对速度。实验结果证明,与CPU上传统的串... 在CPU-GPU异构平台下,提出一种高效的生物序列比对方案。该方案利用GPU的并行处理能力,通过对读延迟、写延迟、重组函数及数据传输进行优化,在OpenCL框架下重构Smith-Waterman算法,加快生物序列比对速度。实验结果证明,与CPU上传统的串行算法相比,该算法最高可获得约100倍的性能提升。 展开更多
关键词 生物信息学 序列比对 通用图形处理器 SMITH-WATERMAN算法 OpenCL框架
在线阅读 下载PDF
基于GPGPU的大整数矩阵行列式快速准确计算方法 被引量:1
8
作者 魏渐俊 陈良育 《计算机工程》 CAS CSCD 北大核心 2018年第3期47-54,共8页
传统计算数值矩阵行列式的方法多数基于串行计算,存在初等变换频繁、计算缓慢等问题。为此,提出基于通用计算图形处理器(GPGPU)的计算方法,以快速准确解决大整数矩阵行列式计算问题。在众核环境下利用GPGPU和模方法并行求解整数矩阵行列... 传统计算数值矩阵行列式的方法多数基于串行计算,存在初等变换频繁、计算缓慢等问题。为此,提出基于通用计算图形处理器(GPGPU)的计算方法,以快速准确解决大整数矩阵行列式计算问题。在众核环境下利用GPGPU和模方法并行求解整数矩阵行列式,以加速计算过程并避免浮点运算误差,同时运用中国剩余定理得到准确计算结果。实验结果表明,与常用Maple、NTL等计算软件相比,该方法计算速度快,消耗内存少,可解决计算过程中内存膨胀的问题,对于高阶整数矩阵行列式优势较为明显。 展开更多
关键词 通用计算图形处理器 行列式 高性能计算 并行算法 模方法
在线阅读 下载PDF
面向GPU并行编程的线程同步综述 被引量:1
9
作者 高岚 赵雨晨 +2 位作者 张伟功 王晶 钱德沛 《软件学报》 EI CSCD 北大核心 2024年第2期1028-1047,共20页
并行计算已成为主流趋势.在并行计算系统中,同步是关键设计之一,对硬件性能的充分利用至关重要.近年来,GPU(graphic processing unit,图形处理器)作为应用最为广加速器得到了快速发展,众多应用也对GPU线程同步提出更高要求.然而,现有GP... 并行计算已成为主流趋势.在并行计算系统中,同步是关键设计之一,对硬件性能的充分利用至关重要.近年来,GPU(graphic processing unit,图形处理器)作为应用最为广加速器得到了快速发展,众多应用也对GPU线程同步提出更高要求.然而,现有GPU系统却难以高效地支持真实应用中复杂的线程同步.研究者虽然提出了很多支持GPU线程同步的方法并取得了较大进展,但GPU独特的体系结构及并行模式导致GPU线程同步的研究仍然面临很多挑战.根据不同的线程同步目的和粒度对GPU并行编程中的线程同步进行分类.在此基础上,围绕GPU线程同步的表达和执行,首先分析总结GPU线程同步存在的难以高效表达、错误频发、执行效率低的关键问题及挑战;而后依据不同的GPU线程同步粒度,从线程同步表达方法和性能优化方法两个方面入手,介绍近年来学术界和产业界对GPU线程竞争同步及合作同步的研究,对现有研究方法进行分析与总结.最后,指出GPU线程同步未来的研究趋势和发展前景,并给出可能的研究思路,从而为该领域的研究人员提供参考. 展开更多
关键词 通用图形处理器(gpgpu) 并行编程 线程同步 性能优化
在线阅读 下载PDF
地震叠前时间偏移的一种图形处理器提速实现方法 被引量:74
10
作者 李博 刘国峰 刘洪 《地球物理学报》 SCIE EI CAS CSCD 北大核心 2009年第1期245-252,共8页
新近发展的图形处理器(GPU,Graphic Processing Unit)通用计算技术,现已日趋实用成型,并获得诸多应用领域的广泛关注.对油气勘探专项资料处理技术的运用而言,概因GPU与中央处理器(CPU)的计算性能的甚大差异,致使GPU这一通用计算技... 新近发展的图形处理器(GPU,Graphic Processing Unit)通用计算技术,现已日趋实用成型,并获得诸多应用领域的广泛关注.对油气勘探专项资料处理技术的运用而言,概因GPU与中央处理器(CPU)的计算性能的甚大差异,致使GPU这一通用计算技术在石油工业中的应用研究正在有效开展.本文仅借助于油气勘探中广泛使用的叠前时间偏移,旨在于扼要阐明其基于GPU应用的有效性;文中还提出一种利用GPU实现地震叠前时间偏移的软件构件方法,并针对非对称走时叠前时间偏移所拓展的应用软件提供一种具体实现架构.与以往用个人计算机(PC,Personal Computer)或者PC集群所用的叠前时间偏移相比,本文方法可甚大地提高计算效率,从而在石油物探资料处理中可显著地节约计算成本和维护费用.文中实际例证也表明,基于GPU进行高性能并行计算,当是适应目前石油工业中大规模计算需求的一个重要发展途径. 展开更多
关键词 非对称走时叠前时间偏移 图形处理器 GPU通用计算 统一计算设备架构
在线阅读 下载PDF
通用图形处理器缓存子系统性能优化方法综述 被引量:4
11
作者 张军 谢竟成 +3 位作者 沈凡凡 谭海 汪吕蒙 何炎祥 《计算机研究与发展》 EI CSCD 北大核心 2020年第6期1191-1207,共17页
随着工艺和制程技术的不断发展以及体系架构的日趋完善,通用图形处理器(general purpose graphics processing units,GPGPU)的并行计算能力得到了很大的提升,其在高性能、高吞吐量等通用计算应用场景的使用越来越广泛.GPGPU通过支持大... 随着工艺和制程技术的不断发展以及体系架构的日趋完善,通用图形处理器(general purpose graphics processing units,GPGPU)的并行计算能力得到了很大的提升,其在高性能、高吞吐量等通用计算应用场景的使用越来越广泛.GPGPU通过支持大量线程的并发执行,可以较好地隐藏长延时访存操作,从而获得高并行计算能力.然而,GPGPU在处理计算和访存不规则的应用时,其存储子系统的效率受到很大影响,尤其是片上缓存的争用情况尤为突出,难以及时提供计算操作所需的数据,使得GPGPU的高并行计算能力不能得到充分发挥.解决片上缓存的争用问题、优化缓存子系统的性能,是优化GPGPU性能的主要解决方案之一,也是目前研究GPGPU性能优化的主要热点之一.目前,针对GPGPU缓存子系统的性能优化研究主要集中在线程级并行度(thread level parallelism,TLP)调节、访存顺序调节、数据通量增强、最后一级缓存(last level cache,LLC)优化和基于非易失性存储(non-volatile memory,NVM)的GPGPU缓存新架构设计等5个方面.也从这5个方面重点分析讨论了目前主要的GPGPU缓存子系统性能优化方法,并在最后指出了未来GPGPU缓存子系统优化需要进一步探讨的问题,对GPGPU缓存子系统性能优化的研究有重要意义. 展开更多
关键词 通用图形处理器 缓存子系统 性能优化 延迟隐藏 缓存争用
在线阅读 下载PDF
并行Agent仿真研究综述 被引量:7
12
作者 余文广 王维平 李群 《系统仿真学报》 CAS CSCD 北大核心 2012年第2期245-251,共7页
作为一种研究复杂系统的有效途径,基于Agent的建模仿真方法得到了广泛应用,但随着应用规模和复杂度的增加,仿真运行速度成为制约其应用的一个重要因素。并行Agent仿真通过将Agent模型分配到多个处理单元上同时运行来减少仿真运行时间,... 作为一种研究复杂系统的有效途径,基于Agent的建模仿真方法得到了广泛应用,但随着应用规模和复杂度的增加,仿真运行速度成为制约其应用的一个重要因素。并行Agent仿真通过将Agent模型分配到多个处理单元上同时运行来减少仿真运行时间,是提高仿真运行速度的一个直接手段。根据基于Agent的建模仿真的基本思想,分析了并行Agent仿真区别于传统的并行离散事件仿真的新特点,着重从时间同步协议、负载均衡、通信优化三方面阐述了并行Agent仿真的研究现状,并对基于通用目的图形处理器的并行Agent仿真进行了讨论。最后对并行Agent仿真未来的研究方向进行了展望。 展开更多
关键词 并行Agent仿真 时间同步协议 负载均衡 通信优化 通用目的图形处理器
在线阅读 下载PDF
并行时空处理模型下的快速N-body算法 被引量:3
13
作者 王伟 曾栩鸿 +2 位作者 王福焕 傅丽丽 曾国荪 《计算机科学与探索》 CSCD 2011年第11期1006-1013,共8页
图形处理器(graphic processing unit,GPU)的最新发展已经能够以低廉的成本提供高性能的通用计算。基于GPU的CUDA(compute unified device architecture)和OpenCL(open computing language)编程模型为程序员提供了充足的类似于C语言的... 图形处理器(graphic processing unit,GPU)的最新发展已经能够以低廉的成本提供高性能的通用计算。基于GPU的CUDA(compute unified device architecture)和OpenCL(open computing language)编程模型为程序员提供了充足的类似于C语言的应用程序接口(application programming interface,API),便于程序员发挥GPU的并行计算能力。采用图形硬件进行加速计算,通过一种新的GPU处理模型——并行时间空间模型,对现有GPU上的N-body实现进行了分析,从而提出了一种新的GPU上快速仿真N-body问题的算法,并在AMD的HD Radeon 5850上进行了实现。实验结果表明,相对于CPU上的实现,获得了400倍左右的加速;相对于已有GPU上的实现,也获得了2至5倍的加速。 展开更多
关键词 N-BODY 并行计算 通用图形处理器(gpgpu) 时间空间模型
在线阅读 下载PDF
图形处理器在数据库技术中的应用 被引量:4
14
作者 杨珂 罗琼 石教英 《浙江大学学报(工学版)》 EI CAS CSCD 北大核心 2009年第8期1349-1360,共12页
综述了图形处理器上的通用计算(GPGPU)技术以及利用图形处理器(GPU)进行数据库处理的工作.将GPU技术的发展划分为固定功能架构、分离渲染架构和统一渲染架构3个时代,归纳了GPGPU技术的难点和现状.对于3个时代的GPU,分别论述其体系结构... 综述了图形处理器上的通用计算(GPGPU)技术以及利用图形处理器(GPU)进行数据库处理的工作.将GPU技术的发展划分为固定功能架构、分离渲染架构和统一渲染架构3个时代,归纳了GPGPU技术的难点和现状.对于3个时代的GPU,分别论述其体系结构带来的机会与存在的局限,提出了相应的通用计算模型.综述了GPU用于数据库领域的相关研究,这些应用包括谓词、布尔组合和聚集、排序、连接、多维索引等.根据GPU技术的推动因素展望了GPGPU技术的趋势,归纳了GPU技术可以被利用的3个层面:图形流水线和通用并行计算、交互式多媒体、图形学理论与方法.以数据库技术为例展望了在每个层面上通用计算的趋势. 展开更多
关键词 图形处理器 通用计算 数据库技术
在线阅读 下载PDF
基于GPU加速的binLBT压缩解压算法 被引量:3
15
作者 于卓 梁晓辉 +1 位作者 马上 沈旭昆 《北京航空航天大学学报》 EI CAS CSCD 北大核心 2010年第3期368-372,共5页
地形数据的压缩/解压是大规模地形实时绘制方法的关键步骤,与绘制效率密切相关.通过对压缩/解压方法核心重叠双正交变换的分析,采用重叠双正交变换的整数提升方法将变换中的浮点数操作转换为整数操作及移位操作.使用支持图形处理单元(GP... 地形数据的压缩/解压是大规模地形实时绘制方法的关键步骤,与绘制效率密切相关.通过对压缩/解压方法核心重叠双正交变换的分析,采用重叠双正交变换的整数提升方法将变换中的浮点数操作转换为整数操作及移位操作.使用支持图形处理单元(GPU,Graphic Processing Unit)通用计算的CUDA(Compute Unified Device Architecture)对变换过程及编码过程进行加速.针对数据超出显存容量的情况,采取数据分块的方法将数据分别载入显存进行变换与编码以完成对整体数据的处理.实验结果表明,基于GPU加速的重叠双正交变换整数提升方法的压缩算法有效提高了地形数据处理的效率,并加快了大规模地形绘制速度. 展开更多
关键词 重叠双正交变换整数提升 压缩/解压 大规模地形实时绘制 图形处理单元通用计算
在线阅读 下载PDF
大规模稀疏矩阵的主特征向量计算优化方法 被引量:3
16
作者 王伟 陈建平 +2 位作者 曾国荪 俞莉花 谭一鸣 《计算机科学与探索》 CSCD 2012年第2期118-124,共7页
矩阵主特征向量(principal eigenvectors computing,PEC)的求解是科学与工程计算中的一个重要问题。随着图形处理单元通用计算(general-purpose computing on graphics pro cessing unit,GPGPU)的兴起,利用GPU来优化大规模稀疏矩阵的图... 矩阵主特征向量(principal eigenvectors computing,PEC)的求解是科学与工程计算中的一个重要问题。随着图形处理单元通用计算(general-purpose computing on graphics pro cessing unit,GPGPU)的兴起,利用GPU来优化大规模稀疏矩阵的图形处理单元求解得到了广泛关注。分别从应用特征和GPU体系结构特征两方面分析了PEC运算的性能瓶颈,提出了一种面向GPU的稀疏矩阵存储格式——GPU-ELL和一个针对GPU的线程优化映射策略,并设计了相应的PEC优化执行算法。在ATI HD Radeon5850上的实验结果表明,相对于传统CPU,该方案获得了最多200倍左右的加速,相对于已有GPU上的实现,也获得了2倍的加速。 展开更多
关键词 图形处理单元通用计算(gpgpu) 主特征向量计算 稀疏矩阵向量乘 线程优化
在线阅读 下载PDF
面向CPU-GPU架构的源到源自动映射方法 被引量:2
17
作者 朱正东 刘袁 +3 位作者 魏洪昌 颜康 王寅峰 董小社 《计算机工程与应用》 CSCD 北大核心 2015年第21期41-47,共7页
针对GPU上应用开发移植困难的问题,提出了一种串行计算源程序到并行计算源程序的映射方法。该方法从串行源程序中获得可并行化循环的层次信息,建立循环体结构与GPU线程的对应关系,生成GPU端核心函数代码;根据变量引用读写属性生成CPU端... 针对GPU上应用开发移植困难的问题,提出了一种串行计算源程序到并行计算源程序的映射方法。该方法从串行源程序中获得可并行化循环的层次信息,建立循环体结构与GPU线程的对应关系,生成GPU端核心函数代码;根据变量引用读写属性生成CPU端控制代码。基于该方法实现了一个编译原型系统,完成了C语言源程序到CUDA源程序的自动生成。对原型系统在功能和性能方面的测试结果表明,该系统生成的CUDA源程序与C语言源程序在功能上一致,其性能有显著提高,在一定程度上解决了计算密集型应用向CPU-GPU异构多核系统移植困难的问题。 展开更多
关键词 通用计算图形处理器(gpgpu) 统一计算架构(CUDA) 自动映射 源到源编译
在线阅读 下载PDF
通用图形处理器功耗估算模型 被引量:2
18
作者 王吉军 程华 《计算机工程》 CAS CSCD 北大核心 2017年第2期92-97,104,共7页
为精准快速地获得GPU功耗数据,提出一种基于硬件性能计数事件的通用图形处理器(GPGPU)功耗估算方法。通过分析GPGPU程序运行时的功耗分布情况,选择一组与应用程序运行功耗密切相关的硬件性能计数事件集合,使用反向传播人工神经网络分析... 为精准快速地获得GPU功耗数据,提出一种基于硬件性能计数事件的通用图形处理器(GPGPU)功耗估算方法。通过分析GPGPU程序运行时的功耗分布情况,选择一组与应用程序运行功耗密切相关的硬件性能计数事件集合,使用反向传播人工神经网络分析硬件性能计数事件与实时功耗间的关系,最终建立GPGPU功耗估算模型。实验结果表明,与多元线性回归的功耗估算模型相比,该模型具有更高的估算准确性和通用性。 展开更多
关键词 通用图形处理器 硬件性能计数事件 反向传播人工神经网络 交叉验证 功耗估算
在线阅读 下载PDF
星载ScanSAR成像处理技术研究 被引量:1
19
作者 陈仁元 雍延梅 +1 位作者 孙晓晖 钟雪莲 《雷达科学与技术》 2013年第2期136-140,共5页
由于天线在不同的子带进行扫描,星载扫描模式不能像条带模式那样,获得连续的方位向相位历史,利用条带模式高精度处理算法(如距离-多普勒算法)处理ScanSAR数据,通过在脉冲扫描间隔中填零,把扫描数据看成中间填零的相干脉冲串序列,等效成... 由于天线在不同的子带进行扫描,星载扫描模式不能像条带模式那样,获得连续的方位向相位历史,利用条带模式高精度处理算法(如距离-多普勒算法)处理ScanSAR数据,通过在脉冲扫描间隔中填零,把扫描数据看成中间填零的相干脉冲串序列,等效成条带SAR数据,利用条带模式的处理算法进行成像。针对填零后的数据,数据量大,可以采用基于通用图形处理单元的并行处理技术,加快处理速度。对填零处理形成的栅瓣调制,通过滤波进行消除。这样处理的图像和条带模式的图像具有相同的辐射和几何分布特性,有效抑制扇贝效应带来的影响。对实测星载ScanSAR数据进行成像处理,试验结果表明该方法的有效性。 展开更多
关键词 扫描模式 处理算法 通用图形处理单元 栅瓣调制
在线阅读 下载PDF
位图连接索引服务机制研究
20
作者 张延松 苏明川 +1 位作者 张宇 王方舟 《计算机工程与应用》 CSCD 北大核心 2015年第5期107-115,共9页
位图连接索引是数据仓库中一种有效的优化表间连接操作性能的索引机制。在大内存分析处理应用场景下,位图连接索引不仅需要权衡索引的内存和CPU开销,还需要进一步考虑处理器平台所带来的性能收益和数据访问延迟。提出了基于服务的位图... 位图连接索引是数据仓库中一种有效的优化表间连接操作性能的索引机制。在大内存分析处理应用场景下,位图连接索引不仅需要权衡索引的内存和CPU开销,还需要进一步考虑处理器平台所带来的性能收益和数据访问延迟。提出了基于服务的位图连接索引管理机制,其主要特点体现在三个方面:独立于数据库的自管理索引机制;基于存储空间约束的TOP K关键字位图连接索引机制;处理器敏感(processor-conscious)的位图连接索引技术。索引服务将索引从数据库中内置的数据结构变成数据库外的索引服务层,通过对用户查询负载的分析模块和索引服务管理模块改变传统的由数据库管理员人工管理索引的模式,同时借助于协处理器和内存云技术提高索引服务的性能和灵活性。实验测试结果表明,索引服务机制能够有效地提高索引存储和访问效率,在通用GPU的强大并行处理能力的支持下,位图连接索引服务的性能和数据库整体查询处理性能都得到了显著的提升。 展开更多
关键词 位图连接索引 通用图形处理器(gpgpu) 关键字位图连接索引 处理器敏感位图连接索引
在线阅读 下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部