期刊文献+
共找到710篇文章
< 1 2 36 >
每页显示 20 50 100
基于通用图形处理器的神经网络并行推理加速
1
作者 王重熙 章隆兵 《高技术通讯》 北大核心 2025年第3期250-261,共12页
通用图形处理器(general purpose graphics processing unit,GPGPU)是目前加速人工智能(artificial intelligence,AI)负载最主要的算力来源,其内存带宽和峰值算力随着AI模型的发展而迅速提高。然而,在神经网络的推理过程中,单样本或小... 通用图形处理器(general purpose graphics processing unit,GPGPU)是目前加速人工智能(artificial intelligence,AI)负载最主要的算力来源,其内存带宽和峰值算力随着AI模型的发展而迅速提高。然而,在神经网络的推理过程中,单样本或小批量的推理难以同时充分利用通用图形处理器中不同的计算、存储和访存资源,造成部分资源闲置。对此,本文提出了基于通用图形处理器的神经网络并行推理加速方法,在通用图形处理器上同时推理多个神经网络,通过同时执行互补的神经网络层充分利用通用图形处理器中的各类资源。首先,使用PyTorch中的统一计算设备架构(compute unified device architecture,CUDA)流以及直接在CUDA流中调用CUDA基础线性代数子程序库(CUDA basic linear algebra subprograms,cuBLAS)和CUDA深度神经网络库(CUDA deep neural network library,cuDNN)2种方式,在它们并行加速效果不及预期的情况下,根据性能分析结果确定了NVIDIA通用图形处理器负载调度机制中对多负载并行的限制因素。随后,基于特定的调度机制,提出了更适合多负载并行核函数的设计方法,并实现了主要的神经网络算子,基于此方法在真实的通用图形处理器平台上实现了神经网络并行推理加速。在RTX3080通用图形处理器上的测试结果表明,该神经网络并行推理加速方法对主流神经网络的并行推理达到了平均1.94倍的加速效果,相较于直接调用cuBLAS和cuDNN库平均1.34倍的加速效果提高了45%,不仅验证了在通用图形处理器上实现神经网络并行推理加速的可行性,同时也为其他各类负载在通用图形处理器上的多负载并行加速提供了道路。 展开更多
关键词 多负载并行加速 神经网络推理 通用图形处理器
在线阅读 下载PDF
基于无裁剪图形流水线的三维图形处理器 被引量:1
2
作者 赵皓宇 王重熙 +1 位作者 宋鹏皓 章隆兵 《高技术通讯》 CAS 北大核心 2024年第7期681-691,共11页
传统的三维图形处理器通过裁剪操作获取三角形的可见区域。然而,裁剪操作的延迟长且硬件开销高,大量的裁剪操作会降低图形处理器的性能。本文设计了一款基于OpenGL ES 2.0标准的三维图形处理器芯片,采用了统一渲染架构。该图形处理器采... 传统的三维图形处理器通过裁剪操作获取三角形的可见区域。然而,裁剪操作的延迟长且硬件开销高,大量的裁剪操作会降低图形处理器的性能。本文设计了一款基于OpenGL ES 2.0标准的三维图形处理器芯片,采用了统一渲染架构。该图形处理器采用高效的无裁剪图形流水线结构,消除了裁剪所带来的硬件开销和性能损耗。此外,本文为该图形处理器设计了一个符合IEEE-754标准的三维向量内积(DP3)计算单元,用于固定功能流水线,以提高图形处理器的性能,并消除图形渲染过程中浮点乘加操作的误差,增强了图形处理器的图形渲染鲁棒性。该三维图形处理器每秒能够处理500 M个顶点和8 G个纹素,功耗为1000 mW,采用了28 nm工艺,面积为7.92 mm^(2)。实现结果表明,与之前的工作相比,本文设计的图形处理器的性能-功耗比提高了27.8%。 展开更多
关键词 三维图形处理器 图形流水线 裁剪 向量内积
在线阅读 下载PDF
KYLIN V2.0程序图形处理器加速方法及LCT临界实验验证
3
作者 赵晨 张斌 +4 位作者 黄世恩 陈长 卢宗健 柴晓明 李庆 《哈尔滨工程大学学报》 CSCD 北大核心 2024年第12期2364-2368,2399,共6页
为了进一步提高组件程序KYLIN V2.0的计算速度,本文开展了图形处理器加速方法研究,分析了硬件架构。将特征线输运计算中的大量简单重复计算从中央处理器转移至图形处理器,建立了异构系统特征线扫描算法,并利用异构通信机制,对于组件基... 为了进一步提高组件程序KYLIN V2.0的计算速度,本文开展了图形处理器加速方法研究,分析了硬件架构。将特征线输运计算中的大量简单重复计算从中央处理器转移至图形处理器,建立了异构系统特征线扫描算法,并利用异构通信机制,对于组件基准题加速比最高可达到50倍。同时,为了进一步完善KYLIN V2.0程序验证确认矩阵,本文采用LCT临界实验装置开展了验证确认研究,验证算例包括了LCT003系列、LCT011系列共14个临界实验装置,最大特征值偏差8.05×10-3,与同类型程序具有相近的计算精度。本文研究验证了图形处理器具有良好的加速效果,实现了KYLIN V2.0程序的大幅加速,同时进一步补充了程序验证矩阵,支持了程序的工程应用。 展开更多
关键词 图形处理器 图形处理器加速方法 特征线方法 验证与确认 临界实验装置 LCT KYLIN V2.0 TORCH
在线阅读 下载PDF
NM-SpMM:面向国产异构向量处理器的半结构化稀疏矩阵乘算法
4
作者 姜晶菲 何源宏 +2 位作者 许金伟 许诗瑶 钱希福 《计算机工程与科学》 CSCD 北大核心 2024年第7期1141-1150,共10页
深度神经网络在自然语言处理、计算机视觉等领域取得了优异的成果,由于智能应用处理数据规模的增长和大模型的快速发展,对深度神经网络的推理性能要求越来越高,N∶M半结构化稀疏化技术成为平衡算力需求和应用效果的热点技术之一。国产... 深度神经网络在自然语言处理、计算机视觉等领域取得了优异的成果,由于智能应用处理数据规模的增长和大模型的快速发展,对深度神经网络的推理性能要求越来越高,N∶M半结构化稀疏化技术成为平衡算力需求和应用效果的热点技术之一。国产异构向量处理器FT-M7032为智能模型处理中的数据并行和指令并行开发提供了较大空间。针对N∶M半结构化稀疏模型计算稀疏模式多样性,提出了一种面向FT-M7032的可灵活配置的稀疏矩阵乘算法NM-SpMM。NM-SpMM设计了一种高效的压缩偏移地址稀疏编码格式COA,避免了半结构化参数配置对稀疏数据访存计算的影响。基于COA编码,NM-SpMM对不同维度稀疏矩阵计算进行了细粒度优化。在FT-M7032单核上的实验结果表明,相较于稠密矩阵乘,NM-SpMM能获得1.73~21.00倍的加速,相较于采用CuSPARSE稀疏计算库的NVIDIA V100 GPU,能获得0.04~1.04倍的加速。 展开更多
关键词 深度神经网络 图形处理器 向量处理器 稀疏矩阵乘 流水线
在线阅读 下载PDF
图形处理器用于通用计算的技术、现状及其挑战 被引量:141
5
作者 吴恩华 《软件学报》 EI CSCD 北大核心 2004年第10期1493-1504,共12页
多年来计算机图形处理器(GPU)以大大超过摩尔定律的速度高速发展.图形处理器的发展极大地提高了计算机图形处理的速度和图形质量,并促进了与计算机图形相关应用领域的快速发展.与此同时,图形处理器绘制流水线的高速度和并行性以及近年... 多年来计算机图形处理器(GPU)以大大超过摩尔定律的速度高速发展.图形处理器的发展极大地提高了计算机图形处理的速度和图形质量,并促进了与计算机图形相关应用领域的快速发展.与此同时,图形处理器绘制流水线的高速度和并行性以及近年来发展起来的可编程功能为图形处理以外的通用计算提供了良好的运行平台,这使得基于GPU的通用计算成为近两三年来人们关注的一个研究热点.从介绍GPU的发展历史及其现代GPU的基本结构开始,阐述GPU用于通用计算的技术原理,以及其用于通用计算的主要领域和最新发展情况,并详细地介绍了GPU在流体模拟和代数计算、数据库应用、频谱分析等领域的应用和技术,包括在流体模拟方面的研究工作.还对GPU应用的软件工具及其最新发展作了较详细的介绍.最后,展望了GPU应用于通用计算的发展前景,并从硬件和软件两方面分析了这一领域未来所面临的挑战. 展开更多
关键词 图形处理器(graphics PROCESSING unit 简称GPU) 通用计算 可编程性 实时计算 流处理机
在线阅读 下载PDF
基于图形处理器(GPU)的通用计算 被引量:227
6
作者 吴恩华 柳有权 《计算机辅助设计与图形学学报》 EI CSCD 北大核心 2004年第5期601-612,共12页
伴随着PC级微机的崛起和普及 ,多年来计算机图形的大部分应用发生了从工作站向微机的大转移 ,这种转移甚至发生在像虚拟现实、计算机仿真这样的实时 (中、小规模 )应用中 这一切的发生从很大程度上源自于图形处理硬件的发展和革新 近年... 伴随着PC级微机的崛起和普及 ,多年来计算机图形的大部分应用发生了从工作站向微机的大转移 ,这种转移甚至发生在像虚拟现实、计算机仿真这样的实时 (中、小规模 )应用中 这一切的发生从很大程度上源自于图形处理硬件的发展和革新 近年来 ,随着图形处理器 (GPU)性能的大幅度提高以及可编程特性的发展 ,人们首先开始将图形流水线的某些处理阶段以及某些图形算法从CPU向GPU转移 除了计算机图形学本身的应用 ,涉及到其他领域的计算 ,以至于通用计算近 2~ 3年来成为GPU的应用之一 ,并成为研究热点 文中从若干图形硬件发展的历史开始 ,介绍和分析最新GPU在通用计算方面的应用及其技术原理和发展状况 。 展开更多
关键词 图形处理器 通用计算 GPU 图形硬件 可编程性 代数运算 性能分析
在线阅读 下载PDF
图形处理器低功耗设计技术研究 被引量:9
7
作者 田泽 张骏 +2 位作者 许宏杰 郭亮 黎小玉 《计算机科学》 CSCD 北大核心 2013年第06A期210-216,共7页
图形处理器(GPU)以其强大的图形加速性能以及在通用计算领域的出色表现正在被越来越广泛地应用。但随着芯片规模和集成度的不断提升,单个GPU芯片的功耗已经高达376W,是高端通用处理器的2~3倍。高功耗带来的可靠性、稳定性以及芯片成本... 图形处理器(GPU)以其强大的图形加速性能以及在通用计算领域的出色表现正在被越来越广泛地应用。但随着芯片规模和集成度的不断提升,单个GPU芯片的功耗已经高达376W,是高端通用处理器的2~3倍。高功耗带来的可靠性、稳定性以及芯片成本问题使"功耗墙"已经成为未来GPU设计过程中需要突破的关键问题之一。立足于体系结构层次,结合图形处理器的渲染流水线的结构特点,从深度测试和消隐、染色器数据通路、纹理映射和压缩、渲染策略、寄存器文件和片上Cache等角度描述了图形处理器的低功耗设计技术,并指出了GPU低功耗设计技术的进一步研究方向。 展开更多
关键词 图形处理器 低功耗 渲染 CACHE
在线阅读 下载PDF
面向移动设备的3D图形处理器设计 被引量:8
8
作者 杨毅 郭立 +1 位作者 史鸿声 郭安泰 《小型微型计算机系统》 CSCD 北大核心 2009年第8期1668-1674,共7页
提出一种面向移动设备的3D图形处理器的设计方法,从图形算法和硬件架构两个层次进行优化.对图形算法进行C语言的仿真模拟,并设计高效的具有并行和流水线结构的图形处理器架构.该架构采用定点的数据通道,拥有一个可编程的顶点处理器和基... 提出一种面向移动设备的3D图形处理器的设计方法,从图形算法和硬件架构两个层次进行优化.对图形算法进行C语言的仿真模拟,并设计高效的具有并行和流水线结构的图形处理器架构.该架构采用定点的数据通道,拥有一个可编程的顶点处理器和基于像素块的光栅扫描转换模块,降低电路复杂度的同时提高了整体性能.该设计已经在FPGA上验证,并给出了实验结果.实验结果显示该图形处理器结构可以满足移动设备的图形应用要求,具有可行性. 展开更多
关键词 图形处理器 可编程顶点处理器 光栅阶段 FPGA验证
在线阅读 下载PDF
图形处理器片段处理单元的设计与实现 被引量:5
9
作者 田泽 张淑 +3 位作者 张骏 许宏杰 黎小玉 郭蒙 《计算机应用》 CSCD 北大核心 2014年第A02期357-360,共4页
针对图形处理器三维引擎中对图形的后期处理需求,实现片段写入帧缓冲区前的测试、混合、逻辑操作、累积、清除和屏蔽等关键功能。分析并提取了Open GL核心库中的片段处理相关函数,确定了片段处理单元要实现的功能;合理安排多个片段处理... 针对图形处理器三维引擎中对图形的后期处理需求,实现片段写入帧缓冲区前的测试、混合、逻辑操作、累积、清除和屏蔽等关键功能。分析并提取了Open GL核心库中的片段处理相关函数,确定了片段处理单元要实现的功能;合理安排多个片段处理功能的执行顺序,设计了基于流水线的片段处理单元结构;采用Verilog HDL对电路进行描述,采用Cadence NC-Verilog仿真工具进行虚拟验证,采用Xilinx的ISE工具进行综合,并在Xilinx Virtex6XC6VLX760 FPGA上进行原型验证,电路工作频率可以达到180 MHz,测试功能正确。在SMIC 65 nm CMOS工艺下,采用Synopsys Design-Compiler对设计进行综合,电路工作频率达到300 MHz,满足设计需求。 展开更多
关键词 片段处理 图形处理器 现场可编程门阵列 开放图形语言
在线阅读 下载PDF
MIGPU-9多核交互式图形处理器的设计 被引量:11
10
作者 邓军勇 李涛 +8 位作者 蒋林 韩俊刚 杜慧敏 沈绪榜 黄光新 常立博 山蕊 黄虎才 马栋 《计算机辅助设计与图形学学报》 EI CSCD 北大核心 2014年第9期1468-1478,共11页
鉴于图形处理器的应用日趋广泛,多核SoC的研究日益迫切,设计了一款多核交互式图形处理器MIGPU-9及其完整的软件系统.为了兼顾编程灵活性和计算高效性,设计了具有专用指令的前端处理器FEP、支持定点/浮点运算与函数求值器的顶点染色处理... 鉴于图形处理器的应用日趋广泛,多核SoC的研究日益迫切,设计了一款多核交互式图形处理器MIGPU-9及其完整的软件系统.为了兼顾编程灵活性和计算高效性,设计了具有专用指令的前端处理器FEP、支持定点/浮点运算与函数求值器的顶点染色处理器VSP、双模式的剪裁投影处理器PCPTC,以及数个像素染色处理器PSP等共计9个微处理器核;MIGPU-9将这9个具有不同功能和不同结构的微处理器核以及各种专用加速电路以双轨握手的流水线形式集成到一块XC6VLX550T FPGA上,实现了图形处理任务在不同处理器核及专用电路上的并行计算.测试结果表明,MIGPU-9支持OpenGL2.0和DirectDraw,像素填充率最高可达40 M/s,电路规模超过527万门. 展开更多
关键词 多核染色器 图形处理器 硬件流水线 操作并行
在线阅读 下载PDF
地震叠前时间偏移的一种图形处理器提速实现方法 被引量:74
11
作者 李博 刘国峰 刘洪 《地球物理学报》 SCIE EI CAS CSCD 北大核心 2009年第1期245-252,共8页
新近发展的图形处理器(GPU,Graphic Processing Unit)通用计算技术,现已日趋实用成型,并获得诸多应用领域的广泛关注.对油气勘探专项资料处理技术的运用而言,概因GPU与中央处理器(CPU)的计算性能的甚大差异,致使GPU这一通用计算技... 新近发展的图形处理器(GPU,Graphic Processing Unit)通用计算技术,现已日趋实用成型,并获得诸多应用领域的广泛关注.对油气勘探专项资料处理技术的运用而言,概因GPU与中央处理器(CPU)的计算性能的甚大差异,致使GPU这一通用计算技术在石油工业中的应用研究正在有效开展.本文仅借助于油气勘探中广泛使用的叠前时间偏移,旨在于扼要阐明其基于GPU应用的有效性;文中还提出一种利用GPU实现地震叠前时间偏移的软件构件方法,并针对非对称走时叠前时间偏移所拓展的应用软件提供一种具体实现架构.与以往用个人计算机(PC,Personal Computer)或者PC集群所用的叠前时间偏移相比,本文方法可甚大地提高计算效率,从而在石油物探资料处理中可显著地节约计算成本和维护费用.文中实际例证也表明,基于GPU进行高性能并行计算,当是适应目前石油工业中大规模计算需求的一个重要发展途径. 展开更多
关键词 非对称走时叠前时间偏移 图形处理器 GPU通用计算 统一计算设备架构
在线阅读 下载PDF
基于图形处理器的数据流快速聚类 被引量:24
12
作者 曹锋 周傲英 《软件学报》 EI CSCD 北大核心 2007年第2期291-302,共12页
在数据流环境下,聚类算法不仅需要有较高的聚类质量,同时需要有实时处理速度.因而,提出了一类基于图形处理器(graphics processing unit,简称GPU)的快速聚类方法,包括基于K-means的基本聚类方法、基于GPU的数据流聚类以及数据流簇进化... 在数据流环境下,聚类算法不仅需要有较高的聚类质量,同时需要有实时处理速度.因而,提出了一类基于图形处理器(graphics processing unit,简称GPU)的快速聚类方法,包括基于K-means的基本聚类方法、基于GPU的数据流聚类以及数据流簇进化分析方法.这些方法的共同特点是充分利用了GPU强大的处理能力和流水线特性.与以往具有独立框架的数据流聚类算法不同,这些基于GPU的聚类算法具有同一框架和多种聚类分析功能,为数据流聚类分析提供了统一的平台.从分析可知,数据流聚类分析的核心操作实际上就是距离计算和比较.基于这一认识,利用GPU的子素向量处理功能进行距离计算.性能验证实验是在配有Pentium IV3.4G CPU和NVIDIA GeForce 6800 GT显卡的PC上进行的.综合分析和实验结果表明,基于GPU的数据流聚类算法比传统的CPU算法平均快7倍,从而为高速数据流应用提供了良好的支持. 展开更多
关键词 数据流 聚类 图形处理器 进化 窗口
在线阅读 下载PDF
图形处理器中光照和纹理映射的设计与仿真实现 被引量:13
13
作者 董梁 刘海 韩俊刚 《计算机科学》 CSCD 北大核心 2011年第2期284-287,301,共5页
图形处理器(GPU)通常采用流水线体系结构,遵循通用图形接口规范。在分析图形处理器的工作原理和体系结构的基础上,提出了改进的实用型流水线设计结构,并对每个功能模块进行了分析。对光照和纹理映射部分进行了深入研究,提出了具体的设... 图形处理器(GPU)通常采用流水线体系结构,遵循通用图形接口规范。在分析图形处理器的工作原理和体系结构的基础上,提出了改进的实用型流水线设计结构,并对每个功能模块进行了分析。对光照和纹理映射部分进行了深入研究,提出了具体的设计方法。通过软件仿真的结果验证了设计的正确性。最后针对光照和纹理映射的特点,提出了可编程处理器及其硬件结构。 展开更多
关键词 光照 纹理映射 体系结构 流水线 图形处理器
在线阅读 下载PDF
移动图形处理器的现状、技术及其发展 被引量:10
14
作者 焦继业 李涛 +1 位作者 杜慧敏 韩俊刚 《计算机辅助设计与图形学学报》 EI CSCD 北大核心 2015年第6期1005-1016,共12页
3D图形绘制技术已经渗透到各种移动设备中.相对于桌面PC,移动设备图形处理需要以更低的功耗、更有限的内存带宽和较低的运算能力实现高性能、高质量的图形显示效果.文中介绍了移动图形处理器发展现状,从硬件设计方面分析了这一领域未来... 3D图形绘制技术已经渗透到各种移动设备中.相对于桌面PC,移动设备图形处理需要以更低的功耗、更有限的内存带宽和较低的运算能力实现高性能、高质量的图形显示效果.文中介绍了移动图形处理器发展现状,从硬件设计方面分析了这一领域未来面临的挑战;分析了当前移动图形处理器中区块式和立即式渲染的架构特点,总结了渲染过程中加速数据流计算方法和芯片低功耗设计方法.最后展望了移动图形处理器的发展趋势. 展开更多
关键词 移动图形处理器 区块式渲染 立即渲染 低功耗
在线阅读 下载PDF
基于图形处理器的电力系统稀疏线性方程组求解方法 被引量:9
15
作者 周挺辉 赵文恺 +2 位作者 严正 徐得超 江涵 《电力系统自动化》 EI CSCD 北大核心 2015年第2期74-80,共7页
针对电力系统大规模线性方程组的稀疏特点,提出了基于图形处理器(GPU)的直接求解方法。该方法首先利用基于先排序的分块对角加边形式(BBDF)划分方法对方程组系数矩阵进行分割,形成具有粗粒度和细粒度两层并行结构的线性方程组,然后... 针对电力系统大规模线性方程组的稀疏特点,提出了基于图形处理器(GPU)的直接求解方法。该方法首先利用基于先排序的分块对角加边形式(BBDF)划分方法对方程组系数矩阵进行分割,形成具有粗粒度和细粒度两层并行结构的线性方程组,然后利用GPU的线程块和线程并行特性对其分别予以求解。将上述方法应用到电力系统暂态稳定计算中,并对其加速效果进行了测试。测试结果表明,在目前普及的设备上,所提方法可获得3~4倍的加速比;在高端设备上,能够获得7~8倍的加速比。 展开更多
关键词 电力系统 并行计算 暂态稳定计算 图形处理器 稀疏技术 加速比
在线阅读 下载PDF
图形处理器流水线数据压缩技术研究综述 被引量:11
16
作者 韩立敏 田泽 +2 位作者 张骏 郑新建 任向隆 《计算机应用研究》 CSCD 北大核心 2018年第3期648-653,共6页
提高功耗效率是高端GPU的关键设计目标之一。在3D图形渲染流水线的多个阶段,使用数据压缩技术能够显著减少GPU片外存储器的访问量,从而达到提高图形绘制性能和降低功耗的效果。为了对图形处理器流水线数据压缩技术的应用现状进行总结和... 提高功耗效率是高端GPU的关键设计目标之一。在3D图形渲染流水线的多个阶段,使用数据压缩技术能够显著减少GPU片外存储器的访问量,从而达到提高图形绘制性能和降低功耗的效果。为了对图形处理器流水线数据压缩技术的应用现状进行总结和分析,立足于GPU图形渲染流水线和存储系统的结构特征,归纳了各种缓冲区对象、纹理数据专用压缩算法的关键特性;分析了图形流水线数据压缩技术的研究现状、不足与挑战;并基于应用需求指明GPU流水线数据压缩技术进一步的研究内容。 展开更多
关键词 图形处理器 数据压缩 3D渲染流水线 功耗效率
在线阅读 下载PDF
基于图形处理器的合成孔径声呐实时距离多普勒成像算法 被引量:9
17
作者 钟何平 唐劲松 +2 位作者 张森 张学波 田振 《电子与信息学报》 EI CSCD 北大核心 2014年第8期1899-1904,共6页
该文提出一种基于图形处理器(GPU)的距离多普勒成像算法(RDA),为合成孔径声呐(SAS)的实时成像提供了新的途径。通过GPU平台上的并行方法进行距离向脉冲压缩、固定相位补偿和方位向脉冲压缩,显著提升了距离多普勒成像算法效率。仿真和实... 该文提出一种基于图形处理器(GPU)的距离多普勒成像算法(RDA),为合成孔径声呐(SAS)的实时成像提供了新的途径。通过GPU平台上的并行方法进行距离向脉冲压缩、固定相位补偿和方位向脉冲压缩,显著提升了距离多普勒成像算法效率。仿真和实验结果表明:在满足成像分辨率的前提下,该文设计的基于GPU的并行RDA和CPU串行算法相比,加速比可达到22,满足实时SAS成像需求。 展开更多
关键词 合成孔径声呐 距离多普勒算法 图形处理器 并行计算
在线阅读 下载PDF
通用图形处理器线程调度优化方法研究综述 被引量:4
18
作者 何炎祥 张军 +3 位作者 沈凡凡 江南 李清安 刘子骏 《计算机学报》 EI CSCD 北大核心 2016年第9期1733-1749,共17页
随着通用图形处理器(GPGPU)并行计算能力的日益增强,其应用范围越来越广.然而由于不规则计算任务使得通用图形处理器资源难以得到充分利用,其性能并未达到最大化.在论述GPGPU微体系结构的基础上,该文重点讨论了多种针对GPGPU性能提升的... 随着通用图形处理器(GPGPU)并行计算能力的日益增强,其应用范围越来越广.然而由于不规则计算任务使得通用图形处理器资源难以得到充分利用,其性能并未达到最大化.在论述GPGPU微体系结构的基础上,该文重点讨论了多种针对GPGPU性能提升的线程调度优化方法,主要从针对优化分支转移提升线程级并行度、针对访存效率的提升和针对标量指令执行以提升资源利用率三方面的线程调度优化方法进行了分析和比较.另外,由于功耗问题已成为制约GPGPU发展的主要因素之一,该文还分析了影响GPGPU功耗效率的主要原因及目前提高GPGPU功耗效率的主要低功耗技术,并对目前针对GPGPU功耗优化的典型线程调度优化方法进行了分析比较.最后,该文指出了未来线程调度优化方法需要进一步探讨的一些问题. 展开更多
关键词 通用图形处理器 线程调度优化 性能 功耗
在线阅读 下载PDF
基于图形处理器的并行方体计算 被引量:7
19
作者 周国亮 陈红 +2 位作者 李翠平 王珊 郑涛 《计算机学报》 EI CSCD 北大核心 2010年第10期1788-1808,共21页
方体(cube)计算是数据仓库和联机分析处理(Online analytical processing,OLAP)领域的核心问题,如何提高方体计算性能获得了学术界和工业界的广泛关注,但目前大部分方体算法都没有考虑最新的处理器架构.近年来,处理器从单一计算核心进... 方体(cube)计算是数据仓库和联机分析处理(Online analytical processing,OLAP)领域的核心问题,如何提高方体计算性能获得了学术界和工业界的广泛关注,但目前大部分方体算法都没有考虑最新的处理器架构.近年来,处理器从单一计算核心进化为多个或许多个计算核心,如多核CPU、图形处理器(Graphic Processing Units,GPU)等.为了充分利用现代处理器的多核资源,该文提出了基于GPU的并行方体算法GPU-Cubing,算法采用自底向上、广度优先的划分策略,每次并行完成一个cuboid的计算并输出;在计算cuboid过程中多个分区同步处理,分区内多线程并行.GPU-Cubing算法适合GPU体系结构,并行度高.与BUC算法相比,基于真实数据集的完全方体计算可以获得一个数量级以上的加速比,冰山方体获得至少2倍以上的加速. 展开更多
关键词 图形处理器 并行方体计算 实时数据仓库 联机分析处理
在线阅读 下载PDF
图形处理器通用计算关键技术研究综述 被引量:28
20
作者 王海峰 陈庆奎 《计算机学报》 EI CSCD 北大核心 2013年第4期757-772,共16页
当前图形处理器的通用计算取得长足发展,为适应通用计算图形处理器在硬件体系结构和软件支持方面完成相应调整和改变,面对各种应用领域中数据规模增大的趋势,多GPU系统和GPU集群的研究应用日趋增多.以流处理器及图形处理器硬件体系为依... 当前图形处理器的通用计算取得长足发展,为适应通用计算图形处理器在硬件体系结构和软件支持方面完成相应调整和改变,面对各种应用领域中数据规模增大的趋势,多GPU系统和GPU集群的研究应用日趋增多.以流处理器及图形处理器硬件体系为依据,介绍学术和工业领域中流处理器及图形处理器体系变化趋势.从软件编程环境、硬件计算与通信等方面展开讨论,阐述通用计算中图形处理器的关键问题,包括编程模型及语言的发展和方向,存储模型的量化研究、访存模式和行为的优化以及分布式存储管理的热点问题,典型通信原型系统的对比及通信难点的分析,GPU片内和片间的负载均衡,可靠性和容错计算,GPU功耗评测及低功耗优化的研究进展.综述在海量数据处理、智能计算、复杂网络、集群应用领域中图形处理器的研究进展及成果.总结在通用计算发展中存在的技术问题和未来挑战. 展开更多
关键词 图形处理器 通用计算 可编程性 GPU集群
在线阅读 下载PDF
上一页 1 2 36 下一页 到第
使用帮助 返回顶部