期刊文献+
共找到823篇文章
< 1 2 42 >
每页显示 20 50 100
基于GPU的通用计算模型 被引量:1
1
作者 崔雪冰 张延红 王康平 《河南科技大学学报(自然科学版)》 CAS 北大核心 2009年第3期51-54,共4页
基于计算核和图形接口能够支持GPU通用计算的特点,给出了一个规范的四层编程模型。本文主要研究了在系统抽象层中对计算核和图形接口层的图形操作抽象成通用计算的过程,其目的是屏蔽图形操作的痕迹,使在应用层执行屏蔽图形绘制程序,图... 基于计算核和图形接口能够支持GPU通用计算的特点,给出了一个规范的四层编程模型。本文主要研究了在系统抽象层中对计算核和图形接口层的图形操作抽象成通用计算的过程,其目的是屏蔽图形操作的痕迹,使在应用层执行屏蔽图形绘制程序,图形接口能够被抽象成GPU进行通用计算操作,提高面向GPGPU绘制语言的可描述性和规范化,并通过检测模块的设置检测运行环境,以提高效率。 展开更多
关键词 图形处理器 通用计算 绘制语言 模型
在线阅读 下载PDF
基于GPU并行计算的拓扑优化全流程加速设计方法
2
作者 张长东 吴奕凡 +3 位作者 周铉华 李旭东 肖息 张自来 《航空制造技术》 北大核心 2025年第12期34-41,67,共9页
随着大尺寸航空航天装备的发展需求,高效高精度的大规模拓扑优化设计成为该领域关注的焦点。针对现有大规模拓扑优化设计存在的计算量巨大、计算效率低下等问题,基于GPU并行计算开展了拓扑优化全流程加速设计方法的研究。对网格划分、... 随着大尺寸航空航天装备的发展需求,高效高精度的大规模拓扑优化设计成为该领域关注的焦点。针对现有大规模拓扑优化设计存在的计算量巨大、计算效率低下等问题,基于GPU并行计算开展了拓扑优化全流程加速设计方法的研究。对网格划分、刚度矩阵计算与组装、有限元求解等过程进行了并行加速,实现了高效高精度的体素网格划分及有限元过程的高效求解。此外,该方法针对拓扑优化设计过程的加速需求,对灵敏度过滤过程进行了并行加速处理。以300万体素单元的姿态推力器模型为设计对象,发现相比于Abaqus 2022软件的拓扑优化并行加速计算,本文所提方法的加速比提高了1259%,且两种方法的相似度极高,验证了所提方法的有效性与实用性。 展开更多
关键词 拓扑优化 并行计算 gpu加速 符号距离场 稀疏矩阵 网格划分
在线阅读 下载PDF
面向GPU平台的通用Stencil自动调优框架
3
作者 孙庆骁 杨海龙 《计算机研究与发展》 北大核心 2025年第10期2622-2634,共13页
Stencil计算在科学应用中得到了广泛采用.许多高性能计算(HPC)平台利用GPU的高计算能力来加速Stencil计算.近年来,Stencil计算在阶数、内存访问和计算模式等方面变得更加复杂.为了使Stencil计算适配GPU架构,学术界提出了各种基于流处理... Stencil计算在科学应用中得到了广泛采用.许多高性能计算(HPC)平台利用GPU的高计算能力来加速Stencil计算.近年来,Stencil计算在阶数、内存访问和计算模式等方面变得更加复杂.为了使Stencil计算适配GPU架构,学术界提出了各种基于流处理和分块的优化技术.由于Stencil计算模式和GPU架构的多样性,没有单一的优化技术适合所有Stencil实例.因此,研究人员提出了Stencil自动调优机制来对给定优化技术组合进行参数搜索.然而,现有机制引入了庞大的离线分析成本和在线预测开销,并且无法灵活地推广到任意Stencil模式.为了解决上述问题,提出了通用Stencil自动调优框架GeST,其在GPU平台上实现Stencil计算的极致性能优化.具体来说,GeST通过零填充格式构建全局搜索空间,利用变异系数量化参数相关性并生成参数组;之后,GeST迭代地从参数组选取参数值,根据奖励策略调整采样比例并通过哈希编码避免冗余执行.实验结果表明,与其他先进的自动调优工作相比,Ge ST能够在短时间内识别出性能更优的参数设置. 展开更多
关键词 Stencil计算 gpu 自动调优 性能优化 参数搜索
在线阅读 下载PDF
基于GPU并行计算的目标声散射Kirchhoff近似积分方法
4
作者 杨晨轩 安俊英 +1 位作者 孙阳 张毅 《声学技术》 北大核心 2025年第4期499-505,共7页
为提高水下目标中高频声散射的计算效率,文章建立了基于图形处理器(graphics processing unit,GPU)并行计算方式的目标声散射基尔霍夫(Kirchhoff)近似积分计算模型。首先,针对目标声散射的Kirchhoff近似积分方法的常量元模型和面元精确... 为提高水下目标中高频声散射的计算效率,文章建立了基于图形处理器(graphics processing unit,GPU)并行计算方式的目标声散射基尔霍夫(Kirchhoff)近似积分计算模型。首先,针对目标声散射的Kirchhoff近似积分方法的常量元模型和面元精确积分模型,建立基于GPU线程分配的并行化模式,形成可并行计算的算法模型;然后,以半径为1 m的刚性球为目标,采用GPU并行模型计算其声散射目标强度,并通过与解析解的对比验证算法的准确性;最后,以Benchmark模型为目标,通过仿真计算不同条件下的声散射目标强度,对比分析GPU并行计算模型的加速比。结果表明,常量元模型的GPU并行计算效率相比传统串行计算效率提高4~5倍;面元精确积分模型的GPU并行计算效率相比于传统串行计算效率提高8~11倍。基于GPU的并行化模式对目标声散射的Kirchhoff近似积分方法的计算具有明显的加速效果,且随着面元数增加,GPU计算优势更加明显。 展开更多
关键词 基尔霍夫(Kirchhoff)近似积分 图形处理器(gpu) 并行计算 目标散射
在线阅读 下载PDF
基于Vulkan的电大复杂目标电磁散射SBR计算方法与GPU加速技术
5
作者 王思凡 吴扬 +5 位作者 贾浩文 胡志明 申子昂 徐若锋 梁达 赵雷 《电波科学学报》 北大核心 2025年第3期457-463,共7页
提出了一种基于Vulkan架构的弹跳射线(shooting and bouncing ray,SBR)加速计算方法,用于电大复杂目标雷达散射截面的快速计算。设计了高效的Vulkan计算着色器,充分利用GPU硬件光追,显著提升了SBR法中光线求交的计算速度;引入了双命令... 提出了一种基于Vulkan架构的弹跳射线(shooting and bouncing ray,SBR)加速计算方法,用于电大复杂目标雷达散射截面的快速计算。设计了高效的Vulkan计算着色器,充分利用GPU硬件光追,显著提升了SBR法中光线求交的计算速度;引入了双命令缓冲机制,使得CPU与GPU能够高效协同工作,从而加速多角度扫描任务的执行;在虚拟孔径面上划分互不干扰的子任务,进一步提升了多GPU并行的利用效率。实验结果表明:所提出方法在计算电大复杂目标雷达散射截面时相较于FEKO RL-GO方法实现了40倍以上的加速;双命令缓冲机制提升了约42%的多角度扫描速度;双GPU计算并行效率超过90%。 展开更多
关键词 雷达散射截面(RCS) 弹跳射线(SBR)法 光线追踪 gpu加速计算 电大复杂目标
在线阅读 下载PDF
考虑两个短路点的配电网不对称短路分析与通用计算方法
6
作者 杨杉 喻希 +1 位作者 张晓彤 罗朝旭 《电网技术》 北大核心 2025年第2期807-814,共8页
针对换流器型分布式电源(inverter based distributed generation,IBDG)广泛应用的新型配电网,解决目前不对称短路电流计算方法主要以计算单个短路点为主,且新增短路点后将面临计算通用性问题,该文研究一种新颖的配电网不对称短路电流... 针对换流器型分布式电源(inverter based distributed generation,IBDG)广泛应用的新型配电网,解决目前不对称短路电流计算方法主要以计算单个短路点为主,且新增短路点后将面临计算通用性问题,该文研究一种新颖的配电网不对称短路电流计算方法。该方法将2个短路点的情况考虑在内,进一步对不对称短路进行分类,并形成结合IBDG短路等效电路的配电网不对称短路通用等效电路。接着分别建立1个和2个短路点情况下的计算方程和边界方程,提出一种能计及2个不对称短路点的,对配电网普遍适用的不对称短路电流通用计算方法。最后,在一个配电网算例中对所提计算方法进行验证,结果验证了所提方法的正确性和有效性。 展开更多
关键词 新型配电网 不对称短路电流 换流器型分布式电源 通用计算 2个短路点
在线阅读 下载PDF
基于图形处理器(GPU)的通用计算 被引量:228
7
作者 吴恩华 柳有权 《计算机辅助设计与图形学学报》 EI CSCD 北大核心 2004年第5期601-612,共12页
伴随着PC级微机的崛起和普及 ,多年来计算机图形的大部分应用发生了从工作站向微机的大转移 ,这种转移甚至发生在像虚拟现实、计算机仿真这样的实时 (中、小规模 )应用中 这一切的发生从很大程度上源自于图形处理硬件的发展和革新 近年... 伴随着PC级微机的崛起和普及 ,多年来计算机图形的大部分应用发生了从工作站向微机的大转移 ,这种转移甚至发生在像虚拟现实、计算机仿真这样的实时 (中、小规模 )应用中 这一切的发生从很大程度上源自于图形处理硬件的发展和革新 近年来 ,随着图形处理器 (GPU)性能的大幅度提高以及可编程特性的发展 ,人们首先开始将图形流水线的某些处理阶段以及某些图形算法从CPU向GPU转移 除了计算机图形学本身的应用 ,涉及到其他领域的计算 ,以至于通用计算近 2~ 3年来成为GPU的应用之一 ,并成为研究热点 文中从若干图形硬件发展的历史开始 ,介绍和分析最新GPU在通用计算方面的应用及其技术原理和发展状况 。 展开更多
关键词 图形处理器 通用计算 gpu 图形硬件 可编程性 代数运算 性能分析
在线阅读 下载PDF
GPU通用计算及其在计算智能领域的应用 被引量:15
8
作者 丁科 谭营 《智能系统学报》 CSCD 北大核心 2015年第1期1-11,共11页
在日趋复杂的图形处理任务的推动下,GPU已经演化成为具有众多计算核心、计算能力强大的通用计算设备,并被越来越多地应用于图形处理之外的计算领域。GPU具有高并行、低能耗和低成本的特点,在数据并行度高的计算任务中,相比与传统的CPU... 在日趋复杂的图形处理任务的推动下,GPU已经演化成为具有众多计算核心、计算能力强大的通用计算设备,并被越来越多地应用于图形处理之外的计算领域。GPU具有高并行、低能耗和低成本的特点,在数据并行度高的计算任务中,相比与传统的CPU平台有着显著的优势。随着GPU体系结构的不断演进以及开发平台的逐步完善,GPU已经进入到高性能计算的主流行列。GPU通用计算的普及,使个人和小型机构能有机会获得以往昂贵的大型、超级计算机才能提供的计算能力,并一定程度上改变了科学计算领域的格局和编程开发模式。GPU提供的强大计算能力极大地推动了计算智能的发展,并且已经在深度学习和群体智能优化方法等子领域获得了巨大的成功,更是在图像、语音等领域取得了突破性的进展。随着人工智能技术和方法的不断进步,GPU将在更多的领域获得更加广泛的应用。 展开更多
关键词 计算智能 群体智能 演化算法 机器学习 深度学习 图形处理器 gpu通用计算 异构计算 高性能计算
在线阅读 下载PDF
面向多任务的GPU通用计算虚拟化技术研究 被引量:4
9
作者 张云洲 袁家斌 吕相文 《计算机工程与科学》 CSCD 北大核心 2013年第11期119-125,共7页
随着硬件功能的不断丰富和软件开发环境的逐渐成熟,GPU在通用计算领域的应用越来越广泛,使用GPU集群来进行海量数据计算的例子不胜枚举。但是,相对于CPU,GPU的功耗较大,如果每个节点都配备GPU,则将大大增加集群的功耗。虚拟化技术的引... 随着硬件功能的不断丰富和软件开发环境的逐渐成熟,GPU在通用计算领域的应用越来越广泛,使用GPU集群来进行海量数据计算的例子不胜枚举。但是,相对于CPU,GPU的功耗较大,如果每个节点都配备GPU,则将大大增加集群的功耗。虚拟化技术的引入使得在虚拟机中利用GPU资源进行通用计算成为可能。为高效、充分地利用GPU,针对GPU的特点,提出了一种面向多任务的可动态调度、支持多用户并发的GPU虚拟化解决方案。在已有的GPU虚拟化方案的基础上,综合考虑虚拟机域间通信的通用性以及任务的周转时间,建立了CUDA管理端来对GPU资源进行统一管理。通过设置综合负载评价值实现负载均衡并降低任务的平均周转时间。在设计的系统上进行大规模矩阵运算实验,结果说明了GPU虚拟化方案在计算系统中的可行性和高效性。 展开更多
关键词 gpu通用计算 虚拟化 CUDA 负载均衡
在线阅读 下载PDF
DirectX发展及相关GPU通用计算技术综述 被引量:7
10
作者 田绪红 陈茂资 田金梅 《计算机工程与设计》 CSCD 北大核心 2009年第23期5432-5436,5559,共6页
以DirectX最近几个关键版本的更替为主线,介绍了近年来DirectX及相应的图形处理器(GPU)可编程性的发展。详细阐述了GPU编程模型在DirectX不同版本下的特点与性能,包括着色器架构、着色器语言、浮点纹理格式、程序流程控制等几个方面,以... 以DirectX最近几个关键版本的更替为主线,介绍了近年来DirectX及相应的图形处理器(GPU)可编程性的发展。详细阐述了GPU编程模型在DirectX不同版本下的特点与性能,包括着色器架构、着色器语言、浮点纹理格式、程序流程控制等几个方面,以及编程模型方面的不同特点与性能对GPU通用计算带来的影响,并从软件和硬件两方面分析了这一领域未来的机遇和挑战。 展开更多
关键词 图形处理器 通用计算 DIRECTX 着色器 浮点纹理
在线阅读 下载PDF
静态程序切片的GPU通用计算功耗预测模型 被引量:6
11
作者 王海峰 陈庆奎 《软件学报》 EI CSCD 北大核心 2013年第8期1746-1760,共15页
随着图形处理器通用计算的发展,GPU(graphics processing unit)通用计算程序功耗的度量与优化成为绿色计算领域中的一个基础问题.当前,GPU计算能耗评测主要通过硬件来实现,而开发人员无法在编译之前了解应用程序能耗,难以实现能耗约束... 随着图形处理器通用计算的发展,GPU(graphics processing unit)通用计算程序功耗的度量与优化成为绿色计算领域中的一个基础问题.当前,GPU计算能耗评测主要通过硬件来实现,而开发人员无法在编译之前了解应用程序能耗,难以实现能耗约束下的代码优化与重构.为了解决开发人员评估应用程序能耗的问题,提出了针对应用程序源代码的静态功耗预测模型,根据分支结构的疏密程度以及静态程序切片技术,分别建立分支稀疏和稠密两类应用程序的功耗预测模型.程序切片是介于指令与函数之间的度量粒度,在分析GPU应用程序时具有较强的理论支持和可行性.用非线性回归和小波神经网络建立两种切片功耗模型.针对特定GPU非线性回归模型的准确性较好.小波神经网络预测模型适合各种体系的GPU,具有较好的通用性.对应用程序分支结构进行分析后,为分支稀疏程序提供加权功率统计模型,以保证功耗评估算法的效率.分支稠密程序则采用基于执行路径概率的功耗预测法,以提高预测模型的准确性.实验结果表明,两种预测模型及算法能够有效评估GPU通用计算程序的功耗,模型预测值与实际测量值的相对误差低于6%. 展开更多
关键词 功耗模型 gpu计算 非线性回归 程序切片 小波神经网络
在线阅读 下载PDF
隐私计算环境下深度学习的GPU加速技术综述 被引量:1
12
作者 秦智翔 杨洪伟 +2 位作者 郝萌 何慧 张伟哲 《信息安全研究》 CSCD 北大核心 2024年第7期586-593,共8页
随着深度学习技术的不断发展,神经网络模型的训练时间越来越长,使用GPU计算对神经网络训练进行加速便成为一项关键技术.此外,数据隐私的重要性也推动了隐私计算技术的发展.首先介绍了深度学习、GPU计算的概念以及安全多方计算、同态加密... 随着深度学习技术的不断发展,神经网络模型的训练时间越来越长,使用GPU计算对神经网络训练进行加速便成为一项关键技术.此外,数据隐私的重要性也推动了隐私计算技术的发展.首先介绍了深度学习、GPU计算的概念以及安全多方计算、同态加密2种隐私计算技术,而后探讨了明文环境与隐私计算环境下深度学习的GPU加速技术.在明文环境下,介绍了数据并行和模型并行2种基本的深度学习并行训练模式,分析了重计算和显存交换2种不同的内存优化技术,并介绍了分布式神经网络训练过程中的梯度压缩技术.介绍了在隐私计算环境下安全多方计算和同态加密2种不同隐私计算场景下的深度学习GPU加速技术.简要分析了2种环境下GPU加速深度学习方法的异同. 展开更多
关键词 深度学习 gpu计算 隐私计算 安全多方计算 同态加密
在线阅读 下载PDF
基于GPU加速的分布式水文模型并行计算性能 被引量:3
13
作者 庞超 周祖昊 +4 位作者 刘佳嘉 石天宇 杜崇 王坤 于新哲 《南水北调与水利科技(中英文)》 CAS CSCD 北大核心 2024年第1期33-38,共6页
针对具有物理机制的分布式水文模型对大流域、长序列模拟计算时间长、模拟速度慢的问题,引入基于GPU的并行计算技术,实现分布式水文模型WEP-L(water and energy transfer processes in large river basins)产流过程的并行化。选择鄱阳... 针对具有物理机制的分布式水文模型对大流域、长序列模拟计算时间长、模拟速度慢的问题,引入基于GPU的并行计算技术,实现分布式水文模型WEP-L(water and energy transfer processes in large river basins)产流过程的并行化。选择鄱阳湖流域为实验区,采用计算能力为8.6的NVIDIA RTX A4000对算法性能进行测试。研究表明:提出的基于GPU的分布式水文模型并行算法具有良好的加速效果,当线程总数越接近划分的子流域个数(计算任务量)时,并行性能越好,在实验流域WEP-L模型子流域单元为8712个时,加速比最大达到2.5左右;随着计算任务量的增加,加速比逐渐增大,当实验流域WEP-L模型子流域单元增加到24897个时,加速比能达到3.5,表明GPU并行算法在大尺度流域分布式水文模型计算中具有良好的发展潜力。 展开更多
关键词 基于gpu的并行算法 物理机制 分布式水文模型 WEP-L模型 计算性能
在线阅读 下载PDF
基于异构多核心GPU的高性能密码计算技术研究进展 被引量:4
14
作者 董建阔 黄跃花 +4 位作者 付宇笙 肖甫 郑昉昱 林璟锵 董振江 《软件学报》 EI CSCD 北大核心 2024年第12期5582-5608,共27页
密码学是保障网络安全的核心基础,其在数据保护、身份验证、加密通信等方面发挥着至关重要的作用.随着5G和物联网技术的迅速普及,网络安全面临着空前的挑战,对密码学性能的要求呈现出爆发式增长.GPU能够利用数以千计的计算核心并行化加... 密码学是保障网络安全的核心基础,其在数据保护、身份验证、加密通信等方面发挥着至关重要的作用.随着5G和物联网技术的迅速普及,网络安全面临着空前的挑战,对密码学性能的要求呈现出爆发式增长.GPU能够利用数以千计的计算核心并行化加速复杂计算问题,这种并行化特性非常适用于密码学算法的计算密集型特性.鉴于此,研究人员广泛探索了在GPU平台上加速各种密码算法的方法,与CPU、FPGA等平台相比,GPU展现出明显的性能优势.论述各类密码算法的分类与GPU平台架构,对各类密码在GPU异构平台上的研究现状进行详细分析,总结当前基于GPU平台高性能密码学面临的技术难题,并对未来技术发展进行展望.通过深入研究和总结,旨在为密码工程研究从业者提供有关基于GPU的高性能密码计算的最新研究进展和应用实践的综合参考. 展开更多
关键词 公钥密码 后量子密码 同态密码 并行计算 gpu加速
在线阅读 下载PDF
基于计算着色器的并行Delaunay三角剖分算法
15
作者 陈国军 李震烁 陈昊祯 《图学学报》 北大核心 2025年第1期159-169,共11页
Delaunay三角剖分是一种经典的计算几何算法,在众多领域中有着广泛地使用,随着实际需求的不断提高,现有的Delaunay三角剖分算法已不能满足大规模数据的需求,为此,提出了一种基于计算着色器的并行Delaunay三角剖分方法,该方法通过纹理缓... Delaunay三角剖分是一种经典的计算几何算法,在众多领域中有着广泛地使用,随着实际需求的不断提高,现有的Delaunay三角剖分算法已不能满足大规模数据的需求,为此,提出了一种基于计算着色器的并行Delaunay三角剖分方法,该方法通过纹理缓存将点集数据输入到计算着色器中,并利用计算着色器加速Delaunay三角剖分,同时在现有方法的基础上提出动态插入法解决点集在离散空间中的重映射问题。此外,为了能够让显存有限的GPU构建出远超其显存限制的Delaunay三角网,提出基于计算着色器的分区双向扫描算法,并将点集划分为多个子区域,然后通过扫描各个子区域的方式进行构网。实验结果表明:在相同运行环境下,基于计算着色器的方法与现有的方法相比缩短了构网时间。同时分区双向扫描算法很好地解决了GPU的显存瓶颈问题,能让显存有限的GPU构建出远超其显存容量的Delaunay三角网。 展开更多
关键词 DELAUNAY三角剖分 计算着色器 gpu 并行计算 VORONOI图
在线阅读 下载PDF
用于通用存储和神经形态计算的相变存储器的研究进展 被引量:1
16
作者 连晓娟 李甫 +2 位作者 付金科 高志瑄 王磊 《半导体技术》 北大核心 2024年第1期1-29,共29页
存算一体技术目前被认为是一种可以消除冯·诺依曼计算架构瓶颈的可行性技术。在众多的存算一体器件中,相变存储器(PCM)因其具有非易失性、可微缩性、高开关速度、低操作电压、循环寿命长以及与现有半导体工艺相兼容等优点,被认为... 存算一体技术目前被认为是一种可以消除冯·诺依曼计算架构瓶颈的可行性技术。在众多的存算一体器件中,相变存储器(PCM)因其具有非易失性、可微缩性、高开关速度、低操作电压、循环寿命长以及与现有半导体工艺相兼容等优点,被认为是未来通用存储和神经形态计算器件中最具竞争力的候选者之一。首先介绍了PCM的工作原理和器件材料结构,并详细讨论了PCM在通用存储和神经形态计算领域的应用。PCM具有高集成度和低功耗的共性需求,但这两个应用领域对材料性能有不同的侧重点。详细分析了PCM目前存在的优缺点,如高编程电流导致的功耗问题,以及商业化应用面临的主要挑战。最后,针对PCM的研究现状提出了一系列改进措施,包括材料选择、器件结构设计、预操作、热损耗降低、3D架构,以及解决阻态漂移等问题,以推动其进一步发展和应用。 展开更多
关键词 非易失性存储器(NVM) 相变存储器(PCM) 通用存储 存算一体 神经形态计算
在线阅读 下载PDF
GPU通用计算在LBM方法中的应用 被引量:1
17
作者 王凯 封卫兵 晁媛 《计算机工程与设计》 CSCD 北大核心 2009年第19期4513-4515,4535,共4页
提出了一种结合GPU通用计算与计算流体力学中的LBM算法来模拟二维流场的方法。根据GPU通用计算和LBM方法的基本原理,利用OpenGL的离屏渲染技术FBO和Cg语言,基于LBM方法中的D2Q9模型对二维方腔流进行数值模拟,并设计出基于OpenGL的GPU通... 提出了一种结合GPU通用计算与计算流体力学中的LBM算法来模拟二维流场的方法。根据GPU通用计算和LBM方法的基本原理,利用OpenGL的离屏渲染技术FBO和Cg语言,基于LBM方法中的D2Q9模型对二维方腔流进行数值模拟,并设计出基于OpenGL的GPU通用计算的二维流场数值计算框架。实验结果表明,利用GPU模拟与CPU模拟流场的数值结果相当吻合,特别地,利用GPU进行数值模拟实验的速度是利用CPU的4倍左右。 展开更多
关键词 图形处理单元 图形处理单元通用计算 格子波尔兹曼方法 OPENGL 帧缓冲对象
在线阅读 下载PDF
基于GPU通用计算的并行算法和计算框架的实现 被引量:3
18
作者 朱宇兰 《山东农业大学学报(自然科学版)》 CSCD 2016年第3期473-476,480,共5页
GPU通用计算是近几年来迅速发展的一个计算领域,以其强大的并行处理能力为密集数据单指令型计算提供了一个绝佳的解决方案,但受限制于芯片的制造工艺,其运算能力遭遇瓶颈。本文从GPU通用计算的基础——图形API开始,分析GPU并行算法特征... GPU通用计算是近几年来迅速发展的一个计算领域,以其强大的并行处理能力为密集数据单指令型计算提供了一个绝佳的解决方案,但受限制于芯片的制造工艺,其运算能力遭遇瓶颈。本文从GPU通用计算的基础——图形API开始,分析GPU并行算法特征、运算的过程及特点,并抽象出了一套并行计算框架。通过计算密集行案例,演示了框架的使用方法,并与传统GPU通用计算的实现方法比较,证明了本框架具有代码精简、与图形学无关的特点。 展开更多
关键词 gpu通用计算 并行计算 计算框架
在线阅读 下载PDF
面向大型结构实时计算的显卡加速显式非线性振型叠加法
19
作者 王贞 黄健君 +2 位作者 武文斌 吴斌 徐小洋 《地震工程与工程振动》 北大核心 2025年第5期154-163,共10页
该文针对具有局部耗能非线性的大型桥梁结构的实时计算问题,提出了一种图形处理器(graphics processing unit,GPU)加速的显式非线性振型叠加法(explicit nonlinear mode superposition method,ENMS)。该方法视非线性反力为外荷载,采用... 该文针对具有局部耗能非线性的大型桥梁结构的实时计算问题,提出了一种图形处理器(graphics processing unit,GPU)加速的显式非线性振型叠加法(explicit nonlinear mode superposition method,ENMS)。该方法视非线性反力为外荷载,采用振型叠加法对单积分步线性运动方程进行解耦,并采用显式逐步积分法求解,避免了运动方程迭代求解,利用了振型叠加法的快速计算优势,大幅提升计算效率。针对方程已经解耦的特征,利用GPU加速计算,进一步提升计算效率。某大跨度斜拉桥数值仿真研究表明:对于存在局部非线性的大型多自由度结构,该方法可利用Midas Civil导出的参数方便地进行动力响应求解,结果精度高;对于黏滞阻尼器的指数阻尼Maxwell模型,二分法能够准确求解阻尼力,较好地解决非线性阻尼器建模问题;GPU加速可显著提升显式非线性振型叠加法计算效率。 展开更多
关键词 大型桥梁结构 局部非线性 非线性振型叠加法 显式积分算法 gpu加速计算 实时计算分析
在线阅读 下载PDF
GPU异构集群的协同计算引擎设计研究
20
作者 李清清 于欣宁 王海峰 《计算机应用与软件》 北大核心 2024年第12期15-22,28,共9页
GPU与多核CPU的协同可提高大数据计算效率,然而用户需要同时考虑应用领域内的并行算法逻辑和协同计算过程,为GPU异构协同计算增加了编程难度。所以,在分析GPU异构集群节点之间和节点内协同计算的基础上抽取流程逻辑,提出一个粗细粒度相... GPU与多核CPU的协同可提高大数据计算效率,然而用户需要同时考虑应用领域内的并行算法逻辑和协同计算过程,为GPU异构协同计算增加了编程难度。所以,在分析GPU异构集群节点之间和节点内协同计算的基础上抽取流程逻辑,提出一个粗细粒度相结合的协同计算引擎,自动生成协同执行计划,用户只需关注应用领域算法的设计和实现。实验表明,该方法与人工编程方案对比发现性能损失控制在4.2%以内。因此该协同计算引擎能够用于GPU通用计算开发应用中,可有效改善普通用户的开发效率。 展开更多
关键词 gpu协同计算 有限自动机 计算引擎 模板技术
在线阅读 下载PDF
上一页 1 2 42 下一页 到第
使用帮助 返回顶部