期刊文献+
共找到384篇文章
< 1 2 20 >
每页显示 20 50 100
基于GPU并行计算的拓扑优化全流程加速设计方法
1
作者 张长东 吴奕凡 +3 位作者 周铉华 李旭东 肖息 张自来 《航空制造技术》 北大核心 2025年第12期34-41,67,共9页
随着大尺寸航空航天装备的发展需求,高效高精度的大规模拓扑优化设计成为该领域关注的焦点。针对现有大规模拓扑优化设计存在的计算量巨大、计算效率低下等问题,基于GPU并行计算开展了拓扑优化全流程加速设计方法的研究。对网格划分、... 随着大尺寸航空航天装备的发展需求,高效高精度的大规模拓扑优化设计成为该领域关注的焦点。针对现有大规模拓扑优化设计存在的计算量巨大、计算效率低下等问题,基于GPU并行计算开展了拓扑优化全流程加速设计方法的研究。对网格划分、刚度矩阵计算与组装、有限元求解等过程进行了并行加速,实现了高效高精度的体素网格划分及有限元过程的高效求解。此外,该方法针对拓扑优化设计过程的加速需求,对灵敏度过滤过程进行了并行加速处理。以300万体素单元的姿态推力器模型为设计对象,发现相比于Abaqus 2022软件的拓扑优化并行加速计算,本文所提方法的加速比提高了1259%,且两种方法的相似度极高,验证了所提方法的有效性与实用性。 展开更多
关键词 拓扑优化 并行计算 gpu加速 符号距离场 稀疏矩阵 网格划分
在线阅读 下载PDF
基于ROACH2-GPU的集群相关器研究——Hashpipe软件在X-engine模块中的应用
2
作者 张科 王钊 +6 位作者 李吉夏 吴锋泉 田海俊 牛晨辉 张巨勇 陈志平 陈学雷 《贵州师范大学学报(自然科学版)》 北大核心 2025年第2期114-121,共8页
随着国际上越来越多干涉阵列设备的建造与运行,为人类探测未知宇宙的奥秘提供了丰富的观测数据,然而随之带来高速和密集型数据实时处理的巨大困难,对传统的数据处理技术提出了严峻的挑战。基于我国已建造的天籁计划一期项目在数据实时... 随着国际上越来越多干涉阵列设备的建造与运行,为人类探测未知宇宙的奥秘提供了丰富的观测数据,然而随之带来高速和密集型数据实时处理的巨大困难,对传统的数据处理技术提出了严峻的挑战。基于我国已建造的天籁计划一期项目在数据实时关联计算的需求,利用GPU在高性能并行计算上的优势,为天籁柱形探路者阵列设计并实现一套基于ROACH2-GPU的集群相关器,深入探究Hashpipe(High availibility shared pipeline engine)软件在集群相关器X-engine模块中的应用。首先介绍ROACH2-GPU集群相关器的整体架构,然后研究Hashpipe的核心功能和数据处理方法,实现了完整的分布式异构处理功能,优化了Hashpipe控制和参数接口。根据实际观测需求,可修改程序参数,能实现不同通道数量的相关器配置,降低后端软硬件设计的难度和成本。最后,在完成软件正确性测试的基础上,进行了强射电天文源的观测和处理,能够获得准确的干涉条纹。 展开更多
关键词 ROACH2-gpu Hashpipe 集群相关器 X-engine模块 并行计算
在线阅读 下载PDF
复杂地质条件的间断有限元地震波数值模拟及GPU加速
3
作者 韩德超 刘卫华 +2 位作者 张春丽 袁媛 白鹏 《石油物探》 北大核心 2025年第4期639-652,共14页
间断Galerkin有限元方法(DGFEM)是一种具有较高模拟精度的有限元方法,但其算法编程难度大,其针对各类复杂介质的波动方程的算法目前未见统一的计算格式。为此,基于三角形非结构化网格以及局部Lax-Friedrichs数值流,构建了针对复杂介质... 间断Galerkin有限元方法(DGFEM)是一种具有较高模拟精度的有限元方法,但其算法编程难度大,其针对各类复杂介质的波动方程的算法目前未见统一的计算格式。为此,基于三角形非结构化网格以及局部Lax-Friedrichs数值流,构建了针对复杂介质波动方程模拟的DGFEM编程计算矩阵,并进一步得出了适用于各类复杂介质模拟的单一波场分量的通用计算格式。该通用计算格式能够有效提升DGFEM算法编程的可拓展性。基于该格式给出了DGFEM的通用CUDA核函数的构建方法,并形成CPU+GPU的二维DGFEM并行计算程序框架。通用CUDA核函数可以将DGFEM算法进一步延伸到更加复杂的介质以及三维情况。理论模型和复杂山地模型的数值实验结果表明,构建的通用计算格式和CUDA核函数可以准确模拟声波、弹性波、粘弹性波、孔隙弹性波方程描述的纵波、横波以及慢纵波等波现象。相比单核CPU模拟,二维DGFEM弹性波GPU计算加速比平均在100倍左右。同时,弹性波、粘弹性波、孔隙弹性波模拟耗时约为声波模拟的1.7,2.3,3.0倍。此结果可以指导复杂介质耦合条件模拟时多进程的负载平衡。 展开更多
关键词 间断Galerkin有限元方法 弹性波 粘弹性波 孔隙弹性波 数值模拟 gpu并行计算.
在线阅读 下载PDF
基于GPU并行计算的目标声散射Kirchhoff近似积分方法
4
作者 杨晨轩 安俊英 +1 位作者 孙阳 张毅 《声学技术》 北大核心 2025年第4期499-505,共7页
为提高水下目标中高频声散射的计算效率,文章建立了基于图形处理器(graphics processing unit,GPU)并行计算方式的目标声散射基尔霍夫(Kirchhoff)近似积分计算模型。首先,针对目标声散射的Kirchhoff近似积分方法的常量元模型和面元精确... 为提高水下目标中高频声散射的计算效率,文章建立了基于图形处理器(graphics processing unit,GPU)并行计算方式的目标声散射基尔霍夫(Kirchhoff)近似积分计算模型。首先,针对目标声散射的Kirchhoff近似积分方法的常量元模型和面元精确积分模型,建立基于GPU线程分配的并行化模式,形成可并行计算的算法模型;然后,以半径为1 m的刚性球为目标,采用GPU并行模型计算其声散射目标强度,并通过与解析解的对比验证算法的准确性;最后,以Benchmark模型为目标,通过仿真计算不同条件下的声散射目标强度,对比分析GPU并行计算模型的加速比。结果表明,常量元模型的GPU并行计算效率相比传统串行计算效率提高4~5倍;面元精确积分模型的GPU并行计算效率相比于传统串行计算效率提高8~11倍。基于GPU的并行化模式对目标声散射的Kirchhoff近似积分方法的计算具有明显的加速效果,且随着面元数增加,GPU计算优势更加明显。 展开更多
关键词 基尔霍夫(Kirchhoff)近似积分 图形处理器(gpu) 并行计算 目标散射
在线阅读 下载PDF
基于GPU的大状态密码S盒差分性质评估方法 被引量:1
5
作者 张润莲 张密 +1 位作者 武小年 舒瑞 《计算机应用》 CSCD 北大核心 2024年第9期2785-2790,共6页
大状态的密码S盒能够为对称密码算法提供更好的混淆性,但对大状态S盒的性质评估开销巨大。为高效评估大状态密码S盒的差分性质,提出基于GPU并行计算的大状态密码S盒差分性质评估方法。该方法基于现有的差分均匀度计算方法,针对16比特S... 大状态的密码S盒能够为对称密码算法提供更好的混淆性,但对大状态S盒的性质评估开销巨大。为高效评估大状态密码S盒的差分性质,提出基于GPU并行计算的大状态密码S盒差分性质评估方法。该方法基于现有的差分均匀度计算方法,针对16比特S盒的差分均匀度和32比特S盒的差分性质,分别设计GPU并行方案,通过优化GPU并行粒度和负载均衡提高了核函数和GPU的执行效率,并缩短了计算时间。测试结果表明,相较于CPU方法和GPU并行方法,所提方法大幅降低了大状态S盒差分性质评估的计算时间,提高了对大状态S盒差分性质的评估效率:对16比特S盒差分均匀度的计算时间为0.3 min;对32比特S盒的单个输入差分的最大输出差分概率计算时间约5 min,对它的差分性质计算时间约2.6 h。 展开更多
关键词 密码S盒 差分密码分析 差分均匀度 最大输出差分概率 gpu并行计算
在线阅读 下载PDF
基于GPU加速的分布式水文模型并行计算性能 被引量:3
6
作者 庞超 周祖昊 +4 位作者 刘佳嘉 石天宇 杜崇 王坤 于新哲 《南水北调与水利科技(中英文)》 CAS CSCD 北大核心 2024年第1期33-38,共6页
针对具有物理机制的分布式水文模型对大流域、长序列模拟计算时间长、模拟速度慢的问题,引入基于GPU的并行计算技术,实现分布式水文模型WEP-L(water and energy transfer processes in large river basins)产流过程的并行化。选择鄱阳... 针对具有物理机制的分布式水文模型对大流域、长序列模拟计算时间长、模拟速度慢的问题,引入基于GPU的并行计算技术,实现分布式水文模型WEP-L(water and energy transfer processes in large river basins)产流过程的并行化。选择鄱阳湖流域为实验区,采用计算能力为8.6的NVIDIA RTX A4000对算法性能进行测试。研究表明:提出的基于GPU的分布式水文模型并行算法具有良好的加速效果,当线程总数越接近划分的子流域个数(计算任务量)时,并行性能越好,在实验流域WEP-L模型子流域单元为8712个时,加速比最大达到2.5左右;随着计算任务量的增加,加速比逐渐增大,当实验流域WEP-L模型子流域单元增加到24897个时,加速比能达到3.5,表明GPU并行算法在大尺度流域分布式水文模型计算中具有良好的发展潜力。 展开更多
关键词 基于gpu的并行算法 物理机制 分布式水文模型 WEP-L模型 计算性能
在线阅读 下载PDF
Parallelization and performance tuning of molecular dynamics code with OpenMP 被引量:3
7
作者 白树仁 冉丽萍 鲁奎麟 《Journal of Central South University of Technology》 2006年第3期260-264,共5页
An OpenMP approach was proposed to parallelize the sequential molecular dynamics(MD) code on shared memory machines. When a code is converted from the sequential form to the parallel form, data dependence is a main pr... An OpenMP approach was proposed to parallelize the sequential molecular dynamics(MD) code on shared memory machines. When a code is converted from the sequential form to the parallel form, data dependence is a main problem. A traditional sequential molecular dynamics code is anatomized to find the data dependence segments in it, and the two different methods, i.e., recover method and backward mapping method were used to eliminate those data dependencies in order to realize the parallelization of this sequential MD code. The performance of the parallelized MD code was analyzed by using some performance analysis tools. The results of the test show that the computing size of this code increases sharply form 1 million atoms before parallelization to 20 million atoms after parallelization, and the wall clock during computing is reduced largely. Some hot-spots in this code are found and optimized by improved algorithm. The efficiency of parallel computing is 30% higher than that of before, and the calculation time is saved and larger scale calculation problems are solved. 展开更多
关键词 system analysis molecular dynamics parallel computing performance tuning openmp
在线阅读 下载PDF
基于异构多核心GPU的高性能密码计算技术研究进展 被引量:4
8
作者 董建阔 黄跃花 +4 位作者 付宇笙 肖甫 郑昉昱 林璟锵 董振江 《软件学报》 EI CSCD 北大核心 2024年第12期5582-5608,共27页
密码学是保障网络安全的核心基础,其在数据保护、身份验证、加密通信等方面发挥着至关重要的作用.随着5G和物联网技术的迅速普及,网络安全面临着空前的挑战,对密码学性能的要求呈现出爆发式增长.GPU能够利用数以千计的计算核心并行化加... 密码学是保障网络安全的核心基础,其在数据保护、身份验证、加密通信等方面发挥着至关重要的作用.随着5G和物联网技术的迅速普及,网络安全面临着空前的挑战,对密码学性能的要求呈现出爆发式增长.GPU能够利用数以千计的计算核心并行化加速复杂计算问题,这种并行化特性非常适用于密码学算法的计算密集型特性.鉴于此,研究人员广泛探索了在GPU平台上加速各种密码算法的方法,与CPU、FPGA等平台相比,GPU展现出明显的性能优势.论述各类密码算法的分类与GPU平台架构,对各类密码在GPU异构平台上的研究现状进行详细分析,总结当前基于GPU平台高性能密码学面临的技术难题,并对未来技术发展进行展望.通过深入研究和总结,旨在为密码工程研究从业者提供有关基于GPU的高性能密码计算的最新研究进展和应用实践的综合参考. 展开更多
关键词 公钥密码 后量子密码 同态密码 并行计算 gpu加速
在线阅读 下载PDF
Programming for scientific computing on peta-scale heterogeneous parallel systems 被引量:1
9
作者 杨灿群 吴强 +2 位作者 唐滔 王锋 薛京灵 《Journal of Central South University》 SCIE EI CAS 2013年第5期1189-1203,共15页
Peta-scale high-perfomlance computing systems are increasingly built with heterogeneous CPU and GPU nodes to achieve higher power efficiency and computation throughput. While providing unprecedented capabilities to co... Peta-scale high-perfomlance computing systems are increasingly built with heterogeneous CPU and GPU nodes to achieve higher power efficiency and computation throughput. While providing unprecedented capabilities to conduct computational experiments of historic significance, these systems are presently difficult to program. The users, who are domain experts rather than computer experts, prefer to use programming models closer to their domains (e.g., physics and biology) rather than MPI and OpenME This has led the development of domain-specific programming that provides domain-specific programming interfaces but abstracts away some performance-critical architecture details. Based on experience in designing large-scale computing systems, a hybrid programming framework for scientific computing on heterogeneous architectures is proposed in this work. Its design philosophy is to provide a collaborative mechanism for domain experts and computer experts so that both domain-specific knowledge and performance-critical architecture details can be adequately exploited. Two real-world scientific applications have been evaluated on TH-IA, a peta-scale CPU-GPU heterogeneous system that is currently the 5th fastest supercomputer in the world. The experimental results show that the proposed framework is well suited for developing large-scale scientific computing applications on peta-scale heterogeneous CPU/GPU systems. 展开更多
关键词 heterogeneous parallel system programming framework scientific computing gpu computing molecular dynamic
在线阅读 下载PDF
重力场反演中大型矩阵GPU加速运算的实现
10
作者 周予涵 简念川 陈从颜 《深空探测学报(中英文)》 CSCD 北大核心 2024年第6期587-593,共7页
针对重力场反演中大型矩阵解算任务量大、解算时间长的问题,提出一种基于多片GPU并行的矩阵运算方法,该方法将多片图形处理器(Graphics Processing Unit,GPU)和CUDA(Computer Unified Device Architecture)相结合,能实现密集运算的高度... 针对重力场反演中大型矩阵解算任务量大、解算时间长的问题,提出一种基于多片GPU并行的矩阵运算方法,该方法将多片图形处理器(Graphics Processing Unit,GPU)和CUDA(Computer Unified Device Architecture)相结合,能实现密集运算的高度并行化,通过加速矩阵乘法和矩阵求逆的运算,极大缩短了行星重力场反演中大型矩阵求逆所需的时间,计算速率为使用CPU计算时的191倍,并且计算的精度较高,反演的误差数量级在10–17。将其应用到重力恢复与内部实验室(Gravity Recovery and Interior Laboratory,GRAIL)月球重力场反演的计算中,在计算截断大小为50阶次和180阶次的矩阵时,比使用CPU的运算方法时间分别缩短了94.63%、99.51%,并在武汉大学高性能计算平台实现了900阶次矩阵的运算。采用的方法可有效缩短传统计算模型所需的时间,从而有助于建立高阶次、高精度的重力场模型。 展开更多
关键词 行星重力场反演 gpu运算 并行计算 CUDA
在线阅读 下载PDF
基于GPU的LBM迁移模块算法优化 被引量:3
11
作者 黄斌 柳安军 +3 位作者 潘景山 田敏 张煜 朱光慧 《计算机工程》 CAS CSCD 北大核心 2024年第2期232-238,共7页
格子玻尔兹曼方法(LBM)是一种基于介观模拟尺度的计算流体力学方法,其在计算时设置大量的离散格点,具有适合并行的特性。图形处理器(GPU)中有大量的算术逻辑单元,适合大规模的并行计算。基于GPU设计LBM的并行算法,能够提高计算效率。但... 格子玻尔兹曼方法(LBM)是一种基于介观模拟尺度的计算流体力学方法,其在计算时设置大量的离散格点,具有适合并行的特性。图形处理器(GPU)中有大量的算术逻辑单元,适合大规模的并行计算。基于GPU设计LBM的并行算法,能够提高计算效率。但是LBM算法迁移模块中每个格点的计算都需要与其他格点进行通信,存在较强的数据依赖。提出一种基于GPU的LBM迁移模块算法优化策略。首先分析迁移部分的实现逻辑,通过模型降维,将三维模型按照速度分量离散为多个二维模型,降低模型的复杂度;然后分析迁移模块计算前后格点中的数据差异,通过数据定位找到迁移模块的通信规律,并对格点之间的数据交换方式进行分类;最后使用分类的交换方式对离散的二维模型进行区域划分,设计新的数据通信方式,由此消除数据依赖的影响,将迁移模块完全并行化。对并行算法进行测试,结果显示:该算法在1.3×10^(8)规模网格下能达到1.92的加速比,表明算法具有良好的并行效果;同时对比未将迁移模块并行化的算法,所提优化策略能提升算法30%的并行计算效率。 展开更多
关键词 高性能计算 格子玻尔兹曼方法 图形处理器 并行优化 数据重排
在线阅读 下载PDF
GPU加速下的三维快速分解后向投影SAS成像算法
12
作者 陶鸿博 张东升 黄勇 《系统工程与电子技术》 EI CSCD 北大核心 2024年第10期3247-3256,共10页
后向投影(back projection,BP)算法是一种精确的时域成像算法,但BP算法的计算复杂度高,难以实现实时性成像,特别是在考虑三维成像时,BP算法的计算复杂度会进一步增加。提出一种应用在合成孔径声纳(synthetic aperture sonar,SAS)上的三... 后向投影(back projection,BP)算法是一种精确的时域成像算法,但BP算法的计算复杂度高,难以实现实时性成像,特别是在考虑三维成像时,BP算法的计算复杂度会进一步增加。提出一种应用在合成孔径声纳(synthetic aperture sonar,SAS)上的三维快速分解BP(fast factorized BP,FFBP)成像算法,并利用图形处理器(graphics processing unit,GPU)加速三维FFBP算法。经过对点目标的测试,计算时间从原本的263 s降低到了2.3 s,解决了SAS中的三维成像实时性问题。同时,验证了所提算法在非理想航迹下的成像效果。结果表明,在添加幅度不超过0.1 m(一个波长以内)的正弦扰动时,所提算法对点目标仍有良好的聚焦效果。 展开更多
关键词 快速分解后向投影 并行计算 图形处理器 合成孔径声纳 三维成像
在线阅读 下载PDF
Falcon后量子算法的密钥树生成部件GPU并行优化设计与实现 被引量:1
13
作者 张磊 赵光岳 +1 位作者 肖超恩 王建新 《计算机工程》 CAS CSCD 北大核心 2024年第9期208-215,共8页
近年来,后量子密码算法因其具有抗量子攻击的特性成为安全领域的研究热点。基于格的Falcon数字签名算法是美国国家标准与技术研究所(NIST)公布的首批4个后量子密码标准算法之一。密钥树生成是Falcon算法的核心部件,在实际运算中占用较... 近年来,后量子密码算法因其具有抗量子攻击的特性成为安全领域的研究热点。基于格的Falcon数字签名算法是美国国家标准与技术研究所(NIST)公布的首批4个后量子密码标准算法之一。密钥树生成是Falcon算法的核心部件,在实际运算中占用较多的时间和消耗较多的资源。为此,提出一种基于图形处理器(GPU)的Falcon密钥树并行生成方案。该方案使用奇偶线程联合控制的单指令多线程(SIMT)并行模式和无中间变量的直接计算模式,达到了提升速度和减少资源占用的目的。基于Python的CUDA平台进行了实验,验证结果的正确性。实验结果表明,Falcon密钥树生成在RTX 3060 Laptop的延迟为6 ms,吞吐量为167次/s,在计算单个Falcon密钥树生成部件时相对于CPU实现了1.17倍的加速比,在同时并行1024个Falcon密钥树生成部件时,GPU相对于CPU的加速比达到了约56倍,在嵌入式Jetson Xavier NX平台上的吞吐量为32次/s。 展开更多
关键词 后量子密码 Falcon算法 图形处理器 CUDA平台 并行计算
在线阅读 下载PDF
基于GPU加速的等几何拓扑优化高效多重网格求解方法 被引量:1
14
作者 杨峰 罗世杰 +1 位作者 杨江鸿 王英俊 《中国机械工程》 EI CAS CSCD 北大核心 2024年第4期602-613,共12页
针对大规模等几何拓扑优化(ITO)计算量巨大、传统求解方法效率低的问题,提出了一种基于样条h细化的高效多重网格方程求解方法。该方法利用h细化插值得到粗细网格之间的权重信息,然后构造多重网格方法的插值矩阵,获得更准确的粗细网格映... 针对大规模等几何拓扑优化(ITO)计算量巨大、传统求解方法效率低的问题,提出了一种基于样条h细化的高效多重网格方程求解方法。该方法利用h细化插值得到粗细网格之间的权重信息,然后构造多重网格方法的插值矩阵,获得更准确的粗细网格映射信息,从而提高求解速度。此外,对多重网格求解过程进行分析,构建其高效GPU并行算法。数值算例表明,所提出的求解方法与线性插值的多重网格共轭梯度法、代数多重网格共轭梯度法和预处理共轭梯度法相比分别取得了最高1.47、11.12和17.02的加速比。GPU并行求解相对于CPU串行求解的加速比高达33.86,显著提高了大规模线性方程组的求解效率。 展开更多
关键词 等几何拓扑优化 方程组求解 h细化 多重网格法 gpu并行计算
在线阅读 下载PDF
基于Seed-PCG法的列车-轨道-地基土三维随机振动GPU并行计算方法
15
作者 朱志辉 冯杨 +2 位作者 杨啸 李昊 邹有 《Journal of Central South University》 SCIE EI CAS CSCD 2024年第1期302-316,共15页
为了解决列车-轨道-地基土三维有限元模型随机多样本计算效率低的问题,本文提出了一种基于Seed-PCG法的高效并行计算方法。基于有限元法和虚拟激励法建立轨道不平顺激励下的三维列车-轨道-地基土耦合随机振动分析模型;针对车致地基土随... 为了解决列车-轨道-地基土三维有限元模型随机多样本计算效率低的问题,本文提出了一种基于Seed-PCG法的高效并行计算方法。基于有限元法和虚拟激励法建立轨道不平顺激励下的三维列车-轨道-地基土耦合随机振动分析模型;针对车致地基土随机振动分析产生的多右端项线性方程组求解问题,采用Seed-PCG方法进行求解。通过PCG方法求解种子系统得到的Krylov子空间进行投影,以改进其余线性方程组的初始解和对应的初始残量,有效提高了PCG法的收敛速度,最后,在MATLABCUDA混合平台上开发了并行计算程序。数值算例表明:相同计算平台下的该方法相比多点同步算法获得了104.2倍的加速;相比PCG法逐个求解方案减少了18%的迭代次数,获得了1.21倍的加速。 展开更多
关键词 Seed-PCG法 多右端项线性方程组 随机振动 gpu并行计算 列车-轨道-地基土耦合模型
在线阅读 下载PDF
基于计算着色器的并行Delaunay三角剖分算法 被引量:1
16
作者 陈国军 李震烁 陈昊祯 《图学学报》 北大核心 2025年第1期159-169,共11页
Delaunay三角剖分是一种经典的计算几何算法,在众多领域中有着广泛地使用,随着实际需求的不断提高,现有的Delaunay三角剖分算法已不能满足大规模数据的需求,为此,提出了一种基于计算着色器的并行Delaunay三角剖分方法,该方法通过纹理缓... Delaunay三角剖分是一种经典的计算几何算法,在众多领域中有着广泛地使用,随着实际需求的不断提高,现有的Delaunay三角剖分算法已不能满足大规模数据的需求,为此,提出了一种基于计算着色器的并行Delaunay三角剖分方法,该方法通过纹理缓存将点集数据输入到计算着色器中,并利用计算着色器加速Delaunay三角剖分,同时在现有方法的基础上提出动态插入法解决点集在离散空间中的重映射问题。此外,为了能够让显存有限的GPU构建出远超其显存限制的Delaunay三角网,提出基于计算着色器的分区双向扫描算法,并将点集划分为多个子区域,然后通过扫描各个子区域的方式进行构网。实验结果表明:在相同运行环境下,基于计算着色器的方法与现有的方法相比缩短了构网时间。同时分区双向扫描算法很好地解决了GPU的显存瓶颈问题,能让显存有限的GPU构建出远超其显存容量的Delaunay三角网。 展开更多
关键词 DELAUNAY三角剖分 计算着色器 gpu 并行计算 VORONOI图
在线阅读 下载PDF
CPU/GPU协同并行计算研究综述 被引量:98
17
作者 卢风顺 宋君强 +1 位作者 银福康 张理论 《计算机科学》 CSCD 北大核心 2011年第3期5-9,46,共6页
CPU/GPU异构混合并行系统以其强劲计算能力、高性价比和低能耗等特点成为新型高性能计算平台,但其复杂体系结构为并行计算研究提出了巨大挑战。CPU/GPU协同并行计算属于新兴研究领域,是一个开放的课题。根据所用计算资源的规模将CPU/GP... CPU/GPU异构混合并行系统以其强劲计算能力、高性价比和低能耗等特点成为新型高性能计算平台,但其复杂体系结构为并行计算研究提出了巨大挑战。CPU/GPU协同并行计算属于新兴研究领域,是一个开放的课题。根据所用计算资源的规模将CPU/GPU协同并行计算研究划分为三类,尔后从立项依据、研究内容和研究方法等方面重点介绍了几个混合计算项目,并指出了可进一步研究的方向,以期为领域科学家进行协同并行计算研究提供一定参考。 展开更多
关键词 异构混合 协同并行计算 gpu计算 性能优化 可扩展
在线阅读 下载PDF
基于GPU的现代并行优化算法 被引量:27
18
作者 张庆科 杨波 +1 位作者 王琳 朱福祥 《计算机科学》 CSCD 北大核心 2012年第4期304-310,F0003,共8页
针对现代优化算法在处理相对复杂问题中所面临的求解时间复杂度较高的问题,引入基于GPU的并行处理解决方法。首先从宏观角度阐释了基于计算统一设备架构CUDA的并行编程模型,然后在GPU环境下给出了基于CUDA架构的5种典型现代优化算法(模... 针对现代优化算法在处理相对复杂问题中所面临的求解时间复杂度较高的问题,引入基于GPU的并行处理解决方法。首先从宏观角度阐释了基于计算统一设备架构CUDA的并行编程模型,然后在GPU环境下给出了基于CUDA架构的5种典型现代优化算法(模拟退火算法、禁忌搜索算法、遗传算法、粒子群算法以及人工神经网络)的并行实现过程。通过对比分析在不同环境下测试的实验案例统计结果,指出基于GPU的单指令多线程并行优化策略的优势及其未来发展趋势。 展开更多
关键词 现代优化算法 图形处理器(gpu) 计算统一设备架构(CUDA) 组合优化 并行计算
在线阅读 下载PDF
基于GPU的电磁暂态仿真可行性研究 被引量:18
19
作者 陈来军 陈颖 +1 位作者 许寅 梅生伟 《电力系统保护与控制》 EI CSCD 北大核心 2013年第2期107-112,共6页
由于CPU体系结构的制约,基于CPU的电磁暂态仿真正面临性能提升的瓶颈。近年来,GPU因其巨大的计算潜力在通用计算领域正受到越来越多的关注。从硬件结构和软件编程两个方面分析了GPU计算的特点,设计了基于CPU-GPU混合编程模型的电磁暂态... 由于CPU体系结构的制约,基于CPU的电磁暂态仿真正面临性能提升的瓶颈。近年来,GPU因其巨大的计算潜力在通用计算领域正受到越来越多的关注。从硬件结构和软件编程两个方面分析了GPU计算的特点,设计了基于CPU-GPU混合编程模型的电磁暂态仿真程序并构建了原型仿真系统。测试结果表明,当系统规模不断扩大时,GPU在电磁暂态仿真中的效率优势将越来越明显。在此基础上,结合仿真中关键环节的耗时情况,分析了影响仿真性能的关键因素,提出了改进GPU仿真效率的若干对策。 展开更多
关键词 gpu 电磁暂态仿真 并行计算 混合编程 效率分析
在线阅读 下载PDF
基于GPU并行计算的浅水波运动数值模拟 被引量:15
20
作者 许栋 徐彬 +2 位作者 David PAyet 白玉川 及春宁 《计算力学学报》 CAS CSCD 北大核心 2016年第1期113-120,共8页
利用有限体积法求解描述水流运动的二维浅水方程组,模拟洪水波运动传播过程,并通过GPU并行计算技术对程序进行加速,建立了浅水运动高效模拟方法。数值模拟结果表明,基于本文提出的GPU并行策略以及通用并行计算架构(CUDA)支持,能够实现相... 利用有限体积法求解描述水流运动的二维浅水方程组,模拟洪水波运动传播过程,并通过GPU并行计算技术对程序进行加速,建立了浅水运动高效模拟方法。数值模拟结果表明,基于本文提出的GPU并行策略以及通用并行计算架构(CUDA)支持,能够实现相比CPU单核心最高112倍的加速比,为利用单机实现快速洪水预测以及防灾减灾决策提供有效支撑。此外,对基于GPU并行计算的浅水模拟计算精度进行了论证,并对并行性能优化进行了分析。利用所建模型模拟了溃坝洪水在三维障碍物间的传播过程。 展开更多
关键词 洪水波 二维浅水方程组 gpu并行计算 CUDA
在线阅读 下载PDF
上一页 1 2 20 下一页 到第
使用帮助 返回顶部