期刊文献+
共找到21,356篇文章
< 1 2 250 >
每页显示 20 50 100
基于GPU并行计算的拓扑优化全流程加速设计方法
1
作者 张长东 吴奕凡 +3 位作者 周铉华 李旭东 肖息 张自来 《航空制造技术》 北大核心 2025年第12期34-41,67,共9页
随着大尺寸航空航天装备的发展需求,高效高精度的大规模拓扑优化设计成为该领域关注的焦点。针对现有大规模拓扑优化设计存在的计算量巨大、计算效率低下等问题,基于GPU并行计算开展了拓扑优化全流程加速设计方法的研究。对网格划分、... 随着大尺寸航空航天装备的发展需求,高效高精度的大规模拓扑优化设计成为该领域关注的焦点。针对现有大规模拓扑优化设计存在的计算量巨大、计算效率低下等问题,基于GPU并行计算开展了拓扑优化全流程加速设计方法的研究。对网格划分、刚度矩阵计算与组装、有限元求解等过程进行了并行加速,实现了高效高精度的体素网格划分及有限元过程的高效求解。此外,该方法针对拓扑优化设计过程的加速需求,对灵敏度过滤过程进行了并行加速处理。以300万体素单元的姿态推力器模型为设计对象,发现相比于Abaqus 2022软件的拓扑优化并行加速计算,本文所提方法的加速比提高了1259%,且两种方法的相似度极高,验证了所提方法的有效性与实用性。 展开更多
关键词 拓扑优化 并行计算 gpu加速 符号距离场 稀疏矩阵 网格划分
在线阅读 下载PDF
联合K-D树和GPU并行运算的CUBE快速滤波方法
2
作者 李枭凯 王力 +2 位作者 李广云 高欣圆 靳海峰 《海洋测绘》 北大核心 2025年第2期14-18,共5页
针对多波束测深数据滤波算法的效率问题,提出了一种联合K-D树和GPU并行运算的CUBE(com-bined uncertainty bathymetry estimator,CUBE)快速滤波算法。该算法首先利用K-D树对点云数据进行高效索引,然后将滤波任务分配至GPU的流式多处理... 针对多波束测深数据滤波算法的效率问题,提出了一种联合K-D树和GPU并行运算的CUBE(com-bined uncertainty bathymetry estimator,CUBE)快速滤波算法。该算法首先利用K-D树对点云数据进行高效索引,然后将滤波任务分配至GPU的流式多处理器进行并行处理,从而显著提升了执行速度。实验部分通过比较K-D树与八叉树的索引效率,验证了K-D树在处理大规模点云数据时的优势。将本算法与串行CUBE算法及CARIS HIPS软件的CUBE模块进行对比,结果显示在亿级数据量处理中,滤波速度提高了约13.8倍。此外,本算法在保持数据真实性和去噪效果的前提下,展现了与商业软件相当的处理效率,为多波束测深数据的高效处理提供了有价值的参考。 展开更多
关键词 多波束测深 数据处理 CUBE算法 K-D树 gpu加速
在线阅读 下载PDF
一种基于GPU计算的自适应局部降噪并行算法
3
作者 肖汉 杜莹 +1 位作者 王平 周清雷 《南京师大学报(自然科学版)》 北大核心 2025年第4期139-152,共14页
随着获取图像像幅规模的增大和分辨率的提高,自适应局部降噪算法的性能成为制约图像实时处理的关键.本文提出了一种基于GPU的自适应局部降噪并行算法.从向量化访存、数据本地化计算以及资源配置优化3个方面出发,结合算法特性和底层硬件... 随着获取图像像幅规模的增大和分辨率的提高,自适应局部降噪算法的性能成为制约图像实时处理的关键.本文提出了一种基于GPU的自适应局部降噪并行算法.从向量化访存、数据本地化计算以及资源配置优化3个方面出发,结合算法特性和底层硬件架构特征,研究了自适应局部降噪算法在CPU+GPU异构计算平台上的并行计算和性能优化.实验结果显示,在处理8 182×8 182分辨率的图像时,相比CPU串行计算获得了27.39倍加速比,具有较好的数据扩展性.并行算法充分发挥了GPU的并行处理能力.文中提出的方法对图像处理算法的GPU加速提供了新的研究思路. 展开更多
关键词 自适应滤波器 局部噪声 信噪比 gpu CUDA 并行算法
在线阅读 下载PDF
面向边缘GPU设备的快速光流估计算法
4
作者 石珂 聂苏珍 +4 位作者 李东兴 曹杰 盛云龙 姚斌 陈泓霖 《应用光学》 北大核心 2025年第2期355-363,共9页
提出了一种适用于边缘GPU设备的光流估计网络,旨在解决稠密光流估计由于巨大计算量而难以在嵌入式系统上部署的问题。首先,针对充分发挥GPU资源的需求,设计了一个高效的特征提取网络,以降低内存访问成本;其次,通过采用扁平形结构的迭代... 提出了一种适用于边缘GPU设备的光流估计网络,旨在解决稠密光流估计由于巨大计算量而难以在嵌入式系统上部署的问题。首先,针对充分发挥GPU资源的需求,设计了一个高效的特征提取网络,以降低内存访问成本;其次,通过采用扁平形结构的迭代更新模块来估计光流,进一步缩小了模型的尺寸,并提升了GPU带宽的利用率。在不同数据集上的实验结果表明,本文模型具备高效的推理能力和出色的光流估计能力。特别地,与目前先进的轻量级模型相比,所提出的模型在仅使用0.54 Mb参数的情况下,误差减少了12.8%,推理速度提升了22.2%,在嵌入式开发板上展现出了令人满意的性能。 展开更多
关键词 光流估计 嵌入式系统 边缘gpu设备 推理速度
在线阅读 下载PDF
GPU上基于环展开的RTL模拟加速技术研究
5
作者 田茜 李暾 +2 位作者 程悦 皮彦 邹鸿基 《计算机工程与科学》 北大核心 2025年第2期191-199,共9页
随着开源和敏捷硬件设计方法学的发展,为其提供高效的RTL模拟支持变得日益重要。GPU的并行能力使得利用RTL模拟的结构级和激励级并行性加速RTL模拟成为可能。然而,由于时序设计中存在反馈环,如何实现单个Testbench内的数据级并行仍然是... 随着开源和敏捷硬件设计方法学的发展,为其提供高效的RTL模拟支持变得日益重要。GPU的并行能力使得利用RTL模拟的结构级和激励级并行性加速RTL模拟成为可能。然而,由于时序设计中存在反馈环,如何实现单个Testbench内的数据级并行仍然是一个很大的挑战。提出了一种新的利用GPU加速RTL模拟的方法,该方法的核心技术是RTL设计中反馈环的识别与展开,以及基于此的RTL电路划分技术。电路划分和环展开从单个Testbench内的结构并行和数据并行2个方面,发挥了基于GPU的并行能力来加速RTL模拟。实验结果表明,所提出的GPU加速RTL模拟方法,相比传统的基于GPU的RTL模拟方法得到了1.2~107.1倍的加速,相比目前最快的RTL模拟器ESSENT得到了2.2~14倍的加速。 展开更多
关键词 RTL模拟 gpu加速 PyRTL 硬件构造语言 环展开
在线阅读 下载PDF
星脉网络:面向GPU集群集合通信与集中式路由的协同优化
6
作者 李宝嘉 何春志 +2 位作者 夏寅贲 何泽坤 王晓亮 《中兴通讯技术》 北大核心 2025年第2期3-13,共11页
图形处理器(GPU)集群网络流量不断增加,运营难度明显加大,这给高性能大规模GPU集群网络系统的构建带来新的挑战与机遇。提出了一种能够实现超10万GPU集群互联的无损高性能网络方案——星脉网络。GPU集群网络需要联合优化端侧的集合通信... 图形处理器(GPU)集群网络流量不断增加,运营难度明显加大,这给高性能大规模GPU集群网络系统的构建带来新的挑战与机遇。提出了一种能够实现超10万GPU集群互联的无损高性能网络方案——星脉网络。GPU集群网络需要联合优化端侧的集合通信库和网络路由控制器,以实现多路径的高效集合通信。为此,针对星脉网络研发了端侧集合通信库(TCCL)以实现最短的跨节点路径规划,同时还开发了全局优化路由器(GOR)以避免路径冲突导致的网络拥塞。在腾讯大模型GPU集群中,星脉网络方案和公开GPU集群方案(NVIDIA NCCL)的对比结果表明:星脉网络可以实现25%的集合通信带宽提升,同时避免80%的由流量冲突造成的网络拥塞问题。 展开更多
关键词 大规模gpu集群 集合通信 负载均衡
在线阅读 下载PDF
复杂地质条件的间断有限元地震波数值模拟及GPU加速
7
作者 韩德超 刘卫华 +2 位作者 张春丽 袁媛 白鹏 《石油物探》 北大核心 2025年第4期639-652,共14页
间断Galerkin有限元方法(DGFEM)是一种具有较高模拟精度的有限元方法,但其算法编程难度大,其针对各类复杂介质的波动方程的算法目前未见统一的计算格式。为此,基于三角形非结构化网格以及局部Lax-Friedrichs数值流,构建了针对复杂介质... 间断Galerkin有限元方法(DGFEM)是一种具有较高模拟精度的有限元方法,但其算法编程难度大,其针对各类复杂介质的波动方程的算法目前未见统一的计算格式。为此,基于三角形非结构化网格以及局部Lax-Friedrichs数值流,构建了针对复杂介质波动方程模拟的DGFEM编程计算矩阵,并进一步得出了适用于各类复杂介质模拟的单一波场分量的通用计算格式。该通用计算格式能够有效提升DGFEM算法编程的可拓展性。基于该格式给出了DGFEM的通用CUDA核函数的构建方法,并形成CPU+GPU的二维DGFEM并行计算程序框架。通用CUDA核函数可以将DGFEM算法进一步延伸到更加复杂的介质以及三维情况。理论模型和复杂山地模型的数值实验结果表明,构建的通用计算格式和CUDA核函数可以准确模拟声波、弹性波、粘弹性波、孔隙弹性波方程描述的纵波、横波以及慢纵波等波现象。相比单核CPU模拟,二维DGFEM弹性波GPU计算加速比平均在100倍左右。同时,弹性波、粘弹性波、孔隙弹性波模拟耗时约为声波模拟的1.7,2.3,3.0倍。此结果可以指导复杂介质耦合条件模拟时多进程的负载平衡。 展开更多
关键词 间断Galerkin有限元方法 弹性波 粘弹性波 孔隙弹性波 数值模拟 gpu并行计算.
在线阅读 下载PDF
基于ROACH2-GPU的集群相关器研究——Hashpipe软件在X-engine模块中的应用
8
作者 张科 王钊 +6 位作者 李吉夏 吴锋泉 田海俊 牛晨辉 张巨勇 陈志平 陈学雷 《贵州师范大学学报(自然科学版)》 北大核心 2025年第2期114-121,共8页
随着国际上越来越多干涉阵列设备的建造与运行,为人类探测未知宇宙的奥秘提供了丰富的观测数据,然而随之带来高速和密集型数据实时处理的巨大困难,对传统的数据处理技术提出了严峻的挑战。基于我国已建造的天籁计划一期项目在数据实时... 随着国际上越来越多干涉阵列设备的建造与运行,为人类探测未知宇宙的奥秘提供了丰富的观测数据,然而随之带来高速和密集型数据实时处理的巨大困难,对传统的数据处理技术提出了严峻的挑战。基于我国已建造的天籁计划一期项目在数据实时关联计算的需求,利用GPU在高性能并行计算上的优势,为天籁柱形探路者阵列设计并实现一套基于ROACH2-GPU的集群相关器,深入探究Hashpipe(High availibility shared pipeline engine)软件在集群相关器X-engine模块中的应用。首先介绍ROACH2-GPU集群相关器的整体架构,然后研究Hashpipe的核心功能和数据处理方法,实现了完整的分布式异构处理功能,优化了Hashpipe控制和参数接口。根据实际观测需求,可修改程序参数,能实现不同通道数量的相关器配置,降低后端软硬件设计的难度和成本。最后,在完成软件正确性测试的基础上,进行了强射电天文源的观测和处理,能够获得准确的干涉条纹。 展开更多
关键词 ROACH2-gpu Hashpipe 集群相关器 X-engine模块 并行计算
在线阅读 下载PDF
基于改进链表搜索的SPH-GPU并行方法的溃坝消能数值模拟
9
作者 严箫箫 龙厅 《水电能源科学》 北大核心 2025年第7期133-137,99,共6页
研究溃坝消能问题并指导相关消能工程建设具有重要意义,为此,基于改进链表搜索算法,将光滑粒子流体动力学(SPH)方法与图形处理器(GPU)的并行技术相结合发展一种高效模拟溃坝消能的SPH-GPU并行数值仿真模型,通过对典型溃坝展开模拟,并与... 研究溃坝消能问题并指导相关消能工程建设具有重要意义,为此,基于改进链表搜索算法,将光滑粒子流体动力学(SPH)方法与图形处理器(GPU)的并行技术相结合发展一种高效模拟溃坝消能的SPH-GPU并行数值仿真模型,通过对典型溃坝展开模拟,并与试验结果对比,验证了基于改进链表搜索的SPH-GPU并行数值模型的准确性。在此基础上,利用该模型模拟不同消能工的水流演进过程,通过变换消能坎的位置及形状,研究不同消能工的水流动能、势能及系统总能随时间变化趋势,分析典型溃坝消能过程。结果表明,与传统SPH-GPU并行方法模型效率相比,基于改进链表搜索的SPH-GPU并行方法模型的搜索效率提升了40%以上,整体仿真效率提升了20%以上。这表明所提模型可显著提高典型溃坝消能问题的仿真效率。 展开更多
关键词 数值仿真 溃坝消能 SPH gpu
在线阅读 下载PDF
一种改进GPU加速策略的物质点分析方法及其在滑坡模拟中的应用
10
作者 王斌 陈鹏林 +3 位作者 王頔 徐顺心 许子凯 吴进东 《工程科学与技术》 北大核心 2025年第4期1-11,共11页
近年来物质点法发展成为岩土工程领域一种重要的大变形数值模拟方法,被广泛应用于滑坡、溃坝、隧道突水突泥等问题的研究。伴随着应用场景的规模化与复杂化,对于方法本身的精度要求和效率需求继而持续增加,导致其计算成本逐步上升,制约... 近年来物质点法发展成为岩土工程领域一种重要的大变形数值模拟方法,被广泛应用于滑坡、溃坝、隧道突水突泥等问题的研究。伴随着应用场景的规模化与复杂化,对于方法本身的精度要求和效率需求继而持续增加,导致其计算成本逐步上升,制约了物质点法进一步在大规模岩土工程问题中的应用。鉴于此,本文提出一种改进图形处理器(GPU)加速策略的物质点法,引入模块化编程思想,采用简洁的多组1维数组的方式进行数据存储结构和基于硬件层级的内存操作管理处理数据竞争,以提高物质点法的模拟效率,解决面向过程的GPU加速策略存在的扩展性问题,并形成高效且灵活的模拟构架。通过模拟铝棒坍塌试验和理想边坡失效过程,结果显示,基于改进GPU加速策略的物质点方法具有较好的并行性,较已有Taichi-GPU物质点法在性能上提升10%左右。最后,应用本文提出的物质点方法模拟再现新磨村滑坡的全过程,得出当物质点数目扩大2.5倍左右时,计算效率提升20倍左右。 展开更多
关键词 gpu加速 物质点法 滑坡 大变形数值模拟
在线阅读 下载PDF
融合图Transformer和Vina-GPU+的多模态虚拟筛选新方法
11
作者 张豪 张堃然 +2 位作者 阮晓东 沐勇 吴建盛 《南京大学学报(自然科学版)》 北大核心 2025年第1期83-93,共11页
现代药物发现面临对大规模化合物库进行虚拟筛选的挑战,提高分子对接的速度与精度是核心问题.AutoDock Vina是最受欢迎的分子对接工具之一,我们的Vina-GPU和Vina-GPU+方法在确保对接准确性的同时,分别实现了对AutoDock Vina最高50倍和6... 现代药物发现面临对大规模化合物库进行虚拟筛选的挑战,提高分子对接的速度与精度是核心问题.AutoDock Vina是最受欢迎的分子对接工具之一,我们的Vina-GPU和Vina-GPU+方法在确保对接准确性的同时,分别实现了对AutoDock Vina最高50倍和65.6倍的加速.近年来,大规模预训练模型在自然语言处理和计算机视觉领域取得了巨大成功,这种范式对解决虚拟筛选面临的重大挑战也具有巨大潜力.因此,提出一种多模态虚拟筛选新方法Vina-GPU GT,结合了Vina-GPU+分子对接技术和预训练的Graph Transformer(GT)模型,以实现快速精确的虚拟筛选.该方法包括三个连续步骤:(1)通过对已有分子属性预测的预训练GT模型进行知识蒸馏,学到一个小的SMILES Transformer(ST)模型;(2)通过ST模型推理化合物库中所有分子,并根据主动学习规则微调ST模型;(3)利用微调后的ST模型进行虚拟筛选.在三个重要靶点和两个化合物库上进行了虚拟筛选实验,并与两种虚拟筛选方法进行了比较,结果表明,Vina-GPU GT的虚拟筛选性能最优. 展开更多
关键词 虚拟筛选 Graph Transformer Vina-gpu+ 多模态 知识蒸馏 主动学习
在线阅读 下载PDF
基于GPU并行计算的目标声散射Kirchhoff近似积分方法
12
作者 杨晨轩 安俊英 +1 位作者 孙阳 张毅 《声学技术》 北大核心 2025年第4期499-505,共7页
为提高水下目标中高频声散射的计算效率,文章建立了基于图形处理器(graphics processing unit,GPU)并行计算方式的目标声散射基尔霍夫(Kirchhoff)近似积分计算模型。首先,针对目标声散射的Kirchhoff近似积分方法的常量元模型和面元精确... 为提高水下目标中高频声散射的计算效率,文章建立了基于图形处理器(graphics processing unit,GPU)并行计算方式的目标声散射基尔霍夫(Kirchhoff)近似积分计算模型。首先,针对目标声散射的Kirchhoff近似积分方法的常量元模型和面元精确积分模型,建立基于GPU线程分配的并行化模式,形成可并行计算的算法模型;然后,以半径为1 m的刚性球为目标,采用GPU并行模型计算其声散射目标强度,并通过与解析解的对比验证算法的准确性;最后,以Benchmark模型为目标,通过仿真计算不同条件下的声散射目标强度,对比分析GPU并行计算模型的加速比。结果表明,常量元模型的GPU并行计算效率相比传统串行计算效率提高4~5倍;面元精确积分模型的GPU并行计算效率相比于传统串行计算效率提高8~11倍。基于GPU的并行化模式对目标声散射的Kirchhoff近似积分方法的计算具有明显的加速效果,且随着面元数增加,GPU计算优势更加明显。 展开更多
关键词 基尔霍夫(Kirchhoff)近似积分 图形处理器(gpu) 并行计算 目标散射
在线阅读 下载PDF
基于GPU的刚体动力学并行求解性能分析
13
作者 梁睿凯 罗旭锟 +1 位作者 郭煜中 何小伟 《图学学报》 北大核心 2025年第3期642-654,共13页
包含刚体和约束的多体动力学模拟在物理仿真中占有重要地位,广泛应用于工程分析、虚拟现实以及游戏动画等领域。传统的刚体物理引擎主要依赖于CPU进行计算,而在现代计算机图形学和实时物理模拟中,GPU的并行计算能力被证明能够显著提高... 包含刚体和约束的多体动力学模拟在物理仿真中占有重要地位,广泛应用于工程分析、虚拟现实以及游戏动画等领域。传统的刚体物理引擎主要依赖于CPU进行计算,而在现代计算机图形学和实时物理模拟中,GPU的并行计算能力被证明能够显著提高计算性能。为此,研究探索了5种基于雅可比方法的约束求解器在GPU上的实现并对其进行了性能与稳定性分析。具体包括:投影雅可比求解器(PJ)、结合投影雅可比与非线性雅可比的求解器(PJNJ)、投影雅可比与软约束求解器(PJSoft)、基于子步骤策略的雅可比求解器(TJ)和结合子步骤策略的雅可比与软约束求解器(TJSoft)。在基准测试中,软约束方法展现出平滑的约束冲量响应,且子步骤策略在处理高质量比和复杂场景时提供了更为稳定的解决方案。本研究为评估多体模拟中基于GPU的约束求解方案提供了新的视角,对实时物理模拟和交互式计算机图形学具有重要参考价值。 展开更多
关键词 多体动力学模拟 gpu实现 雅可比法 软约束 子步骤 性能与稳定性分析
在线阅读 下载PDF
基于Vulkan的电大复杂目标电磁散射SBR计算方法与GPU加速技术
14
作者 王思凡 吴扬 +5 位作者 贾浩文 胡志明 申子昂 徐若锋 梁达 赵雷 《电波科学学报》 北大核心 2025年第3期457-463,共7页
提出了一种基于Vulkan架构的弹跳射线(shooting and bouncing ray,SBR)加速计算方法,用于电大复杂目标雷达散射截面的快速计算。设计了高效的Vulkan计算着色器,充分利用GPU硬件光追,显著提升了SBR法中光线求交的计算速度;引入了双命令... 提出了一种基于Vulkan架构的弹跳射线(shooting and bouncing ray,SBR)加速计算方法,用于电大复杂目标雷达散射截面的快速计算。设计了高效的Vulkan计算着色器,充分利用GPU硬件光追,显著提升了SBR法中光线求交的计算速度;引入了双命令缓冲机制,使得CPU与GPU能够高效协同工作,从而加速多角度扫描任务的执行;在虚拟孔径面上划分互不干扰的子任务,进一步提升了多GPU并行的利用效率。实验结果表明:所提出方法在计算电大复杂目标雷达散射截面时相较于FEKO RL-GO方法实现了40倍以上的加速;双命令缓冲机制提升了约42%的多角度扫描速度;双GPU计算并行效率超过90%。 展开更多
关键词 雷达散射截面(RCS) 弹跳射线(SBR)法 光线追踪 gpu加速计算 电大复杂目标
在线阅读 下载PDF
基于CPU-GPU的超音速流场N-S方程数值模拟
15
作者 卢志伟 张皓茹 +3 位作者 刘锡尧 王亚东 张卓凯 张君安 《中国机械工程》 北大核心 2025年第9期1942-1950,共9页
为深入分析超音速流场的特性并提高数值计算效率,设计了一种高效的加速算法。该算法充分利用中央处理器-图形处理器(CPU-GPU)异构并行模式,通过异步流方式实现数据传输及处理,显著加速了超音速流场数值模拟的计算过程。结果表明:GPU并... 为深入分析超音速流场的特性并提高数值计算效率,设计了一种高效的加速算法。该算法充分利用中央处理器-图形处理器(CPU-GPU)异构并行模式,通过异步流方式实现数据传输及处理,显著加速了超音速流场数值模拟的计算过程。结果表明:GPU并行计算速度明显高于CPU串行计算速度,其加速比随流场网格规模的增大而明显提高。GPU并行计算可以有效提高超音速流场的计算速度,为超音速飞行器的设计、优化、性能评估及其研发提供一种强有力的并行计算方法。 展开更多
关键词 超音速流场 中央处理器-图形处理器 异构计算 有限差分
在线阅读 下载PDF
容器集群GPU资源共享调度优化 被引量:1
16
作者 罗恋 顾进广 +1 位作者 李奇缘 高峰 《计算机应用与软件》 北大核心 2024年第7期207-214,共8页
在容器集群环境中,整块的物理GPU资源通常只能被单个容器独享调度,存在大量的资源浪费。现有的GPU共享调度方案中仍存在调度失败、资源开销大或没有实现资源隔离的问题,改进的GPU Sharing利用LD_PRELOAD机制有效地实现了GPU显存资源的隔... 在容器集群环境中,整块的物理GPU资源通常只能被单个容器独享调度,存在大量的资源浪费。现有的GPU共享调度方案中仍存在调度失败、资源开销大或没有实现资源隔离的问题,改进的GPU Sharing利用LD_PRELOAD机制有效地实现了GPU显存资源的隔离,并优化了原有的调度算法,极大提高了集群显存资源的利用率。实验结果验证了改进后GPU Sharing在资源隔离实现上的有效性,同时,改进后的GPU Sharing同在物理机上执行应用程序只多了1.008%的额外开销,而且优化后的调度算法提高了53.01%的GPU显存利用率。 展开更多
关键词 gpu集群 gpu共享调度 容器 资源共享 gpu利用率
在线阅读 下载PDF
多GPU系统非一致存储访问优化:研究进展与展望 被引量:1
17
作者 李晨 刘畅 +1 位作者 葛一漩 郭阳 《电子学报》 EI CAS CSCD 北大核心 2024年第5期1783-1800,共18页
随着晶体管缩小速度的减缓,单GPU(Graphics Processing Units)的性能提升已经变得越来越具有挑战性,因此,多GPU系统成为了提高GPU系统性能的主要手段.然而,由于片外物理设计的制约,多GPU系统中处理器间的带宽不均衡导致了非一致存储访问... 随着晶体管缩小速度的减缓,单GPU(Graphics Processing Units)的性能提升已经变得越来越具有挑战性,因此,多GPU系统成为了提高GPU系统性能的主要手段.然而,由于片外物理设计的制约,多GPU系统中处理器间的带宽不均衡导致了非一致存储访问(Non-Uniform Memory Access,NUMA)问题,严重影响多GPU系统的性能.为了减少非一致存储访问所导致的性能损失,本文首先分析了非一致存储访问出现的原因,并对现有的非一致存储访问解决方案进行了对比.针对不同维度的非一致存储访问,本文从减少远程访问流量和提升远程访问性能两个方向出发,对非一致存储访问的优化方案进行了总结.最后,结合这些方案的优缺点,提出了未来多GPU系统非一致存储访问优化的发展方向. 展开更多
关键词 gpu系统 非一致存储访问 gpu访存
在线阅读 下载PDF
基于CPU-GPU协同的迭代物理光学并行算法研究
18
作者 曹倩 周远国 +1 位作者 任强 王焱 《电波科学学报》 北大核心 2025年第3期427-438,共12页
随着雷达技术与无人驾驶的结合,电磁仿真在无人驾驶领域得到了广泛应用。当利用迭代物理光学(iterative physical optics,IPO)法求解电大散射体雷达散射截面(radar cross section,RCS)时,未知量数目比较大,导致占用内存和计算耗时非常... 随着雷达技术与无人驾驶的结合,电磁仿真在无人驾驶领域得到了广泛应用。当利用迭代物理光学(iterative physical optics,IPO)法求解电大散射体雷达散射截面(radar cross section,RCS)时,未知量数目比较大,导致占用内存和计算耗时非常大。为解决该问题,本文引入参数空间技术优化IPO算法,提高了电大尺寸RCS的计算效率,并引入计算统一设备架构(compute unified device architecture,CUDA)技术,在中央处理器(central processing unit,CPU)与图形处理器(graphics processing unit,GPU)协同平台上实现了电大尺寸目标RCS的并行计算。与商业软件FEKO比对,在NVIDIA GeForce RTX 3050显卡上获得了224.35的加速比。实例结果展示了基于CPU-GPU协同的IPO算法并行计算的可行性与高效性,可以用来解决目前只能在高性能计算机或计算机集群上解决的电大尺寸目标散射问题。 展开更多
关键词 迭代物理光学法(IPO) 参数空间技术 CPU-gpu协同 并行加速 雷达散射截面(RCS)
在线阅读 下载PDF
基于国产GPU的国产公钥密码SM2高性能并行加速方法
19
作者 吴雯 董建阔 +4 位作者 刘鹏博 董振江 胡昕 张品昌 肖甫 《通信学报》 北大核心 2025年第5期15-28,共14页
为了满足国家信息安全自主可控的战略需求,确保算法的透明性和安全性,提出基于国产GPU的国产公钥密码SM2数字签名算法的高性能并行加速方法。首先,设计适用于域运算的底层函数,优化有限域运算的效率,约减采用2轮进位消解以抵御计时攻击... 为了满足国家信息安全自主可控的战略需求,确保算法的透明性和安全性,提出基于国产GPU的国产公钥密码SM2数字签名算法的高性能并行加速方法。首先,设计适用于域运算的底层函数,优化有限域运算的效率,约减采用2轮进位消解以抵御计时攻击。其次,基于雅可比(Jacobian)坐标实现点加和倍点运算,充分利用寄存器和全局内存的特性,设计离线/在线预计算表以提高点乘计算效率。最后,根据海光深度计算单元(DCU)的特点进行实验设计,实现高性能的SM2签名和验签算法,分别达到6816kops/s的签名吞吐量和1385kops/s的验签吞吐量。研究验证了基于国产GPU的国产公钥密码SM2数字签名算法的可行性和有效性,为国内信息安全自主可控领域提供了重要的技术支持。 展开更多
关键词 国家商用密码 数字签名 图形处理器 异构计算
在线阅读 下载PDF
基于GPU的OMCSS水声通信M元解扩算法并行实现
20
作者 彭海源 王巍 +4 位作者 李德瑞 刘彦君 李宇 迟骋 田亚男 《系统工程与电子技术》 北大核心 2025年第3期978-986,共9页
针对正交多载波扩频(orthogonal multi-carrier spread spectrum,OMCSS)水声通信系统接收信号快速处理需求,提出一种基于图形处理模块(graphic processing unit,GPU)的M元解扩算法的并行实现方法。首先,分析M元解扩算法在GPU平台上实现... 针对正交多载波扩频(orthogonal multi-carrier spread spectrum,OMCSS)水声通信系统接收信号快速处理需求,提出一种基于图形处理模块(graphic processing unit,GPU)的M元解扩算法的并行实现方法。首先,分析M元解扩算法在GPU平台上实现的可行性,针对算法内部基础运算单元进行并行优化处理。然后,为了进一步提升GPU并行运行速度,对算法进行基于并发内核执行的M元并行解扩计算架构设计。在中央处理器(central processing unit,CPU)+GPU异构平台上对算法性能进行测试。测试结果表明,设计的M元并行解扩算法相比M元串行解扩算法在运行速度上有最大90.47%的提升,最大加速比为10.5。 展开更多
关键词 正交多载波扩频 水声通信 M元解扩 图形处理模块 并行实现
在线阅读 下载PDF
上一页 1 2 250 下一页 到第
使用帮助 返回顶部