期刊文献+
共找到524篇文章
< 1 2 27 >
每页显示 20 50 100
基于GPU并行计算的拓扑优化全流程加速设计方法
1
作者 张长东 吴奕凡 +3 位作者 周铉华 李旭东 肖息 张自来 《航空制造技术》 北大核心 2025年第12期34-41,67,共9页
随着大尺寸航空航天装备的发展需求,高效高精度的大规模拓扑优化设计成为该领域关注的焦点。针对现有大规模拓扑优化设计存在的计算量巨大、计算效率低下等问题,基于GPU并行计算开展了拓扑优化全流程加速设计方法的研究。对网格划分、... 随着大尺寸航空航天装备的发展需求,高效高精度的大规模拓扑优化设计成为该领域关注的焦点。针对现有大规模拓扑优化设计存在的计算量巨大、计算效率低下等问题,基于GPU并行计算开展了拓扑优化全流程加速设计方法的研究。对网格划分、刚度矩阵计算与组装、有限元求解等过程进行了并行加速,实现了高效高精度的体素网格划分及有限元过程的高效求解。此外,该方法针对拓扑优化设计过程的加速需求,对灵敏度过滤过程进行了并行加速处理。以300万体素单元的姿态推力器模型为设计对象,发现相比于Abaqus 2022软件的拓扑优化并行加速计算,本文所提方法的加速比提高了1259%,且两种方法的相似度极高,验证了所提方法的有效性与实用性。 展开更多
关键词 拓扑优化 并行计算 gpu加速 符号距离场 稀疏矩阵 网格划分
在线阅读 下载PDF
基于ROACH2-GPU的集群相关器研究——Hashpipe软件在X-engine模块中的应用
2
作者 张科 王钊 +6 位作者 李吉夏 吴锋泉 田海俊 牛晨辉 张巨勇 陈志平 陈学雷 《贵州师范大学学报(自然科学版)》 北大核心 2025年第2期114-121,共8页
随着国际上越来越多干涉阵列设备的建造与运行,为人类探测未知宇宙的奥秘提供了丰富的观测数据,然而随之带来高速和密集型数据实时处理的巨大困难,对传统的数据处理技术提出了严峻的挑战。基于我国已建造的天籁计划一期项目在数据实时... 随着国际上越来越多干涉阵列设备的建造与运行,为人类探测未知宇宙的奥秘提供了丰富的观测数据,然而随之带来高速和密集型数据实时处理的巨大困难,对传统的数据处理技术提出了严峻的挑战。基于我国已建造的天籁计划一期项目在数据实时关联计算的需求,利用GPU在高性能并行计算上的优势,为天籁柱形探路者阵列设计并实现一套基于ROACH2-GPU的集群相关器,深入探究Hashpipe(High availibility shared pipeline engine)软件在集群相关器X-engine模块中的应用。首先介绍ROACH2-GPU集群相关器的整体架构,然后研究Hashpipe的核心功能和数据处理方法,实现了完整的分布式异构处理功能,优化了Hashpipe控制和参数接口。根据实际观测需求,可修改程序参数,能实现不同通道数量的相关器配置,降低后端软硬件设计的难度和成本。最后,在完成软件正确性测试的基础上,进行了强射电天文源的观测和处理,能够获得准确的干涉条纹。 展开更多
关键词 ROACH2-gpu Hashpipe 集群相关器 X-engine模块 并行计算
在线阅读 下载PDF
基于国产GPU的国产公钥密码SM2高性能并行加速方法
3
作者 吴雯 董建阔 +4 位作者 刘鹏博 董振江 胡昕 张品昌 肖甫 《通信学报》 北大核心 2025年第5期15-28,共14页
为了满足国家信息安全自主可控的战略需求,确保算法的透明性和安全性,提出基于国产GPU的国产公钥密码SM2数字签名算法的高性能并行加速方法。首先,设计适用于域运算的底层函数,优化有限域运算的效率,约减采用2轮进位消解以抵御计时攻击... 为了满足国家信息安全自主可控的战略需求,确保算法的透明性和安全性,提出基于国产GPU的国产公钥密码SM2数字签名算法的高性能并行加速方法。首先,设计适用于域运算的底层函数,优化有限域运算的效率,约减采用2轮进位消解以抵御计时攻击。其次,基于雅可比(Jacobian)坐标实现点加和倍点运算,充分利用寄存器和全局内存的特性,设计离线/在线预计算表以提高点乘计算效率。最后,根据海光深度计算单元(DCU)的特点进行实验设计,实现高性能的SM2签名和验签算法,分别达到6816kops/s的签名吞吐量和1385kops/s的验签吞吐量。研究验证了基于国产GPU的国产公钥密码SM2数字签名算法的可行性和有效性,为国内信息安全自主可控领域提供了重要的技术支持。 展开更多
关键词 国家商用密码 数字签名 图形处理器 异构计算
在线阅读 下载PDF
复杂地质条件的间断有限元地震波数值模拟及GPU加速
4
作者 韩德超 刘卫华 +2 位作者 张春丽 袁媛 白鹏 《石油物探》 北大核心 2025年第4期639-652,共14页
间断Galerkin有限元方法(DGFEM)是一种具有较高模拟精度的有限元方法,但其算法编程难度大,其针对各类复杂介质的波动方程的算法目前未见统一的计算格式。为此,基于三角形非结构化网格以及局部Lax-Friedrichs数值流,构建了针对复杂介质... 间断Galerkin有限元方法(DGFEM)是一种具有较高模拟精度的有限元方法,但其算法编程难度大,其针对各类复杂介质的波动方程的算法目前未见统一的计算格式。为此,基于三角形非结构化网格以及局部Lax-Friedrichs数值流,构建了针对复杂介质波动方程模拟的DGFEM编程计算矩阵,并进一步得出了适用于各类复杂介质模拟的单一波场分量的通用计算格式。该通用计算格式能够有效提升DGFEM算法编程的可拓展性。基于该格式给出了DGFEM的通用CUDA核函数的构建方法,并形成CPU+GPU的二维DGFEM并行计算程序框架。通用CUDA核函数可以将DGFEM算法进一步延伸到更加复杂的介质以及三维情况。理论模型和复杂山地模型的数值实验结果表明,构建的通用计算格式和CUDA核函数可以准确模拟声波、弹性波、粘弹性波、孔隙弹性波方程描述的纵波、横波以及慢纵波等波现象。相比单核CPU模拟,二维DGFEM弹性波GPU计算加速比平均在100倍左右。同时,弹性波、粘弹性波、孔隙弹性波模拟耗时约为声波模拟的1.7,2.3,3.0倍。此结果可以指导复杂介质耦合条件模拟时多进程的负载平衡。 展开更多
关键词 间断Galerkin有限元方法 弹性波 粘弹性波 孔隙弹性波 数值模拟 gpu并行计算.
在线阅读 下载PDF
基于Vulkan的电大复杂目标电磁散射SBR计算方法与GPU加速技术
5
作者 王思凡 吴扬 +5 位作者 贾浩文 胡志明 申子昂 徐若锋 梁达 赵雷 《电波科学学报》 北大核心 2025年第3期457-463,共7页
提出了一种基于Vulkan架构的弹跳射线(shooting and bouncing ray,SBR)加速计算方法,用于电大复杂目标雷达散射截面的快速计算。设计了高效的Vulkan计算着色器,充分利用GPU硬件光追,显著提升了SBR法中光线求交的计算速度;引入了双命令... 提出了一种基于Vulkan架构的弹跳射线(shooting and bouncing ray,SBR)加速计算方法,用于电大复杂目标雷达散射截面的快速计算。设计了高效的Vulkan计算着色器,充分利用GPU硬件光追,显著提升了SBR法中光线求交的计算速度;引入了双命令缓冲机制,使得CPU与GPU能够高效协同工作,从而加速多角度扫描任务的执行;在虚拟孔径面上划分互不干扰的子任务,进一步提升了多GPU并行的利用效率。实验结果表明:所提出方法在计算电大复杂目标雷达散射截面时相较于FEKO RL-GO方法实现了40倍以上的加速;双命令缓冲机制提升了约42%的多角度扫描速度;双GPU计算并行效率超过90%。 展开更多
关键词 雷达散射截面(RCS) 弹跳射线(SBR)法 光线追踪 gpu加速计算 电大复杂目标
在线阅读 下载PDF
国内外不同GPU用于洪水模拟时加速性能对比分析 被引量:1
6
作者 张大伟 冯新政 +3 位作者 林文青 毕吴瑕 王玮琦 王帆 《中国水利水电科学研究院学报(中英文)》 北大核心 2024年第5期530-538,共9页
由于GPU硬件技术快速发展,同时具有性价比高,可方便实现高密度并行的优点,其已成为当下实现二维洪水高性能加速模拟的主要手段。鉴于国外先进GPU芯片进口遇阻的现状,及时开展基于国产GPU的二维洪水动力学模型的计算性能研究工作是非常... 由于GPU硬件技术快速发展,同时具有性价比高,可方便实现高密度并行的优点,其已成为当下实现二维洪水高性能加速模拟的主要手段。鉴于国外先进GPU芯片进口遇阻的现状,及时开展基于国产GPU的二维洪水动力学模型的计算性能研究工作是非常必要的。对已有的与国外NVIDIA公司GPU硬件适配的二维洪水动力学模型代码进行改造,使其能够适配国产的GPU,同时选取了NVIDIA公司的两款GPU(P100和V100)和一款国产GPU(Z100)进行了性能测试。选取三个典型洪水案例进行三款GPU性能的对比分析,结果表明:(1)国产GPU(Z100)可实现二维洪水动力学模型的高性能加速计算,其计算性能与NVIDIA公司的P100性能整体相当,但是计算性能弱于V100;(2)随着计算网格数的增大,国产Z100相较于P100表现出更优越的加速性能;(3)随着GPU数量增加,单节点条件下国产GPU的加速比略低于NVIDIA的两款产品。研究成果可为洪水动力学模型的国产化环境移植提供参考。 展开更多
关键词 gpu 洪水模拟 国产化 高性能计算 对比分析
在线阅读 下载PDF
基于GPU的大状态密码S盒差分性质评估方法 被引量:1
7
作者 张润莲 张密 +1 位作者 武小年 舒瑞 《计算机应用》 CSCD 北大核心 2024年第9期2785-2790,共6页
大状态的密码S盒能够为对称密码算法提供更好的混淆性,但对大状态S盒的性质评估开销巨大。为高效评估大状态密码S盒的差分性质,提出基于GPU并行计算的大状态密码S盒差分性质评估方法。该方法基于现有的差分均匀度计算方法,针对16比特S... 大状态的密码S盒能够为对称密码算法提供更好的混淆性,但对大状态S盒的性质评估开销巨大。为高效评估大状态密码S盒的差分性质,提出基于GPU并行计算的大状态密码S盒差分性质评估方法。该方法基于现有的差分均匀度计算方法,针对16比特S盒的差分均匀度和32比特S盒的差分性质,分别设计GPU并行方案,通过优化GPU并行粒度和负载均衡提高了核函数和GPU的执行效率,并缩短了计算时间。测试结果表明,相较于CPU方法和GPU并行方法,所提方法大幅降低了大状态S盒差分性质评估的计算时间,提高了对大状态S盒差分性质的评估效率:对16比特S盒差分均匀度的计算时间为0.3 min;对32比特S盒的单个输入差分的最大输出差分概率计算时间约5 min,对它的差分性质计算时间约2.6 h。 展开更多
关键词 密码S盒 差分密码分析 差分均匀度 最大输出差分概率 gpu并行计算
在线阅读 下载PDF
隐私计算环境下深度学习的GPU加速技术综述 被引量:1
8
作者 秦智翔 杨洪伟 +2 位作者 郝萌 何慧 张伟哲 《信息安全研究》 CSCD 北大核心 2024年第7期586-593,共8页
随着深度学习技术的不断发展,神经网络模型的训练时间越来越长,使用GPU计算对神经网络训练进行加速便成为一项关键技术.此外,数据隐私的重要性也推动了隐私计算技术的发展.首先介绍了深度学习、GPU计算的概念以及安全多方计算、同态加密... 随着深度学习技术的不断发展,神经网络模型的训练时间越来越长,使用GPU计算对神经网络训练进行加速便成为一项关键技术.此外,数据隐私的重要性也推动了隐私计算技术的发展.首先介绍了深度学习、GPU计算的概念以及安全多方计算、同态加密2种隐私计算技术,而后探讨了明文环境与隐私计算环境下深度学习的GPU加速技术.在明文环境下,介绍了数据并行和模型并行2种基本的深度学习并行训练模式,分析了重计算和显存交换2种不同的内存优化技术,并介绍了分布式神经网络训练过程中的梯度压缩技术.介绍了在隐私计算环境下安全多方计算和同态加密2种不同隐私计算场景下的深度学习GPU加速技术.简要分析了2种环境下GPU加速深度学习方法的异同. 展开更多
关键词 深度学习 gpu计算 隐私计算 安全多方计算 同态加密
在线阅读 下载PDF
基于GPU加速的分布式水文模型并行计算性能 被引量:1
9
作者 庞超 周祖昊 +4 位作者 刘佳嘉 石天宇 杜崇 王坤 于新哲 《南水北调与水利科技(中英文)》 CAS CSCD 北大核心 2024年第1期33-38,共6页
针对具有物理机制的分布式水文模型对大流域、长序列模拟计算时间长、模拟速度慢的问题,引入基于GPU的并行计算技术,实现分布式水文模型WEP-L(water and energy transfer processes in large river basins)产流过程的并行化。选择鄱阳... 针对具有物理机制的分布式水文模型对大流域、长序列模拟计算时间长、模拟速度慢的问题,引入基于GPU的并行计算技术,实现分布式水文模型WEP-L(water and energy transfer processes in large river basins)产流过程的并行化。选择鄱阳湖流域为实验区,采用计算能力为8.6的NVIDIA RTX A4000对算法性能进行测试。研究表明:提出的基于GPU的分布式水文模型并行算法具有良好的加速效果,当线程总数越接近划分的子流域个数(计算任务量)时,并行性能越好,在实验流域WEP-L模型子流域单元为8712个时,加速比最大达到2.5左右;随着计算任务量的增加,加速比逐渐增大,当实验流域WEP-L模型子流域单元增加到24897个时,加速比能达到3.5,表明GPU并行算法在大尺度流域分布式水文模型计算中具有良好的发展潜力。 展开更多
关键词 基于gpu的并行算法 物理机制 分布式水文模型 WEP-L模型 计算性能
在线阅读 下载PDF
基于异构多核心GPU的高性能密码计算技术研究进展 被引量:3
10
作者 董建阔 黄跃花 +4 位作者 付宇笙 肖甫 郑昉昱 林璟锵 董振江 《软件学报》 EI CSCD 北大核心 2024年第12期5582-5608,共27页
密码学是保障网络安全的核心基础,其在数据保护、身份验证、加密通信等方面发挥着至关重要的作用.随着5G和物联网技术的迅速普及,网络安全面临着空前的挑战,对密码学性能的要求呈现出爆发式增长.GPU能够利用数以千计的计算核心并行化加... 密码学是保障网络安全的核心基础,其在数据保护、身份验证、加密通信等方面发挥着至关重要的作用.随着5G和物联网技术的迅速普及,网络安全面临着空前的挑战,对密码学性能的要求呈现出爆发式增长.GPU能够利用数以千计的计算核心并行化加速复杂计算问题,这种并行化特性非常适用于密码学算法的计算密集型特性.鉴于此,研究人员广泛探索了在GPU平台上加速各种密码算法的方法,与CPU、FPGA等平台相比,GPU展现出明显的性能优势.论述各类密码算法的分类与GPU平台架构,对各类密码在GPU异构平台上的研究现状进行详细分析,总结当前基于GPU平台高性能密码学面临的技术难题,并对未来技术发展进行展望.通过深入研究和总结,旨在为密码工程研究从业者提供有关基于GPU的高性能密码计算的最新研究进展和应用实践的综合参考. 展开更多
关键词 公钥密码 后量子密码 同态密码 并行计算 gpu加速
在线阅读 下载PDF
重力场反演中大型矩阵GPU加速运算的实现
11
作者 周予涵 简念川 陈从颜 《深空探测学报(中英文)》 CSCD 北大核心 2024年第6期587-593,共7页
针对重力场反演中大型矩阵解算任务量大、解算时间长的问题,提出一种基于多片GPU并行的矩阵运算方法,该方法将多片图形处理器(Graphics Processing Unit,GPU)和CUDA(Computer Unified Device Architecture)相结合,能实现密集运算的高度... 针对重力场反演中大型矩阵解算任务量大、解算时间长的问题,提出一种基于多片GPU并行的矩阵运算方法,该方法将多片图形处理器(Graphics Processing Unit,GPU)和CUDA(Computer Unified Device Architecture)相结合,能实现密集运算的高度并行化,通过加速矩阵乘法和矩阵求逆的运算,极大缩短了行星重力场反演中大型矩阵求逆所需的时间,计算速率为使用CPU计算时的191倍,并且计算的精度较高,反演的误差数量级在10–17。将其应用到重力恢复与内部实验室(Gravity Recovery and Interior Laboratory,GRAIL)月球重力场反演的计算中,在计算截断大小为50阶次和180阶次的矩阵时,比使用CPU的运算方法时间分别缩短了94.63%、99.51%,并在武汉大学高性能计算平台实现了900阶次矩阵的运算。采用的方法可有效缩短传统计算模型所需的时间,从而有助于建立高阶次、高精度的重力场模型。 展开更多
关键词 行星重力场反演 gpu运算 并行计算 CUDA
在线阅读 下载PDF
基于GPU和角正交投影视图的多视角投影全息图
12
作者 曹雪梅 张春晓 +4 位作者 管明祥 夏林中 郭丽丽 苗玉虎 曹士平 《深圳大学学报(理工版)》 CAS CSCD 北大核心 2024年第5期536-541,共6页
针对多视角投影全息图生成速度慢的问题,提出一种基于计算机图形处理单元(graphics processing unit,GPU)的多视角投影计算全息图合成方法.获取多个角正交投影视图,充分利用GPU强大的并行计算能力,同时计算多幅投影视图对全息图的作用,... 针对多视角投影全息图生成速度慢的问题,提出一种基于计算机图形处理单元(graphics processing unit,GPU)的多视角投影计算全息图合成方法.获取多个角正交投影视图,充分利用GPU强大的并行计算能力,同时计算多幅投影视图对全息图的作用,即在计算过程中同时将沿着投影方向移位后的一系列角正交投影视图乘以其相应的常数相位因子.其中,每个投影图像的投影角决定了其移位的距离和常数相位因子.将所有并行计算结果累加,可以得到一个包含物体三维信息的二维复矩阵,即菲涅尔全息图.相较于使用计算机中央处理器(central processing unit,CPU)进行计算,本方法显著提升了计算速度,将计算效率提高了30~40倍,为多视角投影全息图的高效生成提供一种可行途径. 展开更多
关键词 信息处理技术 计算全息 全息显示 图形处理单元 角正交投影视图 多视角投影全息
在线阅读 下载PDF
基于虚拟化的GPU异构资源池平台架构设计、关键技术及应用研究 被引量:2
13
作者 张万才 张楠 +2 位作者 杨文清 王涛 张文强 《电信科学》 北大核心 2024年第9期162-175,共14页
人工智能算力资源面临价格高昂、市场断供等现状问题,传统的单卡单用模式导致资源利用率和使用效率低下,现有的技术研究手段难以支撑多元异构图形处理单元(graphics processing unit,GPU)资源的高效管理和调度。基于此,提出一种基于虚... 人工智能算力资源面临价格高昂、市场断供等现状问题,传统的单卡单用模式导致资源利用率和使用效率低下,现有的技术研究手段难以支撑多元异构图形处理单元(graphics processing unit,GPU)资源的高效管理和调度。基于此,提出一种基于虚拟化的GPU异构资源池平台,首先对平台总体架构、逻辑架构和功能架构进行了规划设计;其次,对关键技术进行研究,提出了虚拟化异构GPU资源池框架和基于时间切片+负载均衡的调度模型;最后,基于所提方法,提出了多业务单卡叠加、交叉拉远、跨机整合、混合部署和时分复用等多种创新应用模式。所提方法为企业级AI应用提供了可兼容多个GPU不同厂商、支持远程访问、可灵活切分和聚合、可弹性调度的GPU算力资源。经测算分析,同等开发和训练量下,GPU卡数量可节省60%、运行效率可提升4倍。 展开更多
关键词 gpu异构资源池 算力平台 虚拟化 时间切片 负载均衡
在线阅读 下载PDF
GPU加速下的三维快速分解后向投影SAS成像算法
14
作者 陶鸿博 张东升 黄勇 《系统工程与电子技术》 EI CSCD 北大核心 2024年第10期3247-3256,共10页
后向投影(back projection,BP)算法是一种精确的时域成像算法,但BP算法的计算复杂度高,难以实现实时性成像,特别是在考虑三维成像时,BP算法的计算复杂度会进一步增加。提出一种应用在合成孔径声纳(synthetic aperture sonar,SAS)上的三... 后向投影(back projection,BP)算法是一种精确的时域成像算法,但BP算法的计算复杂度高,难以实现实时性成像,特别是在考虑三维成像时,BP算法的计算复杂度会进一步增加。提出一种应用在合成孔径声纳(synthetic aperture sonar,SAS)上的三维快速分解BP(fast factorized BP,FFBP)成像算法,并利用图形处理器(graphics processing unit,GPU)加速三维FFBP算法。经过对点目标的测试,计算时间从原本的263 s降低到了2.3 s,解决了SAS中的三维成像实时性问题。同时,验证了所提算法在非理想航迹下的成像效果。结果表明,在添加幅度不超过0.1 m(一个波长以内)的正弦扰动时,所提算法对点目标仍有良好的聚焦效果。 展开更多
关键词 快速分解后向投影 并行计算 图形处理器 合成孔径声纳 三维成像
在线阅读 下载PDF
基于GPU的LBM迁移模块算法优化 被引量:2
15
作者 黄斌 柳安军 +3 位作者 潘景山 田敏 张煜 朱光慧 《计算机工程》 CAS CSCD 北大核心 2024年第2期232-238,共7页
格子玻尔兹曼方法(LBM)是一种基于介观模拟尺度的计算流体力学方法,其在计算时设置大量的离散格点,具有适合并行的特性。图形处理器(GPU)中有大量的算术逻辑单元,适合大规模的并行计算。基于GPU设计LBM的并行算法,能够提高计算效率。但... 格子玻尔兹曼方法(LBM)是一种基于介观模拟尺度的计算流体力学方法,其在计算时设置大量的离散格点,具有适合并行的特性。图形处理器(GPU)中有大量的算术逻辑单元,适合大规模的并行计算。基于GPU设计LBM的并行算法,能够提高计算效率。但是LBM算法迁移模块中每个格点的计算都需要与其他格点进行通信,存在较强的数据依赖。提出一种基于GPU的LBM迁移模块算法优化策略。首先分析迁移部分的实现逻辑,通过模型降维,将三维模型按照速度分量离散为多个二维模型,降低模型的复杂度;然后分析迁移模块计算前后格点中的数据差异,通过数据定位找到迁移模块的通信规律,并对格点之间的数据交换方式进行分类;最后使用分类的交换方式对离散的二维模型进行区域划分,设计新的数据通信方式,由此消除数据依赖的影响,将迁移模块完全并行化。对并行算法进行测试,结果显示:该算法在1.3×10^(8)规模网格下能达到1.92的加速比,表明算法具有良好的并行效果;同时对比未将迁移模块并行化的算法,所提优化策略能提升算法30%的并行计算效率。 展开更多
关键词 高性能计算 格子玻尔兹曼方法 图形处理器 并行优化 数据重排
在线阅读 下载PDF
Falcon后量子算法的密钥树生成部件GPU并行优化设计与实现 被引量:1
16
作者 张磊 赵光岳 +1 位作者 肖超恩 王建新 《计算机工程》 CAS CSCD 北大核心 2024年第9期208-215,共8页
近年来,后量子密码算法因其具有抗量子攻击的特性成为安全领域的研究热点。基于格的Falcon数字签名算法是美国国家标准与技术研究所(NIST)公布的首批4个后量子密码标准算法之一。密钥树生成是Falcon算法的核心部件,在实际运算中占用较... 近年来,后量子密码算法因其具有抗量子攻击的特性成为安全领域的研究热点。基于格的Falcon数字签名算法是美国国家标准与技术研究所(NIST)公布的首批4个后量子密码标准算法之一。密钥树生成是Falcon算法的核心部件,在实际运算中占用较多的时间和消耗较多的资源。为此,提出一种基于图形处理器(GPU)的Falcon密钥树并行生成方案。该方案使用奇偶线程联合控制的单指令多线程(SIMT)并行模式和无中间变量的直接计算模式,达到了提升速度和减少资源占用的目的。基于Python的CUDA平台进行了实验,验证结果的正确性。实验结果表明,Falcon密钥树生成在RTX 3060 Laptop的延迟为6 ms,吞吐量为167次/s,在计算单个Falcon密钥树生成部件时相对于CPU实现了1.17倍的加速比,在同时并行1024个Falcon密钥树生成部件时,GPU相对于CPU的加速比达到了约56倍,在嵌入式Jetson Xavier NX平台上的吞吐量为32次/s。 展开更多
关键词 后量子密码 Falcon算法 图形处理器 CUDA平台 并行计算
在线阅读 下载PDF
GPU异构集群的协同计算引擎设计研究
17
作者 李清清 于欣宁 王海峰 《计算机应用与软件》 北大核心 2024年第12期15-22,28,共9页
GPU与多核CPU的协同可提高大数据计算效率,然而用户需要同时考虑应用领域内的并行算法逻辑和协同计算过程,为GPU异构协同计算增加了编程难度。所以,在分析GPU异构集群节点之间和节点内协同计算的基础上抽取流程逻辑,提出一个粗细粒度相... GPU与多核CPU的协同可提高大数据计算效率,然而用户需要同时考虑应用领域内的并行算法逻辑和协同计算过程,为GPU异构协同计算增加了编程难度。所以,在分析GPU异构集群节点之间和节点内协同计算的基础上抽取流程逻辑,提出一个粗细粒度相结合的协同计算引擎,自动生成协同执行计划,用户只需关注应用领域算法的设计和实现。实验表明,该方法与人工编程方案对比发现性能损失控制在4.2%以内。因此该协同计算引擎能够用于GPU通用计算开发应用中,可有效改善普通用户的开发效率。 展开更多
关键词 gpu协同计算 有限自动机 计算引擎 模板技术
在线阅读 下载PDF
基于GPU加速的等几何拓扑优化高效多重网格求解方法
18
作者 杨峰 罗世杰 +1 位作者 杨江鸿 王英俊 《中国机械工程》 EI CAS CSCD 北大核心 2024年第4期602-613,共12页
针对大规模等几何拓扑优化(ITO)计算量巨大、传统求解方法效率低的问题,提出了一种基于样条h细化的高效多重网格方程求解方法。该方法利用h细化插值得到粗细网格之间的权重信息,然后构造多重网格方法的插值矩阵,获得更准确的粗细网格映... 针对大规模等几何拓扑优化(ITO)计算量巨大、传统求解方法效率低的问题,提出了一种基于样条h细化的高效多重网格方程求解方法。该方法利用h细化插值得到粗细网格之间的权重信息,然后构造多重网格方法的插值矩阵,获得更准确的粗细网格映射信息,从而提高求解速度。此外,对多重网格求解过程进行分析,构建其高效GPU并行算法。数值算例表明,所提出的求解方法与线性插值的多重网格共轭梯度法、代数多重网格共轭梯度法和预处理共轭梯度法相比分别取得了最高1.47、11.12和17.02的加速比。GPU并行求解相对于CPU串行求解的加速比高达33.86,显著提高了大规模线性方程组的求解效率。 展开更多
关键词 等几何拓扑优化 方程组求解 h细化 多重网格法 gpu并行计算
在线阅读 下载PDF
基于Seed-PCG法的列车-轨道-地基土三维随机振动GPU并行计算方法
19
作者 朱志辉 冯杨 +2 位作者 杨啸 李昊 邹有 《Journal of Central South University》 SCIE EI CAS CSCD 2024年第1期302-316,共15页
为了解决列车-轨道-地基土三维有限元模型随机多样本计算效率低的问题,本文提出了一种基于Seed-PCG法的高效并行计算方法。基于有限元法和虚拟激励法建立轨道不平顺激励下的三维列车-轨道-地基土耦合随机振动分析模型;针对车致地基土随... 为了解决列车-轨道-地基土三维有限元模型随机多样本计算效率低的问题,本文提出了一种基于Seed-PCG法的高效并行计算方法。基于有限元法和虚拟激励法建立轨道不平顺激励下的三维列车-轨道-地基土耦合随机振动分析模型;针对车致地基土随机振动分析产生的多右端项线性方程组求解问题,采用Seed-PCG方法进行求解。通过PCG方法求解种子系统得到的Krylov子空间进行投影,以改进其余线性方程组的初始解和对应的初始残量,有效提高了PCG法的收敛速度,最后,在MATLABCUDA混合平台上开发了并行计算程序。数值算例表明:相同计算平台下的该方法相比多点同步算法获得了104.2倍的加速;相比PCG法逐个求解方案减少了18%的迭代次数,获得了1.21倍的加速。 展开更多
关键词 Seed-PCG法 多右端项线性方程组 随机振动 gpu并行计算 列车-轨道-地基土耦合模型
在线阅读 下载PDF
基于计算着色器的并行Delaunay三角剖分算法
20
作者 陈国军 李震烁 陈昊祯 《图学学报》 北大核心 2025年第1期159-169,共11页
Delaunay三角剖分是一种经典的计算几何算法,在众多领域中有着广泛地使用,随着实际需求的不断提高,现有的Delaunay三角剖分算法已不能满足大规模数据的需求,为此,提出了一种基于计算着色器的并行Delaunay三角剖分方法,该方法通过纹理缓... Delaunay三角剖分是一种经典的计算几何算法,在众多领域中有着广泛地使用,随着实际需求的不断提高,现有的Delaunay三角剖分算法已不能满足大规模数据的需求,为此,提出了一种基于计算着色器的并行Delaunay三角剖分方法,该方法通过纹理缓存将点集数据输入到计算着色器中,并利用计算着色器加速Delaunay三角剖分,同时在现有方法的基础上提出动态插入法解决点集在离散空间中的重映射问题。此外,为了能够让显存有限的GPU构建出远超其显存限制的Delaunay三角网,提出基于计算着色器的分区双向扫描算法,并将点集划分为多个子区域,然后通过扫描各个子区域的方式进行构网。实验结果表明:在相同运行环境下,基于计算着色器的方法与现有的方法相比缩短了构网时间。同时分区双向扫描算法很好地解决了GPU的显存瓶颈问题,能让显存有限的GPU构建出远超其显存容量的Delaunay三角网。 展开更多
关键词 DELAUNAY三角剖分 计算着色器 gpu 并行计算 VORONOI图
在线阅读 下载PDF
上一页 1 2 27 下一页 到第
使用帮助 返回顶部