期刊文献+
共找到26篇文章
< 1 2 >
每页显示 20 50 100
基于CPU-GPU协同的迭代物理光学并行算法研究
1
作者 曹倩 周远国 +1 位作者 任强 王焱 《电波科学学报》 北大核心 2025年第3期427-438,共12页
随着雷达技术与无人驾驶的结合,电磁仿真在无人驾驶领域得到了广泛应用。当利用迭代物理光学(iterative physical optics,IPO)法求解电大散射体雷达散射截面(radar cross section,RCS)时,未知量数目比较大,导致占用内存和计算耗时非常... 随着雷达技术与无人驾驶的结合,电磁仿真在无人驾驶领域得到了广泛应用。当利用迭代物理光学(iterative physical optics,IPO)法求解电大散射体雷达散射截面(radar cross section,RCS)时,未知量数目比较大,导致占用内存和计算耗时非常大。为解决该问题,本文引入参数空间技术优化IPO算法,提高了电大尺寸RCS的计算效率,并引入计算统一设备架构(compute unified device architecture,CUDA)技术,在中央处理器(central processing unit,CPU)与图形处理器(graphics processing unit,GPU)协同平台上实现了电大尺寸目标RCS的并行计算。与商业软件FEKO比对,在NVIDIA GeForce RTX 3050显卡上获得了224.35的加速比。实例结果展示了基于CPU-GPU协同的IPO算法并行计算的可行性与高效性,可以用来解决目前只能在高性能计算机或计算机集群上解决的电大尺寸目标散射问题。 展开更多
关键词 迭代物理光学法(IPO) 参数空间技术 cpu-gpu协同 并行加速 雷达散射截面(RCS)
在线阅读 下载PDF
基于GPU/CPU叠前逆时偏移研究及应用 被引量:14
2
作者 刘文卿 王宇超 +4 位作者 雍学善 王孝 邵喜春 高厚强 刘秋良 《石油地球物理勘探》 EI CSCD 北大核心 2012年第5期712-716,844+676,共5页
本文基于GPU/CPU协同系统,将计算量最大的波场逆时外推通过GPU实现,并利用随机速度边界的思路提高波场外推算法的并行性,解决了大规模存储的I/O问题。通过优化拉普拉斯算子压制由互相关成像条件引入的低频噪声。数值试验表明,GPU/CPU协... 本文基于GPU/CPU协同系统,将计算量最大的波场逆时外推通过GPU实现,并利用随机速度边界的思路提高波场外推算法的并行性,解决了大规模存储的I/O问题。通过优化拉普拉斯算子压制由互相关成像条件引入的低频噪声。数值试验表明,GPU/CPU协同系统的计算效率非常高,在实际应用中取得良好的成像效果和时效比。理论模型试算和实际盐丘数据的处理验证了算法的正确性。 展开更多
关键词 逆时偏移 波动方程 成像条件 gpu/cpu协同计算 随机速度边界
在线阅读 下载PDF
基于CPU-GPU协同并行内点算法求解结构化非线性规划 被引量:2
3
作者 杨林峰 胡桂莉 +1 位作者 张晨 张振荣 《电子学报》 EI CAS CSCD 北大核心 2019年第2期382-389,共8页
大量工程应用问题可建模为结构化非线性规划,且这类问题的系数矩阵可分为稀疏型和稠密型两种类型.利用原始-对偶内点法(primal dual interior point method,PD-IPM),并结合分布式并行技术可高效求解此类问题.经典工程问题-机组组合(unit... 大量工程应用问题可建模为结构化非线性规划,且这类问题的系数矩阵可分为稀疏型和稠密型两种类型.利用原始-对偶内点法(primal dual interior point method,PD-IPM),并结合分布式并行技术可高效求解此类问题.经典工程问题-机组组合(unit commitment,UC)为稀疏系数矩阵的结构化非线性规划,本文根据PD-IPM原理,对UC模型进行连续松弛预处理,结合快速解耦技术解耦牛顿修正方程并设计CPU-GPU协同并行算法求解子问题,最后将结果与带稠密型子问题的结构化非线性规划的求解结果进行比较和分析.实验结果显示,本文所设计的算法对于两种不同类型的结构化非线性规划求解均能获得较好的加速比. 展开更多
关键词 非线性规划 内点法 机组组合 cpu-gpu协同 并行计算
在线阅读 下载PDF
基于多核CPU+GPU运算的电磁场高效体绘制算法研究 被引量:1
4
作者 陈宇峰 张铂 李林 《计算机工程与应用》 CSCD 北大核心 2018年第18期218-222,共5页
雷达探测范围作为电磁场的一个典型代表,由于其在军事决策时扮演着重要的作用,所以对探测范围可视化的准确性和实时性的要求很严格。传统的面绘制三维数据场信息会造成大量的空间信息丢失。因此,采用体绘制技术来获取电磁场中的三维数... 雷达探测范围作为电磁场的一个典型代表,由于其在军事决策时扮演着重要的作用,所以对探测范围可视化的准确性和实时性的要求很严格。传统的面绘制三维数据场信息会造成大量的空间信息丢失。因此,采用体绘制技术来获取电磁场中的三维数据场信息。针对传统体绘制技术算法执行效率较低的问题,提出使用多核CPU+GPU的架构来加速体绘制,从而实现实时处理。实验表明,采用提出的方法可以大幅减少体绘制中光线绘制的时间,充分利用CPU的空闲存储资源和计算资源。 展开更多
关键词 电磁场 体绘制 多核cpu+gpu 并行计算
在线阅读 下载PDF
CPU和GPU协同并行加速多生物序列比对 被引量:5
5
作者 杨春燕 钟诚 《小型微型计算机系统》 CSCD 北大核心 2016年第12期2780-2784,共5页
将主库构建阶段的输入序列分成多个分主库、将主库扩展阶段的主库元素划分成多个计算窗口,使之符合GPU并行计算的线程结构特性,GPU以计算窗口为单位并行计算比对矩阵、并行约减主库及并行扩展比对矩阵,结合库优化思想优化主库构建过程,... 将主库构建阶段的输入序列分成多个分主库、将主库扩展阶段的主库元素划分成多个计算窗口,使之符合GPU并行计算的线程结构特性,GPU以计算窗口为单位并行计算比对矩阵、并行约减主库及并行扩展比对矩阵,结合库优化思想优化主库构建过程,利用阈值cutoff控制主库约减程度,设计实现CPU和多个GPU协同计算并行比对多生物序列的高效可扩展算法OGM SA.实验结果表明,当cutoff≤0.20时,算法OGM SA的比对结果质量与算法G-M SA相同,计算速度是G-M SA算法的近4倍,内存容量需求比G-MSA算法也有所降低. 展开更多
关键词 多生物序列 并行比对 计算窗口 cpugpu协同计算 主库约减
在线阅读 下载PDF
全局基因调控网络构建CPU/GPU并行算法
6
作者 陈绪伟 钟诚 《小型微型计算机系统》 CSCD 北大核心 2015年第2期234-239,共6页
对基因表达谱分块,使之符合GPU并行计算的线程结构特性,根据GPU线程结构特性设计双层并行模式,并利用纹理缓存实现访存高效;依据CPU二级缓存容量对基本块进一步细分成子块以提高缓存命中率,利用数据预取技术减少访存次数,利用线程绑定... 对基因表达谱分块,使之符合GPU并行计算的线程结构特性,根据GPU线程结构特性设计双层并行模式,并利用纹理缓存实现访存高效;依据CPU二级缓存容量对基本块进一步细分成子块以提高缓存命中率,利用数据预取技术减少访存次数,利用线程绑定技术减少线程在核心之间的迁移;依据多核CPU和GPU的计算能力分配CPU和GPU的基因互信息计算任务以平衡CPU与GPU的计算负载;在设计新的阈值计算算法基础上,设计实现了访存高效的构建全局基因调控网络CPU/GPU并行算法.实验结果表明,与已有算法相比,本文算法加速更明显,并且能够构建更大规模的全局基因调控网络. 展开更多
关键词 全局基因调控网络 cpugpu协同计算 访存高效 并行算法
在线阅读 下载PDF
基于GPU的矩阵求逆性能测试和分析 被引量:11
7
作者 刘丽 沈杰 李洪林 《华东理工大学学报(自然科学版)》 CAS CSCD 北大核心 2010年第6期812-817,共6页
在CPU串行运算模式下实现大规模矩阵求逆是一个非常耗时的过程。为了解决这一问题,基于NVIDIA公司专为GPU(图形处理器)提供的CUDA(计算统一设备架构),从新的编程角度出发,利用GPU多线程并行处理技术,将矩阵求逆过程中大量的数据实现并... 在CPU串行运算模式下实现大规模矩阵求逆是一个非常耗时的过程。为了解决这一问题,基于NVIDIA公司专为GPU(图形处理器)提供的CUDA(计算统一设备架构),从新的编程角度出发,利用GPU多线程并行处理技术,将矩阵求逆过程中大量的数据实现并行运算,从而获得了较大的加速比。同时,根据程序的执行结果,分析了GPU的单精度与双精度的浮点运算能力及其优、劣势。最后,通过分析数据传输时间对GPU性能的影响,总结出适合GPU的算法特征。 展开更多
关键词 图形处理器(gpu) 计算统一设备架构(CUDA) cpu 并行运算 矩阵求逆
在线阅读 下载PDF
基于GPU的遥感图像前期处理算法研究与应用 被引量:5
8
作者 王化喆 魏先勇 《现代电子技术》 北大核心 2016年第3期47-50,54,共5页
针对传统的遥感图像前期处理算法在面对海量地面数据时计算时间很难满足需求的问题,基于RPC模型的遥感成像几何校正算法的并行加速和基于SIFT特征提取的图像匹配技术的并行加速研究。针对几何校正的主要步骤及其速度瓶颈问题,提出了可... 针对传统的遥感图像前期处理算法在面对海量地面数据时计算时间很难满足需求的问题,基于RPC模型的遥感成像几何校正算法的并行加速和基于SIFT特征提取的图像匹配技术的并行加速研究。针对几何校正的主要步骤及其速度瓶颈问题,提出了可采用的并行加速方法,同时结合SIFT的特点提出了并行优化加速的方案。采用基于数据划分的并行方法对遥感图像的几何校正和SIFT特征提取算法进行加速。最后利用CUDA环境,在CPU+GPU异构系统下,设计试验对两个算法优化并行提速,试验结果表明,提出的加速方案和优化算法能大幅提高遥感图像的前期处理效率。 展开更多
关键词 遥感图像 几何校正 SIFT特征提取 cpu+gpu 并行计算
在线阅读 下载PDF
一种非线性显式分层壳单元及其GPU并行计算实现 被引量:2
9
作者 曹胜涛 李志山 杨志勇 《振动与冲击》 EI CSCD 北大核心 2019年第22期60-69,84,共11页
通用有限元程序ABAQUS的钢筋混凝土显式分层壳单元被广泛应用于剪力墙抗震性能分析,但存在两个缺陷:①只能得到混凝土受压损伤和受拉损伤,无法反映混凝土剪切损坏,因此不易根据损伤类型对结构进行优化;②基于CPU并行计算,大规模计算效... 通用有限元程序ABAQUS的钢筋混凝土显式分层壳单元被广泛应用于剪力墙抗震性能分析,但存在两个缺陷:①只能得到混凝土受压损伤和受拉损伤,无法反映混凝土剪切损坏,因此不易根据损伤类型对结构进行优化;②基于CPU并行计算,大规模计算效率较低。基于平面应力条件下的混凝土弹塑性损伤本构模型,根据混凝土损伤发展时的受力状态和工程实践需要将损伤分为受拉损伤、受压损伤和受剪损伤。结合可损伤分类的塑性损伤模型,给出了非线性壳元物理沙漏力和面内旋转力的构造方法,进而得到一种含面内旋转自由度的4节点24自由度四边形非线性显式分层壳单元。将该研究壳元在自主研发的基于CPU+GPU异构并行计算的非线性分析软件中完成开发实现;通过与ABAQUS benchmark算例结果对比,验证了开发内容的正确性;通过与剪力墙单调加载试验对比,验证了该研究壳元的合理性。分别采用自主研发软件和ABAQUS对上海地区某框架核心筒体系的超高层结构进行了罕遇地震非线性时程分析,结果表明:①自主研发软件与ABAQUS结果基本一致,而计算效率为ABAQUS计算效率的5.69倍;②自主研发软件得到的受拉损伤、受压损伤和受剪损伤损伤可更清晰地揭示核心筒在罕遇地震作用下的损坏演化规律和破坏模式。 展开更多
关键词 弹塑性损伤模型 混凝土损伤类型 非线性显式分层壳单元 剪力墙损坏模式 cpu+gpu并行计算
在线阅读 下载PDF
基于GPU的可扩展哈希方法
10
作者 胡学萱 奚建清 林妙 《华南理工大学学报(自然科学版)》 EI CAS CSCD 北大核心 2015年第1期111-117,共7页
为了使用可扩展哈希表进行快速的数据访问,需要高效地更新索引以维护哈希表.文中提出了一种基于GPU的可扩展哈希算法g EHT.该算法充分利用GPU的并行计算能力,并采用表重用、预分裂技术,无锁地扩展和收缩表、插入和删除数据,实现了高并... 为了使用可扩展哈希表进行快速的数据访问,需要高效地更新索引以维护哈希表.文中提出了一种基于GPU的可扩展哈希算法g EHT.该算法充分利用GPU的并行计算能力,并采用表重用、预分裂技术,无锁地扩展和收缩表、插入和删除数据,实现了高并发地创建哈希表、更新索引和检索数据.实验结果表明,该算法的查询数据、维护哈希表和更新索引性能优于其他多核CPU的线性哈希及可扩展哈希算法,尤其是在高负载的情况下. 展开更多
关键词 可扩展哈希 并行计算 gpu 算法 多核cpu
在线阅读 下载PDF
GPU在活塞销尺寸快速检测中的应用研究
11
作者 周叶江 郑彬 赵永廷 《计算机应用与软件》 2017年第1期198-203,共6页
近年来,工业上对工业标准件尺寸检测的研究重点逐渐转移到关注其"高速性"策略的研究,其中边缘信息的检测是最为重要且最耗时的过程。为此,针对活塞销尺寸检测提出一种基于GPU技术的方法。选用提取稳定、精度高的Hough算法作... 近年来,工业上对工业标准件尺寸检测的研究重点逐渐转移到关注其"高速性"策略的研究,其中边缘信息的检测是最为重要且最耗时的过程。为此,针对活塞销尺寸检测提出一种基于GPU技术的方法。选用提取稳定、精度高的Hough算法作为检测直线的策略,结合现有边缘检测算法,对其主要步骤(高斯滤波、梯度计算、方向角计算及Otsu阈值化)的计算流程进行并行优化。使用相同实验样本,该方法能够在更短的时间内检测出活塞销的尺寸,与传统CPU实现方法对比,其平均效率有近15倍的提升。利用GPU实现活塞销尺寸快速检测的方法,为工业上实现检测的高速性提供一个高效可靠的解决途径,且有效地控制生产成本。 展开更多
关键词 尺寸检测 直线检测 边缘提取 gpu技术 并行计算
在线阅读 下载PDF
基于异构系统的多级并行稀疏张量向量乘算法 被引量:4
12
作者 陈玥丹 肖国庆 +3 位作者 阳王东 金纪勇 龙军 李肯立 《计算机学报》 EI CSCD 北大核心 2024年第2期441-455,共15页
张量在许多实际应用中被用来表示大规模、多源、高维、多模态的数据.稀疏张量分解作为挖掘数据中隐藏信息的有效方法之一,已被广泛应用于机器学习、文本分析、生物医疗等研究领域中.稀疏张量向量乘(Sparse Tensor-VectorMultiplication,... 张量在许多实际应用中被用来表示大规模、多源、高维、多模态的数据.稀疏张量分解作为挖掘数据中隐藏信息的有效方法之一,已被广泛应用于机器学习、文本分析、生物医疗等研究领域中.稀疏张量向量乘(Sparse Tensor-VectorMultiplication,SpTV)是张量分解中最基础、耗时最多的运算之一.为加速大数据和人工智能相关应用的运行效率,本文提出了基于CPU-GPU异构结构的多级并行SpTV加速算法.首先,为了将SpTV运算映射到混合、多级并行的分布式CPU-GPU异构多/众核构架,本文设计了一种多维并行SpTV划分方法,采用面向节点级并行的N-1维张量划分和面向GPU线程级并行的矩阵划分,充分利用计算节点间和节点内的多级并行计算能力.其次,设计了一种基于稀疏张量纤维的压缩存储格式,压缩稀疏张量的内存占用,优化SpTV运算的计算和访存模式.最后,提出了基于多流并行的异构高效SpTV算法,进一步设计了稀疏张量的细粒度划分方法、多流并行运行机制和基于张量块排序的多流并行优化技术,实现了SpTV运算中通信开销和计算开销的相互重叠与隐藏.实验结果表明,与相关工作aeSpTV相比,所提出的SpTV算法在所有测试数据集上最高能够获得3.28倍的加速比. 展开更多
关键词 cpu-gpu 异构并行计算 多级并行 稀疏张量 张量运算
在线阅读 下载PDF
盐下构造速度建模与逆时偏移成像研究及应用 被引量:30
13
作者 刘文卿 王西文 +4 位作者 刘洪 王宇超 王孝 曾华会 邵喜春 《地球物理学报》 SCIE EI CAS CSCD 北大核心 2013年第2期616-625,共10页
盐丘速度建模及成像是盐下油气藏勘探有关技术瓶颈问题.盐下构造由于盐丘速度与围岩地层差异大,且厚度横向变化大,造成地震波场复杂及时间域构造畸变.针对H区复杂盐丘的地质特征,通过技术创新重新认识盐下油气藏.针对盐丘速度建模的难点... 盐丘速度建模及成像是盐下油气藏勘探有关技术瓶颈问题.盐下构造由于盐丘速度与围岩地层差异大,且厚度横向变化大,造成地震波场复杂及时间域构造畸变.针对H区复杂盐丘的地质特征,通过技术创新重新认识盐下油气藏.针对盐丘速度建模的难点,提出了"多信息约束层控实体建模技术",采用序贯高斯模拟及克里金趋势约束速度反演方法,较好解决了盐下速度异常问题,大大提高了速度建模的精度;针对盐下复杂构造成像,基于有限差分方法研究了精确且高效的差分格式逆时波场外推算法.基于GPU/CPU协同平台,将波场延拓通过GPU实现.采用逆时偏移深度域成像技术,使高角度反射界面、甚至超过90°盐丘侧翼界面的反射波精确成像.通过盐丘理论模型试算验证算法及方法的正确性.上述方法解决了盐丘速度建模精度问题、盐丘侧翼的回转构造成像问题,实现了对盐丘边界及盐丘侧翼的准确归位.消除了速度异常造成的时间域构造畸变,使盐下地层在深度域能够准确成像. 展开更多
关键词 盐丘 层控建模 多信息约束 逆时偏移 波动方程 gpu cpu协同计算
在线阅读 下载PDF
基于图形处理器的广义最小残差迭代法在电力系统暂态仿真中的应用 被引量:6
14
作者 唐聪 严正 周挺辉 《电网技术》 EI CSCD 北大核心 2013年第5期1365-1371,共7页
文中对电力系统暂态仿真算法及并行化设计进行了研究,针对图形处理器(graphic processing unit,GPU)的特性,应用广义最小残差法(generalized minimal residual,GMRES)提出一种基于GPU的电力系统暂态仿真并行算法。该算法采用预处理算法... 文中对电力系统暂态仿真算法及并行化设计进行了研究,针对图形处理器(graphic processing unit,GPU)的特性,应用广义最小残差法(generalized minimal residual,GMRES)提出一种基于GPU的电力系统暂态仿真并行算法。该算法采用预处理算法对暂态仿真计算过程中的系数矩阵进行预处理,降低条件数以提升收敛速度,经预处理后的线性方程组通过GMRES算法在GPU上并行求解,针对暂态仿真计算中线性方程组稀疏性的特点,算法应用稀疏存储技术以节省计算量和内存占用空间。测试表明,所提出的GPU并行算法与PSAT软件计算结果近似;相对CPU串行程序,当算例规模足够大时,GPU并行算法的加速效果明显,实测最高加速比为3.3。 展开更多
关键词 暂态仿真 预处理 广义最小残差法 图形处理器 并行计算 统一计算设备架构 稀疏技术
在线阅读 下载PDF
波尔兹曼数字岩芯致密砂岩渗透率研究 被引量:5
15
作者 朱伯靖 石耀霖 《力学学报》 EI CSCD 北大核心 2013年第3期384-394,共11页
致密砂岩渗透率在油气勘探开发、地应力测量及水库地质灾害等领域具有重要意义,但鉴于目前实验技术局限性,温压耦合渗透率测量尚无法通过实验手段实现.在已有研究工作基础上,首次建立了基于D3Q27数字岩芯模型,并计算了高温压耦合低渗砂... 致密砂岩渗透率在油气勘探开发、地应力测量及水库地质灾害等领域具有重要意义,但鉴于目前实验技术局限性,温压耦合渗透率测量尚无法通过实验手段实现.在已有研究工作基础上,首次建立了基于D3Q27数字岩芯模型,并计算了高温压耦合低渗砂岩渗透率问题.首先,以鄂尔多斯盆地某油田延长组致密砂岩为例,利用X射线CT断层成像技术岩芯获取10μm,5μm,2μm分辨率致密砂岩内部结构数据,应用基于量子力学第一性原理的D3Q27格子波尔兹曼数字岩芯模型建立数值模型.进而,利用自编3DLBM程序分别计算了不同分辨率渗透率随围压(0~200 MPa)、孔隙压(0~65 MPa)和温度(25 C~180 C)变化规律,通过与Inc AUTOLAB2 000C岩石测试分析系统实验结果对比,验证了程序的可靠性,得到低渗砂岩断层最佳分辨率;最后,在并行CPU--GPU平台上计算了高温高压耦合(0 C~400 C,0~1.4 GPa)下致密砂岩渗透率值及其各向异性随温压变化规律,并讨论了致密砂岩中水在达到超临界状态后对致密岩石内部结构的影响. 展开更多
关键词 D3Q27格子波尔兹曼数字岩芯模型 致密砂岩渗透率 X射线CT断层成像分辨率 并行cpugpu
在线阅读 下载PDF
“高分一号”卫星影像业务流程化处理平台研究 被引量:3
16
作者 孙钰珊 艾海滨 +1 位作者 韩晓霞 《测绘通报》 CSCD 北大核心 2018年第5期65-70,135,共7页
应用高时间分辨率、高空间分辨率、高光谱、高重叠度等成像方式为对地观测提供大量数据的同时,也给数据处理和数据产品的生产带来了新的挑战。本文针对"高分一号"卫星影像的特点,通过对高分辨率卫星影像数据处理核心算法和一... 应用高时间分辨率、高空间分辨率、高光谱、高重叠度等成像方式为对地观测提供大量数据的同时,也给数据处理和数据产品的生产带来了新的挑战。本文针对"高分一号"卫星影像的特点,通过对高分辨率卫星影像数据处理核心算法和一键式全流程自动化处理关键技术的研究,提出了一种主体基于C/S架构的业务流程化数据处理平台。该平台融合了GPU与CPU异构计算架构,能够根据不同卫星影像产品需求实现相应的业务流程化处理,有效提高了影像产品生产的自动化程度和业务灵活性。为了验证该平台的可行性,本文给出了实际的数据生产案例,结果表明,该平台能够实现"高分一号"卫星影像数据的业务流程化处理,能够在减少人工干预的同时生产各级影像校正产品和专题影像产品。 展开更多
关键词 高分一号 卫星影像 影像处理 业务流程 任务调度 生产调度 质量检查 gpu/cpu 并行计算
在线阅读 下载PDF
并行化快速评估算法初步研究 被引量:1
17
作者 丰彪 余世舟 《自然灾害学报》 CSCD 北大核心 2019年第5期105-112,共8页
本文针对传统应急评估软件计算速度偏慢、评估时间过长的问题,利用GPU加速计算技术,开展应急快速评估算法的并行化研究。在分析串行评估算法性能瓶颈的基础上,运用计算任务并行化和数据处理并行化的方法,提出了基于CPU-GPU混合架构的并... 本文针对传统应急评估软件计算速度偏慢、评估时间过长的问题,利用GPU加速计算技术,开展应急快速评估算法的并行化研究。在分析串行评估算法性能瓶颈的基础上,运用计算任务并行化和数据处理并行化的方法,提出了基于CPU-GPU混合架构的并行化评估模型,给出了分区和分层的数据并行处理方案。与传统的串行评估模型相比,并行评估模型可以充分发挥当前主流计算机的计算能力,计算速度更快,数据处理能力更强,更适合震后应急救援工作的实际需求。该模型经软件优化后,可大大缩短震后快速评估所需的时间,为震后早期决策提供更为及时有效的支持。 展开更多
关键词 地震应急 快速评估 评估算法 并行计算 cpu-gpu
在线阅读 下载PDF
基于CUDA的超声二维声场EFIT仿真 被引量:2
18
作者 宋波 李威 廉国选 《北京航空航天大学学报》 EI CAS CSCD 北大核心 2019年第7期1322-1328,共7页
随着图形处理器(GPU)的快速发展,基于计算设备统一构架(CUDA)可以方便地将并行计算技术应用于超声声场数值仿真计算,极大地提升计算效率。阐述了弹性动力学有限积分算法(EFIT)的原理,在采用CPU实现带吸收边界的钢材料二维点源激励声场... 随着图形处理器(GPU)的快速发展,基于计算设备统一构架(CUDA)可以方便地将并行计算技术应用于超声声场数值仿真计算,极大地提升计算效率。阐述了弹性动力学有限积分算法(EFIT)的原理,在采用CPU实现带吸收边界的钢材料二维点源激励声场仿真的基础上,基于GPU实现了仿真模型的并行计算,介绍了GPU程序的设计流程和参数优化方法,包括纹理内存使用、吸收边界优化和数据传输优化。对比了相同条件下CPU和GPU仿真计算的耗时和平均计算效率,定量分析了GPU对于EFIT模型效率的提升。比对结果表明,EFIT具有良好的并行计算条件,采用并行计算方法能够有效提升模型计算速度,对于复杂声场仿真应用具有广阔的应用前景。 展开更多
关键词 并行计算 弹性动力学有限积分算法(EFIT) 二维声场 图形处理器(gpu) 计算设备统一构架(CUDA)
在线阅读 下载PDF
多图形处理器上Lattice-Boltzmann方法的加速 被引量:2
19
作者 吴亮 钟诚文 +3 位作者 郑彦奎 刘沙 卓丛山 陈效鹏 《计算机辅助设计与图形学学报》 EI CSCD 北大核心 2010年第11期1932-1939,共8页
为了提高计算流体领域中复杂流动现象模拟计算的高效性和准确性,充分利用图形硬件的并行性,提出一种在单机多图形处理器下基于CUDA架构的Lattice Boltzmann方法(LBM)的模拟算法.采用区域划分策略将域上的LBM网格平均分配到不同的GPU设备... 为了提高计算流体领域中复杂流动现象模拟计算的高效性和准确性,充分利用图形硬件的并行性,提出一种在单机多图形处理器下基于CUDA架构的Lattice Boltzmann方法(LBM)的模拟算法.采用区域划分策略将域上的LBM网格平均分配到不同的GPU设备上,在分区边界处搭接一层网格以方便计算该处网格的迁移过程,减少GPU间的通信量,并合理地利用CUDA存储层次架构中的全局内存和纹理内存为计算网格分配设备空间;采用多线程技术,用每个线程控制不同的GPU设备,同时引入线程同步机制信号量实现线程间的数据通信同步控制,按照LBM方程组的求解过程实现模拟计算.实验结果表明,双GPU将计算加速到单GPU的1.77倍左右,同时将流场计算网格规模从单GPU下的4160×4160扩大到双GPU下的6144×6144. 展开更多
关键词 CUDA 多线程技术 LATTICE BOLTZMANN方法 多图形处理器 信号量 并行计算
在线阅读 下载PDF
基于CUDA的图像匹配算法 被引量:3
20
作者 周冰园 陈庆奎 +1 位作者 高丽萍 秦川 《计算机工程与应用》 CSCD 北大核心 2015年第12期165-170,共6页
为解决目前已有的图像匹配算法不适用于对实时性要求很强的应用,提出了PLS(Partial Least Squares)与余弦定理相结合的并行化图像匹配算法。该算法在CUDA架构下,对图像矩阵分块,分块后每个小块图像存入共享存储器处理并提取每个小块图... 为解决目前已有的图像匹配算法不适用于对实时性要求很强的应用,提出了PLS(Partial Least Squares)与余弦定理相结合的并行化图像匹配算法。该算法在CUDA架构下,对图像矩阵分块,分块后每个小块图像存入共享存储器处理并提取每个小块图像特征,通过合并后图像特征采用余弦定理计算图像的相似度,从而找出匹配图像。实验表明,CUDA架构下可以实现图像的并行匹配,与CPU上串行匹配相比,时效性提高了百倍以上。 展开更多
关键词 统一设备计算架构(CUDA) gpu技术 偏最小二乘(PLS)方法 并行计算 余弦定理 图像匹配
在线阅读 下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部