期刊文献+
共找到13篇文章
< 1 >
每页显示 20 50 100
分块变换和GPU并行的遥感影像快速正射校正方法 被引量:1
1
作者 方留杨 何红艳 张炳先 《航天返回与遥感》 CSCD 2018年第6期80-90,共11页
正射校正是整个遥感数据处理过程中计算量最大、耗时最长的步骤之一,已经成为制约整个遥感数据处理快速完成的瓶颈。为了提高正射校正处理效率,文章系统地探讨了基于分块三维直接线性变换和图形处理单元(GPU)并行的遥感影像快速正射校... 正射校正是整个遥感数据处理过程中计算量最大、耗时最长的步骤之一,已经成为制约整个遥感数据处理快速完成的瓶颈。为了提高正射校正处理效率,文章系统地探讨了基于分块三维直接线性变换和图形处理单元(GPU)并行的遥感影像快速正射校正方法。首先针对正射校正坐标转换计算量过大的问题,提出了分块三维直接线性变换策略,有效地降低了坐标转换的计算量;在此基础上,采用"渐进式"策略开展GPU并行处理,首先通过GPU并行映射(核函数任务映射、基本设置),使方法在GPU上可执行,然后通过"两层次"性能优化(核函数性能优化、整体流程性能优化),进一步提高了方法的执行效率。在CPU和GPU组成的实验环境中,使用文中方法对"高分二号"卫星全色标准景影像进行实验,GPU执行时间仅为5.13s,与CPU相比,相应加速比达到142.42倍,可以满足对大数据遥感影像的快速正射校正需求。 展开更多
关键词 正射校正 分块三维直接线性变换 图形处理单元并行映射 核函数性能优化 整体流程性能优化 遥感数据处理
在线阅读 下载PDF
采用向量内积的并行相关算法 被引量:2
2
作者 牟卫华 倪少杰 +2 位作者 白洋 孙广富 欧钢 《国防科技大学学报》 EI CAS CSCD 北大核心 2017年第5期50-55,共6页
针对软件接收机相关器计算的实时性问题,通过分析扩频信号的接收过程,建立一种基于向量内积的并行相关信号接收模型。利用图形处理单元中大量的浮点运算单元进行矩阵与向量运算,并行计算各通道相关值,提高了信号相关运算的实时性。仿真... 针对软件接收机相关器计算的实时性问题,通过分析扩频信号的接收过程,建立一种基于向量内积的并行相关信号接收模型。利用图形处理单元中大量的浮点运算单元进行矩阵与向量运算,并行计算各通道相关值,提高了信号相关运算的实时性。仿真验证结果表明,利用基于GPU的向量内积软件并行相关算法计算25 MHz采样率时长1 ms的信号相关值,25个通道共150个相关运算耗时967μs,与CPU上基于数学核心函数库的实现相比速度约提高了61.4倍,能够实现宽带扩频信号软件实时相关接收。 展开更多
关键词 相关器 向量内积 软件接收机 并行计算 图形处理单元
在线阅读 下载PDF
三维不规则窦房结电生理模型的建立及其图形实现
3
作者 张虹 刘袁 +1 位作者 刘炀 金印彬 《西安交通大学学报》 EI CAS CSCD 北大核心 2017年第5期43-47,共5页
针对窦房结三维电生理建模复杂、仿真运算量大等问题,提出了一种有效的解决方法。首先利用建模软件建立右心房三维不规则立体模型,再利用网格划分软件剖分为四面体网格,最后根据网格的位置赋予窦房结和心房细胞属性建立电生理模型。数... 针对窦房结三维电生理建模复杂、仿真运算量大等问题,提出了一种有效的解决方法。首先利用建模软件建立右心房三维不规则立体模型,再利用网格划分软件剖分为四面体网格,最后根据网格的位置赋予窦房结和心房细胞属性建立电生理模型。数值解算时采用算子分裂法和有限体积法,分别对反应-扩散方程和单纯描述电扩布的微分方程进行了处理,同时利用高性能图形处理单元(GPU)在CUDA(compute unified device architecture)编程环境下实现程序的并行加速。另外,从减少CPU和GPU间的数据交换频率、参量存储方式等多方面对程序加以优化。计算结果表明,所建模型无论是单细胞动作电位还是膜电位的传导均符合正常的电生理特征。通过与串行程序及基于4核8线程CPU编写的共享内存式OpenMP并行程序进行比较,基于GPU的CUDA程序可将运行耗时减少90%以上,CPU和GPU间的数据交换仅占总耗时的3%,且组织模型越大,网格划分越细致,GPU的加速效果愈显著。 展开更多
关键词 图形处理单元 并行计算 窦房结 有限体积法
在线阅读 下载PDF
基于GPU并行计算的OMP算法 被引量:1
4
作者 谈继魁 方勇 霍迎秋 《电视技术》 北大核心 2015年第15期42-45,54,共5页
重建算法在压缩感知理论中有着重要的作用,经典的正交匹配追踪(OMP)重建算法在每次迭代中对已选择的原子进行正交化处理以加速算法的收敛速度,但同时增加了算法的计算复杂度。针对这一问题,提出了一种基于图形处理单元(GPU)并行... 重建算法在压缩感知理论中有着重要的作用,经典的正交匹配追踪(OMP)重建算法在每次迭代中对已选择的原子进行正交化处理以加速算法的收敛速度,但同时增加了算法的计算复杂度。针对这一问题,提出了一种基于图形处理单元(GPU)并行计算的OMP算法,重点对算法中复杂度高的投影和矩阵求逆部分在GPU平台上进行并行设计。实验结果i表明,基于GPU的并行OMP算法相对于其串行算法加速比可以达到30~44倍,有效地提高了算法的计算效率,拓宽了该算法的应用范围。 展开更多
关键词 压缩感知 正交匹配追踪算法 图形处理单元 并行计算 加速比
在线阅读 下载PDF
基于GPU的多帧信号FIR滤波的并行实现
5
作者 张道成 《舰船电子对抗》 2013年第4期52-53,74,共3页
随着信息技术的发展,数字信号处理已成为当今重要的学科和技术领域之一,滤波得到了广泛应用。而图形处理单元(GPU)强大的浮点计算能力和数据并行处理能力,在数字信号处理等方面得到了越来越多的应用。介绍了有限冲激响应(FIR)滤波的原理... 随着信息技术的发展,数字信号处理已成为当今重要的学科和技术领域之一,滤波得到了广泛应用。而图形处理单元(GPU)强大的浮点计算能力和数据并行处理能力,在数字信号处理等方面得到了越来越多的应用。介绍了有限冲激响应(FIR)滤波的原理,基于统一计算设备架构(CUDA)实现了并行FIR滤波,并比较了这种方法与其他方法的计算结果,结果表明选用CUDA并行FIR滤波后数据处理速度提高了。 展开更多
关键词 图形处理单元 有限冲激响应滤波 并行处理
在线阅读 下载PDF
基于GPU的LDPC译码器设计
6
作者 黄柯文 刘世刚 汪洋 《电子质量》 2024年第10期43-48,共6页
为了提高低密度奇偶校验码(LDPC)译码器的译码速度,提出了一种基于图形处理单元(GPU)加速的并行LDPC译码方案。该方案基于对数似然比(LLR-BP)译码算法进行设计,针对算法的可并行部分采用并行度更高的边并行译码方案,以降低译码延迟并提... 为了提高低密度奇偶校验码(LDPC)译码器的译码速度,提出了一种基于图形处理单元(GPU)加速的并行LDPC译码方案。该方案基于对数似然比(LLR-BP)译码算法进行设计,针对算法的可并行部分采用并行度更高的边并行译码方案,以降低译码延迟并提高了GPU的线程利用率。此外,通过优化线程分配策略,将变量节点更新的信息存储在访问成本更低的共享内存中,减少了消息传递过程中对全局内存的依赖。实验结果表明,所提方案的译码速度分别是传统的节点并行译码和边并行译码方案的2.8倍和1.2倍,满足高速通信系统的需求。 展开更多
关键词 图形处理单元 低密度奇偶校验码译码器 数据协调 并行计算
在线阅读 下载PDF
空谱联合的核光谱角异常检测及GPU实现 被引量:3
7
作者 赵春晖 李佳伟 +1 位作者 刘务 田明华 《哈尔滨工程大学学报》 EI CAS CSCD 北大核心 2017年第9期1497-1504,共8页
针对高光谱图像空间信息利用不充分影响检测性能的问题,本文提出结合高光谱图像空间信息与光谱信息的异常目标检测算法。该算法无需假设背景模型,通过计算待检测像元与其空间邻域像元的核光谱角累加和,初步得到每个像元的异常程度。利... 针对高光谱图像空间信息利用不充分影响检测性能的问题,本文提出结合高光谱图像空间信息与光谱信息的异常目标检测算法。该算法无需假设背景模型,通过计算待检测像元与其空间邻域像元的核光谱角累加和,初步得到每个像元的异常程度。利用扩展形态学的腐蚀操作进行异常修正,有效去除噪声干扰,并降低虚警率,从而得到最终的异常检测结果。为提高算法的执行效率,本文进一步提出了基于GPU/CUDA模型下的并行优化处理方法。通过仿真实验证明,该算法在保证较高检测精度的同时,充分利用GPU的并行特性,明显缩减了检测时间。 展开更多
关键词 高光谱图像 异常检测 核光谱角 空谱联合 数学形态学 图形处理单元 统一设备架构 并行处理
在线阅读 下载PDF
GPU加速窦房结计算机仿真的实现及优化 被引量:1
8
作者 张虹 郑霄 赵丹 《西安交通大学学报》 EI CAS CSCD 北大核心 2014年第7期60-64,共5页
针对窦房结电生理计算机仿真运算量巨大、耗时长的问题,提出了基于高性能图形处理单元(GPU)实现并行计算及优化的方法。首先考虑窦房结细胞中央和边缘的差异,构建了一维非匀质窦房结组织模型;利用算子分裂方法使模型的解算任务具备并行... 针对窦房结电生理计算机仿真运算量巨大、耗时长的问题,提出了基于高性能图形处理单元(GPU)实现并行计算及优化的方法。首先考虑窦房结细胞中央和边缘的差异,构建了一维非匀质窦房结组织模型;利用算子分裂方法使模型的解算任务具备并行性。根据具体解算过程提出了三种并行化策略,并对其中耗时最短的策略从线程块设置、数据交换频率以及存储模式等方面进行了进一步优化。结果表明:对于500个细胞的仿真,CUDA程序较串行程序的执行时间下降了60%,进一步优化后,CUDA程序的执行时间可下降84%;窦房结组织越大,GPU的加速效果越明显。结果验证了GPU加速解算方法可显著提高窦房结模型的解算速度,降低实际执行时间。 展开更多
关键词 图形处理单元 并行计算 窦房结 计算机仿真
在线阅读 下载PDF
基于GPU的岩石碎屑流与拦砂坝交互场景的三维建模与可视化 被引量:2
9
作者 叶健 陶和平 +1 位作者 陈锦雄 陈晓清 《中南大学学报(自然科学版)》 EI CAS CSCD 北大核心 2013年第2期718-725,共8页
针对近年来岩石碎屑流灾害频发现象,并结合当前岩石碎屑流建模与可视化的需要,通过三维可视化模拟岩石碎屑流形成后,岩石碎屑流蓄满第一级拦砂坝后被第二级拦砂坝拦截的过程,以直观地表达岩石碎屑流现象,再现岩石碎屑流灾害的防灾减灾... 针对近年来岩石碎屑流灾害频发现象,并结合当前岩石碎屑流建模与可视化的需要,通过三维可视化模拟岩石碎屑流形成后,岩石碎屑流蓄满第一级拦砂坝后被第二级拦砂坝拦截的过程,以直观地表达岩石碎屑流现象,再现岩石碎屑流灾害的防灾减灾过程。采用离散元法建立岩石碎屑流模型,在场景中构建拦砂坝和排导槽等防灾设施模型,并对其进行边界处理,充分利用GPU的高度并行性和可编程性,使得利用离散元法模拟大规模岩石碎屑流的计算结果能够满足实时的要求,实现岩石碎屑流与拦砂坝交互场景的三维可视化。实验结果表明:该方法能够模拟出较丰富的岩石碎屑流细节效果,并且能够满足实时性的要求,展示了防灾减灾的过程,为岩石碎屑流防灾减灾的处理设计与施工提供直观的可视化分析平台,有助于岩石碎屑流灾害风险评估后进行岩石碎屑流灾害的防灾减灾措施。 展开更多
关键词 岩石碎屑流模拟 离散元法 图形处理单元 并行计算 拦砂坝 排导槽
在线阅读 下载PDF
面向GPU的循环合并 被引量:1
10
作者 杨扬 崔慧敏 冯晓兵 《高技术通讯》 CAS CSCD 北大核心 2013年第3期257-262,共6页
针对现有的将C或Fortran程序映射到通用图形处理单元(GPU)的自动转换工具主要关注将单个循环生成一个独立的GPU内核,从而阻碍了对循环间数据重用的利用的问题,提出一种新的面向GPU的循环合并的代码变换方法,该方法通过循环分块(strip mi... 针对现有的将C或Fortran程序映射到通用图形处理单元(GPU)的自动转换工具主要关注将单个循环生成一个独立的GPU内核,从而阻碍了对循环间数据重用的利用的问题,提出一种新的面向GPU的循环合并的代码变换方法,该方法通过循环分块(strip mining)和冗余计算等手段达到消除迭代间数据依赖的目的,并可充分利用GPU片上的共享内存进行线程间数据交换,从而将此类程序高效地映射到GPU上。通过典型程序在GPU上的实验表明,该新方法由于能够减少对全局内存的访问,带来了最多高达1.96倍的加速比。 展开更多
关键词 通用图形处理单元(GPU) 循环合并 并行 CUDA 循环间数据重用
在线阅读 下载PDF
基于DEM和GPU加速的颗粒运动仿真方法研究 被引量:4
11
作者 付帅旗 黄鹏 丁逸飞 《合肥工业大学学报(自然科学版)》 CAS 北大核心 2019年第12期1602-1607,共6页
采用离散元素法(discrete element method, DEM)进行颗粒系统运动仿真时,其模拟计算量大、计算效率低下,所采用的传统中央处理器(central processing unit, CPU)并行计算模型难以实现较大规模模拟。文章提出了一种基于图形处理单元(grap... 采用离散元素法(discrete element method, DEM)进行颗粒系统运动仿真时,其模拟计算量大、计算效率低下,所采用的传统中央处理器(central processing unit, CPU)并行计算模型难以实现较大规模模拟。文章提出了一种基于图形处理单元(graphics processing unit, GPU)和统一计算设备架构(compute unified device architecture, CUDA)的并行计算方法;以球磨机的介质运动仿真为例,利用DEM方法结合CUDA并行计算模型,充分利用GPU众核多线程的计算优势,同时将颗粒属性信息存入GPU的常量存储器,减少信息读取的时滞,将筒体和衬板视为圆柱面和平面,简化了筒体与颗粒的接触判断,实现每个线程处理1个颗粒的相关计算,大幅提高计算速度;对颗粒堆积、筒体内2种尺寸颗粒运动进行仿真,并与基于CPU并行计算的结果进行对比。研究结果表明:在同等价格的硬件条件下,该文的方法可以实现10倍以上的加速比;对于含有复杂几何模型的仿真,如多尺寸颗粒和带衬板筒体的仿真,加速比会减少,但仍然可以实现数倍的加速。 展开更多
关键词 离散元素法(DEM) 颗粒 图形处理单元(GPU) 球磨机 并行计算
在线阅读 下载PDF
Study of a GPU-based parallel computing method for the Monte Carlo program 被引量:2
12
作者 罗志飞 邱睿 +3 位作者 李明 武祯 曾志 李君利 《Nuclear Science and Techniques》 SCIE CAS CSCD 2014年第A01期27-30,共4页
关键词 并行计算方法 蒙特卡罗程序 GPU GEANT4 模拟程序 蒙特卡洛方法 并行处理能力 图形处理单元
在线阅读 下载PDF
MS图像分割在GPU和多核CPU上运行性能研究
13
作者 蔡鹏飞 张正本 赵丽 《湘潭大学自然科学学报》 北大核心 2017年第4期103-106,共4页
为了获取快速、准确和可扩展的图像分割软件模块,根据并行稀疏基本线性代数子方程(PSBLAS)提出了一种图像分割的并行软件模块,即并行稀疏矩阵计算的公共库.该库采用了图形处理单元(GPU)的扩展版本,解决了稀疏线性三角矩阵在GPU上的应用... 为了获取快速、准确和可扩展的图像分割软件模块,根据并行稀疏基本线性代数子方程(PSBLAS)提出了一种图像分割的并行软件模块,即并行稀疏矩阵计算的公共库.该库采用了图形处理单元(GPU)的扩展版本,解决了稀疏线性三角矩阵在GPU上的应用,使得图像分割算法可以有效且透明地使用多模块并行结构.实验的每个计算节点由2个8核CPU Intel Sandy-Bridge E5-2670和192GB的RAM构成,各节点均配备了一个GPU NVIDIA K20,较大尺寸图像的快速精确分割验证了提出方案的有效性.同时,GPU和多核CPU上执行算法的加速比结果显示了加速比与内存边界的应用相关. 展开更多
关键词 图像分割 图形处理单元 并行结构 加速比 稀疏矩阵
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部