期刊文献+
共找到11篇文章
< 1 >
每页显示 20 50 100
细粒度并行计算编程模型研究 被引量:10
1
作者 刘伟峰 王智广 《微电子学与计算机》 CSCD 北大核心 2008年第10期103-106,共4页
作为应用软件模型和计算机硬件之间的桥梁,编程模型在计算机领域的重要性不言而喻.但随着具备细粒度并行计算能力的多核心微处理器进入主流市场,与之相适应的编程模型发展却相对滞后.对细粒度的并行计算编程模型进行研究.首先,介绍3种... 作为应用软件模型和计算机硬件之间的桥梁,编程模型在计算机领域的重要性不言而喻.但随着具备细粒度并行计算能力的多核心微处理器进入主流市场,与之相适应的编程模型发展却相对滞后.对细粒度的并行计算编程模型进行研究.首先,介绍3种典型的多核心微处理器体系结构;其次,介绍3个已有的细粒度并行计算编程模型;最后,探讨并行计算编程模型的必备条件. 展开更多
关键词 细粒度并行计算 图形处理器 图形处理器的通用计算 CELL 统一计算设备架构
在线阅读 下载PDF
CUDA加速的地图代数并行算法 被引量:1
2
作者 张剑波 周斯波 张帅 《桂林理工大学学报》 CAS 北大核心 2011年第1期139-143,共5页
针对传统地图代数实现方法应用于海量栅格数据计算时效率低下的问题,在一种全新的GPU并行编程模型CUDA上,利用地图代数算子体现出来的基于栅格点集、处理流程相对固定、数据处理具有内在的并行性等特点,将传统的串行算法映射到GPU并行... 针对传统地图代数实现方法应用于海量栅格数据计算时效率低下的问题,在一种全新的GPU并行编程模型CUDA上,利用地图代数算子体现出来的基于栅格点集、处理流程相对固定、数据处理具有内在的并行性等特点,将传统的串行算法映射到GPU并行处理架构上,旨在从串行算法的并行化映射、计算机图形处理器资源的自适应参数调整等多角度来研究地图代数空间并行算法的实现机制,为空间分析算法的优化研究提供一种新的解决思路。 展开更多
关键词 地图代数 统一计算设备架构(cuda) 并行计算
在线阅读 下载PDF
浅谈CUP并行技术CUDA 被引量:1
3
作者 郭转转 尹延庆 王佩璐 《信息通信》 2014年第5期103-103,共1页
CUDA是NVIDIA推出的计算模型,它是基于C语言的计算平台,继承了C语言多计算机硬件充分利用的特性。同时添加一些GPU调用接口,可实现在显示芯片写出执行程序,CUDA也为应用开发人员有效利用GPU的强大性能提供了条件,使得GPU凭借其独特的结... CUDA是NVIDIA推出的计算模型,它是基于C语言的计算平台,继承了C语言多计算机硬件充分利用的特性。同时添加一些GPU调用接口,可实现在显示芯片写出执行程序,CUDA也为应用开发人员有效利用GPU的强大性能提供了条件,使得GPU凭借其独特的结构和针对图像的设计,当仁不让地成为了程序员实现并行计算的平台。相比较于其他并行计算的计算平台,从执行时间和对硬件利用效率来讲,CUDA具有很明显的优势。 展开更多
关键词 并行计算 CPU通用计算 cuda
在线阅读 下载PDF
基于NVIDIA GPU的机载SAR实时成像处理算法CUDA设计与实现 被引量:17
4
作者 孟大地 胡玉新 +2 位作者 石涛 孙蕊 李晓波 《雷达学报(中英文)》 CSCD 2013年第4期481-491,共11页
合成孔径雷达(SAR)成像处理的运算量较大,在基于中央处理器(Central Processing Unit,CPU)的工作站或服务器上一般需要耗费较长的时间,无法满足实时性要求。借助于通用并行计算架构(CUDA)编程架构,该文提出一种基于图形处理器(GPU)的SA... 合成孔径雷达(SAR)成像处理的运算量较大,在基于中央处理器(Central Processing Unit,CPU)的工作站或服务器上一般需要耗费较长的时间,无法满足实时性要求。借助于通用并行计算架构(CUDA)编程架构,该文提出一种基于图形处理器(GPU)的SAR成像处理算法实现方案。该方案解决了GPU显存不足以容纳一景SAR数据时数据处理环节与内存/显存间数据传输环节的并行化问题,并能够支持多GPU设备的并行处理,充分利用了GPU设备的计算资源。在NVIDIA K20C和INTEL E5645上的测试表明,与传统基于GPU的SAR成像处理算法相比,该方案能够达到数十倍的速度提升,显著降低了处理设备的功耗,提高了处理设备的便携性,能够达到每秒约36兆采样点的实时处理速度。 展开更多
关键词 SAR 实时成像 图形处理器(GPU) 通用并行计算架构(cuda)
在线阅读 下载PDF
基于拟蒙特卡罗方法的供水管网抗震可靠性分析并行化研究 被引量:5
5
作者 龙立 郑山锁 +3 位作者 周炎 贺金川 孟宏立 蔡永龙 《浙江大学学报(工学版)》 EI CAS CSCD 北大核心 2020年第2期241-247,共7页
为了提高基于蒙特卡罗(Monte Carlo)方法的供水管网抗震可靠性分析效率,以低偏差Sobol点列替代伪随机数序列对供水管网节点和管段破坏概率进行抽样,结合宽度优先搜索算法,提出基于拟Monte Carlo方法和统一计算设备架构(CUDA)的供水管网... 为了提高基于蒙特卡罗(Monte Carlo)方法的供水管网抗震可靠性分析效率,以低偏差Sobol点列替代伪随机数序列对供水管网节点和管段破坏概率进行抽样,结合宽度优先搜索算法,提出基于拟Monte Carlo方法和统一计算设备架构(CUDA)的供水管网抗震可靠性分析并行算法,并从内存、执行配置和指令等方面优化并行算法.以某城市供水管网系统为例,对比串行和并行计算方法的精度及效率,分析Sobol点列和伪随机数序列对管网可靠性分析的影响.结果表明,并行和串行方法计算结果的误差最大为0.52%,并行方法最高加速比为串行算法的96倍,在保证结果精度的同时大幅度提高计算效率.基于Sobol点列进行1000次并行模拟及基于伪随机数序列进行5000次并行模拟,2种模拟结果与基于模糊数学法的解析值的最大误差分别为0.2%、0.4%,表明基于拟Monte Carlo的并行方法具有更高的精确度,更快的收敛速度. 展开更多
关键词 供水管网 统一计算设备架构(cuda) 宽度优先搜索 并行计算 网络可靠性分析 拟Monte CARLO方法
在线阅读 下载PDF
基于GPU的RFT算法并行化 被引量:5
6
作者 商哲然 谭贤四 +2 位作者 曲智国 王红 丰骁 《雷达科学与技术》 北大核心 2016年第5期505-509,516,共6页
RFT(Radon-Fourier Transform)是一种广义的MTD算法,可沿着目标径向运动轨迹进行相参积累。然而对距离-速度二维搜索产生的巨大计算量使得其难以快速实现和工程化。针对这个问题,根据雷达信号的回波数据结构和RFT算法思路,提出一种基于... RFT(Radon-Fourier Transform)是一种广义的MTD算法,可沿着目标径向运动轨迹进行相参积累。然而对距离-速度二维搜索产生的巨大计算量使得其难以快速实现和工程化。针对这个问题,根据雷达信号的回波数据结构和RFT算法思路,提出一种基于GPU的RFT并行化算法。通过实验,GPU平台实现的RFT算法与标准RFT和快速RFT相比,获得了巨大的加速比。另外,通过对比在CPU平台执行的MTD算法,得到在GPU平台上的RFT计算结果在不需要传回主机内存的条件下,计算速度快于在CPU平台上MTD算法。 展开更多
关键词 拉东傅里叶变换 并行 图形处理器 通用并行计算架构
在线阅读 下载PDF
类天宫飞行器轨道衰降过程空气动力特性一体化建模并行优化设计 被引量:1
7
作者 张子彬 李志辉 +1 位作者 白智勇 彭傲平 《载人航天》 CSCD 北大核心 2020年第4期418-428,共11页
针对天宫一号目标飞行器无控飞行轨道衰降数值预报需要快速确定轨道积分高精度计算模型中的空气动力,在发展基于修正Boettcher/Legge非对称桥函数的天宫一号空气动力特性当地化算法基础上,对当地化算法的运算流程及对应程序代码进行了... 针对天宫一号目标飞行器无控飞行轨道衰降数值预报需要快速确定轨道积分高精度计算模型中的空气动力,在发展基于修正Boettcher/Legge非对称桥函数的天宫一号空气动力特性当地化算法基础上,对当地化算法的运算流程及对应程序代码进行了整体分析,根据原程序热点代码集中、数据独立性强及传输需求少等特点,发展了多核处理单元的并行优化方法。引入CUDA架构的GPU设备同时,开展了系统、算法以及语句三个层次的并行优化,设计了GPU内存对齐访问方案,使用数据传输函数,将算法求解部分内循环经过展开与合并,整理为整体移植入核函数的一个循环,利用GPU较强的并行计算能力提升运算效率,对函数、循环、指令等代码语句进行级别优化。使用设计的并行计算方案对类天宫飞行器空气动力特性当地化串行算法程序进行CPU+GPU移植优化,达到了近5倍的并行加速比,且使单次求解中GPU数据传输时间缩减为原来的23%,证实了并行方案和优化设计手段的高效实用性。在类天宫飞行器空气动力特性GPU并行算法程序验证基础上,使用GPU并行程序对天宫飞行器轨道衰降飞行340~120 km过程的气动特性进行了不同迎角、侧滑角等飞行姿态计算分析,提供了大量可供轨道飞行力学数值预报的空气动力计算数据。 展开更多
关键词 天宫一号目标飞行器 空气动力特性 当地化桥函数 CPU+GPU 并行移植优化 cuda架构的GPU 并行计算
在线阅读 下载PDF
基于GPU的势能场骨架提取并行算法
8
作者 赵丝喆 王宽全 袁永峰 《哈尔滨工业大学学报》 EI CAS CSCD 北大核心 2016年第5期18-22,共5页
为解决势能场骨架提取方法计算效率低、提取过程耗时大的问题,同时为降低该方法的时间复杂度,提出了基于GPU的势能场骨架提取并行算法,并充分利用CUDA架构特有的常量存储器和共享存储器对普通并行算法进行改进.讨论了如何根据程序和显... 为解决势能场骨架提取方法计算效率低、提取过程耗时大的问题,同时为降低该方法的时间复杂度,提出了基于GPU的势能场骨架提取并行算法,并充分利用CUDA架构特有的常量存储器和共享存储器对普通并行算法进行改进.讨论了如何根据程序和显卡设备的固有属性来分配线程以达到最高的GPU占用率,从而得到最优的加速效果.对多组3D模型进行测试的结果表明,随着数据规模的增大,加速效果逐渐提升,处理256×256×487的体数据时,可获得18倍的加速比. 展开更多
关键词 图形处理器 并行计算 势能场 骨架提取 通用并行计算架构
在线阅读 下载PDF
基于GPGPU的JPEG2000图像压缩方法 被引量:5
9
作者 李玉峰 吴蔚 +1 位作者 王恺 崔迎炜 《电子器件》 CAS 北大核心 2013年第2期163-168,共6页
为了进一步加快JPEG2000的压缩速度,对JPEG2000压缩标准进行研究,分析得出JPEG2000核心算法离散小波变换(DWT)部分数据之间的独立性适合并行化处理。NVIDIA最新推出的CUDA(计算统一设备架构)是非常适合大规模数据并行计算的软硬件开发... 为了进一步加快JPEG2000的压缩速度,对JPEG2000压缩标准进行研究,分析得出JPEG2000核心算法离散小波变换(DWT)部分数据之间的独立性适合并行化处理。NVIDIA最新推出的CUDA(计算统一设备架构)是非常适合大规模数据并行计算的软硬件开发平台。在通用计算图形处理器(General Purpose Graphic Process Unit,GPGPU)上使用CUDA技术实现DWT并行化加速,并针对GPGPU存储空间的特点进行优化。得出的实验结果表明,经过CUDA并行优化的方法能够有效地提高离散小波变换DWT的计算速度。 展开更多
关键词 JPEG2000 离散小波变换 通用图形处理器 并行计算 cuda
在线阅读 下载PDF
基于卷积神经网络的复合菌落智能分类识别 被引量:2
10
作者 余辉 杜培培 +3 位作者 刘祥 刘政 朱险峰 曹玉珍 《中国生物医学工程学报》 CAS CSCD 北大核心 2020年第1期26-32,共7页
为满足复合菌落智能形态分类的需求,构建菌落分类卷积神经网络。通过水平集演化分割,获取培养皿内部所有的连通域;通过极限腐蚀,判别种子点数目大于1的连通域,即为粘连连通域;获取粘连连通域的凸闭包,检测凹点并连接对应凹点,对该连通... 为满足复合菌落智能形态分类的需求,构建菌落分类卷积神经网络。通过水平集演化分割,获取培养皿内部所有的连通域;通过极限腐蚀,判别种子点数目大于1的连通域,即为粘连连通域;获取粘连连通域的凸闭包,检测凹点并连接对应凹点,对该连通域进行分割。归一化获取的600张单个菌落样本,通过旋转翻转并叠加信噪比不超过5%的随机噪声,将数据扩增至30000例。以其中70%样本数据作为菌落分类卷积神经网络的训练集,对网络模型进行10折交叉验证,再以30%样本数据进行测试,4种菌落的加权平均准确率达到87.50%;其中斑点状光滑菌落分类准确率为86.40%,类圆波状菌落分类准确率为87.21%,椭圆形菌落分类准确率为88.11%,不规则其他菌落分类准确率为87.25%。最后采用通用计算设备架构(CUDA),对各个算法模块进行并行优化加速,算法运行时间最优提升至原耗时的1/10,在运行速度和便利性方面远远超过传统菌落分类方法。所设计的方法可以有效完成复合菌落智能分类识别任务,并具有良好的扩展性和自学习功能,对基于图像的生化样本智能分析具有一定的借鉴价值。 展开更多
关键词 水平集 粘连分割 卷积神经网络 菌落形态 通用计算设备架构(cuda)
在线阅读 下载PDF
超高分辨率机载SAR成像算法及其GPU实现 被引量:5
11
作者 田宵骏 梁媚蓉 毛新华 《南京航空航天大学学报》 EI CAS CSCD 北大核心 2015年第3期384-391,共8页
雷达成像分辨率的不断提高,给SAR高精度实时成像处理带来了新的挑战。采用高效精确的成像算法以及对算法进行硬件加速是解决该问题的有效途径。本文提出了一种适用于超高分辨率机载SAR成像的精确高效成像处理方案,并利用并行化硬件平台... 雷达成像分辨率的不断提高,给SAR高精度实时成像处理带来了新的挑战。采用高效精确的成像算法以及对算法进行硬件加速是解决该问题的有效途径。本文提出了一种适用于超高分辨率机载SAR成像的精确高效成像处理方案,并利用并行化硬件平台GPU对该成像方案进行了硬件加速。实测数据处理结果充分验证了该处理方案的聚焦精度和处理效率。 展开更多
关键词 合成孔径雷达 超高分辨率 成像算法 图形处理器 通用并行计算架构
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部