期刊文献+
共找到56篇文章
< 1 2 3 >
每页显示 20 50 100
基于CUDA并行的线性复杂度快速检测方法
1
作者 付一方 范丽敏 +1 位作者 陈华 陈东昱 《密码学报(中英文)》 北大核心 2025年第4期752-765,共14页
线性复杂度检测是一种重要的二元序列随机性检测方法,亦为判断随机数发生器输出质量的有效指标之一.该检测方法使用的Berlekamp-Massey算法计算复杂度较高,导致该检测相较于其他检测方法效率较低,特别是随着样本长度的增加,检测效率逐... 线性复杂度检测是一种重要的二元序列随机性检测方法,亦为判断随机数发生器输出质量的有效指标之一.该检测方法使用的Berlekamp-Massey算法计算复杂度较高,导致该检测相较于其他检测方法效率较低,特别是随着样本长度的增加,检测效率逐渐成为其适用性的瓶颈问题.本文着眼于解决二元序列线性复杂度测试的低效率问题,提出了一种基于GPU/NVIDIA CUDA技术的并行优化方法,实现了线性复杂度的快速检测.本文在改进的Berlekamp-Massey算法基础上,增加了快速移位方法,结合NVIDIA CUDA模型提出了针对二元序列线性复杂度的并行检测策略,通过对Berlekamp-Massey算法进行的并行化处理,在实现线程块间并行的同时也实现了多线程同步合作的深层并行Berlekamp-Massey算法.除此之外,通过调整线程配置参数以及引入CUDA协作组与warp shuffle机制对检测流程进行进一步优化.实验结果表明,本文提出的优化算法速度提升明显,相对于NIST-STS版本的线性复杂度检测,最高实现了约20000倍的加速;对比目前最快的线性复杂度并行检测方法,最高实现了约3–3.5倍的稳定加速. 展开更多
关键词 随机性检测 线性复杂度检测 BERLEKAMP-MASSEY算法 NVIDIA cuda GPU并行
在线阅读 下载PDF
一种基于GPU计算的自适应局部降噪并行算法
2
作者 肖汉 杜莹 +1 位作者 王平 周清雷 《南京师大学报(自然科学版)》 北大核心 2025年第4期139-152,共14页
随着获取图像像幅规模的增大和分辨率的提高,自适应局部降噪算法的性能成为制约图像实时处理的关键.本文提出了一种基于GPU的自适应局部降噪并行算法.从向量化访存、数据本地化计算以及资源配置优化3个方面出发,结合算法特性和底层硬件... 随着获取图像像幅规模的增大和分辨率的提高,自适应局部降噪算法的性能成为制约图像实时处理的关键.本文提出了一种基于GPU的自适应局部降噪并行算法.从向量化访存、数据本地化计算以及资源配置优化3个方面出发,结合算法特性和底层硬件架构特征,研究了自适应局部降噪算法在CPU+GPU异构计算平台上的并行计算和性能优化.实验结果显示,在处理8 182×8 182分辨率的图像时,相比CPU串行计算获得了27.39倍加速比,具有较好的数据扩展性.并行算法充分发挥了GPU的并行处理能力.文中提出的方法对图像处理算法的GPU加速提供了新的研究思路. 展开更多
关键词 自适应滤波器 局部噪声 信噪比 GPU cuda 并行算法
在线阅读 下载PDF
CUDA架构下大规模稠密线性方程组的并行求解 被引量:7
3
作者 杨梅 李志民 曹大勇 《计算机工程与应用》 CSCD 北大核心 2011年第32期27-30,共4页
在Gauss-Jordan消去法的基础上,给出了一种适应于CUDA架构的改进Gauss-Jordan消去并行算法。通过分析该方法的处理过程以及CUDA架构的相应限制,在CUDA的grid-block-thread三层组织结构的基础上,从算法构造的角度提出了grid-strip-group-... 在Gauss-Jordan消去法的基础上,给出了一种适应于CUDA架构的改进Gauss-Jordan消去并行算法。通过分析该方法的处理过程以及CUDA架构的相应限制,在CUDA的grid-block-thread三层组织结构的基础上,从算法构造的角度提出了grid-strip-group-block-thread五层结构,给出了基础行以及全局基础行等概念,并构建了适应于CUDA架构的Gauss-Jordan消去法的并行版本,在最高维数为4000维的大规模稠密线性方程组的算例求解上与串行Gauss-Jordan消去法进行了比较,实验结果表明,该算法能够充分利用GPU的硬件特性,有效地降低了大规模稠密线性方程组的求解时间。 展开更多
关键词 计算统一设备架构(cuda) 并行算法 改进Gauss-Jordan消去法 大规模稠密线性方程组
在线阅读 下载PDF
基于CUDA的高速并行小波算法及其在电力系统谐波分析中的应用 被引量:19
4
作者 韩志伟 刘志刚 +1 位作者 鲁晓帆 周登登 《电力自动化设备》 EI CSCD 北大核心 2010年第1期98-101,105,共5页
针对小波分解计算速度慢、实际工程应用少的问题,采用图形处理器(GPU)作为计算平台,提出一种基于计算统一设备架构(CUDA)的细粒度高速并行小波分解算法。通过分析小波Mallat算法的并行性,并考虑GPU单个处理单元计算能力相对较弱的特点及... 针对小波分解计算速度慢、实际工程应用少的问题,采用图形处理器(GPU)作为计算平台,提出一种基于计算统一设备架构(CUDA)的细粒度高速并行小波分解算法。通过分析小波Mallat算法的并行性,并考虑GPU单个处理单元计算能力相对较弱的特点及CUDA的多层式存储器结构、多层式线程组织结构和单指令流多线程流(SIMT)体系结构,采用数据分组及轻量级线程任务分解的方式,提出了适合CUDA程序设计模型的高速并行小波分解算法,并将其用于电力系统谐波分析。实验证明,该算法相对于CPU串行小波分解和Matlab engine小波分解的计算耗时,最高可分别达到26倍和65倍的速度提升,且算法具有线性加速能力。 展开更多
关键词 电力系统 并行小波算法 计算统一设备架构 图形处理器 谐波分析
在线阅读 下载PDF
基于CUDA的并行K-means聚类图像分割算法优化 被引量:31
5
作者 霍迎秋 秦仁波 +2 位作者 邢彩燕 陈曦 方勇 《农业机械学报》 EI CAS CSCD 北大核心 2014年第11期47-53,74,共8页
为提高K-means聚类算法的运算速度,基于CUDA架构提出一种分块、并行的K-means算法,并采用'合并访问'、'多级规约求和'、'负载均衡'和'指令优化'等策略优化并行算法。实验结果表明,并行K-means算法的分... 为提高K-means聚类算法的运算速度,基于CUDA架构提出一种分块、并行的K-means算法,并采用'合并访问'、'多级规约求和'、'负载均衡'和'指令优化'等策略优化并行算法。实验结果表明,并行K-means算法的分割效果与串行K-means算法相同,但运行速度得到了极大的提高,加速比最高达到560,很好地解决了农业工程实际中由于分割算法带来的瓶颈问题,能够极大地提高农业劳动生产率。 展开更多
关键词 图像分割 聚类分割算法 统一计算架构 图形处理器并行优化
在线阅读 下载PDF
CUDA下受体评分网格生成并行算法 被引量:1
6
作者 李正夫 王希诚 郭权 《计算机应用研究》 CSCD 北大核心 2013年第3期814-816,共3页
针对分子对接中生成评分网格需要花费很多的计算时间这一问题,提出了一种基于统一计算设备架构(CUDA)的评分网格生成并行算法。该算法把传统计算方法中三维计算空间中的一维通过在图形处理单元(GPU)上进行并行处理,使得总生成时间得到... 针对分子对接中生成评分网格需要花费很多的计算时间这一问题,提出了一种基于统一计算设备架构(CUDA)的评分网格生成并行算法。该算法把传统计算方法中三维计算空间中的一维通过在图形处理单元(GPU)上进行并行处理,使得总生成时间得到了降低,提高了评分网格的生成效率。实验结果表明,借助于GPU的浮点计算能力,提出的并行算法对比传统的计算方法可以显著缩短评分网格的生成时间,为评分网格的生成提供一种新的方式。 展开更多
关键词 统一计算设备架构 并行算法 评分网格 分子对接
在线阅读 下载PDF
基于CUDA的并行粒子群优化算法的设计与实现 被引量:17
7
作者 蔡勇 李光耀 王琥 《计算机应用研究》 CSCD 北大核心 2013年第8期2415-2418,共4页
针对处理大量数据和求解大规模复杂问题时粒子群优化(PSO)算法计算时间过长的问题,进行了在显卡(GPU)上实现细粒度并行粒子群算法的研究。通过对传统PSO算法的分析,结合目前被广泛使用的基于GPU的并行计算技术,设计实现了一种并行PSO方... 针对处理大量数据和求解大规模复杂问题时粒子群优化(PSO)算法计算时间过长的问题,进行了在显卡(GPU)上实现细粒度并行粒子群算法的研究。通过对传统PSO算法的分析,结合目前被广泛使用的基于GPU的并行计算技术,设计实现了一种并行PSO方法。本方法的执行基于统一计算架构(CUDA),使用大量的GPU线程并行处理各个粒子的搜索过程来加速整个粒子群的收敛速度。程序充分使用CUDA自带的各种数学计算库,从而保证了程序的稳定性和易写性。通过对多个基准优化测试函数的求解证明,相对于基于CPU的串行计算方法,在求解收敛性一致的前提下,基于CUDA架构的并行PSO求解方法可以取得高达90倍的计算加速比。 展开更多
关键词 粒子群优化算法 并行计算 GPU 统一计算设备架构
在线阅读 下载PDF
基于CUDA平台的遗传算法并行实现研究 被引量:10
8
作者 谭彩凤 马安国 邢座程 《计算机工程与科学》 CSCD 北大核心 2009年第A01期68-72,共5页
CUDA技术方便程序员在GPU上进行通用计算,但并没有提供随机数产生的应用接口。为此,本文提出并实现在CUDA开发平台上并行产生均匀随机数算法,测试证明算法可行。在此基础上优化基本遗传算法,并在GPU上并行实现其所有操作,提高其运行速... CUDA技术方便程序员在GPU上进行通用计算,但并没有提供随机数产生的应用接口。为此,本文提出并实现在CUDA开发平台上并行产生均匀随机数算法,测试证明算法可行。在此基础上优化基本遗传算法,并在GPU上并行实现其所有操作,提高其运行速度和准确度;分析了种群大小和遗传代数对此算法加速比及准确度的影响,并与MAT-LAB工具箱进行比较。实验表明,相比MATLAB遗传算法工具箱,基于CUDA平台实现的遗传算法性能更高,准确度更好。 展开更多
关键词 随机数 遗传算法 并行计算 GPGPU cuda GPU
在线阅读 下载PDF
基于CUDA的声辐射力弹性成像算法研究 被引量:3
9
作者 曾博 雷友诚 +5 位作者 王丛知 邱维宝 冯歌 曾成志 杨戈 郑海荣 《计算机工程与应用》 CSCD 北大核心 2015年第18期249-254,265,共7页
声辐射力弹性成像是一种新的测量组织硬度的超声成像方法。不同于其他超声组织弹性成像方法,声辐射力弹性成像能够定量测量组织的弹性模量数值,并且具有对操作者经验依赖性低的特点。然而,由于成像算法数据处理量大,运算时间长,声辐射... 声辐射力弹性成像是一种新的测量组织硬度的超声成像方法。不同于其他超声组织弹性成像方法,声辐射力弹性成像能够定量测量组织的弹性模量数值,并且具有对操作者经验依赖性低的特点。然而,由于成像算法数据处理量大,运算时间长,声辐射力弹性成像还无法进行准实时的二维成像。为了获得实时的二维声辐射力弹性图像,提出并实现了一种适合于在GPU上并行计算的声辐射力弹性成像算法。通过与运行在CPU上的原始声辐射力弹性成像算法进行对比,证明在GPU上实现的算法大幅度地提高了运算速度。在自制弹性仿体上,比较了基于GPU和CPU两种算法所成的二维弹性分布图像的质量,结果证明两者的图像质量没有明显差异。 展开更多
关键词 二维声辐射力弹性成像 统一计算架构(cuda) 图形处理器(GPU) 并行算法
在线阅读 下载PDF
基于CUDA的晶格Boltzmann并行算法的综合优化设计
10
作者 张超英 黎槟华 覃章荣 《广西师范大学学报(自然科学版)》 CAS 北大核心 2012年第3期142-148,共7页
本文在CUDA框架下设计与实现基于GPU的晶格Boltzmann方法(LBM)的并行算法。为进一步提高计算效率,本文分别研究几种典型的优化策略对计算效率的影响,并给出了一种集多优化策略为一体的综合优化解决方案。以圆管内Poiseuille流为算例的... 本文在CUDA框架下设计与实现基于GPU的晶格Boltzmann方法(LBM)的并行算法。为进一步提高计算效率,本文分别研究几种典型的优化策略对计算效率的影响,并给出了一种集多优化策略为一体的综合优化解决方案。以圆管内Poiseuille流为算例的实验表明,采用新综合优化方案设计的LBM并行算法能够获得更高的计算效率。 展开更多
关键词 cuda 并行算法 晶格Boltzmann方法 优化
在线阅读 下载PDF
CUDA平台下信息熵多种群遗传算法设计
11
作者 李正夫 王希诚 +2 位作者 李克秋 姚翔 董悦丽 《计算机工程与应用》 CSCD 北大核心 2016年第1期12-16,共5页
为了进一步提高信息熵多种群遗传算法的计算效率,缩短计算时间,提出了一种基于CUDA平台的信息熵多种群遗传算法。通过分析原算法的并行因素,结合CUDA开发平台,对原算法进行适合GPU加速的并行化处理,实现了遗传算子、惩罚函数和空间收缩... 为了进一步提高信息熵多种群遗传算法的计算效率,缩短计算时间,提出了一种基于CUDA平台的信息熵多种群遗传算法。通过分析原算法的并行因素,结合CUDA开发平台,对原算法进行适合GPU加速的并行化处理,实现了遗传算子、惩罚函数和空间收缩因子等的并行计算,有效地提高了算法效率。例题数值测试表明,在保持了快速收敛特性和计算精度的前提下,CUDA并行算法相对于原算法具有很高的加速效率。 展开更多
关键词 统一计算设备架构(cuda) 并行计算 遗传算法 信息熵 多种群
在线阅读 下载PDF
基于CUDA的大型实对称矩阵并行求逆算法
12
作者 霍迎秋 王武星 +1 位作者 彭楚风 方勇 《计算机工程与设计》 北大核心 2015年第8期2133-2137,共5页
针对大型实对称矩阵数值求逆算法运算量大、计算时间长的问题,分析分块迭代求逆算法的并行性,设计基于CUDA(compute unified device architecture)的并行求逆算法。设计对比分析实验,实验结果表明,该算法能够提高大型实对称矩阵求逆的速... 针对大型实对称矩阵数值求逆算法运算量大、计算时间长的问题,分析分块迭代求逆算法的并行性,设计基于CUDA(compute unified device architecture)的并行求逆算法。设计对比分析实验,实验结果表明,该算法能够提高大型实对称矩阵求逆的速度,当矩阵大小为8000×8000时,加速比高达279倍,很好满足了实际工程中对实时性要求高的需求,且计算精度基本保持不变。 展开更多
关键词 实对称矩阵 分块迭代求逆 图形处理单元 统一计算设备架构 并行算法
在线阅读 下载PDF
基于GPGPU和CUDA的高速AES算法的实现和优化 被引量:3
13
作者 顾青 高能 +1 位作者 包珍珍 向继 《中国科学院研究生院学报》 CAS CSCD 北大核心 2011年第6期776-785,共10页
随着高性能计算需求的不断增长,人们开始将目光投向具有强大计算能力及高存储带宽的GPU设备.与擅长处理复杂性逻辑事务的CPU相比,GPGPU(general purpose graphicprocessing unit,通用图形处理器)更适合于大规模数据并行处理.CUDA(comput... 随着高性能计算需求的不断增长,人们开始将目光投向具有强大计算能力及高存储带宽的GPU设备.与擅长处理复杂性逻辑事务的CPU相比,GPGPU(general purpose graphicprocessing unit,通用图形处理器)更适合于大规模数据并行处理.CUDA(compute unified devicearchitecture,统一计算架构)的出现更加速了GPGPU应用面的扩张.基于GPGPU和CUDA技术对AES算法的实现进行加速,得到整体吞吐量6~7Gbit/s的速度.如果不考虑数据加载时间,对于1MB以上的输入规模,吞吐量可以达到20Gbit/s. 展开更多
关键词 通用图像处理器 统一计算架构 AES算法 并行计算
在线阅读 下载PDF
基于CUDA的图像快速并行细化算法的研究与实现 被引量:2
14
作者 金汉均 梅洪洋 《电子测量技术》 2014年第8期75-79,共5页
在图像处理和模式识别中,通过细化算法抽取图像的骨架是一项极有意义的工作。由于大多数传统细化算法都需要按照一定顺序对每个像素进行逐点扫描,执行效率不高,另外图像细化算法中数据之间的关联性不大,将传统的快速并行细化算法移植到C... 在图像处理和模式识别中,通过细化算法抽取图像的骨架是一项极有意义的工作。由于大多数传统细化算法都需要按照一定顺序对每个像素进行逐点扫描,执行效率不高,另外图像细化算法中数据之间的关联性不大,将传统的快速并行细化算法移植到CUDA(compute unified device architecture)平台上,运用CUDA的并行处理优势对图像进行细化处理。实验表明,该方法在保证细化处理效果的前提下,还能将运算效率提高达到幂级数级。 展开更多
关键词 细化算法 cuda平台 并行处理
在线阅读 下载PDF
一种基于CUDA平台的随机数算法研究与实现 被引量:3
15
作者 刘欢 刘志勤 +1 位作者 李凌 张蕾 《计算机应用研究》 CSCD 北大核心 2017年第9期2727-2731,共5页
为解决常见随机数序列的统计性较差及序列产生实时性较差的问题,结合传统伪随机数算法和新近准随机数算法各自的优缺点,提出了一种基于Sobol序列随机数算法的改进方法,使用该方法来提高随机数序列的随机性和均匀性,能获得具有良好统计... 为解决常见随机数序列的统计性较差及序列产生实时性较差的问题,结合传统伪随机数算法和新近准随机数算法各自的优缺点,提出了一种基于Sobol序列随机数算法的改进方法,使用该方法来提高随机数序列的随机性和均匀性,能获得具有良好统计性的随机数序列样本;基于CUDA平台对该随机数算法进行并行加速的改进,提高随机数序列的产生速度。最终通过统计检验和图表检验验证了以上方法的可行性;证明了当产生217个随机数时,相对于传统的CPU串行运算,加速比已经达到200。 展开更多
关键词 伪随机数算法 准随机数算法 Sobol序列 cuda 并行计算 加速比 检验
在线阅读 下载PDF
运动估计搜索算法的CUDA优化与实现 被引量:1
16
作者 陈佐 陈汉 季加良 《计算机工程与应用》 CSCD 北大核心 2010年第32期171-176,共6页
针对H.264压缩编码中计算量大以及最为耗时的运动估计搜索算法的特点,利用图形处理器的并行优化思想,研究基于CUDA计算平台的运动估计搜索算法GEA(全域消除算法)的并行化处理方法,并对其中的并行设计、数据处理、结果反馈等关键技术问题... 针对H.264压缩编码中计算量大以及最为耗时的运动估计搜索算法的特点,利用图形处理器的并行优化思想,研究基于CUDA计算平台的运动估计搜索算法GEA(全域消除算法)的并行化处理方法,并对其中的并行设计、数据处理、结果反馈等关键技术问题,进行了详细论述。最后通过实验数据对算法运行效率进行对比分析。实验结果表明GPU中的GEA搜索算法运动搜索性能较之CPU中有显著提高。 展开更多
关键词 统一计算设备架构(cuda) 运动估计 全域消除算法(GEA) 并行计算
在线阅读 下载PDF
GPU邻居搜索法在风沙流SPH算法中的应用
17
作者 周鹏 金阿芳 《计算机应用与软件》 北大核心 2025年第3期221-226,267,共7页
为了解决风沙流(Smoothed Particle Hydrodynamics,SPH)算法因粒子数目增多导致计算效率低的问题,将GPU并行计算应用在风沙流SPH算法中。分析SPH算法适合并行计算的原因,并以单元链表(Cell-Linked List,CLL)法的邻居搜索法为基础,建立SP... 为了解决风沙流(Smoothed Particle Hydrodynamics,SPH)算法因粒子数目增多导致计算效率低的问题,将GPU并行计算应用在风沙流SPH算法中。分析SPH算法适合并行计算的原因,并以单元链表(Cell-Linked List,CLL)法的邻居搜索法为基础,建立SPH风沙流的并行计算模型;通过计算模型进行验证对坡面风场进行分析,得到沙粒水平速度沿高度变化规律和沙粒空间分布变化;对比不同粒子数目下四种风沙流SPH算法的计算效率,结果证明该算法可以提高计算效率。 展开更多
关键词 SPH算法 风沙流 并行计算 cuda
在线阅读 下载PDF
基于GPU的Winograd卷积算法并行化
18
作者 王鑫 甄雪茹 《计算机应用研究》 北大核心 2025年第8期2446-2451,共6页
针对现代卷积神经网络中计算负荷过重的问题,提出一种基于GPU的创新性Winograd并行卷积算法。该算法利用负载均衡的任务映射、优化数据加载策略以隐藏延迟,并结合动态填充方法,充分挖掘Winograd卷积算法与GPU架构的协同效应。实验结果表... 针对现代卷积神经网络中计算负荷过重的问题,提出一种基于GPU的创新性Winograd并行卷积算法。该算法利用负载均衡的任务映射、优化数据加载策略以隐藏延迟,并结合动态填充方法,充分挖掘Winograd卷积算法与GPU架构的协同效应。实验结果表明,在经典卷积神经网络模型ResNet的多个卷积层上,提出的算法优于NVIDIA cuDNN 8.3.0库中的标准Winograd卷积算法,在Turing架构的RTX 2080Ti GPU上实现高达2.46的加速比,并且保持较高的计算准确性。与基于GPU的标准Winograd卷积算法相比,该算法显著提升了卷积计算效率。 展开更多
关键词 Winograd算法 并行计算 cuda 卷积神经网络
在线阅读 下载PDF
基于遗传算法的可逆逻辑综合方法及其CUDA并行化实现
19
作者 陈丽萍 王子丹 +1 位作者 赵曙光 白莉娟 《天津工业大学学报》 CAS 北大核心 2014年第3期69-74,共6页
提出和实现了一种基于遗传算法和CUDA(Compute Unified Device Architecture)技术的可逆逻辑并行综合方法.其特点是预先求出并存储可逆逻辑门的组态编码和真值表,通过可逆逻辑门的"定轨级联"构成染色体暨可逆逻辑电路,在迭代... 提出和实现了一种基于遗传算法和CUDA(Compute Unified Device Architecture)技术的可逆逻辑并行综合方法.其特点是预先求出并存储可逆逻辑门的组态编码和真值表,通过可逆逻辑门的"定轨级联"构成染色体暨可逆逻辑电路,在迭代中按照预期的逻辑功能和优化目标等部分并行地评估适应度,再利用选择、交叉、变异等部分并行化遗传操作,逐步找到功能正确、性能优化的可逆逻辑电路.实验结果证明了该方法的可行性、有效性,及其与同类传统方法相比在运算速度、求解能力等方面的显著改进. 展开更多
关键词 可逆逻辑电路 综合 可逆逻辑门 遗传算法 GPU并行计算 cuda
在线阅读 下载PDF
基于CUDA的边遍历算法 被引量:1
20
作者 陆扬 郑津津 +1 位作者 周洪军 沈连婠 《计算机工程》 CAS CSCD 北大核心 2011年第4期270-271,274,共3页
基于几何着色器的边遍历算法效率主要受色器硬件规格的影响。为此,提出一种基于CUDA的边遍历算法,使用CUDA模拟实现顶点着色器与几何着色器功能,避免硬件限制。同时针对CUDA内存高效读取的合并访问要求,提出二步骤的三角形网格顶点分块... 基于几何着色器的边遍历算法效率主要受色器硬件规格的影响。为此,提出一种基于CUDA的边遍历算法,使用CUDA模拟实现顶点着色器与几何着色器功能,避免硬件限制。同时针对CUDA内存高效读取的合并访问要求,提出二步骤的三角形网格顶点分块、重排序算法,优化几何着色器模拟时顶点数据的读取。实验结果证明,与现有最优算法相比,该算法可获得更高的速度提升。 展开更多
关键词 边遍历 cuda并行算法 着色器模拟
在线阅读 下载PDF
上一页 1 2 3 下一页 到第
使用帮助 返回顶部