期刊文献+
共找到11篇文章
< 1 >
每页显示 20 50 100
基于遗传算法的可逆逻辑综合方法及其CUDA并行化实现
1
作者 陈丽萍 王子丹 +1 位作者 赵曙光 白莉娟 《天津工业大学学报》 CAS 北大核心 2014年第3期69-74,共6页
提出和实现了一种基于遗传算法和CUDA(Compute Unified Device Architecture)技术的可逆逻辑并行综合方法.其特点是预先求出并存储可逆逻辑门的组态编码和真值表,通过可逆逻辑门的"定轨级联"构成染色体暨可逆逻辑电路,在迭代... 提出和实现了一种基于遗传算法和CUDA(Compute Unified Device Architecture)技术的可逆逻辑并行综合方法.其特点是预先求出并存储可逆逻辑门的组态编码和真值表,通过可逆逻辑门的"定轨级联"构成染色体暨可逆逻辑电路,在迭代中按照预期的逻辑功能和优化目标等部分并行地评估适应度,再利用选择、交叉、变异等部分并行化遗传操作,逐步找到功能正确、性能优化的可逆逻辑电路.实验结果证明了该方法的可行性、有效性,及其与同类传统方法相比在运算速度、求解能力等方面的显著改进. 展开更多
关键词 可逆逻辑电路 综合 可逆逻辑门 遗传算法 GPU并行计算 cuda
在线阅读 下载PDF
求解加权MTSP问题的CUDA并行群智能方法 被引量:2
2
作者 苏守宝 赵威 李智 《郑州大学学报(工学版)》 CAS 北大核心 2021年第6期34-41,共8页
针对混合迭代算法执行时间长的问题,根据粒子群优化(PSO)算法和蚁群优化(ACO)算法的并行特点,结合其在GPU上并行化实现技术和编程优化技巧,提出一种基于CUDA的粒子群聚类蚁群的并行群智能混合方法GPSO-AC。该算法利用GPU的多个流处理器(... 针对混合迭代算法执行时间长的问题,根据粒子群优化(PSO)算法和蚁群优化(ACO)算法的并行特点,结合其在GPU上并行化实现技术和编程优化技巧,提出一种基于CUDA的粒子群聚类蚁群的并行群智能混合方法GPSO-AC。该算法利用GPU的多个流处理器(SM)和单指令多线程(SIMT)的指令架构,将GPSO-AC算法在运行中的独立个体的搜索过程同时并行执行,在保证算法精度的基础上,加快混合迭代法的执行速度。考虑到实际场景中旅行商在每个路段上各项开销不同,可以抽象为每段路程区间上都有一个与之对应的代价,将路程代价考虑到MTSP问题中。采用TSPLIB库中6个测试数据集,将GPSO-AC与PSO-AC、TPHA、K-means-AC等算法进行比较,并进一步探讨了加入代价均衡约束后对加权MTSP问题最优解收敛性能的影响。使用chn31数据集上不同旅行商数时,GPSO-AC在不考虑代价均衡、代价均衡约束、加权代价均衡的情况下的代价标准差分别为1165.26、54.97、6.74。结果表明:在求解一般MTSP问题及其衍生加权、代价均衡MSTP问题上,GPSO-AC在执行速度和收敛精度上均优于CPU串行算法,且随着模型规模增加,其速度优势更加明显。 展开更多
关键词 多旅行商问题 cuda并行算法 代价均衡 粒子群聚类 蚁群算法
在线阅读 下载PDF
基于CUDA架构下的直方图均衡并行算法
3
作者 肖汉 肖诗洋 +1 位作者 孙陆鹏 郭宝云 《桂林理工大学学报》 CAS 北大核心 2021年第3期654-663,共10页
为了提高图像对比度,解决传统的直方图均衡算法处理速度慢的问题,提出了基于统一计算设备架构(CUDA)的直方图均衡图像实时处理加速方案。利用图形处理器(GPU)强大的计算能力和CUDA优化的存储器结构,以加速直方图均衡中的图像灰度级投票... 为了提高图像对比度,解决传统的直方图均衡算法处理速度慢的问题,提出了基于统一计算设备架构(CUDA)的直方图均衡图像实时处理加速方案。利用图形处理器(GPU)强大的计算能力和CUDA优化的存储器结构,以加速直方图均衡中的图像灰度级投票、分布概率累加并映射以及图像新的灰度值填充等功能进行运算。在CUDA条件下,对直方图均衡算法进行串-并行分析,分别从粗粒度与细粒度角度进行并行设计,通过实验测定进行了设计参数寻优,获得了线程块设计参数的最优尺寸。结果表明,基于CUDA的图像直方图均衡并行算法的性能相比基于CPU的串行算法和基于开放多处理(OpenMP)并行算法分别获得了61.58和32.00倍的加速比,能够为大规模实时性图像处理系统设计提供参考。 展开更多
关键词 直方图均衡 图像增强 图形处理器 统一计算设备架构 并行算法
在线阅读 下载PDF
经编提花鞋材的自动排版及CUDA的并行实现 被引量:2
4
作者 吴妙缘 张爱军 张燕婷 《丝绸》 CAS CSCD 北大核心 2021年第12期126-132,共7页
经编提花鞋材具有良好的性能,被广泛应用于运动鞋的鞋面。鞋材产品开发时为提高面料利用率工艺人员需对鞋材进行排版,但手工排版效率低下。为了实现经编提花鞋材的快速精准排版和提高面料的利用率,文章介绍了3种常见的鞋材排版方式,给... 经编提花鞋材具有良好的性能,被广泛应用于运动鞋的鞋面。鞋材产品开发时为提高面料利用率工艺人员需对鞋材进行排版,但手工排版效率低下。为了实现经编提花鞋材的快速精准排版和提高面料的利用率,文章介绍了3种常见的鞋材排版方式,给出了基于边界碰撞检测的排版算法。根据排版算法可并行的特征,基于统一计算设备构架(CUDA)实现了算法。实验结果表明,CUDA并行处理的执行速度明显快于CPU串行处理,这一算法实现了鞋材排版的快速化与自动化,同时鞋材位置的精准放置也使织物利用率得到了提升。 展开更多
关键词 经编鞋材 贾卡提花 排版 面料利用率 并行算法 cuda
在线阅读 下载PDF
基于通用计算平台SM4-CTR算法并行实现与优化 被引量:4
5
作者 李晓东 胡一鸣 +2 位作者 池亚平 钱榕 张健毅 《密码学报》 CSCD 2022年第4期663-676,共14页
随着大数据、云计算、5G通信技术的迅速发展,数据传输安全问题日益凸显,密码算法的设计和高效实现变得尤为重要,能高速运行的国产密码算法已成为保护国家安全的关键.与此同时,原本只用于图像计算的硬件GPU,在编程模型CUDA发布后就成为... 随着大数据、云计算、5G通信技术的迅速发展,数据传输安全问题日益凸显,密码算法的设计和高效实现变得尤为重要,能高速运行的国产密码算法已成为保护国家安全的关键.与此同时,原本只用于图像计算的硬件GPU,在编程模型CUDA发布后就成为通用的、普及化的算力资源.本文基于通用的计算机平台,提出了利用其本地GPU进行CTR工作模式下SM4算法高速加解密的并行实现和优化方案.实验表明,本文提出的SM4-CTR并行加解密方案能够有效提高SM4算法的运行效率,在通用的计算机平台上,能够达到40倍加速比,加解密速率达到了14.192 Gbps.实验中还分析了线程块划分对GPU并行加速效果的影响,最优线程块大小为128到512,且必须为32的整倍数.最后,基于本文实验的结果与其他团队的优化SM4方案进行对比,包括传统工作模式下利用CPU、GPU优化的方案和利用软件快速实现的方案,对比结果显示即便之前团队的方案运行的平台硬件条件好于本文实验环境,文中提出的方案运行速率依然能做到大幅领先.因此,本文方案在安全性、运算速率提高的同时适用平台也更加广泛,在实际生活中针对大数据和个人数据的安全保护中必将发挥巨大的作用. 展开更多
关键词 SM4算法 CTR模式 cuda GPU加速 并行算法 通用计算机平台
在线阅读 下载PDF
基于GPU的SAR成像层次化并行处理研究 被引量:4
6
作者 李东生 何余洪 雍爱霞 《火力与指挥控制》 CSCD 北大核心 2015年第6期31-35,共5页
针对SAR成像处理具有的内在并行性,提出了一种基于GPU的SAR成像层次化并行处理方法。首先分析了SAR成像处理过程中信号的并行性,对任务进行了层次化分解与组合,设计了层次化并行的CS成像算法;然后通过CUDA编程将并行成像算法映射到CPU+G... 针对SAR成像处理具有的内在并行性,提出了一种基于GPU的SAR成像层次化并行处理方法。首先分析了SAR成像处理过程中信号的并行性,对任务进行了层次化分解与组合,设计了层次化并行的CS成像算法;然后通过CUDA编程将并行成像算法映射到CPU+GPUs系统平台上,实现了层次化并行成像处理;为了检验并行处理效果,采用原始数据进行了SAR成像处理实验。实验结果表明,在几乎没有损失图像质量的情况下,层次化并行处理获得了较高的加速比。 展开更多
关键词 合成孔径雷达 图形处理器 统一计算设备架构 并行成像处理 调频变标算法
在线阅读 下载PDF
基于GPU的快速能谱图生成方法
7
作者 李驰新 王彦瑜 《核电子学与探测技术》 CAS 北大核心 2016年第1期52-55,共4页
针对使用CPU统计加速器能谱图的过程中,消耗时间过长的问题,给出了一种完全由GPU实现粒子能量统计、最大值bin的查找、绘制能谱图的方法,可以降低CPU的负担,发挥GPU的效率,解决了CPU和GPU之间数据传输的瓶颈问题。实验结果表明,与只使用... 针对使用CPU统计加速器能谱图的过程中,消耗时间过长的问题,给出了一种完全由GPU实现粒子能量统计、最大值bin的查找、绘制能谱图的方法,可以降低CPU的负担,发挥GPU的效率,解决了CPU和GPU之间数据传输的瓶颈问题。实验结果表明,与只使用CPU和只使用GPU进行数据统计而不进行结果显示的2种方案相比,在处理大量粒子数据时,可以获得80倍以上的加速比。 展开更多
关键词 能谱图 互操作 计算设备统一架构 并行计算 开源图像库
在线阅读 下载PDF
GPU优化的大规模线性方程组并行求解的研究与比较
8
作者 王驰 刘羽 《信息通信》 2016年第12期9-11,共3页
采用CUDA平台提供的通用并行处理架构,在Gauss-Jordan消去法的基础上,给出了一种适合CUDA平台的并行算法来进行大规模线性方程组的加速求解。算法在GPU端进行整体线性方程组的求解,从Device传回的为方程组的解向量,大大减少了来自Host端... 采用CUDA平台提供的通用并行处理架构,在Gauss-Jordan消去法的基础上,给出了一种适合CUDA平台的并行算法来进行大规模线性方程组的加速求解。算法在GPU端进行整体线性方程组的求解,从Device传回的为方程组的解向量,大大减少了来自Host端和Device端数据传输所带来的延时。算法对任务划分及处理进行了充分的分析。在耗时最为严重的消去阶段,通过增加单个线程的算术逻辑运算来减少线程块之间切换带来的整体算法耗时,并对算法的其余每个阶段都进行了充分的优化。最后在本机上进行了不同线性方程组维数的并行算法与串行算法的加速比,实验结果表明了该并行算法能够充分利用GPU硬件特性,并充分降低了大规模线性方程组的求解时间。 展开更多
关键词 cuda编程平台 并行算法 任务划分 线性方程组
在线阅读 下载PDF
ARL中Clean算法的并行化研究 被引量:1
9
作者 刘慧慧 闻萌莎 +3 位作者 钱慎一 吴怀广 张伟伟 李代祎 《轻工学报》 CAS 2019年第2期88-94,共7页
针对SKA算法参考库ARL中的去卷积算法运行效率低、无法满足海量数据实时处理的问题,提出了CPU和GPU协同工作模式下的并行化Clean算法.该方法将Clean算法中可以并行计算的步骤利用多线程在GPU上并行执行,将无法并行计算的步骤在CPU上串... 针对SKA算法参考库ARL中的去卷积算法运行效率低、无法满足海量数据实时处理的问题,提出了CPU和GPU协同工作模式下的并行化Clean算法.该方法将Clean算法中可以并行计算的步骤利用多线程在GPU上并行执行,将无法并行计算的步骤在CPU上串行执行.验证实验结果表明,在数据逐渐增大的过程中,并行化Clean算法比在CPU上的串行处理运行时间显著减少,当图达到4096像素×4096像素时,可以有10倍的提速.这说明并行化Clean算法在处理海量数据时,能够显著提高运算效率. 展开更多
关键词 ARL 去卷积算法 cuda 并行计算 CLEAN算法
在线阅读 下载PDF
ARL中Gridding算法的并行化实现 被引量:1
10
作者 吴怀广 刘琳琳 +2 位作者 石永生 李代祎 谢鹏杰 《轻工学报》 CAS 2019年第2期82-87,共6页
针对海量天文数据实时性处理效率低的问题,通过对SKA图像采集及成像ARL算法库中耗时较长的Gridding算法进行耗时分析,找出了该算法中调用频率高且运行时间长的两个函数convolutional-grid和convolutional-degrid,利用GPU的多线程并行化... 针对海量天文数据实时性处理效率低的问题,通过对SKA图像采集及成像ARL算法库中耗时较长的Gridding算法进行耗时分析,找出了该算法中调用频率高且运行时间长的两个函数convolutional-grid和convolutional-degrid,利用GPU的多线程并行化处理降低两个函数的循环迭代,实现了Gridding算法在GPU和CPU上的协同运行.验证实验结果表明,在相同的数据量下,改进后的Gridding算法运行时间大大缩短,特别是在处理海量数据时,有效提高了ARL的整体运行效率. 展开更多
关键词 ARL 并行化算法 Gridding算法 cuda
在线阅读 下载PDF
三维地磁场体数据实时可视化方法研究
11
作者 李佩峰 杨震 《电子设计工程》 2015年第3期43-46,共4页
由于日地环境中地球磁场体数据数据量巨大,传统的可视化方法无法满足其实时渲染性要求。以目前硬件环境的发展背景下实现地磁场等大数据实时渲染绘制为目的,本文采取并行计算的计算方式和改进的光线投射算法,实现了地球磁场数据的实时... 由于日地环境中地球磁场体数据数据量巨大,传统的可视化方法无法满足其实时渲染性要求。以目前硬件环境的发展背景下实现地磁场等大数据实时渲染绘制为目的,本文采取并行计算的计算方式和改进的光线投射算法,实现了地球磁场数据的实时渲染绘制,并且实时绘制算法同样适用于其他日地环境要素的可视化渲染,具有较强的通用性。 展开更多
关键词 地球磁场 光线投射法 cuda 科学可视化 实时绘制 并行计算编程
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部