检索结果-维普期刊中文期刊服务平台

基于CUDA技术的卷积神经网络识别算法被引量：9: 1; 作者张佳康陈庆奎《计算机工程》 CAS CSCD 北大核心 2010年第15期179-181,共3页; 针对具有高浮点运算能力的流处理器设备GPU对神经网络的适用性问题,提出卷积神经网络的并行化识别算法,采用计算统一设备架构(CUDA)技术,并定义其上的并行化数据结构,描述计算任务到CUDA的映射机制。实验结果证明,在GTX200硬件架构的GP... 展开更多; 关键词流处理器单指令多线程 GTX200硬件架构 CUDA技术卷积神经网络; 在线阅读下载PDF 职称材料

CUDA架构下的快速Wallis影像增强算法: 2; 作者肖汉吴庆双冯娜《沈阳工业大学学报》 EI CAS 2011年第3期293-298,共6页; 针对图像增强通常需要较大的计算量、用传统方法难于进行实时处理的问题,提出了一种基于图形处理器加速的Wallis变换影像增强方法.借助于图形处理器较强的运算能力,利用CUDA并行计算架构在PC机上实现了快速Wallis图像滤波算法,包括图形... 展开更多; 关键词图形处理器统一计算设备架构单指令多线程 Wallis变换影像增强 CUDA核并行滤波; 在线阅读下载PDF 职称材料

基于统一计算设备架构的并行串匹配算法被引量：3: 3; 作者唐定车刘任任谭建龙《计算机应用》 CSCD 北大核心 2009年第B06期399-401,共3页; BF算法是串匹配算法经典算法之一,但并不适合GPU这种并行体系结构。提出了基于统一计算设备架构(CUDA)架构的解决方案,通过对需要处理的数据增加一定比例的冗余信息,设计了适合CUDA计算数据的独立性特点的并行BF算法。实验结果表明,基于... 展开更多; 关键词统一计算设备架构单指令多线程并行串匹配算法; 在线阅读下载PDF 职称材料

一种面向55nm工艺的可扩展统一架构图形处理器设计与实现被引量：2: 4; 作者黄亮秦信刚 +1 位作者武玲娟熊庭刚《计算机工程与科学》 CSCD 北大核心 2014年第12期2418-2423,共6页; 现代3D图形处理器已从固定渲染管线发展成可编程渲染管线,且其并行度越来越高,研究并设计高性能的3D图形处理器对3D图形处理具有重要意义。着色器是实现3D图形处理器的核心,因此开发性能高、面积小、功耗低又易于扩展的着色器对3D图形... 展开更多; 关键词图形处理器统一架构着色器单指令多线程单指令多数据; 在线阅读下载PDF 职称材料

面向DCU非一致控制流的编译优化被引量：2: 5; 作者杨小艺赵荣彩 +2 位作者王洪生韩林徐坤坤《计算机应用》 CSCD 北大核心 2023年第10期3170-3177,共8页; 国产DCU采用单指令多线程(SIMT)的并行执行模型,在程序执行时核函数内会产生非一致控制流,导致线程束中的线程部分只能串行执行,即线程束分化。针对核函数的性能因线程束分化受到严重制约的问题,提出一种减少线程束分化时间的编译优化... 展开更多; 关键词 DCU 单指令多线程线程束分化复杂控制流编译优化; 在线阅读下载PDF 职称材料

题名基于CUDA技术的卷积神经网络识别算法被引量：9: 1; 作者张佳康陈庆奎; 机构上海理工大学光电信息与计算机工程学院; 出处《计算机工程》 CAS CSCD 北大核心 2010年第15期179-181,共3页; 基金国家自然科学基金资助项目(60573108) 上海教委发展基金资助项目(09YZ428) +1 种基金上海市重点学科建设基金资助项目(S30501); 文摘针对具有高浮点运算能力的流处理器设备GPU对神经网络的适用性问题,提出卷积神经网络的并行化识别算法,采用计算统一设备架构(CUDA)技术,并定义其上的并行化数据结构,描述计算任务到CUDA的映射机制。实验结果证明,在GTX200硬件架构的GPU上实现的并行识别算法的平均浮点运算能力峰值较CPU上串行算法提高了近60倍,更适用于神经网络的相关应用。; 关键词流处理器单指令多线程 GTX200硬件架构 CUDA技术卷积神经网络; Keywords stream processor Single-Instruction Multiple-Thread（SIMT） GTX200 hardware architecture Compute Unified Device Architecture（CUDA） technology Convolutional Neural Networks（CNNs）; 分类号 TP193 [自动化与计算机技术—控制理论与控制工程]; 在线阅读下载PDF 职称材料

题名CUDA架构下的快速Wallis影像增强算法: 2; 作者肖汉吴庆双冯娜; 机构武汉大学遥感信息工程学院郑州师范学院信息技术系安徽师范大学国土资源与旅游学院郑州市档案馆; 出处《沈阳工业大学学报》 EI CAS 2011年第3期293-298,共6页; 基金国家自然科学基金资助项目(40771177) 国家高技术研究与发展计划(863)资助项目(2006AA12Z136) 河南省高等学校青年骨干教师计划资助项目(2009GGJS-167); 文摘针对图像增强通常需要较大的计算量、用传统方法难于进行实时处理的问题,提出了一种基于图形处理器加速的Wallis变换影像增强方法.借助于图形处理器较强的运算能力,利用CUDA并行计算架构在PC机上实现了快速Wallis图像滤波算法,包括图形处理器(GPU)上任务分解、大规模计算核心的分解方法,结合使用共享存储器、全局存储器对算法进行加速,使用线程块内的共享存储器较好地解决了同一计算子空间的各线程同步问题.对比了CPU和GPU计算Wallis影像变换的时间,结果表明,随着图像分辨率的增大,Wallis并行算法可以把计算速度提高40倍.该方法具有较好的实时性,可大大提高图像增强过程的处理速度,显著地减少了计算时间.; 关键词图形处理器统一计算设备架构单指令多线程 Wallis变换影像增强 CUDA核并行滤波; Keywords graphic processing unit （GPU） compute unified device architecture （CUDA） single instructionmultiple thread （SIMT） Wallis transform image enhancement CUDA core parallel filter; 分类号 TP391 [自动化与计算机技术—计算机应用技术] P237 [天文地球—摄影测量与遥感]; 在线阅读下载PDF 职称材料

题名基于统一计算设备架构的并行串匹配算法被引量：3: 3; 作者唐定车刘任任谭建龙; 机构湘潭大学信息工程学院中国科学院计算技术研究所; 出处《计算机应用》 CSCD 北大核心 2009年第B06期399-401,共3页; 基金国家973计划项目(2007CB311100); 文摘 BF算法是串匹配算法经典算法之一,但并不适合GPU这种并行体系结构。提出了基于统一计算设备架构(CUDA)架构的解决方案,通过对需要处理的数据增加一定比例的冗余信息,设计了适合CUDA计算数据的独立性特点的并行BF算法。实验结果表明,基于CUDA架构的并行串匹配算法比同等CPU算法获得约10倍的加速比。此外还对该算法性能的影响因子做了分析。; 关键词统一计算设备架构单指令多线程并行串匹配算法; Keywords Compute Unified Device Architecture （CUDA） single instruction multiple threads parallel string matching algorithm; 分类号 TP301.6 [自动化与计算机技术—计算机系统结构]; 在线阅读下载PDF 职称材料

题名一种面向55nm工艺的可扩展统一架构图形处理器设计与实现被引量：2: 4; 作者黄亮秦信刚武玲娟熊庭刚; 机构武汉数字工程研究所; 出处《计算机工程与科学》 CSCD 北大核心 2014年第12期2418-2423,共6页; 文摘现代3D图形处理器已从固定渲染管线发展成可编程渲染管线,且其并行度越来越高,研究并设计高性能的3D图形处理器对3D图形处理具有重要意义。着色器是实现3D图形处理器的核心,因此开发性能高、面积小、功耗低又易于扩展的着色器对3D图形处理器的开发具有重要作用。提出的统一架构图形处理器基于单指令多线程和单指令多数据,单指令多线程可以提高图形处理的并行度,从而提高图形处理性能;单指令多数据可以降低设计复杂度,从而实现面积小、功耗低又易于扩展的着色器。实验结果表明,提出的统一架构图形处理器在面积较小、功耗较低的情况下实现了较高的性能,且设计可扩展性较好。; 关键词图形处理器统一架构着色器单指令多线程单指令多数据; Keywords GPU unified architecture shader single instruction multiple threads （SIMT） single in- struction multiple data （SIMD）; 分类号 TP391.41 [自动化与计算机技术—计算机应用技术]; 在线阅读下载PDF 职称材料

题名面向DCU非一致控制流的编译优化被引量：2: 5; 作者杨小艺赵荣彩王洪生韩林徐坤坤; 机构郑州大学计算机与人工智能学院国家超级计算郑州中心; 出处《计算机应用》 CSCD 北大核心 2023年第10期3170-3177,共8页; 基金河南省重大科技专项(221100210600)。; 文摘国产DCU采用单指令多线程(SIMT)的并行执行模型,在程序执行时核函数内会产生非一致控制流,导致线程束中的线程部分只能串行执行,即线程束分化。针对核函数的性能因线程束分化受到严重制约的问题,提出一种减少线程束分化时间的编译优化方法——部分控制流合并(PCFM)。首先,通过散度分析找到同构且含有大量相同指令和相似指令的可融合发散区域;其次,统计合并后节省的指令周期百分比,从而评估可融合发散区域的融合盈利;最后,查找对齐序列,并合并有收益的可融合发散区域。在DCU上使用PCFM测试从图形处理器(GPU)基准测试套件Rodinia和经典的排序算法中选择的测试用例,实验结果表明,PCFM对测试用例能够取得1.146的平均加速比,与分支融合+尾合并方法相比,使用PCFM的加速比平均提高了5.72%。可见,所提方法减少线程束分化的效果更好。; 关键词 DCU 单指令多线程线程束分化复杂控制流编译优化; Keywords Deep Computer Unit(DCU) Single Instruction Multiple Thread(SIMT) warp divergence complex control flow compilation optimization; 分类号 TP314 [自动化与计算机技术—计算机软件与理论]; 在线阅读下载PDF 职称材料

	题名	作者	出处	发文年	被引量	操作
1	基于CUDA技术的卷积神经网络识别算法	张佳康陈庆奎	《计算机工程》 CAS CSCD 北大核心	2010	9	在线阅读下载PDF 职称材料
2	CUDA架构下的快速Wallis影像增强算法	肖汉吴庆双冯娜	《沈阳工业大学学报》 EI CAS	2011	0	在线阅读下载PDF 职称材料
3	基于统一计算设备架构的并行串匹配算法	唐定车刘任任谭建龙	《计算机应用》 CSCD 北大核心	2009	3	在线阅读下载PDF 职称材料
4	一种面向55nm工艺的可扩展统一架构图形处理器设计与实现	黄亮秦信刚武玲娟熊庭刚	《计算机工程与科学》 CSCD 北大核心	2014	2	在线阅读下载PDF 职称材料
5	面向DCU非一致控制流的编译优化	杨小艺赵荣彩王洪生韩林徐坤坤	《计算机应用》 CSCD 北大核心	2023	2	在线阅读下载PDF 职称材料