期刊导航
期刊开放获取
上海教育软件发展有限公..
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
5
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
基于CUDA技术的卷积神经网络识别算法
被引量:
9
1
作者
张佳康
陈庆奎
《计算机工程》
CAS
CSCD
北大核心
2010年第15期179-181,共3页
针对具有高浮点运算能力的流处理器设备GPU对神经网络的适用性问题,提出卷积神经网络的并行化识别算法,采用计算统一设备架构(CUDA)技术,并定义其上的并行化数据结构,描述计算任务到CUDA的映射机制。实验结果证明,在GTX200硬件架构的GP...
针对具有高浮点运算能力的流处理器设备GPU对神经网络的适用性问题,提出卷积神经网络的并行化识别算法,采用计算统一设备架构(CUDA)技术,并定义其上的并行化数据结构,描述计算任务到CUDA的映射机制。实验结果证明,在GTX200硬件架构的GPU上实现的并行识别算法的平均浮点运算能力峰值较CPU上串行算法提高了近60倍,更适用于神经网络的相关应用。
展开更多
关键词
流处理器
单指令多线程
GTX200硬件架构
CUDA技术
卷积神经网络
在线阅读
下载PDF
职称材料
CUDA架构下的快速Wallis影像增强算法
2
作者
肖汉
吴庆双
冯娜
《沈阳工业大学学报》
EI
CAS
2011年第3期293-298,共6页
针对图像增强通常需要较大的计算量、用传统方法难于进行实时处理的问题,提出了一种基于图形处理器加速的Wallis变换影像增强方法.借助于图形处理器较强的运算能力,利用CUDA并行计算架构在PC机上实现了快速Wallis图像滤波算法,包括图形...
针对图像增强通常需要较大的计算量、用传统方法难于进行实时处理的问题,提出了一种基于图形处理器加速的Wallis变换影像增强方法.借助于图形处理器较强的运算能力,利用CUDA并行计算架构在PC机上实现了快速Wallis图像滤波算法,包括图形处理器(GPU)上任务分解、大规模计算核心的分解方法,结合使用共享存储器、全局存储器对算法进行加速,使用线程块内的共享存储器较好地解决了同一计算子空间的各线程同步问题.对比了CPU和GPU计算Wallis影像变换的时间,结果表明,随着图像分辨率的增大,Wallis并行算法可以把计算速度提高40倍.该方法具有较好的实时性,可大大提高图像增强过程的处理速度,显著地减少了计算时间.
展开更多
关键词
图形处理器
统一计算设备架构
单指令多线程
Wallis变换
影像增强
CUDA核
并行
滤波
在线阅读
下载PDF
职称材料
基于统一计算设备架构的并行串匹配算法
被引量:
3
3
作者
唐定车
刘任任
谭建龙
《计算机应用》
CSCD
北大核心
2009年第B06期399-401,共3页
BF算法是串匹配算法经典算法之一,但并不适合GPU这种并行体系结构。提出了基于统一计算设备架构(CUDA)架构的解决方案,通过对需要处理的数据增加一定比例的冗余信息,设计了适合CUDA计算数据的独立性特点的并行BF算法。实验结果表明,基于...
BF算法是串匹配算法经典算法之一,但并不适合GPU这种并行体系结构。提出了基于统一计算设备架构(CUDA)架构的解决方案,通过对需要处理的数据增加一定比例的冗余信息,设计了适合CUDA计算数据的独立性特点的并行BF算法。实验结果表明,基于CUDA架构的并行串匹配算法比同等CPU算法获得约10倍的加速比。此外还对该算法性能的影响因子做了分析。
展开更多
关键词
统一计算设备架构
单指令多线程
并行
串匹配算法
在线阅读
下载PDF
职称材料
一种面向55nm工艺的可扩展统一架构图形处理器设计与实现
被引量:
2
4
作者
黄亮
秦信刚
+1 位作者
武玲娟
熊庭刚
《计算机工程与科学》
CSCD
北大核心
2014年第12期2418-2423,共6页
现代3D图形处理器已从固定渲染管线发展成可编程渲染管线,且其并行度越来越高,研究并设计高性能的3D图形处理器对3D图形处理具有重要意义。着色器是实现3D图形处理器的核心,因此开发性能高、面积小、功耗低又易于扩展的着色器对3D图形...
现代3D图形处理器已从固定渲染管线发展成可编程渲染管线,且其并行度越来越高,研究并设计高性能的3D图形处理器对3D图形处理具有重要意义。着色器是实现3D图形处理器的核心,因此开发性能高、面积小、功耗低又易于扩展的着色器对3D图形处理器的开发具有重要作用。提出的统一架构图形处理器基于单指令多线程和单指令多数据,单指令多线程可以提高图形处理的并行度,从而提高图形处理性能;单指令多数据可以降低设计复杂度,从而实现面积小、功耗低又易于扩展的着色器。实验结果表明,提出的统一架构图形处理器在面积较小、功耗较低的情况下实现了较高的性能,且设计可扩展性较好。
展开更多
关键词
图形处理器
统一架构
着色器
单指令多线程
单指令
多数据
在线阅读
下载PDF
职称材料
面向DCU非一致控制流的编译优化
被引量:
2
5
作者
杨小艺
赵荣彩
+2 位作者
王洪生
韩林
徐坤坤
《计算机应用》
CSCD
北大核心
2023年第10期3170-3177,共8页
国产DCU采用单指令多线程(SIMT)的并行执行模型,在程序执行时核函数内会产生非一致控制流,导致线程束中的线程部分只能串行执行,即线程束分化。针对核函数的性能因线程束分化受到严重制约的问题,提出一种减少线程束分化时间的编译优化...
国产DCU采用单指令多线程(SIMT)的并行执行模型,在程序执行时核函数内会产生非一致控制流,导致线程束中的线程部分只能串行执行,即线程束分化。针对核函数的性能因线程束分化受到严重制约的问题,提出一种减少线程束分化时间的编译优化方法——部分控制流合并(PCFM)。首先,通过散度分析找到同构且含有大量相同指令和相似指令的可融合发散区域;其次,统计合并后节省的指令周期百分比,从而评估可融合发散区域的融合盈利;最后,查找对齐序列,并合并有收益的可融合发散区域。在DCU上使用PCFM测试从图形处理器(GPU)基准测试套件Rodinia和经典的排序算法中选择的测试用例,实验结果表明,PCFM对测试用例能够取得1.146的平均加速比,与分支融合+尾合并方法相比,使用PCFM的加速比平均提高了5.72%。可见,所提方法减少线程束分化的效果更好。
展开更多
关键词
DCU
单指令多线程
线程
束分化
复杂控制流
编译优化
在线阅读
下载PDF
职称材料
题名
基于CUDA技术的卷积神经网络识别算法
被引量:
9
1
作者
张佳康
陈庆奎
机构
上海理工大学光电信息与计算机工程学院
出处
《计算机工程》
CAS
CSCD
北大核心
2010年第15期179-181,共3页
基金
国家自然科学基金资助项目(60573108)
上海教委发展基金资助项目(09YZ428)
+1 种基金
上海教委科研创新基金资助重点项目(08ZZ76)
上海市重点学科建设基金资助项目(S30501)
文摘
针对具有高浮点运算能力的流处理器设备GPU对神经网络的适用性问题,提出卷积神经网络的并行化识别算法,采用计算统一设备架构(CUDA)技术,并定义其上的并行化数据结构,描述计算任务到CUDA的映射机制。实验结果证明,在GTX200硬件架构的GPU上实现的并行识别算法的平均浮点运算能力峰值较CPU上串行算法提高了近60倍,更适用于神经网络的相关应用。
关键词
流处理器
单指令多线程
GTX200硬件架构
CUDA技术
卷积神经网络
Keywords
stream processor
Single-Instruction Multiple-Thread(SIMT)
GTX200 hardware architecture
Compute Unified Device Architecture(CUDA) technology
Convolutional Neural Networks(CNNs)
分类号
TP193 [自动化与计算机技术—控制理论与控制工程]
在线阅读
下载PDF
职称材料
题名
CUDA架构下的快速Wallis影像增强算法
2
作者
肖汉
吴庆双
冯娜
机构
武汉大学遥感信息工程学院
郑州师范学院信息技术系
安徽师范大学国土资源与旅游学院
郑州市档案馆
出处
《沈阳工业大学学报》
EI
CAS
2011年第3期293-298,共6页
基金
国家自然科学基金资助项目(40771177)
国家高技术研究与发展计划(863)资助项目(2006AA12Z136)
河南省高等学校青年骨干教师计划资助项目(2009GGJS-167)
文摘
针对图像增强通常需要较大的计算量、用传统方法难于进行实时处理的问题,提出了一种基于图形处理器加速的Wallis变换影像增强方法.借助于图形处理器较强的运算能力,利用CUDA并行计算架构在PC机上实现了快速Wallis图像滤波算法,包括图形处理器(GPU)上任务分解、大规模计算核心的分解方法,结合使用共享存储器、全局存储器对算法进行加速,使用线程块内的共享存储器较好地解决了同一计算子空间的各线程同步问题.对比了CPU和GPU计算Wallis影像变换的时间,结果表明,随着图像分辨率的增大,Wallis并行算法可以把计算速度提高40倍.该方法具有较好的实时性,可大大提高图像增强过程的处理速度,显著地减少了计算时间.
关键词
图形处理器
统一计算设备架构
单指令多线程
Wallis变换
影像增强
CUDA核
并行
滤波
Keywords
graphic processing unit (GPU)
compute unified device architecture (CUDA)
single instructionmultiple thread (SIMT)
Wallis transform
image enhancement
CUDA core
parallel
filter
分类号
TP391 [自动化与计算机技术—计算机应用技术]
P237 [天文地球—摄影测量与遥感]
在线阅读
下载PDF
职称材料
题名
基于统一计算设备架构的并行串匹配算法
被引量:
3
3
作者
唐定车
刘任任
谭建龙
机构
湘潭大学信息工程学院
中国科学院计算技术研究所
出处
《计算机应用》
CSCD
北大核心
2009年第B06期399-401,共3页
基金
国家973计划项目(2007CB311100)
文摘
BF算法是串匹配算法经典算法之一,但并不适合GPU这种并行体系结构。提出了基于统一计算设备架构(CUDA)架构的解决方案,通过对需要处理的数据增加一定比例的冗余信息,设计了适合CUDA计算数据的独立性特点的并行BF算法。实验结果表明,基于CUDA架构的并行串匹配算法比同等CPU算法获得约10倍的加速比。此外还对该算法性能的影响因子做了分析。
关键词
统一计算设备架构
单指令多线程
并行
串匹配算法
Keywords
Compute Unified Device Architecture (CUDA)
single instruction multiple threads
parallel
string matching algorithm
分类号
TP301.6 [自动化与计算机技术—计算机系统结构]
在线阅读
下载PDF
职称材料
题名
一种面向55nm工艺的可扩展统一架构图形处理器设计与实现
被引量:
2
4
作者
黄亮
秦信刚
武玲娟
熊庭刚
机构
武汉数字工程研究所
出处
《计算机工程与科学》
CSCD
北大核心
2014年第12期2418-2423,共6页
文摘
现代3D图形处理器已从固定渲染管线发展成可编程渲染管线,且其并行度越来越高,研究并设计高性能的3D图形处理器对3D图形处理具有重要意义。着色器是实现3D图形处理器的核心,因此开发性能高、面积小、功耗低又易于扩展的着色器对3D图形处理器的开发具有重要作用。提出的统一架构图形处理器基于单指令多线程和单指令多数据,单指令多线程可以提高图形处理的并行度,从而提高图形处理性能;单指令多数据可以降低设计复杂度,从而实现面积小、功耗低又易于扩展的着色器。实验结果表明,提出的统一架构图形处理器在面积较小、功耗较低的情况下实现了较高的性能,且设计可扩展性较好。
关键词
图形处理器
统一架构
着色器
单指令多线程
单指令
多数据
Keywords
GPU
unified architecture
shader
single instruction multiple threads (SIMT)
single in- struction multiple data (SIMD)
分类号
TP391.41 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
面向DCU非一致控制流的编译优化
被引量:
2
5
作者
杨小艺
赵荣彩
王洪生
韩林
徐坤坤
机构
郑州大学计算机与人工智能学院
国家超级计算郑州中心
出处
《计算机应用》
CSCD
北大核心
2023年第10期3170-3177,共8页
基金
河南省重大科技专项(221100210600)。
文摘
国产DCU采用单指令多线程(SIMT)的并行执行模型,在程序执行时核函数内会产生非一致控制流,导致线程束中的线程部分只能串行执行,即线程束分化。针对核函数的性能因线程束分化受到严重制约的问题,提出一种减少线程束分化时间的编译优化方法——部分控制流合并(PCFM)。首先,通过散度分析找到同构且含有大量相同指令和相似指令的可融合发散区域;其次,统计合并后节省的指令周期百分比,从而评估可融合发散区域的融合盈利;最后,查找对齐序列,并合并有收益的可融合发散区域。在DCU上使用PCFM测试从图形处理器(GPU)基准测试套件Rodinia和经典的排序算法中选择的测试用例,实验结果表明,PCFM对测试用例能够取得1.146的平均加速比,与分支融合+尾合并方法相比,使用PCFM的加速比平均提高了5.72%。可见,所提方法减少线程束分化的效果更好。
关键词
DCU
单指令多线程
线程
束分化
复杂控制流
编译优化
Keywords
Deep Computer Unit(DCU)
Single Instruction Multiple Thread(SIMT)
warp divergence
complex control flow
compilation optimization
分类号
TP314 [自动化与计算机技术—计算机软件与理论]
在线阅读
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
基于CUDA技术的卷积神经网络识别算法
张佳康
陈庆奎
《计算机工程》
CAS
CSCD
北大核心
2010
9
在线阅读
下载PDF
职称材料
2
CUDA架构下的快速Wallis影像增强算法
肖汉
吴庆双
冯娜
《沈阳工业大学学报》
EI
CAS
2011
0
在线阅读
下载PDF
职称材料
3
基于统一计算设备架构的并行串匹配算法
唐定车
刘任任
谭建龙
《计算机应用》
CSCD
北大核心
2009
3
在线阅读
下载PDF
职称材料
4
一种面向55nm工艺的可扩展统一架构图形处理器设计与实现
黄亮
秦信刚
武玲娟
熊庭刚
《计算机工程与科学》
CSCD
北大核心
2014
2
在线阅读
下载PDF
职称材料
5
面向DCU非一致控制流的编译优化
杨小艺
赵荣彩
王洪生
韩林
徐坤坤
《计算机应用》
CSCD
北大核心
2023
2
在线阅读
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部