期刊文献+
共找到22篇文章
< 1 2 >
每页显示 20 50 100
虚拟化环境下多GPU并行计算研究 被引量:5
1
作者 闵芳 张志先 张玉洁 《微电子学与计算机》 CSCD 北大核心 2016年第3期69-75,共7页
针对大规模计算任务场景,提出在虚拟化环境下多GPU并行计算的实现方案,使用多线程或流处理的方式实现多GPU并行计算,并分析GPU多层次存储结构、传输等方面内容,采用经典的蒙特卡罗方法这一具有代表性的科学计算实例进行实验验证.
关键词 GPU通用计算 虚拟化 并行计算 蒙特卡罗
在线阅读 下载PDF
细粒度并行计算编程模型研究 被引量:10
2
作者 刘伟峰 王智广 《微电子学与计算机》 CSCD 北大核心 2008年第10期103-106,共4页
作为应用软件模型和计算机硬件之间的桥梁,编程模型在计算机领域的重要性不言而喻.但随着具备细粒度并行计算能力的多核心微处理器进入主流市场,与之相适应的编程模型发展却相对滞后.对细粒度的并行计算编程模型进行研究.首先,介绍3种... 作为应用软件模型和计算机硬件之间的桥梁,编程模型在计算机领域的重要性不言而喻.但随着具备细粒度并行计算能力的多核心微处理器进入主流市场,与之相适应的编程模型发展却相对滞后.对细粒度的并行计算编程模型进行研究.首先,介绍3种典型的多核心微处理器体系结构;其次,介绍3个已有的细粒度并行计算编程模型;最后,探讨并行计算编程模型的必备条件. 展开更多
关键词 细粒度并行计算 图形处理器 图形处理器的通用计算 CELL 统一计算设备架构
在线阅读 下载PDF
并行计算在机动飞行轨迹生成中的应用
3
作者 蒋超 王维嘉 王昊 《兵工自动化》 2020年第8期25-31,36,共8页
针对现有通用机动轨迹需要较长的预规划时间,无法在机载计算平台实时解算的问题,提出一种利用并行计算的方式对通用机动框架进行加速的方法。对现有的MCTS算法叶子节点并行、根节点并行和树并行方式进行分析,结合叶子节点并行和根节点... 针对现有通用机动轨迹需要较长的预规划时间,无法在机载计算平台实时解算的问题,提出一种利用并行计算的方式对通用机动框架进行加速的方法。对现有的MCTS算法叶子节点并行、根节点并行和树并行方式进行分析,结合叶子节点并行和根节点并行方式各自的优点,对每棵搜索树采用叶子节点并行方法,分别利用Pthread和CUDA对并行通用机动框架进行加速,并以筋斗机动为例对加速效果进行测试。实验结果表明:并行通用机动框架不仅性能优于串行框架,而且可大幅缩短机动解算时间。 展开更多
关键词 并行计算 蒙特卡罗树搜索算法 GPU 众核 通用机动框架
在线阅读 下载PDF
中国烹饪协会:大众化餐饮通用规范将出台
4
作者 楚超 《中国社会组织》 2014年第5期60-60,共1页
2月21日,中国烹饪协会在京召开《大众化餐饮通用规范》行业标准专家审定会。《大众化餐饮通用规范》作为首个有关大众化餐饮的定量标准即将出台。
关键词 中国烹饪协会 大众化 餐饮 通用 行业标准 定量标准 审定会
在线阅读 下载PDF
基于通用计算的GPU-CPU协作计算模式研究 被引量:4
5
作者 崔雪冰 张延红 李国徽 《微电子学与计算机》 CSCD 北大核心 2009年第8期30-33,共4页
依据GPU计算特点和任务划分的特点,提出一种类似主从模型的GPU-CPU协作计算的处理模式,通过把问题或算法划分成多子任务,并对划分的子任务给出合理的调度算法,使GPU和CPU各自发挥特点,从而发挥较高效率的GPU通用计算能力,通过测试验证... 依据GPU计算特点和任务划分的特点,提出一种类似主从模型的GPU-CPU协作计算的处理模式,通过把问题或算法划分成多子任务,并对划分的子任务给出合理的调度算法,使GPU和CPU各自发挥特点,从而发挥较高效率的GPU通用计算能力,通过测试验证该协作模式是有效的. 展开更多
关键词 GPU通用计算 并行计算 协作计算模式 划分 任务调度 模型
在线阅读 下载PDF
我国高等教育大众化阶段的本科人才培养模式
6
作者 陈代波 《成才之路》 2015年第3期24-26,共3页
在我国高等教育的大众化阶段,如何解决大学生就业难的问题成为大多数高校共同的困惑。在就业压力下,以市场为导向培养应用型人才已经成为大多数高校不得已的选择。应用型人才包括通用型人才和岗位技能型人才两种类型,我国的普通本科院... 在我国高等教育的大众化阶段,如何解决大学生就业难的问题成为大多数高校共同的困惑。在就业压力下,以市场为导向培养应用型人才已经成为大多数高校不得已的选择。应用型人才包括通用型人才和岗位技能型人才两种类型,我国的普通本科院校应当以培养通用型人才为主要目标。通用型人才的培养模式为:以通识教育为基础,推进素质教育;以学生为本,强化分类指导;实现共性与个性的有机结合。 展开更多
关键词 高等教育大众化 本科 通用 通识教育 分类指导
在线阅读 下载PDF
中国烹饪协会:大众化餐饮定量标准将出台
7
《大众标准化》 2014年第3期66-66,共1页
2月21日,中国烹饪协会在京召开《大众化餐饮通用规范》行业标准专家审定会。《大众化餐饮通用规范》作为首个有关大众化餐饮的定量标准即将出台。
关键词 中国烹饪协会 定量标准 大众化 餐饮 行业标准 通用
在线阅读 下载PDF
LINUX集群系统并行应用程序监测技术的研究 被引量:2
8
作者 王文义 梁青云 王若雨 《郑州大学学报(工学版)》 CAS 2005年第2期98-101,共4页
从大多普通用户的实际情况出发,在proc文件系统基础上结合MySQL数据库和GTK+技术,提出了一种简单实用的LINUX集群系统的并行计算监测工具的实现方法.该工具可以将运行中集群的节点状态实时地呈现给用户,其主要功能模块有用户交互、显示... 从大多普通用户的实际情况出发,在proc文件系统基础上结合MySQL数据库和GTK+技术,提出了一种简单实用的LINUX集群系统的并行计算监测工具的实现方法.该工具可以将运行中集群的节点状态实时地呈现给用户,其主要功能模块有用户交互、显示、控制、数据库服务端等7个模块,从而对进一步改进与提高并行应用程序的质量提供了科学依据. 展开更多
关键词 LINUX 应用程序 集群系统 监测技术 MYSQL数据库 通用 文件系统 监测工具 并行计算 用户交互 功能模块 科学依据 PMC 服务端
在线阅读 下载PDF
基于GPU的RFT算法并行化 被引量:5
9
作者 商哲然 谭贤四 +2 位作者 曲智国 王红 丰骁 《雷达科学与技术》 北大核心 2016年第5期505-509,516,共6页
RFT(Radon-Fourier Transform)是一种广义的MTD算法,可沿着目标径向运动轨迹进行相参积累。然而对距离-速度二维搜索产生的巨大计算量使得其难以快速实现和工程化。针对这个问题,根据雷达信号的回波数据结构和RFT算法思路,提出一种基于... RFT(Radon-Fourier Transform)是一种广义的MTD算法,可沿着目标径向运动轨迹进行相参积累。然而对距离-速度二维搜索产生的巨大计算量使得其难以快速实现和工程化。针对这个问题,根据雷达信号的回波数据结构和RFT算法思路,提出一种基于GPU的RFT并行化算法。通过实验,GPU平台实现的RFT算法与标准RFT和快速RFT相比,获得了巨大的加速比。另外,通过对比在CPU平台执行的MTD算法,得到在GPU平台上的RFT计算结果在不需要传回主机内存的条件下,计算速度快于在CPU平台上MTD算法。 展开更多
关键词 拉东傅里叶变换 并行 图形处理器 通用并行计算架构
在线阅读 下载PDF
基于GPU的势能场骨架提取并行算法
10
作者 赵丝喆 王宽全 袁永峰 《哈尔滨工业大学学报》 EI CAS CSCD 北大核心 2016年第5期18-22,共5页
为解决势能场骨架提取方法计算效率低、提取过程耗时大的问题,同时为降低该方法的时间复杂度,提出了基于GPU的势能场骨架提取并行算法,并充分利用CUDA架构特有的常量存储器和共享存储器对普通并行算法进行改进.讨论了如何根据程序和显... 为解决势能场骨架提取方法计算效率低、提取过程耗时大的问题,同时为降低该方法的时间复杂度,提出了基于GPU的势能场骨架提取并行算法,并充分利用CUDA架构特有的常量存储器和共享存储器对普通并行算法进行改进.讨论了如何根据程序和显卡设备的固有属性来分配线程以达到最高的GPU占用率,从而得到最优的加速效果.对多组3D模型进行测试的结果表明,随着数据规模的增大,加速效果逐渐提升,处理256×256×487的体数据时,可获得18倍的加速比. 展开更多
关键词 图形处理器 并行计算 势能场 骨架提取 通用并行计算架构
在线阅读 下载PDF
浅谈CUP并行技术CUDA 被引量:1
11
作者 郭转转 尹延庆 王佩璐 《信息通信》 2014年第5期103-103,共1页
CUDA是NVIDIA推出的计算模型,它是基于C语言的计算平台,继承了C语言多计算机硬件充分利用的特性。同时添加一些GPU调用接口,可实现在显示芯片写出执行程序,CUDA也为应用开发人员有效利用GPU的强大性能提供了条件,使得GPU凭借其独特的结... CUDA是NVIDIA推出的计算模型,它是基于C语言的计算平台,继承了C语言多计算机硬件充分利用的特性。同时添加一些GPU调用接口,可实现在显示芯片写出执行程序,CUDA也为应用开发人员有效利用GPU的强大性能提供了条件,使得GPU凭借其独特的结构和针对图像的设计,当仁不让地成为了程序员实现并行计算的平台。相比较于其他并行计算的计算平台,从执行时间和对硬件利用效率来讲,CUDA具有很明显的优势。 展开更多
关键词 并行计算 CPU通用计算 CUDA
在线阅读 下载PDF
地方师范大学要培养通用型专门人才
12
作者 王建刚 《成才之路》 2014年第36期I0002-I0002,共1页
地方高等师范院校是国家高等教育系统的重要组成部分,在国家高等教育改革和发展中,特别是中等教育师资培养中发挥了重大作用。尤其是地方师范大学,不仪为基础教育培养了大批的优秀中小学教师,也为地方经济社会的发展做小了重要贡献... 地方高等师范院校是国家高等教育系统的重要组成部分,在国家高等教育改革和发展中,特别是中等教育师资培养中发挥了重大作用。尤其是地方师范大学,不仪为基础教育培养了大批的优秀中小学教师,也为地方经济社会的发展做小了重要贡献。然而,伴随我阂高等教育大众化的不断深化、教师教育体制改革的不断推进,地方师范大学面临诸多的矛盾和挑战,在办学定位、发展目标和特色追求等方面面临战略选择。 展开更多
关键词 地方师范大学 师资培养 专门人才 通用 地方高等师范院校 高等教育系统 高等教育大众化 中小学教师
在线阅读 下载PDF
面向飞腾处理器平台的快速卷积算法优化
13
作者 赵亚飞 杨耀功 +1 位作者 王永刚 魏继增 《上海理工大学学报》 CAS CSCD 北大核心 2024年第6期610-619,共10页
为解决卷积神经网络难以在计算资源受限设备上部署的问题,面向国产FT-2000/4多核处理器提出一种高性能的快速卷积算法FastInfer。采用分块策略优化通用矩阵乘法,将处理器访问频率高的数据存入更靠近处理器的缓存中,从而提高计算过程中... 为解决卷积神经网络难以在计算资源受限设备上部署的问题,面向国产FT-2000/4多核处理器提出一种高性能的快速卷积算法FastInfer。采用分块策略优化通用矩阵乘法,将处理器访问频率高的数据存入更靠近处理器的缓存中,从而提高计算过程中的访存效率。配合分块方案设计实现高性能的矩阵乘法微内核,使用向量外积运算更新数据,提高计算访存比,实现最大程度掩盖访存指令的延迟。最终实验结果表明,FastInfer在FT-2000/4处理器上的峰值计算性能达到99.56 GFLOPS。在不同输入规模的通用矩阵乘法测试中,FastInfer性能是OpenBLAS算法的1.07倍和1.52倍。在卷积测试中,FastInfer性能是ARM Compute Library算法的1.32倍,实现了在FT-2000/4多核处理器上的高性能卷积计算。 展开更多
关键词 深度学习 快速卷积算法 并行计算 通用矩阵乘法
在线阅读 下载PDF
多核软件的几个关键问题及其研究进展 被引量:17
14
作者 杨际祥 谭国真 王荣生 《电子学报》 EI CAS CSCD 北大核心 2010年第9期2140-2146,共7页
提高应用程序开发产能同时获得并行性能收益是多核大众化并行计算研究的核心目标.采用应用驱动和自顶向下的研究思想着重综述了影响该目标的三个关键问题.首先,对当前的多核应用驱动研究做了比较,并对多核应用研究现状做了综述.其次,对... 提高应用程序开发产能同时获得并行性能收益是多核大众化并行计算研究的核心目标.采用应用驱动和自顶向下的研究思想着重综述了影响该目标的三个关键问题.首先,对当前的多核应用驱动研究做了比较,并对多核应用研究现状做了综述.其次,对当前的多核编程模型在产能编程和性能使能编程方面的研究思想做了比较研究.然后,综述了多核算法以及多核计算模型的研究现状.最后分析了多核软件未来的研究问题. 展开更多
关键词 大众化/通用并行计算 多核软件 产能收益 性能收益
在线阅读 下载PDF
基于NVIDIA GPU的机载SAR实时成像处理算法CUDA设计与实现 被引量:17
15
作者 孟大地 胡玉新 +2 位作者 石涛 孙蕊 李晓波 《雷达学报(中英文)》 CSCD 2013年第4期481-491,共11页
合成孔径雷达(SAR)成像处理的运算量较大,在基于中央处理器(Central Processing Unit,CPU)的工作站或服务器上一般需要耗费较长的时间,无法满足实时性要求。借助于通用并行计算架构(CUDA)编程架构,该文提出一种基于图形处理器(GPU)的SA... 合成孔径雷达(SAR)成像处理的运算量较大,在基于中央处理器(Central Processing Unit,CPU)的工作站或服务器上一般需要耗费较长的时间,无法满足实时性要求。借助于通用并行计算架构(CUDA)编程架构,该文提出一种基于图形处理器(GPU)的SAR成像处理算法实现方案。该方案解决了GPU显存不足以容纳一景SAR数据时数据处理环节与内存/显存间数据传输环节的并行化问题,并能够支持多GPU设备的并行处理,充分利用了GPU设备的计算资源。在NVIDIA K20C和INTEL E5645上的测试表明,与传统基于GPU的SAR成像处理算法相比,该方案能够达到数十倍的速度提升,显著降低了处理设备的功耗,提高了处理设备的便携性,能够达到每秒约36兆采样点的实时处理速度。 展开更多
关键词 SAR 实时成像 图形处理器(GPU) 通用并行计算架构(CUDA)
在线阅读 下载PDF
基于GPGPU的JPEG2000图像压缩方法 被引量:5
16
作者 李玉峰 吴蔚 +1 位作者 王恺 崔迎炜 《电子器件》 CAS 北大核心 2013年第2期163-168,共6页
为了进一步加快JPEG2000的压缩速度,对JPEG2000压缩标准进行研究,分析得出JPEG2000核心算法离散小波变换(DWT)部分数据之间的独立性适合并行化处理。NVIDIA最新推出的CUDA(计算统一设备架构)是非常适合大规模数据并行计算的软硬件开发... 为了进一步加快JPEG2000的压缩速度,对JPEG2000压缩标准进行研究,分析得出JPEG2000核心算法离散小波变换(DWT)部分数据之间的独立性适合并行化处理。NVIDIA最新推出的CUDA(计算统一设备架构)是非常适合大规模数据并行计算的软硬件开发平台。在通用计算图形处理器(General Purpose Graphic Process Unit,GPGPU)上使用CUDA技术实现DWT并行化加速,并针对GPGPU存储空间的特点进行优化。得出的实验结果表明,经过CUDA并行优化的方法能够有效地提高离散小波变换DWT的计算速度。 展开更多
关键词 JPEG2000 离散小波变换 通用图形处理器 并行计算 CUDA
在线阅读 下载PDF
GPU加速下脉冲压缩雷达的点迹凝聚 被引量:4
17
作者 夏栋 夏奎 +1 位作者 张伟 孙剑英 《火力与指挥控制》 CSCD 北大核心 2013年第3期81-85,共5页
GPU具有很高的显存带宽和大量计算单元,随着其可编程性的不断提高,GPU越来越多地用于图像渲染以外的其他通用计算。研究了利用GPU丰富的运算资源并行加速实现脉冲压缩雷达的点迹凝聚问题。首先研究了每个目标的点迹采用一个CUDA线程的... GPU具有很高的显存带宽和大量计算单元,随着其可编程性的不断提高,GPU越来越多地用于图像渲染以外的其他通用计算。研究了利用GPU丰富的运算资源并行加速实现脉冲压缩雷达的点迹凝聚问题。首先研究了每个目标的点迹采用一个CUDA线程的粗粒度并行方式,结果发现处理时间反而有所增加,分析了处理时间加长的原因。然后增加了并行的尺度,对单个目标的凝聚过程进行并行分解。结果表明大尺度细粒度的并行方式可以有效利用GPU强大的运算能力,加快脉冲压缩雷达的点迹凝聚速度。 展开更多
关键词 GPU的通用运算 并行计算 点迹凝聚 计算统一设备构架
在线阅读 下载PDF
基于CUDA-GPU的宽带高速频谱分析系统的研究 被引量:1
18
作者 刘东亮 南仁东 李建斌 《高技术通讯》 CAS CSCD 北大核心 2012年第2期159-164,共6页
针对射电信号观测的需求,设计并实现了一种基于统一计算设备架构(CUDA)和图形显示卡(GPU)的宽带高速频谱分析系统。该系统通过运用库利.图基(Cooley-Tukey)快速傅立叶变换算法与谱分析算法实现实时宽带高速频谱分析。系统的关... 针对射电信号观测的需求,设计并实现了一种基于统一计算设备架构(CUDA)和图形显示卡(GPU)的宽带高速频谱分析系统。该系统通过运用库利.图基(Cooley-Tukey)快速傅立叶变换算法与谱分析算法实现实时宽带高速频谱分析。系统的关键部分在于通过CUDA来完成运用线程合并算法对数据在CPU-9GPU之间传递时的转换,并使用并行流水算法在总线中共享多核GPU来降低实时运算时间。该系统主要为500m口径射电望远镜工程的高分辨率微波巡视项目而设计,实测中满足目标需求,并可应用在射电信号观测或类似的高速密集数据运算中。 展开更多
关键词 频谱分析 并行计算 库利-图基傅立叶变换 GPU通用计算
在线阅读 下载PDF
基于Brook的排序网络实现
19
作者 崔雪冰 张芳芳 李国徽 《微电子学与计算机》 CSCD 北大核心 2010年第5期53-56,共4页
针对"排序网络"的特点及其广泛运用的意义,依据现代GPU在通用计算方面的功能,提出了基于Brook在GPU上执行通用计算的实现方法,并对"排序网络"在GPU的实现进行了测试,结果表明GPU在Brook环境下通用计算能力优于CPU,... 针对"排序网络"的特点及其广泛运用的意义,依据现代GPU在通用计算方面的功能,提出了基于Brook在GPU上执行通用计算的实现方法,并对"排序网络"在GPU的实现进行了测试,结果表明GPU在Brook环境下通用计算能力优于CPU,且排序网络的并行计算的特点能够在GPU上充分展现. 展开更多
关键词 排序网络 数据并行计算 计算 GPU通用计算 Brook
在线阅读 下载PDF
超高分辨率机载SAR成像算法及其GPU实现 被引量:5
20
作者 田宵骏 梁媚蓉 毛新华 《南京航空航天大学学报》 EI CAS CSCD 北大核心 2015年第3期384-391,共8页
雷达成像分辨率的不断提高,给SAR高精度实时成像处理带来了新的挑战。采用高效精确的成像算法以及对算法进行硬件加速是解决该问题的有效途径。本文提出了一种适用于超高分辨率机载SAR成像的精确高效成像处理方案,并利用并行化硬件平台... 雷达成像分辨率的不断提高,给SAR高精度实时成像处理带来了新的挑战。采用高效精确的成像算法以及对算法进行硬件加速是解决该问题的有效途径。本文提出了一种适用于超高分辨率机载SAR成像的精确高效成像处理方案,并利用并行化硬件平台GPU对该成像方案进行了硬件加速。实测数据处理结果充分验证了该处理方案的聚焦精度和处理效率。 展开更多
关键词 合成孔径雷达 超高分辨率 成像算法 图形处理器 通用并行计算架构
在线阅读 下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部