期刊文献+
共找到420篇文章
< 1 2 21 >
每页显示 20 50 100
基于GPU的OMCSS水声通信M元解扩算法并行实现
1
作者 彭海源 王巍 +4 位作者 李德瑞 刘彦君 李宇 迟骋 田亚男 《系统工程与电子技术》 北大核心 2025年第3期978-986,共9页
针对正交多载波扩频(orthogonal multi-carrier spread spectrum,OMCSS)水声通信系统接收信号快速处理需求,提出一种基于图形处理模块(graphic processing unit,GPU)的M元解扩算法的并行实现方法。首先,分析M元解扩算法在GPU平台上实现... 针对正交多载波扩频(orthogonal multi-carrier spread spectrum,OMCSS)水声通信系统接收信号快速处理需求,提出一种基于图形处理模块(graphic processing unit,GPU)的M元解扩算法的并行实现方法。首先,分析M元解扩算法在GPU平台上实现的可行性,针对算法内部基础运算单元进行并行优化处理。然后,为了进一步提升GPU并行运行速度,对算法进行基于并发内核执行的M元并行解扩计算架构设计。在中央处理器(central processing unit,CPU)+GPU异构平台上对算法性能进行测试。测试结果表明,设计的M元并行解扩算法相比M元串行解扩算法在运行速度上有最大90.47%的提升,最大加速比为10.5。 展开更多
关键词 正交多载波扩频 水声通信 M元解扩 图形处理模块 并行实现
在线阅读 下载PDF
TEB:GPU上矩阵分解重构的高效SpMV存储格式 被引量:2
2
作者 王宇华 张宇琪 +2 位作者 何俊飞 徐悦竹 崔环宇 《计算机科学与探索》 CSCD 北大核心 2024年第4期1094-1108,共15页
稀疏矩阵向量乘法(SpMV)是科学与工程领域中一个至关重要的计算过程,CSR(compressed sparse row)格式是最常用的稀疏矩阵存储格式之一,在图形处理器(GPU)平台上实现并行SpMV的过程中,其只存储稀疏矩阵的非零元,避免零元素填充所带来的... 稀疏矩阵向量乘法(SpMV)是科学与工程领域中一个至关重要的计算过程,CSR(compressed sparse row)格式是最常用的稀疏矩阵存储格式之一,在图形处理器(GPU)平台上实现并行SpMV的过程中,其只存储稀疏矩阵的非零元,避免零元素填充所带来的计算冗余,节约存储空间,但存在着负载不均衡的问题,浪费了计算资源。针对上述问题,对近年来效果良好的存储格式进行了研究,提出了一种逐行分解重组存储格式——TEB(threshold-exchangeorder block)格式。该格式采用启发式阈值选择算法确定合适分割阈值,并结合基于重排序的行归并算法,对稀疏矩阵进行重构分解,使得块与块之间非零元个数尽可能得相近,其次结合CUDA(computer unified device architecture)线程技术,提出了基于TEB存储格式的子块间并行SpMV算法,能够合理分配计算资源,解决负载不均衡问题,从而提高SpMV并行计算效率。为了验证TEB存储格式的有效性,在NVIDIA Tesla V100平台上进行实验,结果表明TEB相较于PBC(partition-block-CSR)、AMF-CSR(adaptive multi-row folding of CSR)、CSR-Scalar(compressed sparse row-scalar)和CSR5(compressed sparse row 5)存储格式,在SpMV的时间性能方面平均可提升3.23、5.83、2.33和2.21倍;在浮点计算性能方面,平均可提高3.36、5.95、2.29和2.13倍。 展开更多
关键词 稀疏矩阵向量乘法(SpMV) 重新排序 CSR格式 负载均衡 存储格式 图形处理器(gpu)
在线阅读 下载PDF
融合GPU的拟单层覆盖近似集计算方法
3
作者 吴正江 吕成功 王梦松 《计算机工程》 CAS CSCD 北大核心 2024年第5期71-82,共12页
拟单层覆盖粗糙集是一种匹配集值信息系统且有高质量和高效率的粗糙集模型。拟单层覆盖近似集的计算过程中存在大量计算密集且逻辑简单的运算,为此,提出拟单层覆盖近似集的矩阵化表示方法,以利用图形处理器(GPU)强大的计算性能加速计算... 拟单层覆盖粗糙集是一种匹配集值信息系统且有高质量和高效率的粗糙集模型。拟单层覆盖近似集的计算过程中存在大量计算密集且逻辑简单的运算,为此,提出拟单层覆盖近似集的矩阵化表示方法,以利用图形处理器(GPU)强大的计算性能加速计算过程。为了实现这一目标,使用布尔矩阵表示拟单层覆盖近似空间中的元素,引入与集合运算对应的布尔矩阵算子,提出拟单层覆盖粗糙近似集(DE、DA、DE0与DA0)的矩阵表示,并设计矩阵化拟单层覆盖近似集算法(M_SMC)。同时,相应的定理证明了拟单层覆盖近似集的矩阵表示形式与原始定义的等价性。然而,M_SMC运行过程中出现了矩阵存储和计算步骤的内存消耗过多问题。为了将算法部署到显存有限的GPU上,优化矩阵存储和计算步骤,提出分批处理的矩阵化拟单层覆盖近似集算法(BM_SMC)。在10个数据集上的实验结果表明,融合GPU的BM_SMC算法与单纯使用中央处理器(CPU)的BM_SMC算法相比计算效率提高2.16~11.3倍,BM_SMC算法可以在有限的存储空间条件下充分利用GPU,能够有效地提高拟单层覆盖近似集的计算效率。 展开更多
关键词 拟单层覆盖近似集 集值信息系统 矩阵化 gpu加速 分批处理
在线阅读 下载PDF
GNNSched:面向GPU的图神经网络推理任务调度框架 被引量:3
4
作者 孙庆骁 刘轶 +4 位作者 杨海龙 王一晴 贾婕 栾钟治 钱德沛 《计算机工程与科学》 CSCD 北大核心 2024年第1期1-11,共11页
由于频繁的显存访问,图神经网络GNN在GPU上运行时往往资源利用率较低。现有的推理框架由于没有考虑GNN输入的不规则性,直接适用到GNN进行推理任务共置时可能会超出显存容量导致任务失败。对于GNN推理任务,需要根据其输入特点预先分析并... 由于频繁的显存访问,图神经网络GNN在GPU上运行时往往资源利用率较低。现有的推理框架由于没有考虑GNN输入的不规则性,直接适用到GNN进行推理任务共置时可能会超出显存容量导致任务失败。对于GNN推理任务,需要根据其输入特点预先分析并发任务的显存占用情况,以确保并发任务在GPU上的成功共置。此外,多租户场景提交的推理任务亟需灵活的调度策略,以满足并发推理任务的服务质量要求。为了解决上述问题,提出了GNNSched,其在GPU上高效管理GNN推理任务的共置运行。具体来说,GNNSched将并发推理任务组织为队列,并在算子粒度上根据成本函数估算每个任务的显存占用情况。GNNSched实现了多种调度策略来生成任务组,这些任务组被迭代地提交到GPU并发执行。实验结果表明,GNNSched能够满足并发GNN推理任务的服务质量并降低推理任务的响应时延。 展开更多
关键词 图神经网络 图形处理器 推理框架 任务调度 估计模型
在线阅读 下载PDF
面向多核CPU与GPU平台的图处理系统关键技术综述 被引量:2
5
作者 张园 曹华伟 +5 位作者 张婕 申玥 孙一鸣 敦明 安学军 叶笑春 《计算机研究与发展》 EI CSCD 北大核心 2024年第6期1401-1428,共28页
图计算作为分析与挖掘关联关系的一种关键技术,已在智慧医疗、社交网络分析、金融反欺诈、地图道路规划、计算科学等领域广泛应用.当前,通用CPU与GPU架构的并行结构、访存结构、互连结构及同步机制的不断发展,使得多核CPU与GPU成为图处... 图计算作为分析与挖掘关联关系的一种关键技术,已在智慧医疗、社交网络分析、金融反欺诈、地图道路规划、计算科学等领域广泛应用.当前,通用CPU与GPU架构的并行结构、访存结构、互连结构及同步机制的不断发展,使得多核CPU与GPU成为图处理加速的常用平台.但由于图处理具有处理数据规模大、数据依赖复杂、访存计算比高等特性,加之现实应用场景下的图数据分布不规则且图中的顶点与边呈现动态变化,给图处理的性能提升和高可扩展性带来严峻挑战.为应对上述挑战,大量基于多核CPU与GPU平台的图处理系统被提出,并在该领域取得显著成果.为了让读者了解多核CPU与GPU平台上图处理优化相关技术的演化,首先剖析了图数据、图算法、图应用特性,并阐明图处理所面临的挑战.然后分类梳理了当前已有的基于多核CPU与GPU平台的图处理系统,并从加速图处理设计的角度,详细、系统地总结了关键优化技术,包括图数据预处理、访存优化、计算加速和数据通信优化等.最后对已有先进图处理系统的性能、可扩展性等进行分析,并从不同角度对图处理未来发展趋势进行展望,希望对从事图处理系统研究的学者有一定的启发. 展开更多
关键词 多核CPU与gpu平台 图处理系统 图数据表示 负载均衡 不规则访存 动态图处理
在线阅读 下载PDF
隐私计算环境下深度学习的GPU加速技术综述 被引量:1
6
作者 秦智翔 杨洪伟 +2 位作者 郝萌 何慧 张伟哲 《信息安全研究》 CSCD 北大核心 2024年第7期586-593,共8页
随着深度学习技术的不断发展,神经网络模型的训练时间越来越长,使用GPU计算对神经网络训练进行加速便成为一项关键技术.此外,数据隐私的重要性也推动了隐私计算技术的发展.首先介绍了深度学习、GPU计算的概念以及安全多方计算、同态加密... 随着深度学习技术的不断发展,神经网络模型的训练时间越来越长,使用GPU计算对神经网络训练进行加速便成为一项关键技术.此外,数据隐私的重要性也推动了隐私计算技术的发展.首先介绍了深度学习、GPU计算的概念以及安全多方计算、同态加密2种隐私计算技术,而后探讨了明文环境与隐私计算环境下深度学习的GPU加速技术.在明文环境下,介绍了数据并行和模型并行2种基本的深度学习并行训练模式,分析了重计算和显存交换2种不同的内存优化技术,并介绍了分布式神经网络训练过程中的梯度压缩技术.介绍了在隐私计算环境下安全多方计算和同态加密2种不同隐私计算场景下的深度学习GPU加速技术.简要分析了2种环境下GPU加速深度学习方法的异同. 展开更多
关键词 深度学习 gpu计算 隐私计算 安全多方计算 同态加密
在线阅读 下载PDF
基于GPU和角正交投影视图的多视角投影全息图
7
作者 曹雪梅 张春晓 +4 位作者 管明祥 夏林中 郭丽丽 苗玉虎 曹士平 《深圳大学学报(理工版)》 CAS CSCD 北大核心 2024年第5期536-541,共6页
针对多视角投影全息图生成速度慢的问题,提出一种基于计算机图形处理单元(graphics processing unit,GPU)的多视角投影计算全息图合成方法.获取多个角正交投影视图,充分利用GPU强大的并行计算能力,同时计算多幅投影视图对全息图的作用,... 针对多视角投影全息图生成速度慢的问题,提出一种基于计算机图形处理单元(graphics processing unit,GPU)的多视角投影计算全息图合成方法.获取多个角正交投影视图,充分利用GPU强大的并行计算能力,同时计算多幅投影视图对全息图的作用,即在计算过程中同时将沿着投影方向移位后的一系列角正交投影视图乘以其相应的常数相位因子.其中,每个投影图像的投影角决定了其移位的距离和常数相位因子.将所有并行计算结果累加,可以得到一个包含物体三维信息的二维复矩阵,即菲涅尔全息图.相较于使用计算机中央处理器(central processing unit,CPU)进行计算,本方法显著提升了计算速度,将计算效率提高了30~40倍,为多视角投影全息图的高效生成提供一种可行途径. 展开更多
关键词 信息处理技术 计算全息 全息显示 图形处理单元 角正交投影视图 多视角投影全息
在线阅读 下载PDF
GPU加速下的三维快速分解后向投影SAS成像算法
8
作者 陶鸿博 张东升 黄勇 《系统工程与电子技术》 EI CSCD 北大核心 2024年第10期3247-3256,共10页
后向投影(back projection,BP)算法是一种精确的时域成像算法,但BP算法的计算复杂度高,难以实现实时性成像,特别是在考虑三维成像时,BP算法的计算复杂度会进一步增加。提出一种应用在合成孔径声纳(synthetic aperture sonar,SAS)上的三... 后向投影(back projection,BP)算法是一种精确的时域成像算法,但BP算法的计算复杂度高,难以实现实时性成像,特别是在考虑三维成像时,BP算法的计算复杂度会进一步增加。提出一种应用在合成孔径声纳(synthetic aperture sonar,SAS)上的三维快速分解BP(fast factorized BP,FFBP)成像算法,并利用图形处理器(graphics processing unit,GPU)加速三维FFBP算法。经过对点目标的测试,计算时间从原本的263 s降低到了2.3 s,解决了SAS中的三维成像实时性问题。同时,验证了所提算法在非理想航迹下的成像效果。结果表明,在添加幅度不超过0.1 m(一个波长以内)的正弦扰动时,所提算法对点目标仍有良好的聚焦效果。 展开更多
关键词 快速分解后向投影 并行计算 图形处理器 合成孔径声纳 三维成像
在线阅读 下载PDF
基于GPU的LBM迁移模块算法优化 被引量:2
9
作者 黄斌 柳安军 +3 位作者 潘景山 田敏 张煜 朱光慧 《计算机工程》 CAS CSCD 北大核心 2024年第2期232-238,共7页
格子玻尔兹曼方法(LBM)是一种基于介观模拟尺度的计算流体力学方法,其在计算时设置大量的离散格点,具有适合并行的特性。图形处理器(GPU)中有大量的算术逻辑单元,适合大规模的并行计算。基于GPU设计LBM的并行算法,能够提高计算效率。但... 格子玻尔兹曼方法(LBM)是一种基于介观模拟尺度的计算流体力学方法,其在计算时设置大量的离散格点,具有适合并行的特性。图形处理器(GPU)中有大量的算术逻辑单元,适合大规模的并行计算。基于GPU设计LBM的并行算法,能够提高计算效率。但是LBM算法迁移模块中每个格点的计算都需要与其他格点进行通信,存在较强的数据依赖。提出一种基于GPU的LBM迁移模块算法优化策略。首先分析迁移部分的实现逻辑,通过模型降维,将三维模型按照速度分量离散为多个二维模型,降低模型的复杂度;然后分析迁移模块计算前后格点中的数据差异,通过数据定位找到迁移模块的通信规律,并对格点之间的数据交换方式进行分类;最后使用分类的交换方式对离散的二维模型进行区域划分,设计新的数据通信方式,由此消除数据依赖的影响,将迁移模块完全并行化。对并行算法进行测试,结果显示:该算法在1.3×10^(8)规模网格下能达到1.92的加速比,表明算法具有良好的并行效果;同时对比未将迁移模块并行化的算法,所提优化策略能提升算法30%的并行计算效率。 展开更多
关键词 高性能计算 格子玻尔兹曼方法 图形处理器 并行优化 数据重排
在线阅读 下载PDF
Falcon后量子算法的密钥树生成部件GPU并行优化设计与实现 被引量:1
10
作者 张磊 赵光岳 +1 位作者 肖超恩 王建新 《计算机工程》 CAS CSCD 北大核心 2024年第9期208-215,共8页
近年来,后量子密码算法因其具有抗量子攻击的特性成为安全领域的研究热点。基于格的Falcon数字签名算法是美国国家标准与技术研究所(NIST)公布的首批4个后量子密码标准算法之一。密钥树生成是Falcon算法的核心部件,在实际运算中占用较... 近年来,后量子密码算法因其具有抗量子攻击的特性成为安全领域的研究热点。基于格的Falcon数字签名算法是美国国家标准与技术研究所(NIST)公布的首批4个后量子密码标准算法之一。密钥树生成是Falcon算法的核心部件,在实际运算中占用较多的时间和消耗较多的资源。为此,提出一种基于图形处理器(GPU)的Falcon密钥树并行生成方案。该方案使用奇偶线程联合控制的单指令多线程(SIMT)并行模式和无中间变量的直接计算模式,达到了提升速度和减少资源占用的目的。基于Python的CUDA平台进行了实验,验证结果的正确性。实验结果表明,Falcon密钥树生成在RTX 3060 Laptop的延迟为6 ms,吞吐量为167次/s,在计算单个Falcon密钥树生成部件时相对于CPU实现了1.17倍的加速比,在同时并行1024个Falcon密钥树生成部件时,GPU相对于CPU的加速比达到了约56倍,在嵌入式Jetson Xavier NX平台上的吞吐量为32次/s。 展开更多
关键词 后量子密码 Falcon算法 图形处理器 CUDA平台 并行计算
在线阅读 下载PDF
NTRU格基密钥封装方案GPU高性能实现
11
作者 李文倩 沈诗羽 赵运磊 《计算机学报》 EI CAS CSCD 北大核心 2024年第9期2163-2178,共16页
随着量子计算技术的发展,传统加密算法受到的威胁日益严重.为应对量子计算时代的挑战,各国正积极加强后量子密码算法的实现和迁移部署工作.由于NTRU密码方案具有结构简洁、计算效率高、尺寸较小、无专利风险等优点,因此NTRU格基密钥封... 随着量子计算技术的发展,传统加密算法受到的威胁日益严重.为应对量子计算时代的挑战,各国正积极加强后量子密码算法的实现和迁移部署工作.由于NTRU密码方案具有结构简洁、计算效率高、尺寸较小、无专利风险等优点,因此NTRU格基密钥封装算法对于后量子时代的密码技术储备和应用具有重要意义.同时,图形处理器(Graphics Processing Unit,GPU)以其强大的并行计算能力、高吞吐量、低能耗等特性,已成为当前高并发密码工程实现的重要平台.本文给出后量子密码算法CTRU/CNTR的首个GPU高性能实现方案.对GPU主要资源占用进行分析,我们综合考虑并行计算、内存访问、数据布局和算法优化等多个方面,采用一系列计算和内存优化技术,旨在并行加速计算、优化访存、合理占用GPU资源以及减少I/O时延,从而提高本方案的计算能力和性能.本文的主要贡献在于以下几个方面:首先,针对模约减操作,使用NVIDIA并行指令集实现,有效减少所需指令条数;其次,针对耗时的多项式乘法模块,采用混合基NTT,并采用层融合、循环展开和延迟约减等方法,加快计算速度;此外,针对内存重复访问和冲突访问等问题,通过合并访存、核函数融合等优化技术,实现内存的高效访问;最后,为实现高并行的算法,设计恰当的线程块大小和数量,采用内存池机制,实现多任务的快速访存和高效处理.基于NVIDIA RTX4090平台,本方案CTRU768实现中密钥生成、封装和解封装的吞吐量分别为每秒1170.9万次、926.7万次和315.4万次.与参考实现相比,密钥生成、封装和解封装的吞吐量分别提高了336倍、174倍和128倍.本方案CNTR768实现中密钥生成、封装和解封装的吞吐量分别为每秒1117.3万次、971.8万次和322.2万次.与参考实现相比,密钥生成、封装和解封装的吞吐量分别提高了329倍、175倍和134倍;与开源Kyber实现相比,密钥生成、密钥封装和密钥解封装的吞吐量分别提升10.84~11.36倍、9.49~9.95倍和5.11~5.22倍.高性能的密钥封装实现在大规模任务处理场景下具有较大的应用潜力,对保障后量子时代的信息和数据安全具有重要意义. 展开更多
关键词 后量子密码 格基密码 密钥封装方案 并行处理 图形处理器
在线阅读 下载PDF
基于GPU对角稀疏矩阵向量乘法的动态划分算法
12
作者 涂进兴 李志雄 黄建强 《计算机应用》 CSCD 北大核心 2024年第11期3521-3529,共9页
在图形处理器(GPU)上实现对角稀疏矩阵向量乘法(SpMV)可以充分利用GPU的并行计算能力,并加速矩阵向量乘法;然而,相关主流算法存在零元填充数据多、计算效率低的问题。针对上述问题,提出一种对角SpMV算法DIA-Dynamic(DIAgonal-Dynamic)... 在图形处理器(GPU)上实现对角稀疏矩阵向量乘法(SpMV)可以充分利用GPU的并行计算能力,并加速矩阵向量乘法;然而,相关主流算法存在零元填充数据多、计算效率低的问题。针对上述问题,提出一种对角SpMV算法DIA-Dynamic(DIAgonal-Dynamic)。首先,设计一种全新的动态划分策略,根据矩阵的不同特征进行分块,在保证GPU高计算效率的同时大幅减少零元填充,去除冗余计算量;其次,提出一种对角稀疏矩阵存储格式BDIA(Block DIAgonal)存储分块数据,并调整数据布局,提高GPU上的访存性能;最后,基于GPU的底层进行条件分支优化,以减少分支判断,并使用动态共享内存解决向量的不规则访问问题。DIA-Dynamic与前沿Tile SpMV算法相比,平均加速比达到了1.88;与前沿BRCSD(Diagonal Compressed Storage based on Row-Blocks)-Ⅱ算法相比,平均零元填充减少了43%,平均加速比达到了1.70。实验结果表明,DIA-Dynamic能够有效提高GPU上对角SpMV的计算效率,缩短计算时间,提升程序性能。 展开更多
关键词 图形处理器 对角稀疏矩阵 稀疏矩阵向量乘法 动态划分 共享内存
在线阅读 下载PDF
基于知识图谱的钻井顶部驱动装置故障智能诊断方法 被引量:1
13
作者 陈冬 肖远山 +2 位作者 尹志勇 张彦龙 叶智慧 《天然气工业》 北大核心 2025年第2期125-135,共11页
钻井顶部驱动装置结构复杂、故障类型多样,现有的故障树分析法和专家系统难以有效应对复杂多变的现场情况。为此,利用知识图谱在结构化与非结构化信息融合、故障模式关联分析以及先验知识传递方面的优势,提出了一种基于知识图谱的钻井... 钻井顶部驱动装置结构复杂、故障类型多样,现有的故障树分析法和专家系统难以有效应对复杂多变的现场情况。为此,利用知识图谱在结构化与非结构化信息融合、故障模式关联分析以及先验知识传递方面的优势,提出了一种基于知识图谱的钻井顶部驱动装置故障诊断方法,利用以Transformer为基础的双向编码器模型(Bidirectional Encoder Representations from Transformers,BERT)构建了混合神经网络模型BERT-BiLSTM-CRF与BERT-BiLSTM-Attention,分别实现了顶驱故障文本数据的命名实体识别和关系抽取,并通过相似度计算,实现了故障知识的有效融合和智能问答,最终构建了顶部驱动装置故障诊断方法。研究结果表明:①在故障实体识别任务上,BERT-BiLSTM-CRF模型的精确度达到95.49%,能够有效识别故障文本中的信息实体;②在故障关系抽取上,BERT-BiLSTM-Attention模型的精确度达到93.61%,实现了知识图谱关系边的正确建立;③开发的问答系统实现了知识图谱的智能应用,其在多个不同类型问题上的回答准确率超过了90%,能够满足现场使用需求。结论认为,基于知识图谱的故障诊断方法能够有效利用顶部驱动装置的先验知识,实现故障的快速定位与智能诊断,具备良好的应用前景。 展开更多
关键词 钻井装备 顶部驱动装置 故障诊断 深度学习 知识图谱 自然语言处理 命名实体识别 智能问答系统
在线阅读 下载PDF
GPU上两阶段负载调度问题的建模与近似算法 被引量:7
14
作者 孙景昊 邓庆绪 孟亚坤 《软件学报》 EI CSCD 北大核心 2014年第2期298-313,共16页
随着硬件功能的不断丰富和软件开发环境的逐渐成熟,GPU(graphics processing unit)越来越多地被应用到通用计算领域,并对诸多计算系统(尤其是嵌入式系统)性能的显著提升起到了至关重要的作用.在基于GPU的计算系统中,大规模并行负载同时... 随着硬件功能的不断丰富和软件开发环境的逐渐成熟,GPU(graphics processing unit)越来越多地被应用到通用计算领域,并对诸多计算系统(尤其是嵌入式系统)性能的显著提升起到了至关重要的作用.在基于GPU的计算系统中,大规模并行负载同时进行数据传输和加载的情况时常发生,数据传输延时在系统性能全局最优化中变得不容忽视.综合考虑负载的传输时间和执行时间,以总负载makespan最小化作为系统性能的全局优化目标,研究了GPU上负载"传输-执行"联合调度问题.首先,将负载的时间信息和并行任务数与矩形域的二维空间联系起来,建立了负载的2D双层矩形域模型;然后,将GPU上负载调度问题归结为一类Strip-Packing问题;最后,基于贪婪策略给出了近似度为3的多项式时间近似算法,算法复杂度为O(nlogn).该近似算法的核心是对数据传输阶段进行负载排序调度.这从理论层面上证明了GPU系统采取"传输-执行"两阶段调度的有效性,即,在数据传输阶段采取负载排序调度,在负载执行阶段采取先来先服务(first-come-first-serve,简称FCFS)调度,能够使GPU性能达到全局最优或近似最优. 展开更多
关键词 gpu(graphics processing unit) 数据传输 负载排序 strip-packing 近似算法
在线阅读 下载PDF
基于GPU的实时深度图像前向映射绘制算法 被引量:7
15
作者 刘保权 刘学慧 吴恩华 《软件学报》 EI CSCD 北大核心 2007年第6期1531-1542,共12页
提出一种完全基于GPU(graphics processing unit)的实时深度图像绘制流程.该方法利用GPU的并行计算特性对深度图像的绘制过程进行加速.推导出一种在vertex shader上进行的三维前向映射方法,对输入像素进行前向映射,以得到更高的绘制性能... 提出一种完全基于GPU(graphics processing unit)的实时深度图像绘制流程.该方法利用GPU的并行计算特性对深度图像的绘制过程进行加速.推导出一种在vertex shader上进行的三维前向映射方法,对输入像素进行前向映射,以得到更高的绘制性能,并利用图形硬件流水线的光栅化功能高效地进行图像的插值重构,以得到连续无洞的结果图像.在pixel shader上进行逐像素的光照计算,生成高品质的光照效果.实验表明,该方法可以高速地进行满屏绘制,准确地保留物体轮廓信息和正确的遮挡关系.还实现了基于该方法的实时漫游系统.该系统能够实时地绘制多个基于柱面深度图像表示的对象,并能对其进行视相关的动态LOD(level of detail)操作. 展开更多
关键词 图形硬件 gpu(graphics processing unit) 实时绘制 深度图像 基于图像的绘制 逐像素光照
在线阅读 下载PDF
地震叠前逆时偏移算法的CPU/GPU实施对策 被引量:83
16
作者 李博 刘红伟 +4 位作者 刘国峰 佟小龙 刘洪 郭建 裴江云 《地球物理学报》 SCIE EI CAS CSCD 北大核心 2010年第12期2938-2943,共6页
相较于单程波偏移算法而言,逆时偏移成像方法以其物理基础为依托优势,几十年来一直备受国内外地球物理学家的青睐.目前的逆时偏移(RTM)若直接采用双程波动方程进行延拓,尽管可以回避上下行波的分离处理,然就已有算法而言,其计算量和I/O... 相较于单程波偏移算法而言,逆时偏移成像方法以其物理基础为依托优势,几十年来一直备受国内外地球物理学家的青睐.目前的逆时偏移(RTM)若直接采用双程波动方程进行延拓,尽管可以回避上下行波的分离处理,然就已有算法而言,其计算量和I/O(输入/输出)量却是最大的.针对此问题,本文在分析现行逆时偏移的多种算法基础上,提出利用CPU/GPU(中央处理器/图形处理器)作为数值计算核心,建立随机边界模型,从而克服存储I/O难题和提高计算效率.在实际的数据测试中,本文的方法可以大幅度的提高计算效率和减少存储单元,从而促使其高效地应用于生产实际. 展开更多
关键词 逆时偏移 波动方程 随机边界 中央处理器 图形处理器
在线阅读 下载PDF
云计算环境下多GPU资源调度机制研究 被引量:4
17
作者 吕相文 袁家斌 张玉洁 《小型微型计算机系统》 CSCD 北大核心 2016年第4期687-693,共7页
资源调度是云计算中的关键问题之一,它的调度机制与算法直接影响到云计算系统的性能及成本.GPU(graphics processing unit)正越来越多地被应用到通用计算领域,作为高性能云计算系统中的特殊计算资源,对GPU计算资源的调度有其特殊性.综... 资源调度是云计算中的关键问题之一,它的调度机制与算法直接影响到云计算系统的性能及成本.GPU(graphics processing unit)正越来越多地被应用到通用计算领域,作为高性能云计算系统中的特殊计算资源,对GPU计算资源的调度有其特殊性.综合考虑计算任务在节点间以及节点内部的数据传输延迟,以充分利用系统GPU计算资源、掩藏传输延迟为目标,研究了云环境下多GPU的"传输&传输&执行"三段调度问题.提出一种云环境下GPU计算资源调度机制MGSC(Multi-GPU resource Scheduling scheme in Cloud environment):考虑了GPU计算中传输与计算的因素,讨论了在GPU计算中出现的四种资源需求情况,建立GPU计算资源模型;为了减轻中心节点的任务处理压力,设计了基于树型结构的GPU资源分布式检索算法.实验结果说明,MGSC在满足多用户共享GPU计算资源的同时,能够较好地提高云计算系统中GPU计算资源利用率,获得较高的服务质量,有效地减少资源闲置,降低服务提供者的服务成本. 展开更多
关键词 云计算 gpu(graphics processing unit) 资源调度 分布式检索算法
在线阅读 下载PDF
基于GPU的MD5高速解密算法的实现 被引量:15
18
作者 乐德广 常晋义 +1 位作者 刘祥南 郭东辉 《计算机工程》 CAS CSCD 北大核心 2010年第11期154-155,158,共3页
MD5快速碰撞算法由于不支持逆向过程而无法在MD5密码攻击中得到实际应用。针对上述问题,通过分析基于图形处理单元(GPU)的MD5密码并行攻击算法原理,设计基于GPU的MD5高速解密算法,在此基础上实现一个MD5高速密码攻击系统。测试结果证明... MD5快速碰撞算法由于不支持逆向过程而无法在MD5密码攻击中得到实际应用。针对上述问题,通过分析基于图形处理单元(GPU)的MD5密码并行攻击算法原理,设计基于GPU的MD5高速解密算法,在此基础上实现一个MD5高速密码攻击系统。测试结果证明,该算法能有效加快MD5密码破解速度。 展开更多
关键词 MD5算法 密码学 图形处理单元
在线阅读 下载PDF
基于GPU并行算法的水动力数学模型建立及其效率分析 被引量:11
19
作者 赵旭东 梁书秀 +3 位作者 孙昭晨 刘忠波 韩松林 任喜峰 《大连理工大学学报》 EI CAS CSCD 北大核心 2014年第2期204-209,共6页
应用非结构化网格建立水动力模型目前已经得到了广泛的应用.针对在网格数过多,且无集群机情况下难以快速获得计算结果这一问题,基于GPU的高性能计算技术,在CUDA开发平台下设计并行算法,建立非结构化网格的二维水动力模型.与利用GTX460... 应用非结构化网格建立水动力模型目前已经得到了广泛的应用.针对在网格数过多,且无集群机情况下难以快速获得计算结果这一问题,基于GPU的高性能计算技术,在CUDA开发平台下设计并行算法,建立非结构化网格的二维水动力模型.与利用GTX460显卡和集群机的计算效率对比表明,在保持计算精度的前提下,速度提升了一个量级,且随着网格数的持续递增,可以保持较高的加速比增幅,比较适合应用于大范围海域的水动力模型的数值计算. 展开更多
关键词 gpu 非结构化网格 水动力模型
在线阅读 下载PDF
基于GPU和Kinect的快速物体重建 被引量:50
20
作者 刘鑫 许华荣 胡占义 《自动化学报》 EI CSCD 北大核心 2012年第8期1288-1297,共10页
便宜的物体快速三维建模技术是当前计算机视觉领域重要的研究课题.给出了一种基于Kinect传感器的快速物体重建方法,以及基于该方法的一种图形处理器(Graphic processing unit,GPU)原型系统实现.本文方法主要分为两步:1)系统的初始标定;2... 便宜的物体快速三维建模技术是当前计算机视觉领域重要的研究课题.给出了一种基于Kinect传感器的快速物体重建方法,以及基于该方法的一种图形处理器(Graphic processing unit,GPU)原型系统实现.本文方法主要分为两步:1)系统的初始标定;2)全自动的物体重建.对于系统初始标定,提出了一种简单易用的粗标定方法;对于物体重建,提出一种全自动的快速物体重建方法.本文方法鲁棒性高,在出现点云配准错误时仍然能够稳定地得到较理想的重建模型.针对环闭合(Loop-closure)问题,提出了一种全局的点云配准方法.对几类物体的重建实验结果表明,本文方法方便实用,且能得到较好的重建效果.此外,本文还探索了有遮挡物体的重建问题.将本文方法应用于有遮挡物体的重建,也取得了较好的重建效果. 展开更多
关键词 三维物体建模 图形处理器 KINECT 遮挡问题 环闭合
在线阅读 下载PDF
上一页 1 2 21 下一页 到第
使用帮助 返回顶部