期刊文献+
共找到48篇文章
< 1 2 3 >
每页显示 20 50 100
面向SW26010P的异形矩阵乘法众核并行优化技术研究
1
作者 胡怡 陈道琨 杨超 《计算机工程与应用》 北大核心 2025年第6期150-163,共14页
矩阵乘法广泛应用于科学与工程计算领域,是基础线性代数库中的关键优化对象。随着人工神经网络、计算流体力学等领域的快速发展,异形(irregular-shaped)矩阵乘法正在迅速引起关注。研究集中在针对国产新一代神威超级计算机采用的SW26010... 矩阵乘法广泛应用于科学与工程计算领域,是基础线性代数库中的关键优化对象。随着人工神经网络、计算流体力学等领域的快速发展,异形(irregular-shaped)矩阵乘法正在迅速引起关注。研究集中在针对国产新一代神威超级计算机采用的SW26010P众核处理器,探讨异形矩阵乘法的众核并行优化技术。具体而言,结合SW26010P的硬件特性和异形矩阵的数据布局,设计了多样化任务划分映射的并行算法,提高直接内存访问(direct memory access,DMA)访存带宽利用率。结合SW26010P的硬件流水线和向量化访存/计算指令,抽象运算中涉及的计算类型进行底层汇编优化,提高了计算效率。提出了远程内存访问(remote memory access,RMA)点对点机制下的数据共享策略,降低数据访存和传输开销,并提出了嵌套双缓冲技术进一步提高异形矩阵乘法的性能。此外,针对不同种类异形矩阵乘法行实现时面临的分块参数适配问题,基于SW26010P众核处理器进行实验分析研究,确定了各函数并行化时的最优分块参数。实验结果显著,所优化的异形矩阵乘法的性能最高可达roofline模型预测性能上限的93%,相较于常规大规模矩阵乘法算法平均获得了5.43倍的性能加速,最高可获得51.5倍的性能加速。 展开更多
关键词 异形矩阵乘法 SW26010P众核处理器 多样化任务划分映射 RMA点对点机制 嵌套双缓冲技术
在线阅读 下载PDF
基于GPU的非标记定量软件QuantWiz并行化实现
2
作者 费辉 张云泉 王靖 《计算机科学》 CSCD 北大核心 2012年第6期285-288,共4页
QuantWiz是一款基于质谱的非标记定量软件,可很好地应用于定量蛋白质组学。实验数据的日益增大,使定量的计算量巨大,耗费时间长。GPU以几百GFlops甚至上TFlops的运算能力,为定量蛋白质组学这样的计算密集型应用提供了良好的加速方案。对... QuantWiz是一款基于质谱的非标记定量软件,可很好地应用于定量蛋白质组学。实验数据的日益增大,使定量的计算量巨大,耗费时间长。GPU以几百GFlops甚至上TFlops的运算能力,为定量蛋白质组学这样的计算密集型应用提供了良好的加速方案。对QuantWiz软件做了深入的研究与分析,找到了软件性能的热点模块所在,提出了该软件在GPU上的加速方案———GPU-QuantWiz,并进行了实现。性能测试显示,在Tesla C1060上,该方案的平均加速比达到9.66倍,得到了良好的加速效果。同时,该方案还可以扩展到两块及以上的GPU上,具有良好的可扩展性。 展开更多
关键词 非标记定量 蛋白质组 QuantWiz GPU 并行计算
在线阅读 下载PDF
面向SW26010-Pro众核处理器的新型矩阵存储格式及稀疏矩阵向量乘(SpMV)算法研究
3
作者 王萃 刘芳芳 +2 位作者 马文静 赵玉文 胡力娟 《计算机学报》 北大核心 2025年第6期1290-1304,共15页
稀疏矩阵向量乘(Sparse Matrix-Vector Multiplication,SpMV)是高性能计算、人工智能大模型领域中的关键操作,其性能通常对应用程序整体性能的提升具有重要影响。高效的稀疏矩阵存储格式是影响SpMV性能的重要因素,然而,现有的稀疏矩阵... 稀疏矩阵向量乘(Sparse Matrix-Vector Multiplication,SpMV)是高性能计算、人工智能大模型领域中的关键操作,其性能通常对应用程序整体性能的提升具有重要影响。高效的稀疏矩阵存储格式是影响SpMV性能的重要因素,然而,现有的稀疏矩阵存储格式主要通过压缩零元素以减少访存,未充分利用非零元素的数值规律,因此仍有进一步压缩和优化的空间。本文通过对压缩稀疏行(Compressed Sparse Row,CSR)存储格式中非零元数组内的重复元素进行进一步的压缩,提出了一种新型的稀疏矩阵存储格式(Further Compressed Sparse Row,FCSR),并设计了从CSR到FCSR格式转换的异构并行算法,以尽量减少格式转换带来的开销。同时,本文面向SW26010-Pro众核处理器,设计了基于FCSR存储格式的SpMV异构并行算法,对SpMV进行了细粒度的任务划分和并行优化设计,探究了五种向量x的间接访存方式,并通过双缓冲技术对算法进行了优化。最后,本文选用SuiteSparse矩阵集中的稀疏矩阵进行了测试,实验结果表明,本文提出的基于FCSR存储格式的异构众核SpMV算法相较于主核版SpMV算法具有明显的性能提升,最高加速比达到43.11,平均加速比为7.56,测试矩阵最高带宽利用率达到了91.13%,平均带宽利用率为26.27%。另外,本文对基于FCSR存储格式和CSR存储格式的SpMV算法性能进行了比较,在两者均得到充分优化的前提下,基于FCSR存储格式的SpMV算法相较于基于CSR存储格式的SpMV算法性能的平均加速比达到1.19。 展开更多
关键词 稀疏矩阵向量乘 SW26010-Pro众核处理器 新型矩阵存储格式 并行优化 双缓冲技术
在线阅读 下载PDF
一种基于软件定义安全和云取证趋势分析的云取证方法 被引量:9
4
作者 刘雪花 丁丽萍 +3 位作者 刘文懋 郑涛 李彦峰 吴敬征 《计算机研究与发展》 EI CSCD 北大核心 2019年第10期2262-2276,共15页
随着云计算的发展与普及,云计算环境下的安全问题日益突出.云取证技术作为事后追责与惩治技术手段,对维护云计算环境安全具有重大意义.云取证技术研究发展尚处于早期,云取证面临电子证据不完整、取证开销较大、取证过程智能化不足等难题... 随着云计算的发展与普及,云计算环境下的安全问题日益突出.云取证技术作为事后追责与惩治技术手段,对维护云计算环境安全具有重大意义.云取证技术研究发展尚处于早期,云取证面临电子证据不完整、取证开销较大、取证过程智能化不足等难题.为缓解这些问题,提出一种基于软件定义安全(software defined security,SDS)和云取证趋势分析的智能云取证方法.首先,提出一种基于软件定义安全的云取证架构,实现云网络与云计算平台协同实时取证.其次,提出基于隐Markov模型的云取证趋势分析算法,实现云取证架构中的智能取证策略决策和智能取证资源调度.实验结果表明:相较于单独的网络取证与云计算平台取证,该方法取证能力提高至91.6%,而取证开销则介于两者之间.该方法对云服务商提供云取证服务具有广泛的借鉴意义. 展开更多
关键词 云计算 云取证 电子数据取证 软件定义安全 隐MARKOV模型 云取证趋势
在线阅读 下载PDF
2015年中国高性能计算机发展现状分析 被引量:11
5
作者 袁国兴 姚继锋 《计算机工程与科学》 CSCD 北大核心 2015年第12期2195-2199,共5页
根据2015年11月发布的中国高性能计算机性能TOP100排行榜的数据,对国内高性能计算机的发展现状从总体性能、制造商、行业领域等方面进行了讨论分析,同时对未来发展进行了展望。
关键词 高性能计算机 性能 排行榜 测评技术
在线阅读 下载PDF
2016年中国高性能计算机发展现状分析 被引量:11
6
作者 袁国兴 姚继锋 《计算机工程与科学》 CSCD 北大核心 2016年第12期2375-2380,共6页
根据2016年10月发布的中国高性能计算机性能TOP100排行榜的数据,对国内高性能计算机的发展现状从总体性能、制造商、行业领域、部署机构等方面进行了讨论分析,同时对未来发展进行了展望。
关键词 高性能计算机 性能 排行榜 系统测评技术
在线阅读 下载PDF
2014年中国高性能计算机发展现状分析 被引量:11
7
作者 袁国兴 姚继锋 《计算机工程与科学》 CSCD 北大核心 2014年第12期2239-2241,共3页
根据2014年11月发布的中国高性能计算机性能TOP100排行榜的数据,对国内高性能计算机的发展现状从总体性能、制造商、行业领域等方面进行了讨论分析,同时对未来发展进行了展望。
关键词 高性能计算机 性能 排行榜 测评技术
在线阅读 下载PDF
大整数乘法Sch?nhage-Strassen算法的多核并行化研究 被引量:2
8
作者 赵玉文 刘芳芳 +1 位作者 蒋丽娟 杨超 《软件学报》 EI CSCD 北大核心 2018年第12期3604-3613,共10页
基于数论转换的Sch?nhage-Strassen算法(简称SSA)是目前实际应用中使用较多、速度较快的大整数乘法算法之一.首先对SSA算法原理进行了详细分析,然后从细粒度的角度对SSA算法在多核平台进行比较细致的并行优化.基于大整数运算开源库GMP... 基于数论转换的Sch?nhage-Strassen算法(简称SSA)是目前实际应用中使用较多、速度较快的大整数乘法算法之一.首先对SSA算法原理进行了详细分析,然后从细粒度的角度对SSA算法在多核平台进行比较细致的并行优化.基于大整数运算开源库GMP实现了SSA算法并行化方案,并在Intel X86平台进行了验证和测试.经测试,8线程时的最大加速比可达到6.59,平均加速比6.41.在浪潮TS850服务器对并行方案的扩展性进行测试,实验结果表明:SSA算法并行方案具有良好的扩展性,最大加速比可达21.42. 展开更多
关键词 大整数乘法 Schonhage-Strassen算法(SSA) 傅里叶变换 FFT 多核并行
在线阅读 下载PDF
2017年中国高性能计算机发展现状分析 被引量:10
9
作者 袁国兴 姚继锋 《计算机工程与科学》 CSCD 北大核心 2017年第12期2161-2166,共6页
根据2017年10月发布的中国高性能计算机性能TOP100排行榜的数据,对国内高性能计算机的发展现状从总体性能、制造商、行业领域、部署机构等方面进行了讨论分析,同时对未来发展进行了展望。
关键词 高性能计算机 性能 排行榜 测评技术
在线阅读 下载PDF
基于Pthreads的车辆图像兴趣区域提取并行算法研究
10
作者 周艺华 王文东 +2 位作者 陈宏彩 王婷 张常有 《计算机科学》 CSCD 北大核心 2017年第3期36-37,69,共3页
为了提高公安机关查找犯罪车辆的效率,提高车辆识别的效率很必要。据统计,提取兴趣区域(Region Of Interest,ROI)约占车型识别过程的60%,因此如何加速提取ROI过程尤其重要。首先,通过数据划分方法实现基本并行算法;然后,经过实验分析,... 为了提高公安机关查找犯罪车辆的效率,提高车辆识别的效率很必要。据统计,提取兴趣区域(Region Of Interest,ROI)约占车型识别过程的60%,因此如何加速提取ROI过程尤其重要。首先,通过数据划分方法实现基本并行算法;然后,经过实验分析,在基本并行算法的基础上,精心设计预处理过程的分解方案,设置多队列缓冲区,减少共用缓冲区的线程数量和每个缓冲区互斥锁锁定的次数。实验证明,所提算法在双CPU 12核(支持超线程到24线程)的服务器上运行,相对于串行算法,实现了13.1x的加速比。 展开更多
关键词 车型识别 兴趣区域 并行化 Pthreads 多核
在线阅读 下载PDF
基于OpenCL的连续数据无关访存密集型函数并行与优化研究 被引量:1
11
作者 蒋丽媛 张云泉 +1 位作者 龙国平 贾海鹏 《计算机科学》 CSCD 北大核心 2013年第3期111-115,共5页
连续的数据无关是指计算目标矩阵连续的元素时使用的源矩阵元素之间没有关系且也为连续的,访存密集型是指函数的计算量较小,但是有大量的数据传输操作。在OpenCL框架下,以bitwise函数为例,研究和实现了连续数据无关访存密集型函数在GPU... 连续的数据无关是指计算目标矩阵连续的元素时使用的源矩阵元素之间没有关系且也为连续的,访存密集型是指函数的计算量较小,但是有大量的数据传输操作。在OpenCL框架下,以bitwise函数为例,研究和实现了连续数据无关访存密集型函数在GPU平台上的并行与优化。在考察向量化、线程组织方式和指令选择优化等多个优化角度在不同的GPU硬件平台上对性能的影响之后,实现了这个函数的跨平台性能移植。实验结果表明,在不考虑数据传输的前提下,优化后的函数与这个函数在OpenCV库中的CPU版本相比,在AMD HD 5850GPU达到了平均40倍的性能加速比;在AMD HD 7970GPU达到了平均90倍的性能加速比;在NVIDIA Tesla C2050GPU上达到了平均60倍的性能加速比;同时,与这个函数在OpenCV库中的CUDA实现相比,在NVIDIA Tesla C2050平台上也达到了1.5倍的性能加速。 展开更多
关键词 GPU OPENCL 向量化 ROI
在线阅读 下载PDF
基于Julia语言的并行计算方法初探 被引量:1
12
作者 巩庆奎 张常有 +1 位作者 张先轶 张云泉 《计算机科学》 CSCD 北大核心 2015年第1期44-46,共3页
Julia语言是一种在MIT许可证下免费的开发中脚本语言(beta 0.2.0),目标是降低并行程序的编程难度。基于Julia现有语法机制,逐步增强Julia语法特性,结合公交线路的平均走行时间统计案例,研究Julia并行编程框架和程序逐步精化的方法。Juli... Julia语言是一种在MIT许可证下免费的开发中脚本语言(beta 0.2.0),目标是降低并行程序的编程难度。基于Julia现有语法机制,逐步增强Julia语法特性,结合公交线路的平均走行时间统计案例,研究Julia并行编程框架和程序逐步精化的方法。Julia程序支持本地多核心/多CPU并行计算。为充分发挥实验平台的计算潜能,尝试了提高Julia程序计算性能的策略。对案例程序的实验分析表明,Julia并行程序在管理计算核心方面耗费了一定的工作时间,但随着问题规模的增大,其影响可逐渐忽略,从而可获得接近线性的加速比。 展开更多
关键词 Julia语言 计算规模 并行程序 程序精化 性能分析
在线阅读 下载PDF
国产SW26010-Pro处理器上3级BLAS函数众核并行优化 被引量:3
13
作者 胡怡 陈道琨 +5 位作者 杨超 马文静 刘芳芳 宋超博 孙强 史俊达 《软件学报》 EI CSCD 北大核心 2024年第3期1569-1584,共16页
BLAS(basic linear algebra subprograms)是最基本、最重要的底层数学库之一.在一个标准的BLAS库中,BLAS 3级函数涵盖的矩阵-矩阵运算尤为重要,在许多大规模科学与工程计算应用中被广泛调用.另外,BLAS 3级属于计算密集型函数,对充分发... BLAS(basic linear algebra subprograms)是最基本、最重要的底层数学库之一.在一个标准的BLAS库中,BLAS 3级函数涵盖的矩阵-矩阵运算尤为重要,在许多大规模科学与工程计算应用中被广泛调用.另外,BLAS 3级属于计算密集型函数,对充分发挥处理器的计算性能有至关重要的作用.针对国产SW26010-Pro处理器研究BLAS 3级函数的众核并行优化技术.具体而言,根据SW26010-Pro的存储层次结构,设计多级分块算法,挖掘矩阵运算的并行性.在此基础上,基于远程内存访问(remote memory access,RMA)机制设计数据共享策略,提高从核间的数据传输效率.进一步地,采用三缓冲、参数调优等方法对算法进行全面优化,隐藏直接内存访问(direct memory access,DMA)访存开销和RMA通信开销.此外,利用SW26010-Pro的两条硬件流水线和若干向量化计算/访存指令,还对BLAS 3级函数的矩阵-矩阵乘法、矩阵方程组求解、矩阵转置操作等若干运算进行手工汇编优化,提高了函数的浮点计算效率.实验结果显示,所提出的并行优化技术在SW26010-Pro处理器上为BLAS 3级函数带来了明显的性能提升,单核组BLAS 3级函数的浮点计算性能最高可达峰值性能的92%,多核组BLAS 3级函数的浮点计算性能最高可达峰值性能的88%. 展开更多
关键词 BLAS 3级 SW26010-Pro众核处理器 直接内存访问 远程内存访问 浮点计算效率
在线阅读 下载PDF
基于MPI和CUDA的蛋白质定量软件的设计和分析
14
作者 詹科 王靖 +1 位作者 袁良 张云泉 《计算机科学》 CSCD 北大核心 2013年第3期36-37,54,共3页
介绍了蛋白质定量软件的设计及测试结果,分析结果表明:P-QuantWiz软件在曙光6000的Intel集群部分,测试规模达到2048核,在256核加速比仍在增加。相对P-QuantWiz软件在单CPU运行的结果,PG-QuantWiz软件在单GPU运行的加速比为8.1,在16个GP... 介绍了蛋白质定量软件的设计及测试结果,分析结果表明:P-QuantWiz软件在曙光6000的Intel集群部分,测试规模达到2048核,在256核加速比仍在增加。相对P-QuantWiz软件在单CPU运行的结果,PG-QuantWiz软件在单GPU运行的加速比为8.1,在16个GPU上运行的加速比为14.18,并行效率为89%。 展开更多
关键词 MPI CUDA 蛋白质定量
在线阅读 下载PDF
比特币去匿名化技术研究综述
15
作者 程杰 金伟 +5 位作者 夏清 李淼 戴韡 张亚丰 戴蓬 李玉成 《通信学报》 EI CSCD 北大核心 2024年第11期244-266,共23页
比特币系统基于区块链技术,具备去中心化、无国界、匿名性等特点,受到产学研界广泛关注。然而,比特币系统在为用户提供隐私保护的同时,也为不法分子开展非法活动提供便利。因此,去匿名化技术研究持续进行并取得系列成果。现有综述多关... 比特币系统基于区块链技术,具备去中心化、无国界、匿名性等特点,受到产学研界广泛关注。然而,比特币系统在为用户提供隐私保护的同时,也为不法分子开展非法活动提供便利。因此,去匿名化技术研究持续进行并取得系列成果。现有综述多关注隐私保护方案,缺乏去匿名化技术系统梳理。基于此,从用户身份识别、关联地址识别、资金链路追踪3个维度分析现有去匿名化技术及其效果,总结发展现状和难点,并指出未来研究方向。 展开更多
关键词 比特币 去匿名化 身份识别 关联地址识别 资金链路追踪
在线阅读 下载PDF
区块链环境下的新型网络隐蔽信道模型研究 被引量:21
16
作者 李彦峰 丁丽萍 +3 位作者 吴敬征 崔强 刘雪花 关贝 《通信学报》 EI CSCD 北大核心 2019年第5期67-78,共12页
区块链是随着数字货币商品兴起的去中心化基础架构,具有安全可信、顽健性高等特点。首次提出区块链环境下的网络隐蔽信道模型,具有抗干扰性、抗篡改性、多线路通信性、接收方匿名性、线路无关性,可以克服现有网络环境下的隐蔽信道特性... 区块链是随着数字货币商品兴起的去中心化基础架构,具有安全可信、顽健性高等特点。首次提出区块链环境下的网络隐蔽信道模型,具有抗干扰性、抗篡改性、多线路通信性、接收方匿名性、线路无关性,可以克服现有网络环境下的隐蔽信道特性缺陷等弊端。首先提出了区块链网络隐蔽信道模型,用形式化方法建模并证明了抗干扰性和抗篡改性;其次构建了基于业务操作时间间隔的区块链网络隐蔽信道的场景;最后提出了包含抗检测性、顽健性、传输效率的区块链网络隐蔽信道评估向量,为基于区块链环境的新型网络隐蔽信道的实用化奠定了理论基础。 展开更多
关键词 网络隐蔽信道 区块链 抗干扰性 抗篡改性 链式存储
在线阅读 下载PDF
网络隐蔽信道关键技术研究综述 被引量:26
17
作者 李彦峰 丁丽萍 +4 位作者 吴敬征 崔强 刘雪花 关贝 王永吉 《软件学报》 EI CSCD 北大核心 2019年第8期2470-2490,共21页
网络隐蔽信道是在网络环境下违反通信限制规则进行隐蔽信息传输的信息通道,为网络信息安全带来了新的挑战,也为数据传输的安全性和隐私性带来了新的研究方向.首先介绍了网络隐蔽信道的定义、分类、能力维度等基本概念;进而从码元设计、... 网络隐蔽信道是在网络环境下违反通信限制规则进行隐蔽信息传输的信息通道,为网络信息安全带来了新的挑战,也为数据传输的安全性和隐私性带来了新的研究方向.首先介绍了网络隐蔽信道的定义、分类、能力维度等基本概念;进而从码元设计、信息编码和信道优化这3个方面归纳分析了存储型和时间型两类网络隐蔽信道的构建技术,从隐蔽性、鲁棒性和传输效率这3个方面总结了网络隐蔽信道评估方法,从消除、限制、检测这3个方面梳理了网络隐蔽信道的对抗技术;最后,对未来的研究方向进行了展望. 展开更多
关键词 网络隐蔽信道 信息隐藏 网络隐蔽信道构建 网络隐蔽信道对抗
在线阅读 下载PDF
基于OpenCL的拉普拉斯图像增强算法优化研究 被引量:19
18
作者 贾海鹏 张云泉 +2 位作者 龙国平 徐建良 李焱 《计算机科学》 CSCD 北大核心 2012年第5期271-277,共7页
OpenCL是面向异构计算平台的通用编程框架,然而由于硬件体系结构的差异,如何在平台间功能移植的基础上实现性能移植仍是有待研究的问题。当前已有算法优化研究一般只针对单一硬件平台,它们很难实现在不同平台上的高效运行。在分析了不同... OpenCL是面向异构计算平台的通用编程框架,然而由于硬件体系结构的差异,如何在平台间功能移植的基础上实现性能移植仍是有待研究的问题。当前已有算法优化研究一般只针对单一硬件平台,它们很难实现在不同平台上的高效运行。在分析了不同GPU平台底层硬件架构的基础上,从Global Memory的访存效率、GPU计算资源的有效利用率及其硬件资源的限制等多个角度考察了不同优化方法在不同GPU硬件平台上对性能的影响;并在此基础上实现了基于OpenCL的拉普拉斯图像增强算法。实验结果表明,优化后的算法在不考虑数据传输时间的前提下,在AMD和NVIDIA GPU上都取得了3.7~136.1倍、平均56.7倍的性能加速,优化后的kernel比NVIDIA NPP库中相应函数也取得了12.3%~346.7%、平均143.1%的性能提升,验证了提出的优化方法的有效性和性能可移植性。 展开更多
关键词 OPENCL 通用计算 拉普拉斯算法 跨平台
在线阅读 下载PDF
SIMD技术与向量数学库研究 被引量:10
19
作者 解庆春 张云泉 +2 位作者 王可 李焱 许亚武 《计算机科学》 CSCD 北大核心 2011年第7期298-301,共4页
首先,结合Intel,AMD和IBM处理器,介绍了单指令流多数据流(SIMD)向量化技术及其各自的特点。其次,在3种平台上对各自开发的函数库中的部分向量数学函数进行了测试。结果表明,相对传统的标量计算,向量化技术带来的加速比较高,特别是Cell ... 首先,结合Intel,AMD和IBM处理器,介绍了单指令流多数据流(SIMD)向量化技术及其各自的特点。其次,在3种平台上对各自开发的函数库中的部分向量数学函数进行了测试。结果表明,相对传统的标量计算,向量化技术带来的加速比较高,特别是Cell SDK函数,因其独特的体系结构,多个向量处理单元带来的平均加速比为10。最后,通过测试结果的对比,发现不同数学库中的向量函数之间在性能方面也存在着差异,并对差异原因进行了分析,得出性能差异主要是处理器架构和向量计算单元个数和访存等因素造成的。 展开更多
关键词 向量化 SSE MMX 3DNow! SIMD
在线阅读 下载PDF
基于GPU的分子动力学模拟并行化及实现 被引量:9
20
作者 费辉 张云泉 +1 位作者 王可 许亚武 《计算机科学》 CSCD 北大核心 2011年第9期275-278,287,共5页
分子动力学模拟作为获得液体、固体性质的重要计算手段,广泛应用于化学、物理、生物、医药、材料等众多领域。模拟体系的复杂性和精确性的需求,使得计算量巨大,耗费时间长。并行计算是加速大规模分子动力学模拟的重要途径。GPU以几百GFl... 分子动力学模拟作为获得液体、固体性质的重要计算手段,广泛应用于化学、物理、生物、医药、材料等众多领域。模拟体系的复杂性和精确性的需求,使得计算量巨大,耗费时间长。并行计算是加速大规模分子动力学模拟的重要途径。GPU以几百GFlops甚至上TFlops的运算能力,为分子动力学模拟等的计算密集型应用提供了新的加速方案。提出了一种基于GPU的分子动力学模拟并行算法——oApT-AD,并在OpenCL和CUDA框架下加以实现。性能测试显示,在Tesla C1060显卡上,该算法在OpenCL框架下的实现相对于CPU的串行实现,最高达到120倍加速比。通过对比发现,该算法在CUDA上的性能与OpenCL基本相当。同时,该算法还可以扩展到两块及以上的GPU上,具有良好的可扩展性。 展开更多
关键词 分子动力学 GPU OPENCL CUDA 原子分解法
在线阅读 下载PDF
上一页 1 2 3 下一页 到第
使用帮助 返回顶部