期刊文献+
共找到13篇文章
< 1 >
每页显示 20 50 100
异构并行计算下高维混合型数据聚类算法研究 被引量:2
1
作者 祝鹏 《现代电子技术》 北大核心 2024年第9期139-142,共4页
高维数据维度增加,数据空间的体积呈指数增长,容易陷入“维数灾难”,导致聚类算法执行效率低,为此,提出异构并行计算下高维混合型数据聚类算法。构建高维混合型数据相异度矩阵,提取高维混合型数据的统计序列特征值,利用时间窗口进行特... 高维数据维度增加,数据空间的体积呈指数增长,容易陷入“维数灾难”,导致聚类算法执行效率低,为此,提出异构并行计算下高维混合型数据聚类算法。构建高维混合型数据相异度矩阵,提取高维混合型数据的统计序列特征值,利用时间窗口进行特征优化。采用K⁃Prototypes聚类算法提取高维混合型数据的统计序列特征,评估数据与类中心的相异性,计算数据与类中心的欧氏距离,实现高维混合型数据聚类。采用异构并行计算技术进行高维混合型数据K⁃Prototypes聚类的并行化处理,合理分配CPU与GPU工作,达到CPU与GPU的工作负载平衡,提高K⁃Prototypes的聚类效率。实验结果表明,此算法对于高维混合型数据的聚类效果好、运行时间短、性能稳定。 展开更多
关键词 异构并行计算 高维混合型数据 K⁃Prototypes聚类算法 欧氏距离 统计序列特征 负载平衡
在线阅读 下载PDF
异构并行计算及其调度策略 被引量:1
2
作者 陆鑫达 郑飞 《计算机工程》 CAS CSCD 北大核心 1997年第S1期37-39,共3页
文章叙述能获取持续高性能计算能力的异构并行计算的主要特征及有关关键问题:异构调度(包括匹配和调度)。讨论如何用遗传算法来获得异构调度的全局优化解。给出了有关异构并行计算和异构调度的实验结果。
关键词 异构并行计算 持续高性能 异构调度 遗传算法
在线阅读 下载PDF
基于SYCL的多相流LBM模拟跨平台异构并行计算研究 被引量:3
3
作者 丁越 徐传福 +4 位作者 邱昊中 戴未希 汪青松 林拥真 王正华 《计算机科学》 CSCD 北大核心 2023年第11期32-40,共9页
异构并行体系结构是当前高性能计算的重要技术趋势。由于各种异构平台通常支持不同的编程模型,跨平台性能可移植异构并行应用开发非常困难。SYCL是一个基于C++语言的单源跨平台并行编程开放标准。目前针对SYCL的研究主要集中于与其他并... 异构并行体系结构是当前高性能计算的重要技术趋势。由于各种异构平台通常支持不同的编程模型,跨平台性能可移植异构并行应用开发非常困难。SYCL是一个基于C++语言的单源跨平台并行编程开放标准。目前针对SYCL的研究主要集中于与其他并行编程模型的性能比较,对SYCL中提供的不同并行内核实现及其性能优化研究得较少。针对这一现状,基于SYCL编程模型对开源多相流数值模拟软件openLBMmflow实现跨平台异构并行模拟,通过对比基础并行版本、细粒度调优的ND-range并行版本以及计算到工作项多对一映射方法,系统总结了SYCL并行应用的性能优化方法。测试结果表明,在Intel Xeon Platinum 9242 CPU以及NVIDIA Tesla V100 GPU上,相比优化后的OpenMP并行实现,在不需要额外调优的情况下,基础并行版本在CPU上获得了2.91的加速比,表明了SYCL的开箱即用性能具备一定优势。以基础并行版本为基准,ND-range并行版本通过改变工作组大小及形状,在CPU与GPU上分别取得了最高1.45以及2.23的加速比。通过优化计算到工作项的多对一映射改变每个工作项处理的格子数量以及形状,与基础并行版本相比,在CPU与GPU上分别取得了最高1.57以及1.34的加速比。结果表明,SYCL并行应用在CPU上更适合采用计算到工作项多对一映射的优化方法,在GPU上更适合采用ND-range并行内核,以提高性能。 展开更多
关键词 SYCL 格子玻尔兹曼方法 多相流模拟 异构并行计算 跨平台并行编程模型
在线阅读 下载PDF
SMB协议在异构网络并行FDTD计算中的应用研究 被引量:1
4
作者 刘瑜 袁宏春 梁正 《计算机应用》 CSCD 北大核心 2008年第2期279-282,共4页
在多系统异构局域网中,由于不同操作环境的消息传递接口(MPI)程序缺乏互操作性,使得并行时域有限差分运算(FDTD)难以充分利用局域网内的计算资源。对此,提出利用应用层服务消息块(SMB)协议实现异构FDTD计算,并通过内存文件存取、内存映... 在多系统异构局域网中,由于不同操作环境的消息传递接口(MPI)程序缺乏互操作性,使得并行时域有限差分运算(FDTD)难以充分利用局域网内的计算资源。对此,提出利用应用层服务消息块(SMB)协议实现异构FDTD计算,并通过内存文件存取、内存映射数组以及引入冗余计算等方法来缓解与克服SMB通信延迟对并行性能的影响。数值模拟实例验证了新方法的可行性与正确性,所得加速比、并行效率等性能指标参数与常规同构MPI消息传递方法基本相当。 展开更多
关键词 异构并行计算 内存文件存取 内存映射数组 冗余计算 并行性能
在线阅读 下载PDF
基于异构系统的多级并行稀疏张量向量乘算法 被引量:1
5
作者 陈玥丹 肖国庆 +3 位作者 阳王东 金纪勇 龙军 李肯立 《计算机学报》 EI CSCD 北大核心 2024年第2期441-455,共15页
张量在许多实际应用中被用来表示大规模、多源、高维、多模态的数据.稀疏张量分解作为挖掘数据中隐藏信息的有效方法之一,已被广泛应用于机器学习、文本分析、生物医疗等研究领域中.稀疏张量向量乘(Sparse Tensor-VectorMultiplication,... 张量在许多实际应用中被用来表示大规模、多源、高维、多模态的数据.稀疏张量分解作为挖掘数据中隐藏信息的有效方法之一,已被广泛应用于机器学习、文本分析、生物医疗等研究领域中.稀疏张量向量乘(Sparse Tensor-VectorMultiplication,SpTV)是张量分解中最基础、耗时最多的运算之一.为加速大数据和人工智能相关应用的运行效率,本文提出了基于CPU-GPU异构结构的多级并行SpTV加速算法.首先,为了将SpTV运算映射到混合、多级并行的分布式CPU-GPU异构多/众核构架,本文设计了一种多维并行SpTV划分方法,采用面向节点级并行的N-1维张量划分和面向GPU线程级并行的矩阵划分,充分利用计算节点间和节点内的多级并行计算能力.其次,设计了一种基于稀疏张量纤维的压缩存储格式,压缩稀疏张量的内存占用,优化SpTV运算的计算和访存模式.最后,提出了基于多流并行的异构高效SpTV算法,进一步设计了稀疏张量的细粒度划分方法、多流并行运行机制和基于张量块排序的多流并行优化技术,实现了SpTV运算中通信开销和计算开销的相互重叠与隐藏.实验结果表明,与相关工作aeSpTV相比,所提出的SpTV算法在所有测试数据集上最高能够获得3.28倍的加速比. 展开更多
关键词 CPU-GPU 异构并行计算 多级并行 稀疏张量 张量运算
在线阅读 下载PDF
面向国产异构DCU平台的大规模并行矩量法研究
6
作者 贾瑞鹏 林中朝 +2 位作者 左胜 张玉 杨美红 《西安电子科技大学学报》 EI CAS CSCD 北大核心 2024年第2期76-83,共8页
面向国产异构众核处理器超级计算机发展趋势,实现了基于CPU+DCU国产异构并行系统的大规模并行高阶矩量法。在同构并行矩量法负载均衡策略的基础上,提出了一种“MPI+openMP+DCU”的高效异构并行编程框架,解决了计算任务与计算能力不匹配... 面向国产异构众核处理器超级计算机发展趋势,实现了基于CPU+DCU国产异构并行系统的大规模并行高阶矩量法。在同构并行矩量法负载均衡策略的基础上,提出了一种“MPI+openMP+DCU”的高效异构并行编程框架,解决了计算任务与计算能力不匹配的问题,实现了矩量法异构并行计算过程的负载均衡。采用细粒度任务划分策略与异步通信技术,对深度计算处理器计算过程进行了流水线优化设计,实现了计算与通信重叠,提升了矩量法异构协同计算的效率。通过与有限元法的仿真结果对比,验证了CPU+DCU异构并行矩量法的准确性。基于国产深度计算处理器异构平台的可扩展性分析结果表明,与单纯CPU计算相比,所实现的CPU+DCU异构协同计算方法能够获得5.5~7.0倍的加速效果,且在国家超级计算西安中心能够实现全系统运行,并行规模从360节点扩展到3 600节点(共1 036 800个处理器核心),并行效率可以达到约73.5%。 展开更多
关键词 高阶矩量法 国产异构并行系统 深度计算处理器 异构协同并行计算
在线阅读 下载PDF
基于移动平台的异构并行字符串匹配算法 被引量:2
7
作者 刘磊 李广力 +2 位作者 徐玥 张桐搏 吕帅 《吉林大学学报(理学版)》 CAS CSCD 北大核心 2017年第1期82-88,共7页
针对信息处理中常见的字符串匹配问题,通过对经典的Brute Force算法和KnuthMorris-Pratt算法进行分析,根据GPU异构并行计算任务的分配特性,设计一种针对Knuth-Morris-Pratt算法的数据重叠划分并行方案,并提出一种基于移动平台的异构并... 针对信息处理中常见的字符串匹配问题,通过对经典的Brute Force算法和KnuthMorris-Pratt算法进行分析,根据GPU异构并行计算任务的分配特性,设计一种针对Knuth-Morris-Pratt算法的数据重叠划分并行方案,并提出一种基于移动平台的异构并行字符串匹配算法KMP_MOP.在PowerVR移动平台环境下使用千万级长度的字符串数据对算法的性能进行测试,同时对算法在其他平台的执行情况进行比较,验证了并行算法的性能可移植性.实验结果表明,KMP_MOP算法能充分利用移动平台中的GPU性能,有效提高具有GPU的移动平台设备的字符串匹配效率. 展开更多
关键词 字符串匹配 重叠划分 移动平台 异构并行计算
在线阅读 下载PDF
面向异构并行架构的大规模原型学习算法
8
作者 苏统华 李松泽 +2 位作者 邓胜春 于洋 白薇 《哈尔滨工业大学学报》 EI CAS CSCD 北大核心 2016年第11期53-60,共8页
为解决当前原型学习算法在大规模、大类别机器学习和模式识别领域的计算密集瓶颈问题,提出一种采用GPU和CPU异构并行计算架构的可扩展原型学习算法框架.一是通过分解和重组算法的计算任务,将密集的计算负载转移到GPU上,而CPU只需进行少... 为解决当前原型学习算法在大规模、大类别机器学习和模式识别领域的计算密集瓶颈问题,提出一种采用GPU和CPU异构并行计算架构的可扩展原型学习算法框架.一是通过分解和重组算法的计算任务,将密集的计算负载转移到GPU上,而CPU只需进行少量的流程控制.二是根据任务类型自适应地决定是采用分块策略还是并行归约策略来实现.采用大规模手写汉字样本库验证本框架,在消费级显卡GTX680上使用小批量处理模式进行模型学习时,最高可得到194倍的加速比,升级到GTX980显卡,加速比可提升到638倍;算法甚至在更难以加速的随机梯度下降模式下,也至少能获得30倍的加速比.该算法框架在保证识别精度的前提下具有很高的可扩展性,能够有效解决原有原型学习的计算瓶颈问题. 展开更多
关键词 原型学习 学习矢量量化 手写汉字识别 并行归约 异构并行计算
在线阅读 下载PDF
高分辨率滑动聚束SAR BP成像及其异构并行实现 被引量:5
9
作者 唐江文 邓云凯 +2 位作者 王宇 赵硕 李宁 《雷达学报(中英文)》 CSCD 2017年第4期368-375,共8页
当前高分辨率合成孔径雷达对成像算法以及计算能力都提出了巨大挑战,滑动聚束是实现高分辨率的一种重要模式,它能够同时兼顾高分辨率和方位向宽测绘带。在滑动聚束模式下,受轨道弯曲、调频率时变等影响,传统的频域成像算法的聚焦性能会... 当前高分辨率合成孔径雷达对成像算法以及计算能力都提出了巨大挑战,滑动聚束是实现高分辨率的一种重要模式,它能够同时兼顾高分辨率和方位向宽测绘带。在滑动聚束模式下,受轨道弯曲、调频率时变等影响,传统的频域成像算法的聚焦性能会下降,为突破这种局限性,该文采用BP(Back-Projection)算法进行精确成像,并针对BP算法O()的高计算复杂度提出了一种基于CPU/GPU异构计算平台的高效并行算法,充分利用了计算机的计算资源,提高了成像效率,其中调度线程的设计,也提高了成像的灵活性。 展开更多
关键词 合成孔径雷达 滑动聚束 后向投影算法 异构并行计算
在线阅读 下载PDF
面向天河新一代超算系统的大规模精确对角化方法
10
作者 李彪 刘杰 王庆林 《计算机研究与发展》 北大核心 2025年第6期1347-1362,共16页
精确对角化(exact diagonalization)方法是一种在量子物理、凝聚态物理等领域广泛应用的数值计算方法,是最直接求得量子系统基态的数值方法.仅从哈密顿矩阵的对称性出发,利用无矩阵(matrix-free)方法、分层通信模型以及适配于MT-3000的... 精确对角化(exact diagonalization)方法是一种在量子物理、凝聚态物理等领域广泛应用的数值计算方法,是最直接求得量子系统基态的数值方法.仅从哈密顿矩阵的对称性出发,利用无矩阵(matrix-free)方法、分层通信模型以及适配于MT-3000的数据级并行算法,提出了面向天河新一代超算系统上的超大稀疏哈密顿矩阵向量乘异构并行算法,可以实现基于一维Hubbard模型的大规模精确对角化.提出的并行算法在天河新一代超算系统上进行了测试,其中在1400亿维度矩阵规模上,8192进程相比256进程强扩展效率为55.27%,而弱扩展到7300亿维度矩阵规模上,13740个进程相比64进程的弱扩展效率保持在51.25%以上. 展开更多
关键词 精确对角化 HUBBARD模型 异构并行计算 MT-3000处理器 量子多体系统
在线阅读 下载PDF
GPU集群加速近似逆预条件CG并行求解器 被引量:1
11
作者 赵莲 赵永华 +1 位作者 陈尧 赵慰 《计算机科学与探索》 CSCD 北大核心 2015年第9期1084-1092,共9页
针对GPU集群系统,研究了分解近似逆(approximate inverse,AINV)和对称逐次超松弛-近似逆(symmetric successive over relaxation approximate inverse,SSOR-AI)两类近似逆预条件的并行算法。采用多级k-路图划分方法,通过子图的内点和边... 针对GPU集群系统,研究了分解近似逆(approximate inverse,AINV)和对称逐次超松弛-近似逆(symmetric successive over relaxation approximate inverse,SSOR-AI)两类近似逆预条件的并行算法。采用多级k-路图划分方法,通过子图的内点和边界点识别方法以及稀疏矩阵的置换技术,提出了将稀疏矩阵转换为分块箭形矩阵的并行方法。基于所形成的分块箭形矩阵,结合块内稀疏矩阵近似逆串行、块间并行的策略给出了近似逆预条件的并行方法,实现了AINV和SSOR-AI并行算法,解决了AINV预条件难以并行的问题。基于CPU与GPU协同计算、主机端页锁定内存和设备端计算与通信重叠的优化技术,实现了并行近似逆预条件与共轭梯度(conjugate gradient,CG)算法相结合的线性方程组混合并行求解器。数值实验表明,所提方法对AINV和SSOR-AI两类近似逆预条件,在多GPU上获得了很好的可扩展性和加速效果。 展开更多
关键词 近似逆 预条件 迭代法 异构并行计算 GPU集群
在线阅读 下载PDF
基于混沌和比特级置乱的并行图像加密算法 被引量:2
12
作者 温万里 游林 《信息网络安全》 2014年第4期40-45,共6页
文章提出一种基于混沌和比特级置乱的并行图像加密算法——CBLP算法。该算法主要包含3种基本运算:像素位置置换、比特旋转(BR)以及像素值异或(XOR)运算,其中位置置换用于置乱像素位置,BR和XOR运算用于扩散图像的像素值。另外,为充分利... 文章提出一种基于混沌和比特级置乱的并行图像加密算法——CBLP算法。该算法主要包含3种基本运算:像素位置置换、比特旋转(BR)以及像素值异或(XOR)运算,其中位置置换用于置乱像素位置,BR和XOR运算用于扩散图像的像素值。另外,为充分利用当前异构处理平台的计算资源以大幅提升算法的执行效率,文章在NIVIDIA GeForce GTX 580 GPU上使用OpenCL技术并行实现了该算法。实验结果和数值分析表明,CBLP算法具有较高的加密效率和良好的安全性,可以有效地应用于实际加密当中,具有较高的应用价值。 展开更多
关键词 图像加密 异构并行计算 OPENCL 混沌映射
在线阅读 下载PDF
飞行器外型设计遗传优化算法的网格实现
13
作者 孙犀利 陆鑫达 《计算机工程》 CAS CSCD 北大核心 2004年第20期174-176,共3页
飞行器外型设计遗传优化算法网格计算系统是基于网格技术的。该系统由一组网格服务所构成。遗传算法中的流场计算模块(CFD)在该系统中是以服务的方式提供并可运行在各种计算机上。在该系统中,能够动态地发现和利用计算机资源,这些资源... 飞行器外型设计遗传优化算法网格计算系统是基于网格技术的。该系统由一组网格服务所构成。遗传算法中的流场计算模块(CFD)在该系统中是以服务的方式提供并可运行在各种计算机上。在该系统中,能够动态地发现和利用计算机资源,这些资源可以是异构的机型,可以是不同操作系统,并且这些资源的位置也可以是广域分布的。这个系统,为飞行器外型设计提供了更加灵活的设计手段,比如对设计过程的监控和控制,多用户协作设计等。 展开更多
关键词 遗传算法 飞行器外型设计 网格服务应用 异构并行计算 CFD
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部