期刊文献+
共找到630篇文章
< 1 2 32 >
每页显示 20 50 100
基于并行计算的计算智能综述
1
作者 吴菲 陈嘉诚 王万良 《浙江大学学报(工学版)》 北大核心 2025年第1期27-38,共12页
传统计算智能技术缺乏实时性和适应性,基于并行计算的计算智能技术能够提高计算效率,解决多模态信息兼容处理的问题.分别从智能计算的3个分支(神经网络、进化算法和群智能算法)介绍计算智能与大数据并行计算融合的研究现状.总结并行计... 传统计算智能技术缺乏实时性和适应性,基于并行计算的计算智能技术能够提高计算效率,解决多模态信息兼容处理的问题.分别从智能计算的3个分支(神经网络、进化算法和群智能算法)介绍计算智能与大数据并行计算融合的研究现状.总结并行计算智能面临的问题与挑战,思考相关研究的发展方向. 展开更多
关键词 并行计算 计算智能 神经网络 进化算法 群智能
在线阅读 下载PDF
基于RDD重用度的Spark自适应缓存优化策略
2
作者 潘顺杰 于俊洋 +2 位作者 王龙葛 李涵 翟锐 《计算机工程》 北大核心 2025年第7期190-198,共9页
基于内存进行作业计算的Spark分布式计算框架并不考虑作业的中间计算结果,容易造成高频访问的数据块丢失,在迭代作业类型中表现更为明显。Spark通过LinkedHashMap提供的哈希表实现最近最少使用(LRU)算法的缓存功能,最久未被使用的元素... 基于内存进行作业计算的Spark分布式计算框架并不考虑作业的中间计算结果,容易造成高频访问的数据块丢失,在迭代作业类型中表现更为明显。Spark通过LinkedHashMap提供的哈希表实现最近最少使用(LRU)算法的缓存功能,最久未被使用的元素被移动到顶部并优先被删除,且造成数据重算。针对Spark使用的LRU缓存替换算法造成的高频访问但当前未被使用的热点数据被替换出缓存的问题,提出一种基于弹性分布式数据集(RDD)重用度的Spark自适应缓存优化策略(LCRD),该策略包括自动缓存算法和缓存自动清理算法。首先,自动缓存算法在作业执行前对Spark的有向无环图(DAG)进行分析,计算RDD的重用频率、RDD的算子复杂度等数据,并对影响执行效率的相关因素进行量化,根据重用度模型进行计算,在作业执行中,应用程序将重用度较高的数据块进行缓存;其次,在发生内存瓶颈或RDD缓存无效时,缓存自动清理算法遍历缓存队列,并对低频访问的数据块进行清理。实验结果表明,在选取amazon0302、email-EuAll、web-Google、wiki-Talk等4种公开数据集执行PageRank迭代作业时,与LRU相比,LCRD的执行效率平均分别提升10.7%、8.6%、17.9%和10.6%,内存利用率平均分别提升3%、4%、3%和5%。所提策略能够有效提高Spark的执行效率,同时提升内存利用率。 展开更多
关键词 并行计算 Spark框架 缓存替换 最近最少使用算法 大数据
在线阅读 下载PDF
并行Greville方法及其在MPI环境下的实现 被引量:1
3
作者 张向韵 陈果良 《华东师范大学学报(自然科学版)》 CAS CSCD 北大核心 2005年第3期24-30,共7页
以Greville算法及行主元的Gauss消元法为基础,给出计算Moore-Penrose广义逆A+的并行方法,并对算法的复杂度(O(mn2/p))、并行计算成本(O(mn2))、并行加速比及效率进行分析.讨论如何利用MPI界面进行程序设计,并在PC机集群系统上实现A+的... 以Greville算法及行主元的Gauss消元法为基础,给出计算Moore-Penrose广义逆A+的并行方法,并对算法的复杂度(O(mn2/p))、并行计算成本(O(mn2))、并行加速比及效率进行分析.讨论如何利用MPI界面进行程序设计,并在PC机集群系统上实现A+的并行计算.最后列出一些数值结果. 展开更多
关键词 广义逆矩阵 greville算法 并行计算 MPI
在线阅读 下载PDF
Dynamic self-adaptive ANP algorithm and its application to electric field simulation of aluminum reduction cell 被引量:1
4
作者 王雅琳 陈冬冬 +2 位作者 陈晓方 蔡国民 阳春华 《Journal of Central South University》 SCIE EI CAS CSCD 2015年第12期4731-4739,共9页
Region partition(RP) is the key technique to the finite element parallel computing(FEPC),and its performance has a decisive influence on the entire process of analysis and computation.The performance evaluation index ... Region partition(RP) is the key technique to the finite element parallel computing(FEPC),and its performance has a decisive influence on the entire process of analysis and computation.The performance evaluation index of RP method for the three-dimensional finite element model(FEM) has been given.By taking the electric field of aluminum reduction cell(ARC) as the research object,the performance of two classical RP methods,which are Al-NASRA and NGUYEN partition(ANP) algorithm and the multi-level partition(MLP) method,has been analyzed and compared.The comparison results indicate a sound performance of ANP algorithm,but to large-scale models,the computing time of ANP algorithm increases notably.This is because the ANP algorithm determines only one node based on the minimum weight and just adds the elements connected to the node into the sub-region during each iteration.To obtain the satisfied speed and the precision,an improved dynamic self-adaptive ANP(DSA-ANP) algorithm has been proposed.With consideration of model scale,complexity and sub-RP stage,the improved algorithm adaptively determines the number of nodes and selects those nodes with small enough weight,and then dynamically adds these connected elements.The proposed algorithm has been applied to the finite element analysis(FEA) of the electric field simulation of ARC.Compared with the traditional ANP algorithm,the computational efficiency of the proposed algorithm has been shortened approximately from 260 s to 13 s.This proves the superiority of the improved algorithm on computing time performance. 展开更多
关键词 finite element parallel computing(FEPC) region partition(RP) dynamic self-adaptive ANP(DSA-ANP) algorithm electric field simulation aluminum reduction cell(ARC)
在线阅读 下载PDF
基于孤立集分区的并行Louvain社区发掘算法
5
作者 李世杰 刘阳 +1 位作者 唐晋韬 郄航 《计算机工程与科学》 北大核心 2025年第4期621-633,共13页
为了将社区发掘应用中流行的Louvain算法应用于大规模图网络,研究人员提出了一系列并行Louvain算法,但这些并行算法均面临着2个挑战:信息同步产生的延迟和社区标签交换问题。为此创新性地引入了“孤立集”的概念,根据孤立集特性对图网... 为了将社区发掘应用中流行的Louvain算法应用于大规模图网络,研究人员提出了一系列并行Louvain算法,但这些并行算法均面临着2个挑战:信息同步产生的延迟和社区标签交换问题。为此创新性地引入了“孤立集”的概念,根据孤立集特性对图网络进行分区,并在此基础上提出了基于孤立集的并行Louvain算法。该算法可并行计算和更新顶点信息,不再产生同步延迟或社区标签交换。而后针对孤立集并行算法存在数据长尾效应的局限性,提出了基于哈希表的改进融合算法,进一步提升了计算效能。实验结果表明,孤立集并行算法和融合算法相比传统算法具有良好的加速比和更高的模块度。 展开更多
关键词 并行计算 孤立集 图划分 Louvain算法 社区发掘
在线阅读 下载PDF
面向高速列车控制数据的推测并行检测算法
6
作者 马强 《计算机工程与设计》 北大核心 2025年第3期762-769,共8页
针对传统检测方法难以高效处理轨道交通中海量列控数据的问题,设计一种面向高速列车控制数据的推测并行检测算法。分析高速列车控制数据的结构,进行尝试性的数据划分,消解数据内部依赖;利用推测技术,对传统的检测算法展开并行化改造,规... 针对传统检测方法难以高效处理轨道交通中海量列控数据的问题,设计一种面向高速列车控制数据的推测并行检测算法。分析高速列车控制数据的结构,进行尝试性的数据划分,消解数据内部依赖;利用推测技术,对传统的检测算法展开并行化改造,规避传统方法中内联关系对检测顺序的影响;在分布式平台上使用并行化的算法对划分数据展开检测,借助推测并行技术和分布式平台,提高面向列车控制数据的检测效率。基于西安铁路局的列控数据进行实验,其结果表明,与传统检测方法和其它并行检测方法相比,所提并行算法具有更好的检测效率、良好的可扩展,能够对海量的高速列车控制数据展开及时有效的检测。 展开更多
关键词 轨道交通 高速列车 列控数据 异常检测 分布式计算 推测并行 并行算法
在线阅读 下载PDF
基于复模态分析与并行遗传算法的车辆动力参数识别
7
作者 施剑锋 丁勇 +2 位作者 沈伯衡 韩凌霞 谢旭 《哈尔滨工业大学学报》 北大核心 2025年第7期42-51,共10页
获取准确的车辆动力参数是车桥耦合振动分析与桥梁健康监测的前提,为此,提出了一种基于复模态分析与多核并行遗传算法的车辆动力参数快速识别方法。首先,改进了复模态理论结合有限元方法获取车辆自振频率、阻尼比、模态振型的算法;然后... 获取准确的车辆动力参数是车桥耦合振动分析与桥梁健康监测的前提,为此,提出了一种基于复模态分析与多核并行遗传算法的车辆动力参数快速识别方法。首先,改进了复模态理论结合有限元方法获取车辆自振频率、阻尼比、模态振型的算法;然后,提出了车辆动力参数识别的多核并行遗传算法,采用多目标适应度评价,以快速、准确地识别车辆刚度、阻尼、转动惯量;最后,采用车轮跌落振动实验和环境激励峰值法实测车辆的模态,获取用于适应度评价的自振频率、阻尼比和振型。通过对轻型汽车、重型卡车的动力参数进行识别进行验证,结果表明:用识别的车辆动力参数计算得到的车辆振动模态,与实测振动模态吻合,其中前3阶固有频率的最大误差为0.8%、阻尼比最大误差为1.3%,计算与实测振型向量之间的夹角余弦接近1;车辆的分析模型有必要增加车体的扭转阻尼,以准确反映实际车辆的扭转振动特性;多核并行算法大大加速了识别过程。16核心CPU在15核心并行时的加速比达到最大值12.5,在复杂车辆的多目标、多参数识别中,采用多核并行算法是非常有效的。 展开更多
关键词 车桥耦合振动 车辆有限元模型 复模态分析 动力参数识别 多核并行计算 遗传算法
在线阅读 下载PDF
GPU邻居搜索法在风沙流SPH算法中的应用
8
作者 周鹏 金阿芳 《计算机应用与软件》 北大核心 2025年第3期221-226,267,共7页
为了解决风沙流(Smoothed Particle Hydrodynamics,SPH)算法因粒子数目增多导致计算效率低的问题,将GPU并行计算应用在风沙流SPH算法中。分析SPH算法适合并行计算的原因,并以单元链表(Cell-Linked List,CLL)法的邻居搜索法为基础,建立SP... 为了解决风沙流(Smoothed Particle Hydrodynamics,SPH)算法因粒子数目增多导致计算效率低的问题,将GPU并行计算应用在风沙流SPH算法中。分析SPH算法适合并行计算的原因,并以单元链表(Cell-Linked List,CLL)法的邻居搜索法为基础,建立SPH风沙流的并行计算模型;通过计算模型进行验证对坡面风场进行分析,得到沙粒水平速度沿高度变化规律和沙粒空间分布变化;对比不同粒子数目下四种风沙流SPH算法的计算效率,结果证明该算法可以提高计算效率。 展开更多
关键词 SPH算法 风沙流 并行计算 CUDA
在线阅读 下载PDF
基于R-tree索引的卫星可见窗口快速算法
9
作者 杜丙男 康峻 +3 位作者 李佩峰 宋沛然 杜康宁 曹林 《计算机应用与软件》 北大核心 2025年第10期285-295,322,共12页
针对地球观测卫星多星多目标场景下可见窗口计算耗时过高问题提出一种快速计算方法。该方法将多对多观测问题分解为若干单对单子问题,依据星下点轨迹R-tree索引获取待观测目标周边星下点轨迹信息,结合二分法确定卫星对该目标可见时间窗... 针对地球观测卫星多星多目标场景下可见窗口计算耗时过高问题提出一种快速计算方法。该方法将多对多观测问题分解为若干单对单子问题,依据星下点轨迹R-tree索引获取待观测目标周边星下点轨迹信息,结合二分法确定卫星对该目标可见时间窗口的起止时刻。对锥形、矩形两种视场类型的卫星观测仿真结果表明,可见时刻结果精确至1 ms时,该算法得到的可见时刻与Satellite Tool Kit(STK)的平均误差为-8.5×10^(-4)s,与跟踪传播法相比能够减少99%以上的计算冗余,平均耗时是以1 ms为步长的跟踪传播法的0.01%,能够同时满足实际工程应用中对目标观测窗口计算精度和时效性要求。 展开更多
关键词 观测卫星 可见窗口 快速算法 R-tree索引 并行计算
在线阅读 下载PDF
基于并行球形译码算法的PMSM多步预测控制
10
作者 刘涛 娄瀚文 +1 位作者 李跃华 李博 《组合机床与自动化加工技术》 北大核心 2025年第4期102-106,共5页
模型预测控制在近几十年成为永磁同步电机控制领域的研究热点,其中多步预测算法相比传统的单步预测算法,具有更优的动稳态性能。但其寻优过程复杂且计算量大,限制了其在电机驱动领域的应用。为此,针对永磁同步电机驱动系统进行研究,提... 模型预测控制在近几十年成为永磁同步电机控制领域的研究热点,其中多步预测算法相比传统的单步预测算法,具有更优的动稳态性能。但其寻优过程复杂且计算量大,限制了其在电机驱动领域的应用。为此,针对永磁同步电机驱动系统进行研究,提出了一种基于并行球形译码算法的多步预测控制策略。相比于传统的多步预测,所提控制策略将多步预测过程转化为最小二乘问题,采用并行球形译码寻优策略实现多个分支同时探索。在此基础上,设计了基于FPGA的并行计算方法,有效优化了寻优效率。实验结果表明,所提策略大大减少了多步预测算法的计算时间,进而实现更高的预测步数,有效降低了永磁同步电机的电流谐波失真与转矩脉动。 展开更多
关键词 永磁同步电机 多步预测控制 并行球形译码算法 并行计算
在线阅读 下载PDF
基于PDM-GWO算法FPC软排线缺陷检测方法研究
11
作者 欧幸福 张淼 唐戎 《包装工程》 北大核心 2025年第19期226-238,共13页
目的提升柔性印刷电路(FPC)软排线缺陷图像的分割与检测精度、效率,解决传统方法在低对比度、强干扰及细微缺陷图像中的分割模糊和检测误差等问题,提出一种高鲁棒性、高效率的包装缺陷处理方法。方法构建基于并行动态角色记忆灰狼优化算... 目的提升柔性印刷电路(FPC)软排线缺陷图像的分割与检测精度、效率,解决传统方法在低对比度、强干扰及细微缺陷图像中的分割模糊和检测误差等问题,提出一种高鲁棒性、高效率的包装缺陷处理方法。方法构建基于并行动态角色记忆灰狼优化算法(PDM-GWO)的图像分割和缺陷检测方法。通过动态角色分配和历史位置记忆提升优化能力,引入主从并行架构,提高计算效率;分割阶段采用PDM-GWO优化多阈值策略提取清晰边缘;在检测阶段,基于边缘检测获取排线坐标,融合RANSAC拟合提取几何特征,结合Z-score统计分析,实现多类缺陷的识别。结果多组图像实验证明,该方法在PSNR、SSIM、IoU等3项指标上的平均值为22.42 dB、0.964、0.933,均优于标准GWO和典型改进型算法。在缺陷检测方面,平均检测精度达到0.9906,处理速度为9.63帧/s,优于YOLOv9、Faster-RCNN等主流方法。结论所提方法在图像分割质量、检测准确率、运行效率等方面均展现出显著优势,适用于包装自动线复杂工况下的微小缺陷检测,具备良好的工程实用性和推广价值。 展开更多
关键词 柔性印刷电路 包装缺陷检测 图像分割 灰狼优化算法 动态角色 历史记忆 并行计算
在线阅读 下载PDF
基于GPU的Winograd卷积算法并行化
12
作者 王鑫 甄雪茹 《计算机应用研究》 北大核心 2025年第8期2446-2451,共6页
针对现代卷积神经网络中计算负荷过重的问题,提出一种基于GPU的创新性Winograd并行卷积算法。该算法利用负载均衡的任务映射、优化数据加载策略以隐藏延迟,并结合动态填充方法,充分挖掘Winograd卷积算法与GPU架构的协同效应。实验结果表... 针对现代卷积神经网络中计算负荷过重的问题,提出一种基于GPU的创新性Winograd并行卷积算法。该算法利用负载均衡的任务映射、优化数据加载策略以隐藏延迟,并结合动态填充方法,充分挖掘Winograd卷积算法与GPU架构的协同效应。实验结果表明,在经典卷积神经网络模型ResNet的多个卷积层上,提出的算法优于NVIDIA cuDNN 8.3.0库中的标准Winograd卷积算法,在Turing架构的RTX 2080Ti GPU上实现高达2.46的加速比,并且保持较高的计算准确性。与基于GPU的标准Winograd卷积算法相比,该算法显著提升了卷积计算效率。 展开更多
关键词 Winograd算法 并行计算 CUDA 卷积神经网络
在线阅读 下载PDF
基于Spark的电网继电保护整定计算方法研究
13
作者 宋闯 韩伟 +1 位作者 杜兴伟 王敬军 《电力科学与技术学报》 北大核心 2025年第2期50-58,共9页
为使电网适应智能化以及调控云技术路线的要求,提出一种基于分布式并行计算的电网继电保护整定计算研究方法。首先,介绍Spark分布式计算平台的集群架构,并对分布式并行计算的关键问题,如负载的平衡问题、系统的容错问题等进行分析,基于... 为使电网适应智能化以及调控云技术路线的要求,提出一种基于分布式并行计算的电网继电保护整定计算研究方法。首先,介绍Spark分布式计算平台的集群架构,并对分布式并行计算的关键问题,如负载的平衡问题、系统的容错问题等进行分析,基于此设计基于Spark的电网继电保护整定计算系统;其次,对计算系统中的超高压电网整定计算进行分析,并对保护的原则以及整定计算的原则进行总结;再次,为实现对输入系统的电网初始数据实现预处理操作,通过改进帝王蝶优化算法实现对数据特征选择;最后,对某地区具体实例的整定计算进行仿真分析,以此验证系统的有效性。仿真结果证明,该计算系统能够使电网的整定计算适应智能化以及调控云的发展,能够有效增加计算速度,提高电网运行的可靠性。 展开更多
关键词 智能化电网 分布式并行计算 整定计算 帝王蝶优化算法
在线阅读 下载PDF
领域专有平行语料库的敏捷构建方法
14
作者 李铭 张克亮 《厦门大学学报(自然科学版)》 北大核心 2025年第4期586-596,共11页
[目的]针对领域平行语料库数量不足,构建困难的问题,研究能够敏捷构建满足垂直领域模型训练要求的领域平行语料库的方法.[方法]在构建的通用大规模跨领域平行语料库的基础上提出了领域专有平行语料库的自动构建方法.该方法结合语言学理... [目的]针对领域平行语料库数量不足,构建困难的问题,研究能够敏捷构建满足垂直领域模型训练要求的领域平行语料库的方法.[方法]在构建的通用大规模跨领域平行语料库的基础上提出了领域专有平行语料库的自动构建方法.该方法结合语言学理论概念层次网络与词向量模型构建目标领域核心词汇,并依此抽取目标领域平行句对,从而实现领域专有平行语料库敏捷构建.[结果]以军事领域为例,进行领域专有平行语料库构建与领域机器翻译的测试结果表明:相较于使用关键词对比、预训练模型与语言大模型等方法,本文方法所构建的领域平行语料库具有更高的F_(1)值.使用该方法生成语料所训练的机器翻译模型在该领域的翻译结果相比于上述方法与商业翻译引擎具有更高的双语互译评估(BLEU)值.[结论]本文所提方法能够有效复用现有的高质量开源语料资源,并在数小时之内完成最贴合目标领域的平行语料库的构建,从而提升领域机器翻译的效果. 展开更多
关键词 领域专有平行语料库 概念层次网络 句对抽取算法 语义距离计算
在线阅读 下载PDF
Study on High-Performance Computing for Simulation of End Milling Force
15
作者 ZHANG Zhi-hai, ZHENG Li, LI Zhi-zhong, LIU Da-cheng, ZHAN G Bo-peng (Department of Industry Engineering, Tsinghua University, Beijing 1000 84, China) 《厦门大学学报(自然科学版)》 CAS CSCD 北大核心 2002年第S1期183-184,共2页
Milling Process Simulation is one of the important re search areas in manufacturing science. For the purpose of improving the prec ision of simulation and extending its usability, numerical algorithm is more and more ... Milling Process Simulation is one of the important re search areas in manufacturing science. For the purpose of improving the prec ision of simulation and extending its usability, numerical algorithm is more and more used in the milling modeling areas. But simulative efficiency is decreasin g with increase of its complexity. As a result, application of the method is lim ited. Aimed at above question, high-efficient algorithm for milling process sim ulation is studied. It is important for milling process simulation’s applicatio n. Parallel computing is widely used to solve the large-scale computation question s. Its advantages include system flexibility, robust, high-efficient computing capability and high ratio of performance to price. With the development of compu ter network, utilizing the computing resource in the Internet, a virtual computi ng environment with powerful computing capability can be consisted by microc omputers, and the difficulty of building hardware environment which is used to s upport parallel computing is reduced. How to use network technology and parallel algorithm to improve simulative effic iency for milling forces simulation is investigated in the paper. In order to pr edict milling forces, a simplified local milling forces model is used in the pap er. End milling cutter is assumed to be divided by r number of differential elem ents along the axial direction of the cutter. For a given time, the total cuttin g forces can be obtained by summarizing the resultant cutting force produced by each differential cutter disc. Divide the whole simulative time into some segmen ts, send these program’s segments to microcomputers in the Internet and obtain the result of the program’s segments, all of the result of program’s segments a re composed the final result. For implementing the algorithm, a distributed Parallel computing framework is de signed in the paper. In the framework, web server plays a role of controller. Us ing Java RMI(remote method interface), the computing processes in computing serv er are called by web server. There are lots of control processes in web server a nd control the computing servers. The codes of simulative algorithm can be dynam ic sent to the computing servers, and milling forces at the different time are c omputed through utilizing the local computer’s resource. The results that are ca lculated by every computing servers are sent to the web server, and composed the final result. The framework can be used by different simulative algorithm. Comp ared with the algorithm running single machine, the efficiency of provided algor ithm is higher than that of single machine. 展开更多
关键词 end-milling force model SIMULATION high-perfo rmance computing parallel algorithm Java RMI
在线阅读 下载PDF
基于累加式实时串并联变换算法的机械故障声学监测方法 被引量:1
16
作者 祝洲杰 杨金林 毛鹏峰 《机电工程》 CAS 北大核心 2024年第2期364-370,共7页
针对基于物联网(IoT)的冲压机床故障监测问题,为了降低冲压机床故障监测的计算复杂度,并提高其低频识别的精度,提出了一种无需机器学习技术的实时性机械故障声学监测方法,即基于累加式实时串并联变换算法的机械故障声学监测方法。首先,... 针对基于物联网(IoT)的冲压机床故障监测问题,为了降低冲压机床故障监测的计算复杂度,并提高其低频识别的精度,提出了一种无需机器学习技术的实时性机械故障声学监测方法,即基于累加式实时串并联变换算法的机械故障声学监测方法。首先,研究了物联网场景中冲压机床声学低频分析的必要性,并给出了声学信号的表达式;然后,针对频率轴上多个周期信号重叠导致参数估计较为困难的问题,提出了一种累加式实时串并联变换算法,将输入的采样序列馈入多个具有不同输出端口的串并转换器,从累加的波形中检测出最大绝对值,并进行了比较;最后,通过样本时隙划分,将累加式实时串并联变换算法应用于机械故障监测;通过仿真和冲压机床实机测试,对累加式实时串并联变换算法和实时性机械故障声学监测方法的有效性进行了验证。研究结果表明:在无需大量信号样本的情况下,使用累加式实时串并联变换算法有利于提高低频带的识别精度;在直方图相关性方面,累加式实时串并联变换算法和Morlet小波变换具有相同的性能,且均明显优于短时傅立叶变换;同时,尽管累加式实时串并联变换算法需要的加法总数比Morlet小波变换多2.5倍,但是乘法总数减少了20447%,大幅减少了计算的复杂度。 展开更多
关键词 机械故障监测 冲压机床 累加式实时串并联变换算法 串并转换器 低频识别精度 计算复杂度
在线阅读 下载PDF
面向GPU的地形遮蔽探测并行算法
17
作者 孙卡 俞俗强 《计算机工程与应用》 CSCD 北大核心 2024年第15期66-76,共11页
地形遮蔽算法在军事、民航和气象分析等领域有广泛应用。随着仿真规模的扩大、仿真结果实时性要求越来越高,传统计算模型俨然不能满足当下的实时性要求。为解决这一不足,实现了在统一计算设备架构(CUDA)并行计算平台上的地形遮蔽探测算... 地形遮蔽算法在军事、民航和气象分析等领域有广泛应用。随着仿真规模的扩大、仿真结果实时性要求越来越高,传统计算模型俨然不能满足当下的实时性要求。为解决这一不足,实现了在统一计算设备架构(CUDA)并行计算平台上的地形遮蔽探测算法,解决了仿真计算速度慢的问题。在CPU端将雷达探测区域内离散采样点的高程数据矩阵化,进而提升高程值在并行化计算中的读取速度。针对雷达仿真计算参数对线程分配方式进行优化,采用循环对比方式对地形遮蔽角的计算进行并行加速。采用设备端线程同步和数据交替传输技术,确保计算结果一致性和最大化利用GPU端计算资源。采用多模式并行化计算模式,使用多线程并行化计算和单线程串行化计算来支撑GPU端计算资源不足时的退化计算,从而保证计算的高可用。实验结果表明,相较于i7-12700H CPU在仿真粒度为3 600条探测波束下的地形遮蔽串行计算和多线程并行计算,在3060 Laptop GPU下分别获取了48倍和17倍加速,为仿真实时性提供了有效的工程解决方案。 展开更多
关键词 并行计算 统一计算设备架构(CUDA) 高程矩阵 地球曲率 地形遮蔽算法
在线阅读 下载PDF
基于GPU加速的分布式水文模型并行计算性能 被引量:3
18
作者 庞超 周祖昊 +4 位作者 刘佳嘉 石天宇 杜崇 王坤 于新哲 《南水北调与水利科技(中英文)》 CAS CSCD 北大核心 2024年第1期33-38,共6页
针对具有物理机制的分布式水文模型对大流域、长序列模拟计算时间长、模拟速度慢的问题,引入基于GPU的并行计算技术,实现分布式水文模型WEP-L(water and energy transfer processes in large river basins)产流过程的并行化。选择鄱阳... 针对具有物理机制的分布式水文模型对大流域、长序列模拟计算时间长、模拟速度慢的问题,引入基于GPU的并行计算技术,实现分布式水文模型WEP-L(water and energy transfer processes in large river basins)产流过程的并行化。选择鄱阳湖流域为实验区,采用计算能力为8.6的NVIDIA RTX A4000对算法性能进行测试。研究表明:提出的基于GPU的分布式水文模型并行算法具有良好的加速效果,当线程总数越接近划分的子流域个数(计算任务量)时,并行性能越好,在实验流域WEP-L模型子流域单元为8712个时,加速比最大达到2.5左右;随着计算任务量的增加,加速比逐渐增大,当实验流域WEP-L模型子流域单元增加到24897个时,加速比能达到3.5,表明GPU并行算法在大尺度流域分布式水文模型计算中具有良好的发展潜力。 展开更多
关键词 基于GPU的并行算法 物理机制 分布式水文模型 WEP-L模型 计算性能
在线阅读 下载PDF
申威26010众核处理器上Winograd卷积算法的研究与优化 被引量:2
19
作者 武铮 金旭 安虹 《计算机研究与发展》 EI CSCD 北大核心 2024年第4期955-972,共18页
卷积作为深度学习中被频繁使用的关键部分,其并行算法的研究已成为高性能计算领域中的热门话题.随着我国自主研发的申威26010众核处理器在人工智能领域的快速发展,对面向该处理器的高性能并行卷积算法提出了迫切的需求.针对申威26010处... 卷积作为深度学习中被频繁使用的关键部分,其并行算法的研究已成为高性能计算领域中的热门话题.随着我国自主研发的申威26010众核处理器在人工智能领域的快速发展,对面向该处理器的高性能并行卷积算法提出了迫切的需求.针对申威26010处理器的架构特征以及Winograd卷积算法的计算特性,提出了一种高性能并行卷积算法——融合Winograd卷积算法.该算法不同于依赖官方GEMM(general matrix multiplication)库接口的传统Winograd卷积算法,定制的矩阵乘实现使得该算法的执行过程变得可见,且能够更好地适应现实中常见卷积运算.整个算法由输入的Winograd变换、卷积核的Winograd变换、核心运算和输出的Winograd逆变换4部分构成,这4个部分并不是单独执行而是融合到一起执行.通过实时地为核心运算提供需要的变换后数据,并将计算结果及时地逆变换得到最终的输出数据,提高了算法执行过程中的数据局部性,极大地降低了整体的访存开销.同时,为该算法设计了合并的Winograd变换模式、DMA(direct memory access)双缓冲、片上存储的强化使用、输出数据块的弹性处理以及指令重排等优化方案.最终的实验结果表明,在VGG网络模型的总体卷积测试中,该算法性能是传统Winograd卷积算法的7.8倍.同时,抽取典型卷积神经网络模型中的卷积进行测试,融合Winograd卷积算法能够在所有的卷积场景中发挥明显高于传统Winograd卷积算法的性能.其中,最大能够发挥申威26010处理器峰值性能的116.21%,平均能够发挥峰值性能的93.14%. 展开更多
关键词 深度学习 Winograd卷积 高性能计算 并行算法 申威处理器
在线阅读 下载PDF
面向国产异构DCU平台的大规模并行矩量法研究 被引量:1
20
作者 贾瑞鹏 林中朝 +2 位作者 左胜 张玉 杨美红 《西安电子科技大学学报》 EI CAS CSCD 北大核心 2024年第2期76-83,共8页
面向国产异构众核处理器超级计算机发展趋势,实现了基于CPU+DCU国产异构并行系统的大规模并行高阶矩量法。在同构并行矩量法负载均衡策略的基础上,提出了一种“MPI+openMP+DCU”的高效异构并行编程框架,解决了计算任务与计算能力不匹配... 面向国产异构众核处理器超级计算机发展趋势,实现了基于CPU+DCU国产异构并行系统的大规模并行高阶矩量法。在同构并行矩量法负载均衡策略的基础上,提出了一种“MPI+openMP+DCU”的高效异构并行编程框架,解决了计算任务与计算能力不匹配的问题,实现了矩量法异构并行计算过程的负载均衡。采用细粒度任务划分策略与异步通信技术,对深度计算处理器计算过程进行了流水线优化设计,实现了计算与通信重叠,提升了矩量法异构协同计算的效率。通过与有限元法的仿真结果对比,验证了CPU+DCU异构并行矩量法的准确性。基于国产深度计算处理器异构平台的可扩展性分析结果表明,与单纯CPU计算相比,所实现的CPU+DCU异构协同计算方法能够获得5.5~7.0倍的加速效果,且在国家超级计算西安中心能够实现全系统运行,并行规模从360节点扩展到3 600节点(共1 036 800个处理器核心),并行效率可以达到约73.5%。 展开更多
关键词 高阶矩量法 国产异构并行系统 深度计算处理器 异构协同并行计算
在线阅读 下载PDF
上一页 1 2 32 下一页 到第
使用帮助 返回顶部