期刊文献+
共找到34篇文章
< 1 2 >
每页显示 20 50 100
产出率并行加速比模型 被引量:1
1
作者 王之元 《计算机工程》 CAS CSCD 北大核心 2011年第5期10-12,共3页
针对并行计算系统的性能度量问题,在产出率度量模型的基础上,建立综合系统可靠性、通信、并行化控制和成本投入要素的产出率并行加速比模型,分析总结模型中各要素影响产出率并行加速比的关键因子,包括容错开销因子、通信开销因子、并行... 针对并行计算系统的性能度量问题,在产出率度量模型的基础上,建立综合系统可靠性、通信、并行化控制和成本投入要素的产出率并行加速比模型,分析总结模型中各要素影响产出率并行加速比的关键因子,包括容错开销因子、通信开销因子、并行控制开销因子及成本开销因子,对上述关键因子进行模拟实验,以验证该模型的有效性。 展开更多
关键词 产出率模型 产出率并行加速比模型 产出率计算系统
在线阅读 下载PDF
超燃冲压发动机一维模型的GPU并行加速研究 被引量:1
2
作者 温思歆 苏承毅 +3 位作者 王东杰 孟万植 聂聆聪 孙希明 《推进技术》 EI CAS CSCD 北大核心 2024年第10期247-256,共10页
发动机模型是控制计划优化、基于模型的控制和观测器设计等技术的基础,对控制系统的性能具有重要影响。然而,超燃冲压发动机一维模型由于依赖计算流体力学的网格计算,其计算量巨大,难以在机载控制器内实时运行。为解决这一问题,本文深... 发动机模型是控制计划优化、基于模型的控制和观测器设计等技术的基础,对控制系统的性能具有重要影响。然而,超燃冲压发动机一维模型由于依赖计算流体力学的网格计算,其计算量巨大,难以在机载控制器内实时运行。为解决这一问题,本文深入研究基于图形处理器(Graphics Processing Unit,GPU)的并行计算技术,探索了网格解耦与划分、串/并异构设计、内存优化、代码优化、编译指令优化、硬件模式优化等方法,综合设计了一个高效的中央处理器(Central Processing Unit,CPU)+GPU异构模型,并在基于虚拟路径交叉连接(Virtual Path Cross-Connect,VPX)总线的嵌入式控制器上进行验证。为充分验证所设计异构模型的有效性、高效性与实时性,本文依次开展基线测试、软硬件优化加速测试、并行计算测试,在测试中对比一维模型在CPU,单核GPU,多核GPU上的计算耗时与数据误差。最后根据数据、曲线、监控工具等方式,展示了所设计的异构模型在不损失模型精度的前提下,加速超过了6.7倍,运行时间均不超过25 ms,符合工程预期的实时性要求,具有良好的应用前景。 展开更多
关键词 超燃冲压发动机 并行计算 一维模型 嵌入式控制器 优化加速
在线阅读 下载PDF
I/O受限的并行加速比模型与可扩展I/O体系结构
3
作者 李琼 杜云飞 杨学军 《计算机工程与科学》 CSCD 北大核心 2011年第3期28-33,共6页
为了缓解I/O瓶颈问题,可以从应用程序、可扩展算法、编译器和语言、运行时库、操作系统和体系结构六方面展开研究。其中,I/O体系结构是所有技术途径的关键支撑。当前并行I/O性能分析缺乏科学的理论模型为I/O体系结构设计提供理论依据。... 为了缓解I/O瓶颈问题,可以从应用程序、可扩展算法、编译器和语言、运行时库、操作系统和体系结构六方面展开研究。其中,I/O体系结构是所有技术途径的关键支撑。当前并行I/O性能分析缺乏科学的理论模型为I/O体系结构设计提供理论依据。本文针对并行计算机系统的可扩展性问题,研究了I/O负载对并行计算机系统可扩展性的影响,建立了I/O受限的并行加速比性能模型,对目前大规模并行计算机系统中三种常用I/O体系结构的可扩展性进行了分析;以此为理论依据,提出了一种面向高性能计算的可扩展并行I/O系统结构。同时,还提出了几种有效降低I/O操作服务时间的策略,从而达到增强系统可扩展性的目的,为后续研究奠定了基础。 展开更多
关键词 高性能计算 I/O体系结构 并行加速比模型
在线阅读 下载PDF
一个基于GPU并行加速的海啸数值模型
4
作者 王宗辰 原野 李宏伟 《海洋通报》 CAS CSCD 北大核心 2020年第2期200-205,共6页
地震海啸通常发生在大洋板块向陆地板块俯冲的区域,距离震源最近的国家和地区往往在震后5~20 min之内就会遭受到海啸袭击。因此,及时的海啸预警和准确的海啸预报结果对于民众和决策者都至关重要。为了提升海啸预警效率,缩短海啸预报时间... 地震海啸通常发生在大洋板块向陆地板块俯冲的区域,距离震源最近的国家和地区往往在震后5~20 min之内就会遭受到海啸袭击。因此,及时的海啸预警和准确的海啸预报结果对于民众和决策者都至关重要。为了提升海啸预警效率,缩短海啸预报时间,本研究对COMCOT海啸数值模型进行了基于图形计算单元GPU的二次并行开发。将原模型中海啸传播计算模块通过CUDA_C语言编写内核函数整体移植到GPU上并行加速,CPU负责模型其他代码的执行。为了减少CPU和GPU之间的数据通信,将吸收边界和变量更新函数一并改写。仅在需要输出的时间节点,GPU向CPU传递结果,其他时间步长,CPU和GPU之间只有指令和少量参数传输,基本可视为零耗时。基于GPU并行加速的COMCOT较串行版本效率提升超过67倍,加速性能显著优于基于CPU共享内存的OpenMP并行版本。交叉使用常水深和真实地形,采用均匀滑移海啸源和有限元海啸源对模型的计算结果进行了较为全面的分析检验,相对误差最大不超过1%,为大范围的越洋海啸实时计算提供了有力工具。 展开更多
关键词 海啸数值模型 COMCOT GPU并行加速 CUDA_C
在线阅读 下载PDF
基于Zynq的卷积神经网络加速器设计
5
作者 孟凡开 张峰 +1 位作者 李淼 张多利 《合肥工业大学学报(自然科学版)》 北大核心 2025年第7期904-909,共6页
针对卷积神经网络(convolutional neural network,CNN)嵌入式部署资源开销大、运行速度慢等问题,文章提出一种以Tiny-YOLOv3作为算法模型的CNN硬件加速器。首先,基于Tiny-YOLOv3网络各层的特性和要求设计CNN加速器实现方案,将权重系数... 针对卷积神经网络(convolutional neural network,CNN)嵌入式部署资源开销大、运行速度慢等问题,文章提出一种以Tiny-YOLOv3作为算法模型的CNN硬件加速器。首先,基于Tiny-YOLOv3网络各层的特性和要求设计CNN加速器实现方案,将权重系数按位分割,面向单bit权重设计卷积加速器,通过逐位实施达到处理速度和识别率的高效平衡;然后,采用查表选择法实现卷积算子的乘加运算,设计一款6×3×16的三维加速器计算阵列,可单周期完成288个卷积窗口计算;最后,在Xilinx Zynq UltraScale+MPSoC系列芯片上对设计的CNN加速器进行性能测试。实验结果表明,该CNN加速器在200 MHz频率下具有518.4 GOPS的算力,比现有的解决方案性能提高了约63%。 展开更多
关键词 卷积神经网络(CNN) Tiny-YOLOv3网络模型 硬件加速 流水阵列 并行运算
在线阅读 下载PDF
基于MPI的黄河下游二维水沙数学模型并行计算研究 被引量:9
6
作者 余欣 杨明 +2 位作者 王敏 姜恺 袁俊 《人民黄河》 CAS 北大核心 2005年第3期49-50,53,共3页
基于MPI的消息传递实现了黄河二维水沙数学模型的并行编程。以数据的分布存储作为区域划分的依据,实现了计算量的负载平衡;在全局网格和局部区域之间建立映射关系,并且在临界单元、进出口单元、共用节点通过规约等进行特殊处理,一方面... 基于MPI的消息传递实现了黄河二维水沙数学模型的并行编程。以数据的分布存储作为区域划分的依据,实现了计算量的负载平衡;在全局网格和局部区域之间建立映射关系,并且在临界单元、进出口单元、共用节点通过规约等进行特殊处理,一方面尽可能减少了通讯量,另一方面也避免了消息的阻塞。采用曙光4000A并行计算系统的8个CPU进行计算的加速比达0. 8,同时,多CPU并行计算极大地提高了计算任务的容量,使得无法在单机上完成的巨量计算成为可能。 展开更多
关键词 并行计算 通讯 规约 加速比 MPI 水沙数学模型 黄河下游
在线阅读 下载PDF
并行计算模型在集群环境下的适应性 被引量:5
7
作者 宋安军 彭勤科 胡保生 《计算机工程》 CAS CSCD 北大核心 2003年第18期4-5,17,共3页
分析了并行计算机模型和集群系统的特点,研究了BSP并行计算模型在集群环境下的适应性,指出通过合理地设计并行算法,某些算法在集群环境下可以获得近似线性的加速比,并用常用的线性规划标准形改进单纯型求最优解,在集群系统上的并... 分析了并行计算机模型和集群系统的特点,研究了BSP并行计算模型在集群环境下的适应性,指出通过合理地设计并行算法,某些算法在集群环境下可以获得近似线性的加速比,并用常用的线性规划标准形改进单纯型求最优解,在集群系统上的并行算法验证了该结论。 展开更多
关键词 BSP模型 NOWS 代价公式 加速比 并行计算机模型 集群系统
在线阅读 下载PDF
面向异构多核处理器的并行代价模型 被引量:3
8
作者 黄品丰 赵荣彩 +1 位作者 姚远 赵捷 《计算机应用》 CSCD 北大核心 2013年第6期1544-1547,共4页
现有的并行代价模型大多是面向共享存储或分布存储结构设计的,不完全适合异构多核处理器。为解决这个问题,提出了面向异构多核处理器的并行代价模型,通过定量刻画计算核心运算能力、存储访问延迟和数据传输开销对循环并行执行时间的影响... 现有的并行代价模型大多是面向共享存储或分布存储结构设计的,不完全适合异构多核处理器。为解决这个问题,提出了面向异构多核处理器的并行代价模型,通过定量刻画计算核心运算能力、存储访问延迟和数据传输开销对循环并行执行时间的影响,提高加速并行循环识别的准确性。实验结果表明,提出的并行代价模型能有效识别加速并行循环,将其识别结果作为后端生成并行代码的依据,可有效提高并行程序在异构多核处理器上的性能。 展开更多
关键词 自动并行 并行代价模型 异构多核 数据传输开销 加速并行循环
在线阅读 下载PDF
OpenMP在水动力数学模型并行计算中的应用 被引量:4
9
作者 李褆来 徐学军 +2 位作者 陈黎明 金秋 张铁军 《海洋工程》 CSCD 北大核心 2010年第3期112-116,122,共6页
采用PGI Fortran7.1-2(Portland Group)的OpenMP技术对二维水动力数学模型进行了并行优化试验。并行后,数学模型运行时间明显减少,在对同一算例的水流计算模拟中,串行和并行所需运行时间分别为5 336.781 s和3 454.296 s,平均加速比为1.... 采用PGI Fortran7.1-2(Portland Group)的OpenMP技术对二维水动力数学模型进行了并行优化试验。并行后,数学模型运行时间明显减少,在对同一算例的水流计算模拟中,串行和并行所需运行时间分别为5 336.781 s和3 454.296 s,平均加速比为1.56,平均并行计算节省时间36%,明显提高了水动力学数学模型的运算速度。 展开更多
关键词 OPENMP 并行计算 水动力学 数学模型 加速比
在线阅读 下载PDF
基于FPGA的细粒度并行CYK算法加速器设计与实现 被引量:2
10
作者 夏飞 窦勇 +1 位作者 宋健 雷国庆 《计算机学报》 EI CSCD 北大核心 2010年第5期797-812,共16页
基于随机上下文无关文法(SCFG)理论模型进行RNA二级结构预测是目前采用计算方法研究RNA二级结构的一种重要途径.由于基于SCFG模型的标准结构预测算法(Coche-Younger-Kasami,CYK)巨大的时空复杂度,对CYK算法进行加速成为计算生物学领域... 基于随机上下文无关文法(SCFG)理论模型进行RNA二级结构预测是目前采用计算方法研究RNA二级结构的一种重要途径.由于基于SCFG模型的标准结构预测算法(Coche-Younger-Kasami,CYK)巨大的时空复杂度,对CYK算法进行加速成为计算生物学领域一个极具挑战性的热点问题.CYK的并行性能受限于算法多维度、非一致性的数据依赖关系和较低的计算/通信比,现有的基于通用微处理器结构的大规模并行处理方案不能获得令人满意的加速效果,并且大规模并行计算机系统硬件设备的购置、使用、日常维护的成本高昂,其适用性受到诸多限制.文中在深入分析CYK算法计算特征的基础上,基于FPGA平台提出并实现了一种细粒度的并行CYK算法.设计采用了对三维动态规划矩阵"按区域分割"和"逐层按列并行处理"的计算策略实现了多个处理单元间的负载均衡;采用数据预取、滑动窗口和数据传递流水线实现处理单元间的数据重用,有效解决了计算和通信间的平衡问题;设计了一种类似脉动阵列(systolic-like array)结构的主从多PE并行计算阵列,并在目前最大规模的FPGA芯片(Xilinx XC5VLX330)上成功集成了16个处理单元(processing elements),实验结果表明作者提出的CYK算法加速器结构具备良好的可扩展性.当RNA序列长度为959bps,CM模型状态数为3145时,与运行在Intel双核E5200 2.5GHzCPU、2.0GB主存通用计算上的Infernal-1.0软件相比,可获得超过14倍的加速效果.配置一个FP-GA算法加速器的通用计算平台的综合处理性能与包含20个Intel-Xeon CPU的PC集群相当,而硬件成本仅为后者的20%,系统功耗不到后者的10%. 展开更多
关键词 生物信息学 RNA 二级结构预测 SCFG模型 并行CYK算法 FPGA 硬件加速
在线阅读 下载PDF
能耗并行加速比:高性能计算系统综合性能的有效度量 被引量:2
11
作者 王之元 胡庆丰 陈娟 《计算机工程与科学》 CSCD 北大核心 2009年第11期113-116,共4页
随着并行系统规模的扩大,高性能计算系统运行时消耗的能耗也在急剧增长,过高的能耗也给系统的可靠性、稳定性等方面带来严峻挑战。在这种情形下,能耗问题受到了前所未有的关注。因此,设计和研究高性能计算系统,需要在考虑高计算性能的... 随着并行系统规模的扩大,高性能计算系统运行时消耗的能耗也在急剧增长,过高的能耗也给系统的可靠性、稳定性等方面带来严峻挑战。在这种情形下,能耗问题受到了前所未有的关注。因此,设计和研究高性能计算系统,需要在考虑高计算性能的同时兼顾系统低能耗的要求,这为高性能计算系统的度量模型提出了新的挑战。于是,大规模并行系统逐渐从"高性能"走向"高效能"的衡量标准。基于此,本文采用加速比度量指标,从系统可扩展角度将计算性能和能量消耗要素进行综合,提出了一种度量高性能计算系统综合性能的能耗并行加速比模型。该模型能够直观地反映并行计算系统的效能,旨在指导系统设计和应用研究。最后,通过对该模型的分析和模拟,验证了模型的有效性。 展开更多
关键词 能耗并行加速比 高效能 度量模型
在线阅读 下载PDF
基于带控制器并行结构模型的并行微粒群算法 被引量:1
12
作者 王元元 曾建潮 谭瑛 《系统仿真学报》 EI CAS CSCD 北大核心 2007年第10期2171-2176,共6页
并行计算是解决复杂大规模工程计算问题的有效方法。现提出了一种基于带控制器并行结构模型的并行微粒群算法,它是一种粗粒度的并行。它将种群分为几个子种群,分别放在不同的处理器上,每个子种群独立、同时进化,周期性地交换、更新最优... 并行计算是解决复杂大规模工程计算问题的有效方法。现提出了一种基于带控制器并行结构模型的并行微粒群算法,它是一种粗粒度的并行。它将种群分为几个子种群,分别放在不同的处理器上,每个子种群独立、同时进化,周期性地交换、更新最优信息。实验结果表明:若选择合适的通讯周期时,该并行微粒群算法不仅具有理想的加速比,而且有效地提高解的质量。 展开更多
关键词 并行计算 微粒群算法 并行结构模型 加速比
在线阅读 下载PDF
基于GPU多流并发并行模型的NDVI提取算法 被引量:3
13
作者 左宪禹 张哲 +3 位作者 苏岳瀚 刘扬 葛强 田军锋 《计算机科学》 CSCD 北大核心 2020年第4期25-29,共5页
利用GPU进行加速的归一化差分植被指数(Normalized Differential Vegetation Index,NDVI)提取算法通常采用GPU多线程并行模型,存在弱相关计算之间以及CPU与GPU之间数据传输耗时较多等问题,影响了加速效果的进一步提升。针对上述问题,根... 利用GPU进行加速的归一化差分植被指数(Normalized Differential Vegetation Index,NDVI)提取算法通常采用GPU多线程并行模型,存在弱相关计算之间以及CPU与GPU之间数据传输耗时较多等问题,影响了加速效果的进一步提升。针对上述问题,根据NDVI提取算法的特性,文中提出了一种基于GPU多流并发并行模型的NDVI提取算法。通过CUDA流和Hyper-Q特性,GPU多流并发并行模型可以使数据传输与弱相关计算、弱相关计算与弱相关计算之间达到重叠,从而进一步提高算法并行度及GPU资源利用率。文中首先通过GPU多线程并行模型对NDVI提取算法进行优化,并对优化后的计算过程进行分解,找出包含数据传输及弱相关性计算的部分;其次,对数据传输和弱相关计算部分进行重构,并利用GPU多流并发并行模型进行优化,使弱相关计算之间、弱相关计算和数据传输之间达到重叠的效果;最后,以高分一号卫星拍摄的遥感影像作为实验数据,对两种基于GPU实现的NDVI提取算法进行实验验证。实验结果表明,与传统基于GPU多线程并行模型的NDVI提取算法相比,所提算法在影像大于12000*12000像素时平均取得了约1.5倍的加速,与串行提取算法相比取得了约260倍的加速,具有更好的加速效果和并行性。 展开更多
关键词 NDVI GPU多流并发模型 遥感信息提取 计算通讯重叠 并行加速
在线阅读 下载PDF
基于并行小波算法的DEM数据多分辨率模型构建 被引量:1
14
作者 黄为 魏迎梅 +1 位作者 宋汉辰 吴玲达 《计算机研究与发展》 EI CSCD 北大核心 2010年第6期1026-1031,共6页
由于离散小波的多分辨率分析特性和DEM数据多分辨率模型的一致性,可以采用离散小波算法来构建DEM多分辨率模型,同时针对现有的基于小波的DEM数据多分辨率模型构建中运算量过大的问题,采用了基于并行的小波算法来进行多分辨率模型构建.由... 由于离散小波的多分辨率分析特性和DEM数据多分辨率模型的一致性,可以采用离散小波算法来构建DEM多分辨率模型,同时针对现有的基于小波的DEM数据多分辨率模型构建中运算量过大的问题,采用了基于并行的小波算法来进行多分辨率模型构建.由于DEM数据等价于二维的灰度图像,可以作为二维信号来进行处理.首先给出了二维离散信号小波变换的Mallat算法,进行了算法的可并行性分析;然后描述了各处理机中的局部数组的数据结构并讨论了并行算法中多处理机逻辑拓扑间的数据传递.实验结果证明,小波算法适宜于并行,且将其应用于DEM数据多分辨率模型构建时能获得理想的加速比,基于并行的小波算法能极大地加速多分辨率模型的构建速度. 展开更多
关键词 数字高程模型 多分辨率模型 并行算法 离散小波分析 加速比
在线阅读 下载PDF
改进BSP模型在实时图像并行处理中的应用 被引量:1
15
作者 刘南艳 薛弘晔 《西安科技大学学报》 CAS 北大核心 2011年第2期218-222,共5页
针对大数据量图像处理的实时性,改进了BSP计算模型,解决了超步划分、超步丢失、数据传输等问题。设计了适合实时图像并行处理的集群结构。采用广播式的通信方式极大地缩短了通信时间,提高了实时性。从加速比、效率方面分析了并行计算的... 针对大数据量图像处理的实时性,改进了BSP计算模型,解决了超步划分、超步丢失、数据传输等问题。设计了适合实时图像并行处理的集群结构。采用广播式的通信方式极大地缩短了通信时间,提高了实时性。从加速比、效率方面分析了并行计算的性能,实验证明了此方法的有效性。 展开更多
关键词 BSP模型 并行处理 采样周期 加速比
在线阅读 下载PDF
基于GPU加速的水文模型参数率定 被引量:12
16
作者 阚光远 洪阳 +3 位作者 梁珂 何晓燕 丁留谦 张大伟 《人民长江》 北大核心 2019年第5期65-69,75,共6页
针对水文模型参数率定问题,为显著提升计算效率,选择SCE-UA算法和新安江模型为研究对象,围绕SCE-UA算法并行化与程序化实现、并行SCE-UA算法在图形处理器(GPU)上的加速效果这两个关键科学问题,以GPU硬件平台和通用计算设备架构(CUDA)软... 针对水文模型参数率定问题,为显著提升计算效率,选择SCE-UA算法和新安江模型为研究对象,围绕SCE-UA算法并行化与程序化实现、并行SCE-UA算法在图形处理器(GPU)上的加速效果这两个关键科学问题,以GPU硬件平台和通用计算设备架构(CUDA)软件平台为工具,采用时空复杂度分析、算法并行性挖掘、代码深度优化、数值模拟实验等多种手段相结合的方法,进行了水文模型参数率定提速研究。内容包括:①搭建基于CUDA和GPU的并行计算软硬件平台,进行配置与调优;②并行SCE-UA算法及其程序化实现;③并行SCE-UA算法在GPU上的加速效果。研究结果表明:所提出的方法显著提升了参数率定效率,能够促进水文模拟、最优化方法、计算机科学与技术等多学科的交叉、融合与发展,对水文模拟与预报、防洪快速应急响应具有科学意义和实用价值。 展开更多
关键词 参数率定 GPU加速 CUDA 水文模型 并行计算
在线阅读 下载PDF
基于MPI的分布式水循环模型并行计算性能研究 被引量:3
17
作者 向东 周祖昊 +3 位作者 袁胜 秦泽宁 刘佳嘉 朱家松 《水文》 CSCD 北大核心 2020年第5期36-40,27,共6页
为满足分布式水文模型快速模拟的需要,引入并行计算技术。基于MPI编程模型实现了WEP-L分布式水循环模型产流模块的并行编程,采取子流域任务划分和对等模式实现了模型的并行设计。为了减少进程间的通信时间,在产流计算之前,数据按随年、... 为满足分布式水文模型快速模拟的需要,引入并行计算技术。基于MPI编程模型实现了WEP-L分布式水循环模型产流模块的并行编程,采取子流域任务划分和对等模式实现了模型的并行设计。为了减少进程间的通信时间,在产流计算之前,数据按随年、月、日变化以及不随时间变化分成四类,分批进行通信;产流计算完成之后,采用聚合通信方式中的数据收集,快速统计结果。模型并行化后应用于黄河流域,结果如下:(1)随着参与计算的进程数增加,并行计算的加速比呈先增加后减少的趋势,并行效率随进程数增加呈线性下降趋势。(2)模型并行性能受通信开销制约,当通信开销增量大于产流计算时间减少量时,加速比达到峰值4.8。 展开更多
关键词 分布式水循环模型 MPI 并行计算 加速比 并行效率
在线阅读 下载PDF
三维模型自旋图的多线程并行算法 被引量:1
18
作者 葛梦凡 李志 +2 位作者 徐南 张耘齐 孙晓鹏 《小型微型计算机系统》 CSCD 北大核心 2017年第10期2369-2373,共5页
本文针对自旋图计算效率随着三维模型顶点规模增大而降低的问题,基于串行的自旋图算法,给出了多线程的三维模型自旋图并行计算方法.本文首先给出了三维模型顶点上自旋图的定义及串行算法,然后详细描述了多线程的顶点自旋图并行计算方法... 本文针对自旋图计算效率随着三维模型顶点规模增大而降低的问题,基于串行的自旋图算法,给出了多线程的三维模型自旋图并行计算方法.本文首先给出了三维模型顶点上自旋图的定义及串行算法,然后详细描述了多线程的顶点自旋图并行计算方法,最后在实验结果部分分析对比了本文并行算法与串行算法的效率差异,以及三维模型的顶点规模、线程数目等因素对并行算法的运行时间、加速比、可扩放性等特性的影响.实验结果表明,与串行方法相比,本文提出的多线程并行算法具有显著的优势. 展开更多
关键词 自旋图 并行计算 加速比 多线程 三维模型
在线阅读 下载PDF
基于GPU-CA异构并行的连铸坯凝固组织软测量模型
19
作者 汪静静 孟红记 +1 位作者 阳剑 谢植 《仪器仪表学报》 EI CAS CSCD 北大核心 2022年第11期219-228,共10页
铸坯凝固组织结构软测量模型算法复杂,计算量大,求解耗时长,基于中央处理器(CPU)的串行求解方法难以适应大尺寸铸件的预测需求。为了提高模型的计算效率,提出一种基于图形处理器(GPU)异构并行的元胞自动机(CA)软测量模型。首先设计GPU-C... 铸坯凝固组织结构软测量模型算法复杂,计算量大,求解耗时长,基于中央处理器(CPU)的串行求解方法难以适应大尺寸铸件的预测需求。为了提高模型的计算效率,提出一种基于图形处理器(GPU)异构并行的元胞自动机(CA)软测量模型。首先设计GPU-CA异构并行算法,消除元胞之间的数据依赖和数据竞争问题,优化数据并行度;其次设计多流任务调度方案,解决单流中独立任务互相等待的问题,提高任务并行度;最后,使用某钢厂大型连铸机生产的两个钢种进行模型测试,预测结果与钢厂实验数据有较高的吻合度,等轴晶率误差约分别为1%和1.5%,温度与实测温度的最大相对误差为1.37%。与CPU计算精度相同的情况下,GPU的计算加速比高达数百倍,极大地提高了模型的计算速度。 展开更多
关键词 GPU-CA异构 并行算法 凝固组织结构 加速比 软测量模型
在线阅读 下载PDF
自优化双模态多通路非深度前庭神经鞘瘤识别模型
20
作者 张睿 张鹏云 高美蓉 《计算机应用》 CSCD 北大核心 2024年第9期2975-2982,共8页
针对不同模态间对应特征极易融合错位、识别模型专家主观经验式调参且计算成本高等问题,提出自优化双模态(“对比增强T1加权”与“高分辨率增强T2加权”)多通路非深度前庭神经鞘瘤识别模型。首先,通过构建前庭神经鞘瘤识别模型进一步挖... 针对不同模态间对应特征极易融合错位、识别模型专家主观经验式调参且计算成本高等问题,提出自优化双模态(“对比增强T1加权”与“高分辨率增强T2加权”)多通路非深度前庭神经鞘瘤识别模型。首先,通过构建前庭神经鞘瘤识别模型进一步挖掘前庭神经鞘瘤病症多模态影像特征及模态间复杂的非线性互补信息;其次,设计基于博弈论全局并行麻雀搜索算法的模型优化策略,实现模型关键超参数的自适应寻优,使模型具有较优的识别效果。实验结果表明,相较于基于深度学习的模型,所提模型在识别准确率提升4.19个百分点的情况下参数量降低了27.9%,验证了它的有效性和自适应性。 展开更多
关键词 前庭神经鞘瘤 多模态神经网络 非深度模型 并行加速 模型自优化
在线阅读 下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部