期刊导航
期刊开放获取
上海教育软件发展有限公..
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
34
篇文章
<
1
2
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
产出率并行加速比模型
被引量:
1
1
作者
王之元
《计算机工程》
CAS
CSCD
北大核心
2011年第5期10-12,共3页
针对并行计算系统的性能度量问题,在产出率度量模型的基础上,建立综合系统可靠性、通信、并行化控制和成本投入要素的产出率并行加速比模型,分析总结模型中各要素影响产出率并行加速比的关键因子,包括容错开销因子、通信开销因子、并行...
针对并行计算系统的性能度量问题,在产出率度量模型的基础上,建立综合系统可靠性、通信、并行化控制和成本投入要素的产出率并行加速比模型,分析总结模型中各要素影响产出率并行加速比的关键因子,包括容错开销因子、通信开销因子、并行控制开销因子及成本开销因子,对上述关键因子进行模拟实验,以验证该模型的有效性。
展开更多
关键词
产出率
模型
产出率并行加速比模型
高
产出率
计算系统
在线阅读
下载PDF
职称材料
超燃冲压发动机一维模型的GPU并行加速研究
被引量:
1
2
作者
温思歆
苏承毅
+3 位作者
王东杰
孟万植
聂聆聪
孙希明
《推进技术》
EI
CAS
CSCD
北大核心
2024年第10期247-256,共10页
发动机模型是控制计划优化、基于模型的控制和观测器设计等技术的基础,对控制系统的性能具有重要影响。然而,超燃冲压发动机一维模型由于依赖计算流体力学的网格计算,其计算量巨大,难以在机载控制器内实时运行。为解决这一问题,本文深...
发动机模型是控制计划优化、基于模型的控制和观测器设计等技术的基础,对控制系统的性能具有重要影响。然而,超燃冲压发动机一维模型由于依赖计算流体力学的网格计算,其计算量巨大,难以在机载控制器内实时运行。为解决这一问题,本文深入研究基于图形处理器(Graphics Processing Unit,GPU)的并行计算技术,探索了网格解耦与划分、串/并异构设计、内存优化、代码优化、编译指令优化、硬件模式优化等方法,综合设计了一个高效的中央处理器(Central Processing Unit,CPU)+GPU异构模型,并在基于虚拟路径交叉连接(Virtual Path Cross-Connect,VPX)总线的嵌入式控制器上进行验证。为充分验证所设计异构模型的有效性、高效性与实时性,本文依次开展基线测试、软硬件优化加速测试、并行计算测试,在测试中对比一维模型在CPU,单核GPU,多核GPU上的计算耗时与数据误差。最后根据数据、曲线、监控工具等方式,展示了所设计的异构模型在不损失模型精度的前提下,加速超过了6.7倍,运行时间均不超过25 ms,符合工程预期的实时性要求,具有良好的应用前景。
展开更多
关键词
超燃冲压发动机
并行
计算
一维
模型
嵌入式控制器
优化
加速
在线阅读
下载PDF
职称材料
I/O受限的并行加速比模型与可扩展I/O体系结构
3
作者
李琼
杜云飞
杨学军
《计算机工程与科学》
CSCD
北大核心
2011年第3期28-33,共6页
为了缓解I/O瓶颈问题,可以从应用程序、可扩展算法、编译器和语言、运行时库、操作系统和体系结构六方面展开研究。其中,I/O体系结构是所有技术途径的关键支撑。当前并行I/O性能分析缺乏科学的理论模型为I/O体系结构设计提供理论依据。...
为了缓解I/O瓶颈问题,可以从应用程序、可扩展算法、编译器和语言、运行时库、操作系统和体系结构六方面展开研究。其中,I/O体系结构是所有技术途径的关键支撑。当前并行I/O性能分析缺乏科学的理论模型为I/O体系结构设计提供理论依据。本文针对并行计算机系统的可扩展性问题,研究了I/O负载对并行计算机系统可扩展性的影响,建立了I/O受限的并行加速比性能模型,对目前大规模并行计算机系统中三种常用I/O体系结构的可扩展性进行了分析;以此为理论依据,提出了一种面向高性能计算的可扩展并行I/O系统结构。同时,还提出了几种有效降低I/O操作服务时间的策略,从而达到增强系统可扩展性的目的,为后续研究奠定了基础。
展开更多
关键词
高性能计算
I/O体系结构
并行
加速比
模型
在线阅读
下载PDF
职称材料
一个基于GPU并行加速的海啸数值模型
4
作者
王宗辰
原野
李宏伟
《海洋通报》
CAS
CSCD
北大核心
2020年第2期200-205,共6页
地震海啸通常发生在大洋板块向陆地板块俯冲的区域,距离震源最近的国家和地区往往在震后5~20 min之内就会遭受到海啸袭击。因此,及时的海啸预警和准确的海啸预报结果对于民众和决策者都至关重要。为了提升海啸预警效率,缩短海啸预报时间...
地震海啸通常发生在大洋板块向陆地板块俯冲的区域,距离震源最近的国家和地区往往在震后5~20 min之内就会遭受到海啸袭击。因此,及时的海啸预警和准确的海啸预报结果对于民众和决策者都至关重要。为了提升海啸预警效率,缩短海啸预报时间,本研究对COMCOT海啸数值模型进行了基于图形计算单元GPU的二次并行开发。将原模型中海啸传播计算模块通过CUDA_C语言编写内核函数整体移植到GPU上并行加速,CPU负责模型其他代码的执行。为了减少CPU和GPU之间的数据通信,将吸收边界和变量更新函数一并改写。仅在需要输出的时间节点,GPU向CPU传递结果,其他时间步长,CPU和GPU之间只有指令和少量参数传输,基本可视为零耗时。基于GPU并行加速的COMCOT较串行版本效率提升超过67倍,加速性能显著优于基于CPU共享内存的OpenMP并行版本。交叉使用常水深和真实地形,采用均匀滑移海啸源和有限元海啸源对模型的计算结果进行了较为全面的分析检验,相对误差最大不超过1%,为大范围的越洋海啸实时计算提供了有力工具。
展开更多
关键词
海啸数值
模型
COMCOT
GPU
并行
加速
CUDA_C
在线阅读
下载PDF
职称材料
基于Zynq的卷积神经网络加速器设计
5
作者
孟凡开
张峰
+1 位作者
李淼
张多利
《合肥工业大学学报(自然科学版)》
北大核心
2025年第7期904-909,共6页
针对卷积神经网络(convolutional neural network,CNN)嵌入式部署资源开销大、运行速度慢等问题,文章提出一种以Tiny-YOLOv3作为算法模型的CNN硬件加速器。首先,基于Tiny-YOLOv3网络各层的特性和要求设计CNN加速器实现方案,将权重系数...
针对卷积神经网络(convolutional neural network,CNN)嵌入式部署资源开销大、运行速度慢等问题,文章提出一种以Tiny-YOLOv3作为算法模型的CNN硬件加速器。首先,基于Tiny-YOLOv3网络各层的特性和要求设计CNN加速器实现方案,将权重系数按位分割,面向单bit权重设计卷积加速器,通过逐位实施达到处理速度和识别率的高效平衡;然后,采用查表选择法实现卷积算子的乘加运算,设计一款6×3×16的三维加速器计算阵列,可单周期完成288个卷积窗口计算;最后,在Xilinx Zynq UltraScale+MPSoC系列芯片上对设计的CNN加速器进行性能测试。实验结果表明,该CNN加速器在200 MHz频率下具有518.4 GOPS的算力,比现有的解决方案性能提高了约63%。
展开更多
关键词
卷积神经网络(CNN)
Tiny-YOLOv3网络
模型
硬件
加速
流水阵列
并行
运算
在线阅读
下载PDF
职称材料
基于MPI的黄河下游二维水沙数学模型并行计算研究
被引量:
9
6
作者
余欣
杨明
+2 位作者
王敏
姜恺
袁俊
《人民黄河》
CAS
北大核心
2005年第3期49-50,53,共3页
基于MPI的消息传递实现了黄河二维水沙数学模型的并行编程。以数据的分布存储作为区域划分的依据,实现了计算量的负载平衡;在全局网格和局部区域之间建立映射关系,并且在临界单元、进出口单元、共用节点通过规约等进行特殊处理,一方面...
基于MPI的消息传递实现了黄河二维水沙数学模型的并行编程。以数据的分布存储作为区域划分的依据,实现了计算量的负载平衡;在全局网格和局部区域之间建立映射关系,并且在临界单元、进出口单元、共用节点通过规约等进行特殊处理,一方面尽可能减少了通讯量,另一方面也避免了消息的阻塞。采用曙光4000A并行计算系统的8个CPU进行计算的加速比达0. 8,同时,多CPU并行计算极大地提高了计算任务的容量,使得无法在单机上完成的巨量计算成为可能。
展开更多
关键词
并行
计算
通讯
规约
加速比
MPI
水沙数学
模型
黄河下游
在线阅读
下载PDF
职称材料
并行计算模型在集群环境下的适应性
被引量:
5
7
作者
宋安军
彭勤科
胡保生
《计算机工程》
CAS
CSCD
北大核心
2003年第18期4-5,17,共3页
分析了并行计算机模型和集群系统的特点,研究了BSP并行计算模型在集群环境下的适应性,指出通过合理地设计并行算法,某些算法在集群环境下可以获得近似线性的加速比,并用常用的线性规划标准形改进单纯型求最优解,在集群系统上的并...
分析了并行计算机模型和集群系统的特点,研究了BSP并行计算模型在集群环境下的适应性,指出通过合理地设计并行算法,某些算法在集群环境下可以获得近似线性的加速比,并用常用的线性规划标准形改进单纯型求最优解,在集群系统上的并行算法验证了该结论。
展开更多
关键词
BSP
模型
NOWS
代价公式
加速比
并行
计算机
模型
集群系统
在线阅读
下载PDF
职称材料
面向异构多核处理器的并行代价模型
被引量:
3
8
作者
黄品丰
赵荣彩
+1 位作者
姚远
赵捷
《计算机应用》
CSCD
北大核心
2013年第6期1544-1547,共4页
现有的并行代价模型大多是面向共享存储或分布存储结构设计的,不完全适合异构多核处理器。为解决这个问题,提出了面向异构多核处理器的并行代价模型,通过定量刻画计算核心运算能力、存储访问延迟和数据传输开销对循环并行执行时间的影响...
现有的并行代价模型大多是面向共享存储或分布存储结构设计的,不完全适合异构多核处理器。为解决这个问题,提出了面向异构多核处理器的并行代价模型,通过定量刻画计算核心运算能力、存储访问延迟和数据传输开销对循环并行执行时间的影响,提高加速并行循环识别的准确性。实验结果表明,提出的并行代价模型能有效识别加速并行循环,将其识别结果作为后端生成并行代码的依据,可有效提高并行程序在异构多核处理器上的性能。
展开更多
关键词
自动
并行
化
并行
代价
模型
异构多核
数据传输开销
加速
并行
循环
在线阅读
下载PDF
职称材料
OpenMP在水动力数学模型并行计算中的应用
被引量:
4
9
作者
李褆来
徐学军
+2 位作者
陈黎明
金秋
张铁军
《海洋工程》
CSCD
北大核心
2010年第3期112-116,122,共6页
采用PGI Fortran7.1-2(Portland Group)的OpenMP技术对二维水动力数学模型进行了并行优化试验。并行后,数学模型运行时间明显减少,在对同一算例的水流计算模拟中,串行和并行所需运行时间分别为5 336.781 s和3 454.296 s,平均加速比为1....
采用PGI Fortran7.1-2(Portland Group)的OpenMP技术对二维水动力数学模型进行了并行优化试验。并行后,数学模型运行时间明显减少,在对同一算例的水流计算模拟中,串行和并行所需运行时间分别为5 336.781 s和3 454.296 s,平均加速比为1.56,平均并行计算节省时间36%,明显提高了水动力学数学模型的运算速度。
展开更多
关键词
OPENMP
并行
计算
水动力学
数学
模型
加速比
在线阅读
下载PDF
职称材料
基于FPGA的细粒度并行CYK算法加速器设计与实现
被引量:
2
10
作者
夏飞
窦勇
+1 位作者
宋健
雷国庆
《计算机学报》
EI
CSCD
北大核心
2010年第5期797-812,共16页
基于随机上下文无关文法(SCFG)理论模型进行RNA二级结构预测是目前采用计算方法研究RNA二级结构的一种重要途径.由于基于SCFG模型的标准结构预测算法(Coche-Younger-Kasami,CYK)巨大的时空复杂度,对CYK算法进行加速成为计算生物学领域...
基于随机上下文无关文法(SCFG)理论模型进行RNA二级结构预测是目前采用计算方法研究RNA二级结构的一种重要途径.由于基于SCFG模型的标准结构预测算法(Coche-Younger-Kasami,CYK)巨大的时空复杂度,对CYK算法进行加速成为计算生物学领域一个极具挑战性的热点问题.CYK的并行性能受限于算法多维度、非一致性的数据依赖关系和较低的计算/通信比,现有的基于通用微处理器结构的大规模并行处理方案不能获得令人满意的加速效果,并且大规模并行计算机系统硬件设备的购置、使用、日常维护的成本高昂,其适用性受到诸多限制.文中在深入分析CYK算法计算特征的基础上,基于FPGA平台提出并实现了一种细粒度的并行CYK算法.设计采用了对三维动态规划矩阵"按区域分割"和"逐层按列并行处理"的计算策略实现了多个处理单元间的负载均衡;采用数据预取、滑动窗口和数据传递流水线实现处理单元间的数据重用,有效解决了计算和通信间的平衡问题;设计了一种类似脉动阵列(systolic-like array)结构的主从多PE并行计算阵列,并在目前最大规模的FPGA芯片(Xilinx XC5VLX330)上成功集成了16个处理单元(processing elements),实验结果表明作者提出的CYK算法加速器结构具备良好的可扩展性.当RNA序列长度为959bps,CM模型状态数为3145时,与运行在Intel双核E5200 2.5GHzCPU、2.0GB主存通用计算上的Infernal-1.0软件相比,可获得超过14倍的加速效果.配置一个FP-GA算法加速器的通用计算平台的综合处理性能与包含20个Intel-Xeon CPU的PC集群相当,而硬件成本仅为后者的20%,系统功耗不到后者的10%.
展开更多
关键词
生物信息学
RNA
二级结构预测
SCFG
模型
并行
CYK算法
FPGA
硬件
加速
器
在线阅读
下载PDF
职称材料
能耗并行加速比:高性能计算系统综合性能的有效度量
被引量:
2
11
作者
王之元
胡庆丰
陈娟
《计算机工程与科学》
CSCD
北大核心
2009年第11期113-116,共4页
随着并行系统规模的扩大,高性能计算系统运行时消耗的能耗也在急剧增长,过高的能耗也给系统的可靠性、稳定性等方面带来严峻挑战。在这种情形下,能耗问题受到了前所未有的关注。因此,设计和研究高性能计算系统,需要在考虑高计算性能的...
随着并行系统规模的扩大,高性能计算系统运行时消耗的能耗也在急剧增长,过高的能耗也给系统的可靠性、稳定性等方面带来严峻挑战。在这种情形下,能耗问题受到了前所未有的关注。因此,设计和研究高性能计算系统,需要在考虑高计算性能的同时兼顾系统低能耗的要求,这为高性能计算系统的度量模型提出了新的挑战。于是,大规模并行系统逐渐从"高性能"走向"高效能"的衡量标准。基于此,本文采用加速比度量指标,从系统可扩展角度将计算性能和能量消耗要素进行综合,提出了一种度量高性能计算系统综合性能的能耗并行加速比模型。该模型能够直观地反映并行计算系统的效能,旨在指导系统设计和应用研究。最后,通过对该模型的分析和模拟,验证了模型的有效性。
展开更多
关键词
能耗
并行
加速比
高效能
度量
模型
在线阅读
下载PDF
职称材料
基于带控制器并行结构模型的并行微粒群算法
被引量:
1
12
作者
王元元
曾建潮
谭瑛
《系统仿真学报》
EI
CAS
CSCD
北大核心
2007年第10期2171-2176,共6页
并行计算是解决复杂大规模工程计算问题的有效方法。现提出了一种基于带控制器并行结构模型的并行微粒群算法,它是一种粗粒度的并行。它将种群分为几个子种群,分别放在不同的处理器上,每个子种群独立、同时进化,周期性地交换、更新最优...
并行计算是解决复杂大规模工程计算问题的有效方法。现提出了一种基于带控制器并行结构模型的并行微粒群算法,它是一种粗粒度的并行。它将种群分为几个子种群,分别放在不同的处理器上,每个子种群独立、同时进化,周期性地交换、更新最优信息。实验结果表明:若选择合适的通讯周期时,该并行微粒群算法不仅具有理想的加速比,而且有效地提高解的质量。
展开更多
关键词
并行
计算
微粒群算法
并行
结构
模型
加速比
在线阅读
下载PDF
职称材料
基于GPU多流并发并行模型的NDVI提取算法
被引量:
3
13
作者
左宪禹
张哲
+3 位作者
苏岳瀚
刘扬
葛强
田军锋
《计算机科学》
CSCD
北大核心
2020年第4期25-29,共5页
利用GPU进行加速的归一化差分植被指数(Normalized Differential Vegetation Index,NDVI)提取算法通常采用GPU多线程并行模型,存在弱相关计算之间以及CPU与GPU之间数据传输耗时较多等问题,影响了加速效果的进一步提升。针对上述问题,根...
利用GPU进行加速的归一化差分植被指数(Normalized Differential Vegetation Index,NDVI)提取算法通常采用GPU多线程并行模型,存在弱相关计算之间以及CPU与GPU之间数据传输耗时较多等问题,影响了加速效果的进一步提升。针对上述问题,根据NDVI提取算法的特性,文中提出了一种基于GPU多流并发并行模型的NDVI提取算法。通过CUDA流和Hyper-Q特性,GPU多流并发并行模型可以使数据传输与弱相关计算、弱相关计算与弱相关计算之间达到重叠,从而进一步提高算法并行度及GPU资源利用率。文中首先通过GPU多线程并行模型对NDVI提取算法进行优化,并对优化后的计算过程进行分解,找出包含数据传输及弱相关性计算的部分;其次,对数据传输和弱相关计算部分进行重构,并利用GPU多流并发并行模型进行优化,使弱相关计算之间、弱相关计算和数据传输之间达到重叠的效果;最后,以高分一号卫星拍摄的遥感影像作为实验数据,对两种基于GPU实现的NDVI提取算法进行实验验证。实验结果表明,与传统基于GPU多线程并行模型的NDVI提取算法相比,所提算法在影像大于12000*12000像素时平均取得了约1.5倍的加速,与串行提取算法相比取得了约260倍的加速,具有更好的加速效果和并行性。
展开更多
关键词
NDVI
GPU多流并发
模型
遥感信息提取
计算通讯重叠
并行
加速
在线阅读
下载PDF
职称材料
基于并行小波算法的DEM数据多分辨率模型构建
被引量:
1
14
作者
黄为
魏迎梅
+1 位作者
宋汉辰
吴玲达
《计算机研究与发展》
EI
CSCD
北大核心
2010年第6期1026-1031,共6页
由于离散小波的多分辨率分析特性和DEM数据多分辨率模型的一致性,可以采用离散小波算法来构建DEM多分辨率模型,同时针对现有的基于小波的DEM数据多分辨率模型构建中运算量过大的问题,采用了基于并行的小波算法来进行多分辨率模型构建.由...
由于离散小波的多分辨率分析特性和DEM数据多分辨率模型的一致性,可以采用离散小波算法来构建DEM多分辨率模型,同时针对现有的基于小波的DEM数据多分辨率模型构建中运算量过大的问题,采用了基于并行的小波算法来进行多分辨率模型构建.由于DEM数据等价于二维的灰度图像,可以作为二维信号来进行处理.首先给出了二维离散信号小波变换的Mallat算法,进行了算法的可并行性分析;然后描述了各处理机中的局部数组的数据结构并讨论了并行算法中多处理机逻辑拓扑间的数据传递.实验结果证明,小波算法适宜于并行,且将其应用于DEM数据多分辨率模型构建时能获得理想的加速比,基于并行的小波算法能极大地加速多分辨率模型的构建速度.
展开更多
关键词
数字高程
模型
多分辨率
模型
并行
算法
离散小波分析
加速比
在线阅读
下载PDF
职称材料
改进BSP模型在实时图像并行处理中的应用
被引量:
1
15
作者
刘南艳
薛弘晔
《西安科技大学学报》
CAS
北大核心
2011年第2期218-222,共5页
针对大数据量图像处理的实时性,改进了BSP计算模型,解决了超步划分、超步丢失、数据传输等问题。设计了适合实时图像并行处理的集群结构。采用广播式的通信方式极大地缩短了通信时间,提高了实时性。从加速比、效率方面分析了并行计算的...
针对大数据量图像处理的实时性,改进了BSP计算模型,解决了超步划分、超步丢失、数据传输等问题。设计了适合实时图像并行处理的集群结构。采用广播式的通信方式极大地缩短了通信时间,提高了实时性。从加速比、效率方面分析了并行计算的性能,实验证明了此方法的有效性。
展开更多
关键词
BSP
模型
并行
处理
采样周期
加速比
在线阅读
下载PDF
职称材料
基于GPU加速的水文模型参数率定
被引量:
12
16
作者
阚光远
洪阳
+3 位作者
梁珂
何晓燕
丁留谦
张大伟
《人民长江》
北大核心
2019年第5期65-69,75,共6页
针对水文模型参数率定问题,为显著提升计算效率,选择SCE-UA算法和新安江模型为研究对象,围绕SCE-UA算法并行化与程序化实现、并行SCE-UA算法在图形处理器(GPU)上的加速效果这两个关键科学问题,以GPU硬件平台和通用计算设备架构(CUDA)软...
针对水文模型参数率定问题,为显著提升计算效率,选择SCE-UA算法和新安江模型为研究对象,围绕SCE-UA算法并行化与程序化实现、并行SCE-UA算法在图形处理器(GPU)上的加速效果这两个关键科学问题,以GPU硬件平台和通用计算设备架构(CUDA)软件平台为工具,采用时空复杂度分析、算法并行性挖掘、代码深度优化、数值模拟实验等多种手段相结合的方法,进行了水文模型参数率定提速研究。内容包括:①搭建基于CUDA和GPU的并行计算软硬件平台,进行配置与调优;②并行SCE-UA算法及其程序化实现;③并行SCE-UA算法在GPU上的加速效果。研究结果表明:所提出的方法显著提升了参数率定效率,能够促进水文模拟、最优化方法、计算机科学与技术等多学科的交叉、融合与发展,对水文模拟与预报、防洪快速应急响应具有科学意义和实用价值。
展开更多
关键词
参数率定
GPU
加速
CUDA
水文
模型
并行
计算
在线阅读
下载PDF
职称材料
基于MPI的分布式水循环模型并行计算性能研究
被引量:
3
17
作者
向东
周祖昊
+3 位作者
袁胜
秦泽宁
刘佳嘉
朱家松
《水文》
CSCD
北大核心
2020年第5期36-40,27,共6页
为满足分布式水文模型快速模拟的需要,引入并行计算技术。基于MPI编程模型实现了WEP-L分布式水循环模型产流模块的并行编程,采取子流域任务划分和对等模式实现了模型的并行设计。为了减少进程间的通信时间,在产流计算之前,数据按随年、...
为满足分布式水文模型快速模拟的需要,引入并行计算技术。基于MPI编程模型实现了WEP-L分布式水循环模型产流模块的并行编程,采取子流域任务划分和对等模式实现了模型的并行设计。为了减少进程间的通信时间,在产流计算之前,数据按随年、月、日变化以及不随时间变化分成四类,分批进行通信;产流计算完成之后,采用聚合通信方式中的数据收集,快速统计结果。模型并行化后应用于黄河流域,结果如下:(1)随着参与计算的进程数增加,并行计算的加速比呈先增加后减少的趋势,并行效率随进程数增加呈线性下降趋势。(2)模型并行性能受通信开销制约,当通信开销增量大于产流计算时间减少量时,加速比达到峰值4.8。
展开更多
关键词
分布式水循环
模型
MPI
并行
计算
加速比
并行
效率
在线阅读
下载PDF
职称材料
三维模型自旋图的多线程并行算法
被引量:
1
18
作者
葛梦凡
李志
+2 位作者
徐南
张耘齐
孙晓鹏
《小型微型计算机系统》
CSCD
北大核心
2017年第10期2369-2373,共5页
本文针对自旋图计算效率随着三维模型顶点规模增大而降低的问题,基于串行的自旋图算法,给出了多线程的三维模型自旋图并行计算方法.本文首先给出了三维模型顶点上自旋图的定义及串行算法,然后详细描述了多线程的顶点自旋图并行计算方法...
本文针对自旋图计算效率随着三维模型顶点规模增大而降低的问题,基于串行的自旋图算法,给出了多线程的三维模型自旋图并行计算方法.本文首先给出了三维模型顶点上自旋图的定义及串行算法,然后详细描述了多线程的顶点自旋图并行计算方法,最后在实验结果部分分析对比了本文并行算法与串行算法的效率差异,以及三维模型的顶点规模、线程数目等因素对并行算法的运行时间、加速比、可扩放性等特性的影响.实验结果表明,与串行方法相比,本文提出的多线程并行算法具有显著的优势.
展开更多
关键词
自旋图
并行
计算
加速比
多线程
三维
模型
在线阅读
下载PDF
职称材料
基于GPU-CA异构并行的连铸坯凝固组织软测量模型
19
作者
汪静静
孟红记
+1 位作者
阳剑
谢植
《仪器仪表学报》
EI
CAS
CSCD
北大核心
2022年第11期219-228,共10页
铸坯凝固组织结构软测量模型算法复杂,计算量大,求解耗时长,基于中央处理器(CPU)的串行求解方法难以适应大尺寸铸件的预测需求。为了提高模型的计算效率,提出一种基于图形处理器(GPU)异构并行的元胞自动机(CA)软测量模型。首先设计GPU-C...
铸坯凝固组织结构软测量模型算法复杂,计算量大,求解耗时长,基于中央处理器(CPU)的串行求解方法难以适应大尺寸铸件的预测需求。为了提高模型的计算效率,提出一种基于图形处理器(GPU)异构并行的元胞自动机(CA)软测量模型。首先设计GPU-CA异构并行算法,消除元胞之间的数据依赖和数据竞争问题,优化数据并行度;其次设计多流任务调度方案,解决单流中独立任务互相等待的问题,提高任务并行度;最后,使用某钢厂大型连铸机生产的两个钢种进行模型测试,预测结果与钢厂实验数据有较高的吻合度,等轴晶率误差约分别为1%和1.5%,温度与实测温度的最大相对误差为1.37%。与CPU计算精度相同的情况下,GPU的计算加速比高达数百倍,极大地提高了模型的计算速度。
展开更多
关键词
GPU-CA异构
并行
算法
凝固组织结构
加速比
软测量
模型
在线阅读
下载PDF
职称材料
自优化双模态多通路非深度前庭神经鞘瘤识别模型
20
作者
张睿
张鹏云
高美蓉
《计算机应用》
CSCD
北大核心
2024年第9期2975-2982,共8页
针对不同模态间对应特征极易融合错位、识别模型专家主观经验式调参且计算成本高等问题,提出自优化双模态(“对比增强T1加权”与“高分辨率增强T2加权”)多通路非深度前庭神经鞘瘤识别模型。首先,通过构建前庭神经鞘瘤识别模型进一步挖...
针对不同模态间对应特征极易融合错位、识别模型专家主观经验式调参且计算成本高等问题,提出自优化双模态(“对比增强T1加权”与“高分辨率增强T2加权”)多通路非深度前庭神经鞘瘤识别模型。首先,通过构建前庭神经鞘瘤识别模型进一步挖掘前庭神经鞘瘤病症多模态影像特征及模态间复杂的非线性互补信息;其次,设计基于博弈论全局并行麻雀搜索算法的模型优化策略,实现模型关键超参数的自适应寻优,使模型具有较优的识别效果。实验结果表明,相较于基于深度学习的模型,所提模型在识别准确率提升4.19个百分点的情况下参数量降低了27.9%,验证了它的有效性和自适应性。
展开更多
关键词
前庭神经鞘瘤
多模态神经网络
非深度
模型
并行
加速
模型
自优化
在线阅读
下载PDF
职称材料
题名
产出率并行加速比模型
被引量:
1
1
作者
王之元
机构
国防科技大学计算机学院
出处
《计算机工程》
CAS
CSCD
北大核心
2011年第5期10-12,共3页
基金
国家自然科学基金资助项目(60633050
60873014)
文摘
针对并行计算系统的性能度量问题,在产出率度量模型的基础上,建立综合系统可靠性、通信、并行化控制和成本投入要素的产出率并行加速比模型,分析总结模型中各要素影响产出率并行加速比的关键因子,包括容错开销因子、通信开销因子、并行控制开销因子及成本开销因子,对上述关键因子进行模拟实验,以验证该模型的有效性。
关键词
产出率
模型
产出率并行加速比模型
高
产出率
计算系统
Keywords
productivity model
productivity parallel speedup model
high productivity computing system
分类号
N945 [自然科学总论—系统科学]
在线阅读
下载PDF
职称材料
题名
超燃冲压发动机一维模型的GPU并行加速研究
被引量:
1
2
作者
温思歆
苏承毅
王东杰
孟万植
聂聆聪
孙希明
机构
大连理工大学控制科学与工程学院
北京动力机械研究所
出处
《推进技术》
EI
CAS
CSCD
北大核心
2024年第10期247-256,共10页
基金
国家科技重大专项(J2019-Ⅰ-0019-0018)。
文摘
发动机模型是控制计划优化、基于模型的控制和观测器设计等技术的基础,对控制系统的性能具有重要影响。然而,超燃冲压发动机一维模型由于依赖计算流体力学的网格计算,其计算量巨大,难以在机载控制器内实时运行。为解决这一问题,本文深入研究基于图形处理器(Graphics Processing Unit,GPU)的并行计算技术,探索了网格解耦与划分、串/并异构设计、内存优化、代码优化、编译指令优化、硬件模式优化等方法,综合设计了一个高效的中央处理器(Central Processing Unit,CPU)+GPU异构模型,并在基于虚拟路径交叉连接(Virtual Path Cross-Connect,VPX)总线的嵌入式控制器上进行验证。为充分验证所设计异构模型的有效性、高效性与实时性,本文依次开展基线测试、软硬件优化加速测试、并行计算测试,在测试中对比一维模型在CPU,单核GPU,多核GPU上的计算耗时与数据误差。最后根据数据、曲线、监控工具等方式,展示了所设计的异构模型在不损失模型精度的前提下,加速超过了6.7倍,运行时间均不超过25 ms,符合工程预期的实时性要求,具有良好的应用前景。
关键词
超燃冲压发动机
并行
计算
一维
模型
嵌入式控制器
优化
加速
Keywords
Scramjet
Parallel computing
One-dimensional model
Embedded controllers
Optimal acceleration
分类号
V231.3 [航空宇航科学与技术—航空宇航推进理论与工程]
在线阅读
下载PDF
职称材料
题名
I/O受限的并行加速比模型与可扩展I/O体系结构
3
作者
李琼
杜云飞
杨学军
机构
国防科学技术大学计算机学院
出处
《计算机工程与科学》
CSCD
北大核心
2011年第3期28-33,共6页
基金
装备预研项目(51316040301)
文摘
为了缓解I/O瓶颈问题,可以从应用程序、可扩展算法、编译器和语言、运行时库、操作系统和体系结构六方面展开研究。其中,I/O体系结构是所有技术途径的关键支撑。当前并行I/O性能分析缺乏科学的理论模型为I/O体系结构设计提供理论依据。本文针对并行计算机系统的可扩展性问题,研究了I/O负载对并行计算机系统可扩展性的影响,建立了I/O受限的并行加速比性能模型,对目前大规模并行计算机系统中三种常用I/O体系结构的可扩展性进行了分析;以此为理论依据,提出了一种面向高性能计算的可扩展并行I/O系统结构。同时,还提出了几种有效降低I/O操作服务时间的策略,从而达到增强系统可扩展性的目的,为后续研究奠定了基础。
关键词
高性能计算
I/O体系结构
并行
加速比
模型
Keywords
high performance computing
I/O architecture
parallel speedup model
分类号
TP303 [自动化与计算机技术—计算机系统结构]
在线阅读
下载PDF
职称材料
题名
一个基于GPU并行加速的海啸数值模型
4
作者
王宗辰
原野
李宏伟
机构
国家海洋环境预报中心自然资源部海啸预警中心
出处
《海洋通报》
CAS
CSCD
北大核心
2020年第2期200-205,共6页
基金
国家重点研发计划(2016YFC1401501)
国家自然科学基金(41806045)。
文摘
地震海啸通常发生在大洋板块向陆地板块俯冲的区域,距离震源最近的国家和地区往往在震后5~20 min之内就会遭受到海啸袭击。因此,及时的海啸预警和准确的海啸预报结果对于民众和决策者都至关重要。为了提升海啸预警效率,缩短海啸预报时间,本研究对COMCOT海啸数值模型进行了基于图形计算单元GPU的二次并行开发。将原模型中海啸传播计算模块通过CUDA_C语言编写内核函数整体移植到GPU上并行加速,CPU负责模型其他代码的执行。为了减少CPU和GPU之间的数据通信,将吸收边界和变量更新函数一并改写。仅在需要输出的时间节点,GPU向CPU传递结果,其他时间步长,CPU和GPU之间只有指令和少量参数传输,基本可视为零耗时。基于GPU并行加速的COMCOT较串行版本效率提升超过67倍,加速性能显著优于基于CPU共享内存的OpenMP并行版本。交叉使用常水深和真实地形,采用均匀滑移海啸源和有限元海啸源对模型的计算结果进行了较为全面的分析检验,相对误差最大不超过1%,为大范围的越洋海啸实时计算提供了有力工具。
关键词
海啸数值
模型
COMCOT
GPU
并行
加速
CUDA_C
Keywords
tsunami model
COMCOT
GPU parallel acceleration
CUDA_C
分类号
P731.36 [天文地球—海洋科学]
TP316.4 [自动化与计算机技术—计算机软件与理论]
在线阅读
下载PDF
职称材料
题名
基于Zynq的卷积神经网络加速器设计
5
作者
孟凡开
张峰
李淼
张多利
机构
合肥工业大学微电子学院
中国科学院自动化研究所国家专用集成电路设计工程技术研究中心
出处
《合肥工业大学学报(自然科学版)》
北大核心
2025年第7期904-909,共6页
基金
国家自然科学基金资助项目(61874156)
安徽省高校协同创新资助项目(GXXT-2019-030)。
文摘
针对卷积神经网络(convolutional neural network,CNN)嵌入式部署资源开销大、运行速度慢等问题,文章提出一种以Tiny-YOLOv3作为算法模型的CNN硬件加速器。首先,基于Tiny-YOLOv3网络各层的特性和要求设计CNN加速器实现方案,将权重系数按位分割,面向单bit权重设计卷积加速器,通过逐位实施达到处理速度和识别率的高效平衡;然后,采用查表选择法实现卷积算子的乘加运算,设计一款6×3×16的三维加速器计算阵列,可单周期完成288个卷积窗口计算;最后,在Xilinx Zynq UltraScale+MPSoC系列芯片上对设计的CNN加速器进行性能测试。实验结果表明,该CNN加速器在200 MHz频率下具有518.4 GOPS的算力,比现有的解决方案性能提高了约63%。
关键词
卷积神经网络(CNN)
Tiny-YOLOv3网络
模型
硬件
加速
流水阵列
并行
运算
Keywords
convolutional neural network(CNN)
Tiny-YOLOv3 network model
hardware acceleration
pipeline array
parallel operation
分类号
TN47 [电子电信—微电子学与固体电子学]
在线阅读
下载PDF
职称材料
题名
基于MPI的黄河下游二维水沙数学模型并行计算研究
被引量:
9
6
作者
余欣
杨明
王敏
姜恺
袁俊
机构
黄河水利科学研究院
上海超级计算中心
出处
《人民黄河》
CAS
北大核心
2005年第3期49-50,53,共3页
基金
国家自然科学基金和黄河研究联合基金项目(50439020)。
文摘
基于MPI的消息传递实现了黄河二维水沙数学模型的并行编程。以数据的分布存储作为区域划分的依据,实现了计算量的负载平衡;在全局网格和局部区域之间建立映射关系,并且在临界单元、进出口单元、共用节点通过规约等进行特殊处理,一方面尽可能减少了通讯量,另一方面也避免了消息的阻塞。采用曙光4000A并行计算系统的8个CPU进行计算的加速比达0. 8,同时,多CPU并行计算极大地提高了计算任务的容量,使得无法在单机上完成的巨量计算成为可能。
关键词
并行
计算
通讯
规约
加速比
MPI
水沙数学
模型
黄河下游
分类号
TP301.6 [自动化与计算机技术—计算机系统结构]
TV882.1 [水利工程—水利水电工程]
在线阅读
下载PDF
职称材料
题名
并行计算模型在集群环境下的适应性
被引量:
5
7
作者
宋安军
彭勤科
胡保生
机构
西安交通大学系统工程研究所
出处
《计算机工程》
CAS
CSCD
北大核心
2003年第18期4-5,17,共3页
基金
国家自然科学基金项目(60175015)
文摘
分析了并行计算机模型和集群系统的特点,研究了BSP并行计算模型在集群环境下的适应性,指出通过合理地设计并行算法,某些算法在集群环境下可以获得近似线性的加速比,并用常用的线性规划标准形改进单纯型求最优解,在集群系统上的并行算法验证了该结论。
关键词
BSP
模型
NOWS
代价公式
加速比
并行
计算机
模型
集群系统
Keywords
BSP model
NOWS
Parallel computing
Cost formula
Accelerated ratio
分类号
TP301.6 [自动化与计算机技术—计算机系统结构]
在线阅读
下载PDF
职称材料
题名
面向异构多核处理器的并行代价模型
被引量:
3
8
作者
黄品丰
赵荣彩
姚远
赵捷
机构
信息工程大学
数字工程与先进计算国家重点实验室
出处
《计算机应用》
CSCD
北大核心
2013年第6期1544-1547,共4页
基金
国家"核高基"重大专项(2009ZX01036-001-001-2)
文摘
现有的并行代价模型大多是面向共享存储或分布存储结构设计的,不完全适合异构多核处理器。为解决这个问题,提出了面向异构多核处理器的并行代价模型,通过定量刻画计算核心运算能力、存储访问延迟和数据传输开销对循环并行执行时间的影响,提高加速并行循环识别的准确性。实验结果表明,提出的并行代价模型能有效识别加速并行循环,将其识别结果作为后端生成并行代码的依据,可有效提高并行程序在异构多核处理器上的性能。
关键词
自动
并行
化
并行
代价
模型
异构多核
数据传输开销
加速
并行
循环
Keywords
auto-parallelization
parallel cost model
heterogeneous multi-core
data transfer cost
accelerated parallel loop
分类号
TP314 [自动化与计算机技术—计算机软件与理论]
在线阅读
下载PDF
职称材料
题名
OpenMP在水动力数学模型并行计算中的应用
被引量:
4
9
作者
李褆来
徐学军
陈黎明
金秋
张铁军
机构
南京水利科学研究院
长江勘测规划设计研究院
水利部海河水利委员会
出处
《海洋工程》
CSCD
北大核心
2010年第3期112-116,122,共6页
基金
国家“十一五”科技支撑计划资助项目(2006BAB14B07
2006BAB05B04)
文摘
采用PGI Fortran7.1-2(Portland Group)的OpenMP技术对二维水动力数学模型进行了并行优化试验。并行后,数学模型运行时间明显减少,在对同一算例的水流计算模拟中,串行和并行所需运行时间分别为5 336.781 s和3 454.296 s,平均加速比为1.56,平均并行计算节省时间36%,明显提高了水动力学数学模型的运算速度。
关键词
OPENMP
并行
计算
水动力学
数学
模型
加速比
Keywords
OpenMP
parallel computing
hydrodynamics
model
speedup
分类号
TV131.2 [水利工程—水力学及河流动力学]
在线阅读
下载PDF
职称材料
题名
基于FPGA的细粒度并行CYK算法加速器设计与实现
被引量:
2
10
作者
夏飞
窦勇
宋健
雷国庆
机构
国防科学技术大学计算机学院
中国人民解放军
出处
《计算机学报》
EI
CSCD
北大核心
2010年第5期797-812,共16页
基金
国家"八六三"高技术研究发展计划项目基金(2007AA01Z106
2008AA01A201)资助~~
文摘
基于随机上下文无关文法(SCFG)理论模型进行RNA二级结构预测是目前采用计算方法研究RNA二级结构的一种重要途径.由于基于SCFG模型的标准结构预测算法(Coche-Younger-Kasami,CYK)巨大的时空复杂度,对CYK算法进行加速成为计算生物学领域一个极具挑战性的热点问题.CYK的并行性能受限于算法多维度、非一致性的数据依赖关系和较低的计算/通信比,现有的基于通用微处理器结构的大规模并行处理方案不能获得令人满意的加速效果,并且大规模并行计算机系统硬件设备的购置、使用、日常维护的成本高昂,其适用性受到诸多限制.文中在深入分析CYK算法计算特征的基础上,基于FPGA平台提出并实现了一种细粒度的并行CYK算法.设计采用了对三维动态规划矩阵"按区域分割"和"逐层按列并行处理"的计算策略实现了多个处理单元间的负载均衡;采用数据预取、滑动窗口和数据传递流水线实现处理单元间的数据重用,有效解决了计算和通信间的平衡问题;设计了一种类似脉动阵列(systolic-like array)结构的主从多PE并行计算阵列,并在目前最大规模的FPGA芯片(Xilinx XC5VLX330)上成功集成了16个处理单元(processing elements),实验结果表明作者提出的CYK算法加速器结构具备良好的可扩展性.当RNA序列长度为959bps,CM模型状态数为3145时,与运行在Intel双核E5200 2.5GHzCPU、2.0GB主存通用计算上的Infernal-1.0软件相比,可获得超过14倍的加速效果.配置一个FP-GA算法加速器的通用计算平台的综合处理性能与包含20个Intel-Xeon CPU的PC集群相当,而硬件成本仅为后者的20%,系统功耗不到后者的10%.
关键词
生物信息学
RNA
二级结构预测
SCFG
模型
并行
CYK算法
FPGA
硬件
加速
器
Keywords
bioinformatics
RNA
secondary structure prediction stochastic context-free grammars model parallel CYK algorithm FPGA
hardware accelerator
分类号
TP302 [自动化与计算机技术—计算机系统结构]
在线阅读
下载PDF
职称材料
题名
能耗并行加速比:高性能计算系统综合性能的有效度量
被引量:
2
11
作者
王之元
胡庆丰
陈娟
机构
并行与分布处理国家重点实验室
出处
《计算机工程与科学》
CSCD
北大核心
2009年第11期113-116,共4页
基金
国家863计划资助项目(2008AA01Z137)
国家自然科学基金资助项目(60621003
+2 种基金
60633050
60873014
60903044)
文摘
随着并行系统规模的扩大,高性能计算系统运行时消耗的能耗也在急剧增长,过高的能耗也给系统的可靠性、稳定性等方面带来严峻挑战。在这种情形下,能耗问题受到了前所未有的关注。因此,设计和研究高性能计算系统,需要在考虑高计算性能的同时兼顾系统低能耗的要求,这为高性能计算系统的度量模型提出了新的挑战。于是,大规模并行系统逐渐从"高性能"走向"高效能"的衡量标准。基于此,本文采用加速比度量指标,从系统可扩展角度将计算性能和能量消耗要素进行综合,提出了一种度量高性能计算系统综合性能的能耗并行加速比模型。该模型能够直观地反映并行计算系统的效能,旨在指导系统设计和应用研究。最后,通过对该模型的分析和模拟,验证了模型的有效性。
关键词
能耗
并行
加速比
高效能
度量
模型
Keywords
energy parallel speedup
high productivity
metric model
分类号
TP302.7 [自动化与计算机技术—计算机系统结构]
TP338.4 [自动化与计算机技术—计算机系统结构]
在线阅读
下载PDF
职称材料
题名
基于带控制器并行结构模型的并行微粒群算法
被引量:
1
12
作者
王元元
曾建潮
谭瑛
机构
太原科技大学系统仿真与计算机应用研究所
出处
《系统仿真学报》
EI
CAS
CSCD
北大核心
2007年第10期2171-2176,共6页
基金
教育部重点科研项目资助(204018)
文摘
并行计算是解决复杂大规模工程计算问题的有效方法。现提出了一种基于带控制器并行结构模型的并行微粒群算法,它是一种粗粒度的并行。它将种群分为几个子种群,分别放在不同的处理器上,每个子种群独立、同时进化,周期性地交换、更新最优信息。实验结果表明:若选择合适的通讯周期时,该并行微粒群算法不仅具有理想的加速比,而且有效地提高解的质量。
关键词
并行
计算
微粒群算法
并行
结构
模型
加速比
Keywords
parallel computation
PSO
parallel model
speedup
分类号
TP301.6 [自动化与计算机技术—计算机系统结构]
在线阅读
下载PDF
职称材料
题名
基于GPU多流并发并行模型的NDVI提取算法
被引量:
3
13
作者
左宪禹
张哲
苏岳瀚
刘扬
葛强
田军锋
机构
河南大学计算机与信息工程学院数据与知识工程研究所
河南省大数据分析与处理重点实验室
中国科学院空天信息创新研究院
出处
《计算机科学》
CSCD
北大核心
2020年第4期25-29,共5页
基金
国家重点研发计划课题(2017YFD0301105)
国家自然科学基金(U1704122,U1604145)
河南省重点研发与推广专项(182102210242,182102110065,192102210096)。
文摘
利用GPU进行加速的归一化差分植被指数(Normalized Differential Vegetation Index,NDVI)提取算法通常采用GPU多线程并行模型,存在弱相关计算之间以及CPU与GPU之间数据传输耗时较多等问题,影响了加速效果的进一步提升。针对上述问题,根据NDVI提取算法的特性,文中提出了一种基于GPU多流并发并行模型的NDVI提取算法。通过CUDA流和Hyper-Q特性,GPU多流并发并行模型可以使数据传输与弱相关计算、弱相关计算与弱相关计算之间达到重叠,从而进一步提高算法并行度及GPU资源利用率。文中首先通过GPU多线程并行模型对NDVI提取算法进行优化,并对优化后的计算过程进行分解,找出包含数据传输及弱相关性计算的部分;其次,对数据传输和弱相关计算部分进行重构,并利用GPU多流并发并行模型进行优化,使弱相关计算之间、弱相关计算和数据传输之间达到重叠的效果;最后,以高分一号卫星拍摄的遥感影像作为实验数据,对两种基于GPU实现的NDVI提取算法进行实验验证。实验结果表明,与传统基于GPU多线程并行模型的NDVI提取算法相比,所提算法在影像大于12000*12000像素时平均取得了约1.5倍的加速,与串行提取算法相比取得了约260倍的加速,具有更好的加速效果和并行性。
关键词
NDVI
GPU多流并发
模型
遥感信息提取
计算通讯重叠
并行
加速
Keywords
NDVI
GPU parallel model
Remote sensing information extraction
Overlap
Parallel acceleration
分类号
TP751 [自动化与计算机技术—检测技术与自动化装置]
在线阅读
下载PDF
职称材料
题名
基于并行小波算法的DEM数据多分辨率模型构建
被引量:
1
14
作者
黄为
魏迎梅
宋汉辰
吴玲达
机构
国防科学技术大学信息系统与管理学院
出处
《计算机研究与发展》
EI
CSCD
北大核心
2010年第6期1026-1031,共6页
基金
国防科学技术大学高性能计算研究基金项目(0702YYRJ09-10)
文摘
由于离散小波的多分辨率分析特性和DEM数据多分辨率模型的一致性,可以采用离散小波算法来构建DEM多分辨率模型,同时针对现有的基于小波的DEM数据多分辨率模型构建中运算量过大的问题,采用了基于并行的小波算法来进行多分辨率模型构建.由于DEM数据等价于二维的灰度图像,可以作为二维信号来进行处理.首先给出了二维离散信号小波变换的Mallat算法,进行了算法的可并行性分析;然后描述了各处理机中的局部数组的数据结构并讨论了并行算法中多处理机逻辑拓扑间的数据传递.实验结果证明,小波算法适宜于并行,且将其应用于DEM数据多分辨率模型构建时能获得理想的加速比,基于并行的小波算法能极大地加速多分辨率模型的构建速度.
关键词
数字高程
模型
多分辨率
模型
并行
算法
离散小波分析
加速比
Keywords
digital elevation model (DEM)
multi-resolution model
parallel algorithm
discrete wavelet analysis
speedup
分类号
TP391 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
改进BSP模型在实时图像并行处理中的应用
被引量:
1
15
作者
刘南艳
薛弘晔
机构
西安科技大学计算机学院
出处
《西安科技大学学报》
CAS
北大核心
2011年第2期218-222,共5页
基金
西安科技大学培育基金项目(A515018)
文摘
针对大数据量图像处理的实时性,改进了BSP计算模型,解决了超步划分、超步丢失、数据传输等问题。设计了适合实时图像并行处理的集群结构。采用广播式的通信方式极大地缩短了通信时间,提高了实时性。从加速比、效率方面分析了并行计算的性能,实验证明了此方法的有效性。
关键词
BSP
模型
并行
处理
采样周期
加速比
Keywords
BSP model
paralell computing
sampling cycle
speedup-ratio
分类号
TP391.41 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
基于GPU加速的水文模型参数率定
被引量:
12
16
作者
阚光远
洪阳
梁珂
何晓燕
丁留谦
张大伟
机构
清华大学水利系
中国水利水电科学研究院北京中水科工程总公司
中国水利水电科学研究院水利部防洪抗旱减灾工程技术研究中心
出处
《人民长江》
北大核心
2019年第5期65-69,75,共6页
基金
中国博士后科学基金资助项目(2016M600096)
北京市自然科学基金资助项目(8184094)
+2 种基金
中国水科院科研专项资助项目(JZ0145B022018
JZ0145B772017)
国家自然科学基金资助项目(51509263)
文摘
针对水文模型参数率定问题,为显著提升计算效率,选择SCE-UA算法和新安江模型为研究对象,围绕SCE-UA算法并行化与程序化实现、并行SCE-UA算法在图形处理器(GPU)上的加速效果这两个关键科学问题,以GPU硬件平台和通用计算设备架构(CUDA)软件平台为工具,采用时空复杂度分析、算法并行性挖掘、代码深度优化、数值模拟实验等多种手段相结合的方法,进行了水文模型参数率定提速研究。内容包括:①搭建基于CUDA和GPU的并行计算软硬件平台,进行配置与调优;②并行SCE-UA算法及其程序化实现;③并行SCE-UA算法在GPU上的加速效果。研究结果表明:所提出的方法显著提升了参数率定效率,能够促进水文模拟、最优化方法、计算机科学与技术等多学科的交叉、融合与发展,对水文模拟与预报、防洪快速应急响应具有科学意义和实用价值。
关键词
参数率定
GPU
加速
CUDA
水文
模型
并行
计算
Keywords
parameter calibration
GPU acceleration
CUDA
hydrological model
parallel computing
分类号
P33 [天文地球—水文科学]
在线阅读
下载PDF
职称材料
题名
基于MPI的分布式水循环模型并行计算性能研究
被引量:
3
17
作者
向东
周祖昊
袁胜
秦泽宁
刘佳嘉
朱家松
机构
华北水利水电大学
中国水利水电科学研究院流域水循环模拟与调控国家重点实验室
深圳大学土木与交通工程学院
出处
《水文》
CSCD
北大核心
2020年第5期36-40,27,共6页
基金
国家重点研发计划课题(2016YFC0402405)
江西省水利科技重大项目(KT201501)
坪山河干流综合整治及水质提升工程专项课题(CSCEC-PSH-2017-03)。
文摘
为满足分布式水文模型快速模拟的需要,引入并行计算技术。基于MPI编程模型实现了WEP-L分布式水循环模型产流模块的并行编程,采取子流域任务划分和对等模式实现了模型的并行设计。为了减少进程间的通信时间,在产流计算之前,数据按随年、月、日变化以及不随时间变化分成四类,分批进行通信;产流计算完成之后,采用聚合通信方式中的数据收集,快速统计结果。模型并行化后应用于黄河流域,结果如下:(1)随着参与计算的进程数增加,并行计算的加速比呈先增加后减少的趋势,并行效率随进程数增加呈线性下降趋势。(2)模型并行性能受通信开销制约,当通信开销增量大于产流计算时间减少量时,加速比达到峰值4.8。
关键词
分布式水循环
模型
MPI
并行
计算
加速比
并行
效率
Keywords
distributed water cycle model
MPI
parallel computing
speedup ratio
parallel efficiency
分类号
P333.9 [天文地球—水文科学]
O246 [理学—计算数学]
在线阅读
下载PDF
职称材料
题名
三维模型自旋图的多线程并行算法
被引量:
1
18
作者
葛梦凡
李志
徐南
张耘齐
孙晓鹏
机构
北京交通大学计算机与信息技术学院
辽宁师范大学计算机与信息技术学院
出处
《小型微型计算机系统》
CSCD
北大核心
2017年第10期2369-2373,共5页
基金
国家自然科学基金项目(61472170)资助
文摘
本文针对自旋图计算效率随着三维模型顶点规模增大而降低的问题,基于串行的自旋图算法,给出了多线程的三维模型自旋图并行计算方法.本文首先给出了三维模型顶点上自旋图的定义及串行算法,然后详细描述了多线程的顶点自旋图并行计算方法,最后在实验结果部分分析对比了本文并行算法与串行算法的效率差异,以及三维模型的顶点规模、线程数目等因素对并行算法的运行时间、加速比、可扩放性等特性的影响.实验结果表明,与串行方法相比,本文提出的多线程并行算法具有显著的优势.
关键词
自旋图
并行
计算
加速比
多线程
三维
模型
Keywords
spin image
parallel computing
speed-up ratio
multithread
3D model
分类号
TP311 [自动化与计算机技术—计算机软件与理论]
在线阅读
下载PDF
职称材料
题名
基于GPU-CA异构并行的连铸坯凝固组织软测量模型
19
作者
汪静静
孟红记
阳剑
谢植
机构
东北大学信息科学与工程学院
出处
《仪器仪表学报》
EI
CAS
CSCD
北大核心
2022年第11期219-228,共10页
基金
国家自然科学基金(51634002)项目资助。
文摘
铸坯凝固组织结构软测量模型算法复杂,计算量大,求解耗时长,基于中央处理器(CPU)的串行求解方法难以适应大尺寸铸件的预测需求。为了提高模型的计算效率,提出一种基于图形处理器(GPU)异构并行的元胞自动机(CA)软测量模型。首先设计GPU-CA异构并行算法,消除元胞之间的数据依赖和数据竞争问题,优化数据并行度;其次设计多流任务调度方案,解决单流中独立任务互相等待的问题,提高任务并行度;最后,使用某钢厂大型连铸机生产的两个钢种进行模型测试,预测结果与钢厂实验数据有较高的吻合度,等轴晶率误差约分别为1%和1.5%,温度与实测温度的最大相对误差为1.37%。与CPU计算精度相同的情况下,GPU的计算加速比高达数百倍,极大地提高了模型的计算速度。
关键词
GPU-CA异构
并行
算法
凝固组织结构
加速比
软测量
模型
Keywords
GPU-CA isomerism
parallel algorithm
solidification structure
speedup
soft-sensing model
分类号
TH7 [机械工程—精密仪器及机械]
TP3 [自动化与计算机技术—计算机科学与技术]
在线阅读
下载PDF
职称材料
题名
自优化双模态多通路非深度前庭神经鞘瘤识别模型
20
作者
张睿
张鹏云
高美蓉
机构
太原科技大学计算机科学与技术学院
出处
《计算机应用》
CSCD
北大核心
2024年第9期2975-2982,共8页
基金
山西省基础研究计划项目(20210302123216)
太原科技大学研究生联合培养示范基地项目(JD2022004)
太原科技大学研究生教育创新项目(SY2023040)。
文摘
针对不同模态间对应特征极易融合错位、识别模型专家主观经验式调参且计算成本高等问题,提出自优化双模态(“对比增强T1加权”与“高分辨率增强T2加权”)多通路非深度前庭神经鞘瘤识别模型。首先,通过构建前庭神经鞘瘤识别模型进一步挖掘前庭神经鞘瘤病症多模态影像特征及模态间复杂的非线性互补信息;其次,设计基于博弈论全局并行麻雀搜索算法的模型优化策略,实现模型关键超参数的自适应寻优,使模型具有较优的识别效果。实验结果表明,相较于基于深度学习的模型,所提模型在识别准确率提升4.19个百分点的情况下参数量降低了27.9%,验证了它的有效性和自适应性。
关键词
前庭神经鞘瘤
多模态神经网络
非深度
模型
并行
加速
模型
自优化
Keywords
vestibular schwannoma
multi-modal neural network
non-deep model
parallel acceleration
model selfoptimization
分类号
R739.4 [医药卫生—肿瘤]
TP391.41 [自动化与计算机技术—计算机应用技术]
TP183 [自动化与计算机技术—控制理论与控制工程]
在线阅读
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
产出率并行加速比模型
王之元
《计算机工程》
CAS
CSCD
北大核心
2011
1
在线阅读
下载PDF
职称材料
2
超燃冲压发动机一维模型的GPU并行加速研究
温思歆
苏承毅
王东杰
孟万植
聂聆聪
孙希明
《推进技术》
EI
CAS
CSCD
北大核心
2024
1
在线阅读
下载PDF
职称材料
3
I/O受限的并行加速比模型与可扩展I/O体系结构
李琼
杜云飞
杨学军
《计算机工程与科学》
CSCD
北大核心
2011
0
在线阅读
下载PDF
职称材料
4
一个基于GPU并行加速的海啸数值模型
王宗辰
原野
李宏伟
《海洋通报》
CAS
CSCD
北大核心
2020
0
在线阅读
下载PDF
职称材料
5
基于Zynq的卷积神经网络加速器设计
孟凡开
张峰
李淼
张多利
《合肥工业大学学报(自然科学版)》
北大核心
2025
0
在线阅读
下载PDF
职称材料
6
基于MPI的黄河下游二维水沙数学模型并行计算研究
余欣
杨明
王敏
姜恺
袁俊
《人民黄河》
CAS
北大核心
2005
9
在线阅读
下载PDF
职称材料
7
并行计算模型在集群环境下的适应性
宋安军
彭勤科
胡保生
《计算机工程》
CAS
CSCD
北大核心
2003
5
在线阅读
下载PDF
职称材料
8
面向异构多核处理器的并行代价模型
黄品丰
赵荣彩
姚远
赵捷
《计算机应用》
CSCD
北大核心
2013
3
在线阅读
下载PDF
职称材料
9
OpenMP在水动力数学模型并行计算中的应用
李褆来
徐学军
陈黎明
金秋
张铁军
《海洋工程》
CSCD
北大核心
2010
4
在线阅读
下载PDF
职称材料
10
基于FPGA的细粒度并行CYK算法加速器设计与实现
夏飞
窦勇
宋健
雷国庆
《计算机学报》
EI
CSCD
北大核心
2010
2
在线阅读
下载PDF
职称材料
11
能耗并行加速比:高性能计算系统综合性能的有效度量
王之元
胡庆丰
陈娟
《计算机工程与科学》
CSCD
北大核心
2009
2
在线阅读
下载PDF
职称材料
12
基于带控制器并行结构模型的并行微粒群算法
王元元
曾建潮
谭瑛
《系统仿真学报》
EI
CAS
CSCD
北大核心
2007
1
在线阅读
下载PDF
职称材料
13
基于GPU多流并发并行模型的NDVI提取算法
左宪禹
张哲
苏岳瀚
刘扬
葛强
田军锋
《计算机科学》
CSCD
北大核心
2020
3
在线阅读
下载PDF
职称材料
14
基于并行小波算法的DEM数据多分辨率模型构建
黄为
魏迎梅
宋汉辰
吴玲达
《计算机研究与发展》
EI
CSCD
北大核心
2010
1
在线阅读
下载PDF
职称材料
15
改进BSP模型在实时图像并行处理中的应用
刘南艳
薛弘晔
《西安科技大学学报》
CAS
北大核心
2011
1
在线阅读
下载PDF
职称材料
16
基于GPU加速的水文模型参数率定
阚光远
洪阳
梁珂
何晓燕
丁留谦
张大伟
《人民长江》
北大核心
2019
12
在线阅读
下载PDF
职称材料
17
基于MPI的分布式水循环模型并行计算性能研究
向东
周祖昊
袁胜
秦泽宁
刘佳嘉
朱家松
《水文》
CSCD
北大核心
2020
3
在线阅读
下载PDF
职称材料
18
三维模型自旋图的多线程并行算法
葛梦凡
李志
徐南
张耘齐
孙晓鹏
《小型微型计算机系统》
CSCD
北大核心
2017
1
在线阅读
下载PDF
职称材料
19
基于GPU-CA异构并行的连铸坯凝固组织软测量模型
汪静静
孟红记
阳剑
谢植
《仪器仪表学报》
EI
CAS
CSCD
北大核心
2022
0
在线阅读
下载PDF
职称材料
20
自优化双模态多通路非深度前庭神经鞘瘤识别模型
张睿
张鹏云
高美蓉
《计算机应用》
CSCD
北大核心
2024
0
在线阅读
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
2
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部