期刊文献+
共找到3,371篇文章
< 1 2 169 >
每页显示 20 50 100
PreNTT:面向zk-SNARK的数论变换计算并行加速方法
1
作者 丁冬 李正权 柴志雷 《计算机应用研究》 CSCD 北大核心 2024年第10期3059-3067,共9页
简洁非交互式零知识证明(zk-SNARK)由于具备证明验证过程简捷快速的优点,已在加密货币等众多领域得到广泛应用。但其证明生成过程所需计算仍复杂耗时,影响了进一步的应用拓展。针对zk-SNARK证明生成过程中的主要计算瓶颈——数论变换(NT... 简洁非交互式零知识证明(zk-SNARK)由于具备证明验证过程简捷快速的优点,已在加密货币等众多领域得到广泛应用。但其证明生成过程所需计算仍复杂耗时,影响了进一步的应用拓展。针对zk-SNARK证明生成过程中的主要计算瓶颈——数论变换(NTT),提出了一种基于GPU的NTT计算加速方法PreNTT。首先,提出了基于预计算的NTT并行计算方法,利用预计算与旋转因子次幂算法优化,减少NTT并行计算开销,并结合动态预计算,进一步提高NTT计算效率。其次,通过“动态自适应计算核调度”,可以根据NTT输入规模自适应地分配GPU片上资源,提升了大规模NTT任务的计算能效。然后,通过核外整体数据混洗和核内局部数据混洗相结合的方式,避免了访存冲突。最后,使用CUDA多流技术执行数据传输和计算过程,对预计算时间进行了有效隐藏。实验结果表明:基于PreNTT实现的zk-SNARK系统,与目前业界最先进的系统Bellperson相比,NTT模块运行时间获得了全规模最低1.7倍的加速比,最高加速比为9倍。PreNTT能够有效提高NTT算法并行度,降低zk-SNARK运算时间开销。 展开更多
关键词 简洁非交互式零知识证明 数论变换 GPU 并行计算 加速
在线阅读 下载PDF
水利科学计算并行计算平台构建及算法实践 被引量:5
2
作者 朱星明 涂彬 +2 位作者 陈煜 白婧怡 耿庆斋 《水利水电技术》 CSCD 北大核心 2006年第8期121-125,共5页
文中采用现代先进的信息技术和计算技术,研究基于高性能并行计算的水利水电大型科学计算平台体系和构建,并采用Sun Fire 6800R和Sun Cluster Tools初步形成了高性能并行计算平台的架构,结合水利水电科学计算的实践,通过数学模型的结构... 文中采用现代先进的信息技术和计算技术,研究基于高性能并行计算的水利水电大型科学计算平台体系和构建,并采用Sun Fire 6800R和Sun Cluster Tools初步形成了高性能并行计算平台的架构,结合水利水电科学计算的实践,通过数学模型的结构分析、并行改造,探索、推广并行计算技术在水利水电数学模型计算领域的应用,并以此构架基于网络的开发式并行计算共享平台。 展开更多
关键词 水利水电 科学计算 高性能并行计算 集群计算
在线阅读 下载PDF
基于集群SPMD算法及演化计算并行研究 被引量:2
3
作者 罗俊 雷咏梅 《计算机工程与设计》 CSCD 北大核心 2005年第10期2610-2613,共4页
高性能计算在科学研究领域有着广泛的应用。演化计算因具有计算规模大、种群中个体相关性小等优点,成为并行计算研究的主要对象之一。提出两种并行策略,对顺序GA(Genetic Algorithm)实现并行。首先使用主从模式对多种群协同遗传算法实... 高性能计算在科学研究领域有着广泛的应用。演化计算因具有计算规模大、种群中个体相关性小等优点,成为并行计算研究的主要对象之一。提出两种并行策略,对顺序GA(Genetic Algorithm)实现并行。首先使用主从模式对多种群协同遗传算法实现并行,在此基础上通过对算法进一步改进,实现了基于对等模式的并行演化计算,从而提高了算法可扩展性。比较了两种并行模式的各自特点,通过SPMD(Single Program Multiple Data)算法实现和基于上海大学“自强2000”高性能计算机上的实例验证,改进算法具有更好的可扩展性,更易于推广到网格环境。 展开更多
关键词 并行计算 演化计算 SPMD MPI并行编程
在线阅读 下载PDF
计算并行性的研究和描述
4
作者 张学惠 韩永飞 《吉林大学自然科学学报》 CAS CSCD 1992年第3期41-46,共6页
本文对计算并行性的几个级别,给出了Petri nets方式的描述并且研究了它们的并行特点,实现了对典型新一代计算机体系结构和语言的并行流程的描述。
关键词 并行计算 并行处理 PETRI网
在线阅读 下载PDF
面向国产异构众核架构的CFD非结构网格计算并行优化方法 被引量:1
5
作者 陈鑫 李芳 +5 位作者 丁海昕 孙唯哲 刘鑫 陈德训 叶跃进 何香 《计算机科学》 CSCD 北大核心 2022年第6期99-107,共9页
神威太湖之光在2016-2018年度全球超算top500榜单中排名第一,峰值性能为125.4 PFlops,其计算能力主要归功于国产SW26010众核处理器。由于CFD非结构网格计算存在拓扑关系复杂、离散访存问题严重、存在强相关的线化方程求解等问题,导致CF... 神威太湖之光在2016-2018年度全球超算top500榜单中排名第一,峰值性能为125.4 PFlops,其计算能力主要归功于国产SW26010众核处理器。由于CFD非结构网格计算存在拓扑关系复杂、离散访存问题严重、存在强相关的线化方程求解等问题,导致CFD非结构网格计算一直是国产众核超级计算机移植与优化的难题。为充分发挥国产异构众核架构的计算效能,首先,提出了一种数据重构模型,提高了数据的局部性和可并行性,使得数据结构更加适应众核架构的特点;然后,针对非结构网格数据存放的无序性导致的离散访存问题,提出了一种基于信息关系预存的离散访存优化方法,将离散访存转化为连续访存;最后,对于存在强相关的线化方程求解问题,引入了从核阵列流水线并行的思想,实现了众核并行。优化后CFD非结构网格计算的整体性能相比原始版本提升了4.19倍,相比通用CPU提升了1.2倍,并扩展到62.4万计算核心的并行规模,能保持64.5%的并行效率。 展开更多
关键词 计算流体力学 异构众核 神威超级计算 非结构网格 并行计算
在线阅读 下载PDF
基于GPU并行计算的拓扑优化全流程加速设计方法
6
作者 张长东 吴奕凡 +3 位作者 周铉华 李旭东 肖息 张自来 《航空制造技术》 北大核心 2025年第12期34-41,67,共9页
随着大尺寸航空航天装备的发展需求,高效高精度的大规模拓扑优化设计成为该领域关注的焦点。针对现有大规模拓扑优化设计存在的计算量巨大、计算效率低下等问题,基于GPU并行计算开展了拓扑优化全流程加速设计方法的研究。对网格划分、... 随着大尺寸航空航天装备的发展需求,高效高精度的大规模拓扑优化设计成为该领域关注的焦点。针对现有大规模拓扑优化设计存在的计算量巨大、计算效率低下等问题,基于GPU并行计算开展了拓扑优化全流程加速设计方法的研究。对网格划分、刚度矩阵计算与组装、有限元求解等过程进行了并行加速,实现了高效高精度的体素网格划分及有限元过程的高效求解。此外,该方法针对拓扑优化设计过程的加速需求,对灵敏度过滤过程进行了并行加速处理。以300万体素单元的姿态推力器模型为设计对象,发现相比于Abaqus 2022软件的拓扑优化并行加速计算,本文所提方法的加速比提高了1259%,且两种方法的相似度极高,验证了所提方法的有效性与实用性。 展开更多
关键词 拓扑优化 并行计算 GPU加速 符号距离场 稀疏矩阵 网格划分
在线阅读 下载PDF
基于计算着色器的并行Delaunay三角剖分算法
7
作者 陈国军 李震烁 陈昊祯 《图学学报》 北大核心 2025年第1期159-169,共11页
Delaunay三角剖分是一种经典的计算几何算法,在众多领域中有着广泛地使用,随着实际需求的不断提高,现有的Delaunay三角剖分算法已不能满足大规模数据的需求,为此,提出了一种基于计算着色器的并行Delaunay三角剖分方法,该方法通过纹理缓... Delaunay三角剖分是一种经典的计算几何算法,在众多领域中有着广泛地使用,随着实际需求的不断提高,现有的Delaunay三角剖分算法已不能满足大规模数据的需求,为此,提出了一种基于计算着色器的并行Delaunay三角剖分方法,该方法通过纹理缓存将点集数据输入到计算着色器中,并利用计算着色器加速Delaunay三角剖分,同时在现有方法的基础上提出动态插入法解决点集在离散空间中的重映射问题。此外,为了能够让显存有限的GPU构建出远超其显存限制的Delaunay三角网,提出基于计算着色器的分区双向扫描算法,并将点集划分为多个子区域,然后通过扫描各个子区域的方式进行构网。实验结果表明:在相同运行环境下,基于计算着色器的方法与现有的方法相比缩短了构网时间。同时分区双向扫描算法很好地解决了GPU的显存瓶颈问题,能让显存有限的GPU构建出远超其显存容量的Delaunay三角网。 展开更多
关键词 DELAUNAY三角剖分 计算着色器 GPU 并行计算 VORONOI图
在线阅读 下载PDF
冲击地压扰动响应失稳理论并行计算
8
作者 潘一山 王学滨 +1 位作者 郑一方 陈双印 《煤炭学报》 北大核心 2025年第1期81-91,共11页
目前,冲击地压理论研究已经完成了从定性分析到定量分析的转变。巷道围岩临界应力计算是巷道安全性评价的重要依据。鉴于冲击地压问题的极度复杂性,在理论上继续取得突破极为困难。基于理论公式的巷道围岩临界应力计算,无法考虑更复杂... 目前,冲击地压理论研究已经完成了从定性分析到定量分析的转变。巷道围岩临界应力计算是巷道安全性评价的重要依据。鉴于冲击地压问题的极度复杂性,在理论上继续取得突破极为困难。基于理论公式的巷道围岩临界应力计算,无法考虑更复杂的实际情况,例如非圆形巷道、非静水压力和复杂岩层结构。冲击地压理论和数值计算相结合具有更加广阔的应用前景,能使冲击地压理论进一步走向实际应用,这是极有价值的发展方向。这方面研究成果的成功取得依赖于数值计算技术的快速发展。研究将当今较先进的岩层运动并行计算系统StrataKing(一种自主开发的以拉格朗日元与离散元耦合方法为基础的非线性断裂力学GPU并行计算方法)与冲击地压扰动响应失稳理论相结合,首次提出了圆形巷道扰动响应失稳理论的数值模拟方法。该方法的思想是将非线性断裂力学数值分析方法中的Ⅱ型断裂能设定为中间变量,从而建立了静水压力条件下圆形巷道围岩临界应力与冲击能指数之间的关系。为了获取冲击能指数的数值解,采用了仅出现一个剪切面的理想岩样进行单轴压缩数值试验,以排除其他因素对应力-应变曲线峰后倾向于直线部分斜率的影响。对于高角度剪切破裂,提出了将非标准岩样的计算结果转换成标准岩样的结果的折算方法。折算后冲击能指数的范围为0.17~13.52,位于全国131个冲击地压矿井的调研数据之内。巷道围岩临界应力的计算结果是理论结果的0.4~2.5倍,这与针对全国20个冲击地压矿井的调研数据(临界应力的修正系数普遍大于1,甚至接近8)定性相符,从局部化破坏围岩比均匀破坏围岩的承载力高的角度进行了解释。冲击地压与局部化的关系过去有讨论,扰动响应失稳理论与局部化过去并无关系。通过局部化,扰动响应失稳理论与冲击地压之间在破坏机理上产生了密切的关联。StrataKing可为冲击地压矿井巷道安全性评价提供强大的算力支撑。 展开更多
关键词 冲击地压 定量分析 扰动响应失稳理论 冲击能指数 局部化 并行计算 临界应力
在线阅读 下载PDF
基于并行计算的计算智能综述
9
作者 吴菲 陈嘉诚 王万良 《浙江大学学报(工学版)》 北大核心 2025年第1期27-38,共12页
传统计算智能技术缺乏实时性和适应性,基于并行计算的计算智能技术能够提高计算效率,解决多模态信息兼容处理的问题.分别从智能计算的3个分支(神经网络、进化算法和群智能算法)介绍计算智能与大数据并行计算融合的研究现状.总结并行计... 传统计算智能技术缺乏实时性和适应性,基于并行计算的计算智能技术能够提高计算效率,解决多模态信息兼容处理的问题.分别从智能计算的3个分支(神经网络、进化算法和群智能算法)介绍计算智能与大数据并行计算融合的研究现状.总结并行计算智能面临的问题与挑战,思考相关研究的发展方向. 展开更多
关键词 并行计算 计算智能 神经网络 进化算法 群智能
在线阅读 下载PDF
一种分层并行的无线电引信回波仿真计算方法
10
作者 陈潭辉 霍力君 李喆 《航空兵器》 北大核心 2025年第3期102-107,共6页
为提高无线电引信回波仿真处理大规模数据的效率,提出一种基于分布式平台的分层并行计算方法,设计了一种有高效数据处理能力的无线电引信仿真平台。该平台采用了三层并行计算方法,任务级实现了分布式节点并行计算,线程级实现了多核CPU... 为提高无线电引信回波仿真处理大规模数据的效率,提出一种基于分布式平台的分层并行计算方法,设计了一种有高效数据处理能力的无线电引信仿真平台。该平台采用了三层并行计算方法,任务级实现了分布式节点并行计算,线程级实现了多核CPU多线程并行计算、数据级采用CUDA技术实现了GPU并行计算,同时设计相应的负载均衡策略,有效提高了分布式仿真平台的计算资源利用效率。通过仿真计算表明,与传统单机串行计算方法相比,该计算方法的并行加速比可达到6.8~7.2倍,可有效缩短仿真时间,并且具有更好的可拓展性。 展开更多
关键词 分布式并行计算 分层并行 无线电引信 回波信号模拟 目标近场特性
在线阅读 下载PDF
Pipe-RLHF:计算模式感知的RLHF并行加速框架
11
作者 徐颖 王梦迪 +4 位作者 程龙 刘炼 赵世新 张磊 王颖 《计算机研究与发展》 北大核心 2025年第6期1513-1529,共17页
基于人类反馈的强化学习(reinforcement learning with human feedback,RLHF)作为当前大语言模型(large language models,LLMs)对齐的主流方法,其核心优化算法——近端策略优化(proximal policy optimization,PPO)却面临着显著的效率问... 基于人类反馈的强化学习(reinforcement learning with human feedback,RLHF)作为当前大语言模型(large language models,LLMs)对齐的主流方法,其核心优化算法——近端策略优化(proximal policy optimization,PPO)却面临着显著的效率问题.PPO由生成、推理、训练3个相互关联的阶段组成,各个阶段有着不同的计算特性.然而,现有的RLHF并行框架采用相同并行策略顺序执行PPO的所有阶段,这导致以下2个问题:其一,生成阶段不能充分利用计算资源,进而影响整体效率;其二,阶段间严格串行执行,未能充分利用潜在并行性.针对上述问题,提出了一个新型RLHF并行框架——Pipe-RLHF.该框架能够自适应地根据各阶段的计算特征确定最优并行策略,突破现有阶段串行范式,采用异步PPO算法发掘阶段间的并行性.具体而言,创新性地提出了适用于PPO生成阶段的延迟批间流水线并行方法,显著提升了该阶段的计算资源利用率;再次,使用异步PPO解放阶段间的依赖关系,将阶段间并行应用到PPO的加速上;最后,针对PPO算法的整体优化,构建了分层并行策略空间,并提出了一套优化算法以实现该空间中的最优解搜索.通过在多个大语言模型上的性能评估实验表明,相较于现有方法,Pipe-RLHF最高可实现3.7倍的加速比,充分验证了该框架的有效性和优越性. 展开更多
关键词 基于人类反馈的强化学习 近端策略优化 大模型微调 分布式系统 并行计算
在线阅读 下载PDF
岩层运动并行计算系统中动力本构模型引入和巷道冲击破裂过程模拟
12
作者 王学滨 张钦杰 +5 位作者 潘一山 马立强 李小帅 刘栋 白雪元 陈双印 《煤炭学报》 北大核心 2025年第3期1473-1483,共11页
巷道围岩的动力冲击破坏研究对于巷道冲击地压的机理分析和预防具有重要的理论和实际意义。在微机上模拟巷道冲击时,现有的国外通用商业软件的计算规模小,计算效率低,功能有限。在历时10多年自主开发的岩层运动GPU并行计算系统StrataKin... 巷道围岩的动力冲击破坏研究对于巷道冲击地压的机理分析和预防具有重要的理论和实际意义。在微机上模拟巷道冲击时,现有的国外通用商业软件的计算规模小,计算效率低,功能有限。在历时10多年自主开发的岩层运动GPU并行计算系统StrataKing中,发展了动力模拟功能,通过岩样的单轴压缩动力实验验证了该方法的正确性。具体而言,以适于较宽应变率范围的朱-王-唐动力本构模型取代静力本构模型,即广义胡克定律,以提高系统的适用性;以动态黏聚力取代摩尔-库仑准则中的静态黏聚力,以考虑岩石的动力强度特性;以黏性阻尼取代局部自适应阻尼,以克服其在模拟动力学问题时的局限性。通过在巷道围岩模型上表面施加冲击速度,考察了不同应变率条件下巷道围岩模型的失稳规律。当应变率低时,巷道围岩的失稳呈间歇性,这是因为巷道围岩的强度较低,存储的应变能较少,失稳易于发生,也易于停止,但不足以为剧烈的大失稳提供足够的动能;当应变率高时,巷道两帮的开裂区发展较快,这是由于开裂区扩展所需要的能量能得到及时供给,巷道围岩的失稳具有持续性,只有当围岩储存的应变能较高时才能失稳,一旦失稳,则难以停止,这将造成严重的动力灾害。为未来支护条件下巷道抗冲击研究奠定了良好的技术基础。 展开更多
关键词 巷道冲击地压 动力本构模型 黏性阻尼 并行计算 连续-非连续方法
在线阅读 下载PDF
基于岩层运动并行计算系统StrataKing的岩层运动模拟
13
作者 王学滨 余保健 +2 位作者 李小帅 张钦杰 郑一方 《矿业科学学报》 北大核心 2025年第2期214-225,共12页
目前,我国煤炭行业岩层运动模拟主要靠国外通用商业软件,存在计算效率低、计算规模小、矿业特色不明显等问题。基于自主开发的岩层运动并行计算系统StrataKing,通过GPU并行提升计算效率和计算规模,单元数为国外通用商业软件的10倍。Stra... 目前,我国煤炭行业岩层运动模拟主要靠国外通用商业软件,存在计算效率低、计算规模小、矿业特色不明显等问题。基于自主开发的岩层运动并行计算系统StrataKing,通过GPU并行提升计算效率和计算规模,单元数为国外通用商业软件的10倍。StrataKing的新突破包括垮落岩石的膨胀、煤层和巷道开挖后的逐渐卸荷及支护作用下的随采随充等,分别用于探究110工法、长壁开采和充填开采的岩层运动规律。结果表明,对于110工法,得以保留的左巷的最大下沉量为0.103 m,与现场结果基本相符;对于长壁开采,工作面两侧一定范围内的煤体开裂,应力向远处转移,在此掘巷有利于巷道维护,弯曲下沉带下边界与煤层下表面的距离和相似模拟结果基本相符;对于充填开采,模型上表面最大下沉量比未充填模型减少56.52%,占采高的比例降低55.55%,若干岩层裂而未断。 展开更多
关键词 煤矿 岩层运动 并行计算 计算 采矿方法
在线阅读 下载PDF
基于并行计算的PCAL信号相位实时提取系统设计
14
作者 李雪健 陈永强 +3 位作者 马宏 刘杨 王育欣 焦义文 《系统工程与电子技术》 北大核心 2025年第2期376-389,共14页
针对天线组阵设备链路中相位校准(phase calibration, PCAL)信号的高效率真实相位提取这一需求,首先提出一种优化快速傅里叶变换(fast Fourier transform, FFT)分辨率的PCAL信号真实相位提取方法。为进一步提升计算效率,将该方法与深度... 针对天线组阵设备链路中相位校准(phase calibration, PCAL)信号的高效率真实相位提取这一需求,首先提出一种优化快速傅里叶变换(fast Fourier transform, FFT)分辨率的PCAL信号真实相位提取方法。为进一步提升计算效率,将该方法与深度计算单元(deep computing unit, DCU)并行计算技术相结合,提出PCAL信号真实相位并行提取方法,并设计实现一种基于并行计算的PCAL信号相位实时提取系统。针对上述改进方法及实时系统进行实验验证,大量实验结果表明,优化FFT分辨率的方法相比传统FFT方法可实现约3倍的加速比;在引入并行计算后,加速比进一步提升近一个数量级,基于并行计算的PCAL信号相位实时提取系统可实现对有效带宽为2.2 GHz及以下、信号间隔为1 MHz、量化位数为8 bit的PCAL信号的相位实时提取。此外,设计的实时系统亦适用于其他变频设备的链路标校。 展开更多
关键词 相位提取 相位校准信号 天线组阵 并行计算 实时系统设计
在线阅读 下载PDF
基于混合有限元法的油浸式变压器稳态流-热耦合场并行计算方法 被引量:4
15
作者 刘刚 靳立鹏 +2 位作者 胡万君 刘云鹏 武卫革 《高电压技术》 EI CAS CSCD 北大核心 2024年第5期2259-2269,共11页
针对油浸式变压器2维流-热耦合仿真计算效率低的问题,提出了基于混合有限元法的并行计算方法。首先,在Visual Studio 2019中采用C++语言实现无量纲最小二乘有限元法以及迎风有限元法的串行计算方法。然后,基于图形处理器(graphic proces... 针对油浸式变压器2维流-热耦合仿真计算效率低的问题,提出了基于混合有限元法的并行计算方法。首先,在Visual Studio 2019中采用C++语言实现无量纲最小二乘有限元法以及迎风有限元法的串行计算方法。然后,基于图形处理器(graphic processing unit,GPU)实现流体场的并行计算,针对单分区分匝模型对比分析了不同GPU卡在不同网格条件下的并行计算效率,分析结果表明数据规模越大,GPU卡流处理器越多并行效果越好。其次,基于Intel MKL(Intel math kernel library)函数库结合共享存储并行编程(open multi-processing,OpenMP)实现了2维温度场的并行计算,并对比分析了不同网格数量对并行效率的影响。最后,在此基础上提出了根据不同仿真条件的混合并行计算方法,并应用到大型油浸式变压器绕组模型的2维温升热点分析中。结果表明,相较于串行程序,混合有限元并行计算方法的加速比达到了69.5,实验测试结果进一步验证了并行计算结果的准确性,研究成果为大型油浸式变压器流-热耦合问题的快速计算奠定了基础。 展开更多
关键词 变压器绕组 混合有限元 热点 并行计算 加速比
在线阅读 下载PDF
高性能并行计算的发展历程 被引量:1
16
作者 陈国良 《计算机科学》 CSCD 北大核心 2024年第1期1-3,共3页
并行计算是相对于串行计算而言的,它是将一个计算任务分解成若干相对独立的子任务,然后用若干个处理器对其并行求解。使用并行计算最直接的目的就是提高问题的求解速度以快速完成原问题的解。非数值计算是相对数值计算而言的,它研究的... 并行计算是相对于串行计算而言的,它是将一个计算任务分解成若干相对独立的子任务,然后用若干个处理器对其并行求解。使用并行计算最直接的目的就是提高问题的求解速度以快速完成原问题的解。非数值计算是相对数值计算而言的,它研究的是如何将计算科学中一些不能直接使用数学函数解决的问题并行求解。90年代开始,我带领团队系统地开展了此方面的研究,首先是奠定了所需的理论基础,并逐渐形成了完善的学科体系和应用示范。在此过程中,我们还积极倡导交叉学科研究,及时关注学科前沿技术,并且坚持学术研究要服务于国民经济主战场。在整个研究过程中,我们一方面积极开展国际学术交流,创办国际学术会议和专业期刊;另一方面坚持自力更生,研制自主可控的国产高性能计算机,创建科教平台为普及中国高性能计算机教育服务。 展开更多
关键词 并行计算 高性能计算 国产计算 学科体系
在线阅读 下载PDF
基于FPGA并行实现SVM训练的可重构计算系统 被引量:1
17
作者 彭卫东 郭威 魏麟 《计算机科学》 CSCD 北大核心 2024年第S02期786-792,共7页
针对支持向量机在处理大规模数据集时所面临的计算复杂度高和训练时间长的问题,设计了一种基于FPGA并行实现支持向量机训练的可重构计算系统,并分析了不同量化方式下的硬件资源消耗与加速性能。通过采用随机梯度下降法训练支持向量机,... 针对支持向量机在处理大规模数据集时所面临的计算复杂度高和训练时间长的问题,设计了一种基于FPGA并行实现支持向量机训练的可重构计算系统,并分析了不同量化方式下的硬件资源消耗与加速性能。通过采用随机梯度下降法训练支持向量机,使得需要求解的维度与样本的维度相关联,相较于传统的基于二次规划的求解方法可以显著降低计算复杂性。同时,利用基于FPGA的可重构硬件平台设计了专用并行计算结构以加速支持向量机的训练过程。对设计的完整系统进行了软硬件联合仿真,在4个公共数据集上的仿真结果表明,整体模型预测准确率达到90%以上;在训练阶段,相较于采用相同算法的软件实现,所提出的浮点数表示下硬件实现的单个样本处理时间至少减少了2个数量级;定点数表示下硬件实现的单个样本处理时间最大减小了3个数量级;与基于二次规划问题求解的硬件实现相比,单个样本处理速度最快提升了394倍。 展开更多
关键词 现场可编程逻辑门阵列 支持向量机 可重构系统 并行计算 随机梯度下降法
在线阅读 下载PDF
面向SW26010间断有限元算法的多级并行计算 被引量:1
18
作者 王晓忠 张祖雨 《计算机科学》 CSCD 北大核心 2024年第S02期803-807,共5页
间断有限元算法(Discontinuous Galerkin Finite Element Method,DGM)是一种高精度的数值求解算法,针对电磁工程应用中DGM并行计算效率低、计算量较大的问题,提出了基于SW26010平台的并行DGM算法。通过区域分解、数据结构重构、热点函... 间断有限元算法(Discontinuous Galerkin Finite Element Method,DGM)是一种高精度的数值求解算法,针对电磁工程应用中DGM并行计算效率低、计算量较大的问题,提出了基于SW26010平台的并行DGM算法。通过区域分解、数据结构重构、热点函数从核并行计算、计算与通信重叠及从核缓冲优化技术完成了DGM算法的并行优化。实现结果表明,与基于MPI进程级的DGM并行算法相比,可以获得46.8的平均加速比。 展开更多
关键词 间断有限元 数值模拟 并行计算 区域分解
在线阅读 下载PDF
三维连续-非连续并行计算方法及其在岩爆过程模拟中的应用 被引量:2
19
作者 王学滨 杜轩 +3 位作者 薛承宇 陈双印 廖裴彬 余保健 《水资源与水工程学报》 CSCD 北大核心 2024年第1期177-185,共9页
随着深部岩石工程的发展,岩爆变得越发严重。在岩爆的数值模拟方面,连续方法和非连续方法均具有一定的局限性。兼具二者优势的连续-非连续方法更具优势,且正在快速发展。基于CUDA对自主开发的三维拉格朗日元与离散元耦合连续-非连续方... 随着深部岩石工程的发展,岩爆变得越发严重。在岩爆的数值模拟方面,连续方法和非连续方法均具有一定的局限性。兼具二者优势的连续-非连续方法更具优势,且正在快速发展。基于CUDA对自主开发的三维拉格朗日元与离散元耦合连续-非连续方法进行了GPU并行加速。为了探索岩爆的机理和过程,模拟了不同静水压力、侧压系数和单元数目(最多达100×10^(4))条件下圆形洞室围岩V形坑的演化规律和单元弹射现象。考察了洞室围岩中裂纹的定量演化规律。研究表明:当静水压力较大时,基于芬纳公式的支护设计偏于不安全。由于V形坑的位置发生改变,V形坑的平均最大深度随着静水压力的增加先缓慢增加后快速增加。关于洞室围岩V形坑的模拟结果能与有关的实验结果、数值结果和现场观测结果吻合。上述研究很好地体现了岩爆并行计算较串行计算和商业软件计算的优势。 展开更多
关键词 岩爆 GPU并行计算 三维连续-非连续方法 V形坑 静水压力 侧压系数 洞室
在线阅读 下载PDF
基于Distance-2算法的并行Jacobian矩阵计算及其在耦合问题中的应用
20
作者 刘礼勋 张汉 +4 位作者 彭心茹 窦沁榕 邬颖杰 郭炯 李富 《原子能科学技术》 EI CAS CSCD 北大核心 2024年第6期1201-1209,共9页
并行Newton-Krylov方法是求解大规模多物理耦合问题的有效方法,如何高效自动计算Jacobian矩阵是一大难点。利用有限差分方法,可避免推导Jacobian矩阵的表达式,实现矩阵的自动计算。现有工作表明,在串行环境下利用矩阵的稀疏性和图着色算... 并行Newton-Krylov方法是求解大规模多物理耦合问题的有效方法,如何高效自动计算Jacobian矩阵是一大难点。利用有限差分方法,可避免推导Jacobian矩阵的表达式,实现矩阵的自动计算。现有工作表明,在串行环境下利用矩阵的稀疏性和图着色算法,Jacobian矩阵的计算效率可提高至少1个量级。但在并行环境下,串行着色算法失效,需采用相应的并行着色算法。本研究将图论领域的Distance-2算法应用于Jacobian矩阵的并行着色。通过求解一个简化多物理耦合问题检验了该并行算法的正确性和计算效率。测试结果表明,该并行算法得到的Jacobian矩阵完全正确;着色数随着并行核数的增加略微有所增加,100个进程下并行效率为56%;基于该算法求解多物理耦合问题,其计算时间和Krylov迭代次数较JFNK减少了约1/2。 展开更多
关键词 Newton-Krylov方法 稀疏Jacobian矩阵 图着色 有限差分 分布式并行计算
在线阅读 下载PDF
上一页 1 2 169 下一页 到第
使用帮助 返回顶部