期刊文献+
共找到13篇文章
< 1 >
每页显示 20 50 100
基于MPI+CUDA的DSMC/PIC耦合模拟异构并行及性能优化研究
1
作者 林拥真 徐传福 +4 位作者 邱昊中 汪青松 王正华 杨富翔 李洁 《计算机科学》 CSCD 北大核心 2024年第9期31-39,共9页
DSMC/PIC耦合模拟是一类重要的高性能计算应用,大规模DSMC/PIC耦合模拟计算量巨大,需要实现高效并行计算。由于粒子动态注入、迁移等操作,基于MPI并行的DSMC/PIC耦合模拟往往通信开销较大且难以实现负载均衡。针对自主研发的DSMC/PIC耦... DSMC/PIC耦合模拟是一类重要的高性能计算应用,大规模DSMC/PIC耦合模拟计算量巨大,需要实现高效并行计算。由于粒子动态注入、迁移等操作,基于MPI并行的DSMC/PIC耦合模拟往往通信开销较大且难以实现负载均衡。针对自主研发的DSMC/PIC耦合模拟软件,在原有MPI并行优化版本上设计实现了高效的MPI+CUDA异构并行算法,结合GPU体系结构和DSMC/PIC计算特点,开展了GPU访存优化、GPU线程工作负载优化、CPU-GPU数据传输优化及DSMC/PIC数据冲突优化等一系列性能优化。在北京北龙超级云HPC系统的NVIDIA V100和A100 GPU上,针对数亿粒子规模的脉冲真空弧等离子体羽流应用,开展了大规模DSMC/PIC耦合异构并行模拟,相比原有纯MPI并行,GPU异构并行大幅缩短了模拟时间,两块GPU卡较192核的CPU加速比达到550%,同时具有更好的强可扩展性。 展开更多
关键词 DSMC/PIC耦合 粒子模拟 异构并行 MPI+CUDA
在线阅读 下载PDF
一种面向含噪中尺度量子技术的量子-经典异构计算系统 被引量:3
2
作者 付祥 郑宇真 +3 位作者 苏醒 于锦涛 徐炜遐 吴俊杰 《计算机研究与发展》 EI CSCD 北大核心 2021年第9期1875-1896,共22页
量子计算有望加速解决经典计算难以解决的问题,如质因子分解、量子化学模拟等.已有单个量子系统可集成大于50个含噪声的固态量子比特,并在特定的计算任务上超越了经典计算机,标志含噪中尺度量子(noisy intermediate-scale quantum,NISQ... 量子计算有望加速解决经典计算难以解决的问题,如质因子分解、量子化学模拟等.已有单个量子系统可集成大于50个含噪声的固态量子比特,并在特定的计算任务上超越了经典计算机,标志含噪中尺度量子(noisy intermediate-scale quantum,NISQ)计算时代的到来.随着人们可在单个系统中集成越来越多的量子比特,如何将量子比特与控制硬件、软件开发环境、经典计算资源集成得到完整可用的量子计算系统,是一个有待进一步明确的问题.对比了量子计算与经典计算在控制及执行上的异同,并在此基础上提出了面向NISQ时代的量子-经典异构系统.以一个典型的NISQ算法(迭代相位估计算法)为例,介绍了量子算法从软件描述到硬件执行的整体流程,及与该过程相关的高级程序设计语言、编译器、量子软硬件接口和硬件等.在此基础上,讨论了流程中各个层次在NISQ时代面临的挑战.旨在从工程实现的视角,从宏观层面为读者(尤其是量子计算初学者)介绍量子计算系统,希望可以促进人们对NISQ时代下量子计算系统整体结构的理解,并激发更多相关研究. 展开更多
关键词 量子计算 量子程序设计语言 量子编译 量子计算体系结构 含噪中尺度量子
在线阅读 下载PDF
DSMC/PIC耦合模拟的大规模高效混合并行计算研究
3
作者 汪青松 邱昊中 +4 位作者 林拥真 杨富翔 李洁 王正华 徐传福 《计算机科学》 CSCD 北大核心 2023年第S02期811-819,共9页
DSMC/PIC耦合模拟是一类重要的高性能计算应用。由于粒子动态注入、迁移等操作,传统MPI并行DSMC/PIC耦合模拟通常并行通信开销较大且负载不均衡。文中针对自主研发的DSMC/PIC耦合模拟软件,开展了大规模高效MPI+OpenMP混合并行及动态负... DSMC/PIC耦合模拟是一类重要的高性能计算应用。由于粒子动态注入、迁移等操作,传统MPI并行DSMC/PIC耦合模拟通常并行通信开销较大且负载不均衡。文中针对自主研发的DSMC/PIC耦合模拟软件,开展了大规模高效MPI+OpenMP混合并行及动态负载均衡研究。首先设计了基于嵌套双重非结构网格的MPI并行算法,实现了集中式和分布式两种并行通信策略,支持粒子在任意并行进程间的动态迁移。然后提出了加权负载性能模型,设计了动态负载均衡算法及高效网格重映射机制,大幅提升了耦合模拟并行效率,进一步设计了MPI+OpenMP混合并行算法,有效降低了纯MPI并行计算中动态负载均衡的网格重剖分和通信开销。在北京北龙超级云HPC系统上,针对10亿粒子规模脉冲真空弧等离子体羽流开展了数千处理器核心DSMC/PIC耦合并行模拟,验证了并行算法和动态负载均衡的效果。 展开更多
关键词 DSMC/PIC耦合 粒子模拟 分布式和集中式 动态负载均衡 MPI+OPENMP
在线阅读 下载PDF
基于忆阻器的计算存储融合体系结构研究进展 被引量:1
4
作者 方旭东 吴俊杰 《计算机工程与科学》 CSCD 北大核心 2020年第11期1929-1940,共12页
忆阻器是一种使能器件,具有阻值非易失、低功耗、高耐久度、易于集成、CMOS工艺兼容性等特性。基于忆阻器的状态逻辑计算能够实现计算和存储的真正融合,并且是逻辑完备的,从而有望突破冯·诺依曼架构的限制,有效缓解存储墙瓶颈问题... 忆阻器是一种使能器件,具有阻值非易失、低功耗、高耐久度、易于集成、CMOS工艺兼容性等特性。基于忆阻器的状态逻辑计算能够实现计算和存储的真正融合,并且是逻辑完备的,从而有望突破冯·诺依曼架构的限制,有效缓解存储墙瓶颈问题。这些优异特性使得忆阻器相关研究受到学术界和工业界的极大关注。鉴于此,从忆阻器所具有的状态逻辑计算特性出发,综述面向应用的计算存储融合体系结构的研究进展。首先详细分析了状态逻辑的实现原理和改进方法;接着梳理了基于忆阻器交叉杆的状态逻辑设计,包括基本逻辑并行实现、拷贝操作和比较操作;然后概括了基于忆阻器的数据存储结构的设计原理和实现结构;在此基础上,探讨了面向应用的计算存储融合体系结构技术;最后,对该方向研究存在的问题进行了总结,并对未来的发展方向进行了展望。 展开更多
关键词 状态逻辑 忆阻器 交叉杆 计算存储融合 体系结构
在线阅读 下载PDF
符号化量子计算模拟器SymQC
5
作者 付祥 黎梓浩 +4 位作者 黄子潇 杨曜嘉 刘定东 张春晖 李小芳 《计算机工程与科学》 CSCD 北大核心 2023年第7期1159-1169,共11页
目前主流的量子计算模拟器一般基于数值计算,存在精度损失、量子态的展示不直观、难以支持参数化量子线路等问题。虽然已有人提出符号化量子计算模拟器,但它们在描述参数化量子态、构建自定义量子门和与量子编程环境进行系统集成等方面... 目前主流的量子计算模拟器一般基于数值计算,存在精度损失、量子态的展示不直观、难以支持参数化量子线路等问题。虽然已有人提出符号化量子计算模拟器,但它们在描述参数化量子态、构建自定义量子门和与量子编程环境进行系统集成等方面受到较大的限制。针对此问题,提出了一个新的符号化量子计算模拟器SymQC。SymQC可使用全振幅向量或狄拉克符号表示量子状态,计算符号参数化的量子线路的等效矩阵并模拟量子状态在量子线路下的演化过程,然后以不同的形式输出量子算法的执行结果。描述了SymQC的软件结构,并给出了一种常用量子状态更新算法的数学证明。通过运行以变分量子本征值求解算法(VQE)为代表的算法实例验证了SymQC的能力。 展开更多
关键词 量子计算 模拟器 符号计算 量子态更新算法
在线阅读 下载PDF
QTorch:基于独立的量子程序设计语言的量子-经典混合机器学习框架
6
作者 陈文锦 《计算机工程与科学》 北大核心 2025年第3期412-421,共10页
近年来,量子计算系统在特定采样问题上展现出量子优势,标志着人类进入了含噪声中等规模量子NISQ时代。通过量子机器学习算法在具有实用意义的问题求解上展现量子优势,成为量子计算的一个热点问题。现有的量子-经典混合机器学习框架难以... 近年来,量子计算系统在特定采样问题上展现出量子优势,标志着人类进入了含噪声中等规模量子NISQ时代。通过量子机器学习算法在具有实用意义的问题求解上展现量子优势,成为量子计算的一个热点问题。现有的量子-经典混合机器学习框架难以支撑量子机器学习算法的高效描述和编译,严重影响了算法开发效率。针对这一现状,基于开源经典机器学习框架PyTorch和独立的量子程序设计语言,提出并实现了量子-经典混合机器学习框架QTorch,实现了面向真实量子硬件和量子-经典混合机器学习算法的自动微分技术,提出并实现了并行训练和参数替换优化2种时间性能优化技术,并通过多组实验证实了以上功能与优势,为量子-经典混合机器学习算法提供了高效的运行平台支持,促进了量子机器学习领域的发展。 展开更多
关键词 量子机器学习 变分量子线路 含噪声中等规模量子(NISQ) 时间性能优化
在线阅读 下载PDF
基于OPS的计算流体力学软件多平台自动并行
7
作者 王巍 车永刚 +1 位作者 徐传福 王正华 《计算机工程与科学》 CSCD 北大核心 2021年第5期773-781,共9页
当前高性能计算机体系结构呈现多样性特征,给并行应用软件开发带来巨大挑战。采用领域特定语言OPS对高阶精度计算流体力学软件HNSC进行面向多平台的并行化,使用OPS API实现了代码的重构,基于OPS前后端自动生成了纯MPI、OpenMP、MPI+Ope... 当前高性能计算机体系结构呈现多样性特征,给并行应用软件开发带来巨大挑战。采用领域特定语言OPS对高阶精度计算流体力学软件HNSC进行面向多平台的并行化,使用OPS API实现了代码的重构,基于OPS前后端自动生成了纯MPI、OpenMP、MPI+OpenMP和MPI+CUDA版本的可执行程序。在一个配有2块Intel Xeon CPU E5-2660 V3 CPU和1块NVIDIA Tesla K80 GPU的服务器上的性能测试表明,基于OPS自动生成的并行代码性能与手工并行代码的性能可比甚至更优,并且OPS自动生成的GPU并行代码相对于其CPU并行代码有明显的性能加速。测试结果说明,使用OPS等领域特定语言进行面向多平台的计算流体力学并行软件开发是一种可行且高效的途径。 展开更多
关键词 领域特定语言 计算流体力学软件 多平台 自动代码生成
在线阅读 下载PDF
面向量子博弈论的光量子芯片设计及实验 被引量:1
8
作者 曾茹 詹俊伟 +4 位作者 薛诗川 王易之 王冬阳 刘英文 吴俊杰 《计算机工程与科学》 CSCD 北大核心 2023年第3期398-405,共8页
量子博弈论是量子信息和经典博弈论的交叉研究方向。理论研究表明,量子博弈模型不仅能够突破经典博弈模型的收益上限,更是有望用于深入理解和突破量子通信、量子计算等领域的很多基础问题。针对一种利益冲突的贝叶斯量子博弈模型,提出... 量子博弈论是量子信息和经典博弈论的交叉研究方向。理论研究表明,量子博弈模型不仅能够突破经典博弈模型的收益上限,更是有望用于深入理解和突破量子通信、量子计算等领域的很多基础问题。针对一种利益冲突的贝叶斯量子博弈模型,提出了一种可编程的光量子芯片结构,首次运用硅基光量子芯片实验完成了量子博弈实验。通过动态生成和调控片上量子纠缠态,实验证实了量子博弈相对经典博弈的博弈优势,展示了光量子芯片在量子博弈论研究中的重要作用,为量子信息领域更复杂问题的研究提供了重要的实验手段。 展开更多
关键词 量子博弈 光量子芯片 量子纠缠 量子计算 纳什均衡
在线阅读 下载PDF
基于支持向量回归的动网格技术研究 被引量:1
9
作者 高翔 廖海翔 徐传福 《空气动力学学报》 CSCD 北大核心 2022年第5期146-157,共12页
为了提高动网格生成的计算效率,深入分析了广泛使用的径向基函数插值动网格方法,进一步放宽其贪心选点的约束条件,提出并完善了一种基于支持向量回归的高效动网格技术,并给出了该机器学习算法针对网格运动的适配方案。基于基准案例的三... 为了提高动网格生成的计算效率,深入分析了广泛使用的径向基函数插值动网格方法,进一步放宽其贪心选点的约束条件,提出并完善了一种基于支持向量回归的高效动网格技术,并给出了该机器学习算法针对网格运动的适配方案。基于基准案例的三套疏密网格和四类运动形式,对不同径向基核函数的拟合性能进行了全面测试分析。以前期采用的高斯核函数方法为基准,进一步通过典型动网格案例,量化对比了筛选出的核函数在网格变形质量、计算效率和参数设置等方面的能力。结果表明基于CP C~2和IMQB核函数支持向量回归的动网格方法具有良好的变形能力和计算效率。 展开更多
关键词 动网格 网格变形 支持向量回归 径向基函数
在线阅读 下载PDF
基于光量子芯片的量子自旋链中完美态转移可编程量子模拟 被引量:1
10
作者 詹俊伟 曾茹 +3 位作者 王易之 薛诗川 黄光耀 吴俊杰 《计算机工程与科学》 CSCD 北大核心 2022年第11期1924-1931,共8页
近些年,量子计算物理实现技术进步很快,构建能够发挥实际用途的量子计算装置成为发展重点。采用量子模拟研究量子自旋系统的演化行为,相比于经典模拟会更加高效。一维量子自旋链中完美态转移模型在量子通信和量子计算领域具有重要的研... 近些年,量子计算物理实现技术进步很快,构建能够发挥实际用途的量子计算装置成为发展重点。采用量子模拟研究量子自旋系统的演化行为,相比于经典模拟会更加高效。一维量子自旋链中完美态转移模型在量子通信和量子计算领域具有重要的研究价值。提出一种基于双光子连续时间量子漫步的可编程完美态转移量子模拟方法,并且基于光量子芯片完成了2类特殊哈密顿量作用下XY型量子自旋链中双激发“周期-镜像”完美态转移的量子模拟实验,为模拟量子自旋系统的演化提供了一种实用且可扩展的实验方案。 展开更多
关键词 量子计算 量子模拟 量子自旋系统 完美态转移 光量子芯片
在线阅读 下载PDF
高精度CFD程序的内外子区域划分异构并行算法 被引量:1
11
作者 王巍 徐传福 车永刚 《国防科技大学学报》 EI CAS CSCD 北大核心 2020年第2期31-40,共10页
对计算流体力学(Computational Fluid Dynamics,CFD)程序CNS提出一种Offload模式下对任务内外子区域划分的异构并行算法,结合结构化网格下有限差分计算和四阶龙格-库塔方法的特点,引入ghost网格点区域,设计了一种ghost区域收缩计算策略... 对计算流体力学(Computational Fluid Dynamics,CFD)程序CNS提出一种Offload模式下对任务内外子区域划分的异构并行算法,结合结构化网格下有限差分计算和四阶龙格-库塔方法的特点,引入ghost网格点区域,设计了一种ghost区域收缩计算策略,显著降低了异构计算资源之间的数据传输开销,负载均衡时CPU端的计算与MPI通信完全和加速器端的计算重叠,提高了异构协同并行性。推导了保证计算正确性的ghost区域的参数,分析了负载均衡的条件。在“CPU(Intel Haswell Xeon E5-267012 cores×2)+加速器(Xeon Phi 7120A×2)”的服务器上测得该算法较直接将任务子块整体迁至加速器端计算的异构算法性能平均提升至5.9倍,较MPI/OpenMP两级并行算法使用24个纯CPU核的性能,该算法使用单加速器时加速至1.27倍,使用双加速器加速至1.45倍。讨论和分析了性能瓶颈与存在的问题。 展开更多
关键词 高精度CFD程序 四阶龙格-库塔法 异构并行算法 内外子区域划分 性能分析
在线阅读 下载PDF
激波干扰支板射流混合增强规律 被引量:1
12
作者 杨佳宁 沈赤兵 杜兆波 《火箭推进》 CAS 2023年第3期34-47,共14页
实现超声速来流和燃料射流在燃烧室内的快速混合一直是提升超燃冲压发动机性能亟待解决的关键问题之一。为了有效提升燃烧室内空气来流和燃料射流的混合效果,通过数值模拟的方法,在超声速来流和支板喷注的前提下,在燃烧室上壁面添加了... 实现超声速来流和燃料射流在燃烧室内的快速混合一直是提升超燃冲压发动机性能亟待解决的关键问题之一。为了有效提升燃烧室内空气来流和燃料射流的混合效果,通过数值模拟的方法,在超声速来流和支板喷注的前提下,在燃烧室上壁面添加了斜坡型激波发生器,并通过改变斜坡型激波发生器的结构参数,包括角度(15°、20°、25°、30°),尺寸(5、10、15、20 mm),位置(100、110、120、130 mm处)等,以探究不同结构参数对混合效果的影响。研究结果表明:斜坡型激波发生器的引入能够有效地增强混合效果,且不同的结构参数对混合效果的影响也存在差异,斜坡型激波发生器尺寸的大小对混合效果的影响大于角度,斜坡型激波发生器角度的大小对混合效果的影响大于位置;混合效率和总压恢复系数成负相关关系。 展开更多
关键词 超燃冲压发动机 支板射流 斜坡型激波发生器 结构参数 混合效果
在线阅读 下载PDF
面向爆轰冲击的分离式流固耦合数值模拟
13
作者 张森 郭晓威 +3 位作者 甘新标 龚春叶 杨文祥 李超 《空气动力学学报》 CSCD 北大核心 2022年第6期163-172,共10页
为准确高效地模拟爆轰冲击作用下固体响应的过程,对爆轰波传播、损伤评估等领域的工程应用提供技术支持,采用分离式流固耦合的方法,基于开源软件实现面向爆轰冲击的分离式流固耦合数值模拟求解系统。爆轰波传播模型建立在基于OpenFOAM... 为准确高效地模拟爆轰冲击作用下固体响应的过程,对爆轰波传播、损伤评估等领域的工程应用提供技术支持,采用分离式流固耦合的方法,基于开源软件实现面向爆轰冲击的分离式流固耦合数值模拟求解系统。爆轰波传播模型建立在基于OpenFOAM的开源多分量求解器blastFoam之上,同时利用deal.Ⅱ有限元库对固体形变响应进行模拟,流体与固体求解器之间通过适配开源多物理场耦合库preCICE进行耦合。通过三维竖直墙体在高爆轰作用下的运动过程验证求解系统的正确性,模拟结果展示的爆轰过程与Beyer报告中的爆轰波传播过程一致。求解系统具有良好的并行可扩展性,在网格总规模为510万单元的案例中,总并行度达256核的加速比为178,并行效率为69.5%。总体而言,通过集成各开源软件,实现了适用于爆轰波冲击响应的分离式流固耦合求解系统,对诸多工程应用具有重要的现实意义。 展开更多
关键词 流固耦合 数值模拟 高爆轰 OPENFOAM preCICE
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部