期刊文献+
共找到250篇文章
< 1 2 13 >
每页显示 20 50 100
Multi-core optimization for conjugate gradient benchmark on heterogeneous processors
1
作者 邓林 窦勇 《Journal of Central South University》 SCIE EI CAS 2011年第2期490-498,共9页
Developing parallel applications on heterogeneous processors is facing the challenges of 'memory wall',due to limited capacity of local storage,limited bandwidth and long latency for memory access. Aiming at t... Developing parallel applications on heterogeneous processors is facing the challenges of 'memory wall',due to limited capacity of local storage,limited bandwidth and long latency for memory access. Aiming at this problem,a parallelization approach was proposed with six memory optimization schemes for CG,four schemes of them aiming at all kinds of sparse matrix-vector multiplication (SPMV) operation. Conducted on IBM QS20,the parallelization approach can reach up to 21 and 133 times speedups with size A and B,respectively,compared with single power processor element. Finally,the conclusion is drawn that the peak bandwidth of memory access on Cell BE can be obtained in SPMV,simple computation is more efficient on heterogeneous processors and loop-unrolling can hide local storage access latency while executing scalar operation on SIMD cores. 展开更多
关键词 multi-core processor NAS parallelization CG memory optimization
在线阅读 下载PDF
Programming for scientific computing on peta-scale heterogeneous parallel systems 被引量:1
2
作者 杨灿群 吴强 +2 位作者 唐滔 王锋 薛京灵 《Journal of Central South University》 SCIE EI CAS 2013年第5期1189-1203,共15页
Peta-scale high-perfomlance computing systems are increasingly built with heterogeneous CPU and GPU nodes to achieve higher power efficiency and computation throughput. While providing unprecedented capabilities to co... Peta-scale high-perfomlance computing systems are increasingly built with heterogeneous CPU and GPU nodes to achieve higher power efficiency and computation throughput. While providing unprecedented capabilities to conduct computational experiments of historic significance, these systems are presently difficult to program. The users, who are domain experts rather than computer experts, prefer to use programming models closer to their domains (e.g., physics and biology) rather than MPI and OpenME This has led the development of domain-specific programming that provides domain-specific programming interfaces but abstracts away some performance-critical architecture details. Based on experience in designing large-scale computing systems, a hybrid programming framework for scientific computing on heterogeneous architectures is proposed in this work. Its design philosophy is to provide a collaborative mechanism for domain experts and computer experts so that both domain-specific knowledge and performance-critical architecture details can be adequately exploited. Two real-world scientific applications have been evaluated on TH-IA, a peta-scale CPU-GPU heterogeneous system that is currently the 5th fastest supercomputer in the world. The experimental results show that the proposed framework is well suited for developing large-scale scientific computing applications on peta-scale heterogeneous CPU/GPU systems. 展开更多
关键词 heterogeneous parallel system programming framework scientific computing GPU computing molecular dynamic
在线阅读 下载PDF
Scheduling algorithm based on critical tasks in heterogeneous environments 被引量:4
3
作者 Lan Zhou Sun Shixin 《Journal of Systems Engineering and Electronics》 SCIE EI CSCD 2008年第2期398-404,F0003,共8页
Heterogeneous computing is one effective method of high performance computing with many advantages. Task scheduling is a critical issue in heterogeneous environments as well as in homogeneous environments. A number of... Heterogeneous computing is one effective method of high performance computing with many advantages. Task scheduling is a critical issue in heterogeneous environments as well as in homogeneous environments. A number of task scheduling algorithms for homogeneous environments have been proposed, whereas, a few for heterogeneous environments can be found in the literature. A novel task scheduling algorithm for heterogeneous environments, called the heterogeneous critical task (HCT) scheduling algorithm is presented. By means of the directed acyclic graph and the gantt graph, the HCT algorithm defines the critical task and the idle time slot. After determining the critical tasks of a given task, the HCT algorithm tentatively duplicates the critical tasks onto the processor that has the given task in the idle time slot, to reduce the start time of the given task. To compare the performance of the HCT algorithm with several recently proposed algorithms, a large set of randomly generated applications and the Gaussian elimination application are randomly generated. The experimental result has shown that the HCT algorithm outperforms the other algorithm. 展开更多
关键词 list scheduling task duplication task graphs heterogeneous environment parallel processing.
在线阅读 下载PDF
小样本下基于并行异构网络的变工况纸机轴承故障诊断方法 被引量:1
4
作者 汤伟 杨亦君 +1 位作者 王孟效 刘英伟 《中国造纸学报》 北大核心 2025年第1期179-190,共12页
传统纸机轴承故障诊断模型在实际应用中,存在由于故障振动信号数据量小、信号有效信息占比低导致的变工况下故障诊断准确度下降等问题。针对此问题,本课题提出一种小样本下基于并行异构网络的变工况纸机轴承故障诊断方法。首先,将源域... 传统纸机轴承故障诊断模型在实际应用中,存在由于故障振动信号数据量小、信号有效信息占比低导致的变工况下故障诊断准确度下降等问题。针对此问题,本课题提出一种小样本下基于并行异构网络的变工况纸机轴承故障诊断方法。首先,将源域和目标域信号分别转换为相应的格拉姆角场矩阵、马尔科夫变迁场矩阵和欧氏距离矩阵,并对所得的3种矩阵逐行进行交叉组合,以此作为网络输入;其次,基于卷积神经网络(CNN)对2D-CNN进行改进,设计融合注意力机制的多通道并行异构网络,实现对信号深层特征的自动提取;然后,基于对抗思想设计域判别器与分类器,通过多核最大均值差异(MK-MMD)对两域特征边缘分布进行对齐,实现对变工况下轴承故障的识别。最后,分别基于凯斯西储大学滚动轴承数据集与实验室自建纸机轴承故障模拟平台采集数据,进行迁移学习实验验证。结果表明,该纸机轴承故障迁移学习网络模型具有优异的特征挖掘能力,对变工况下的纸机轴承故障具有较高的识别精度。 展开更多
关键词 并行异构CNN 纸机轴承 轴承故障诊断
在线阅读 下载PDF
面向“嵩山”平台供水管网仿真计算的移植优化研究
5
作者 郭恒亮 李冰洋 +3 位作者 杨周凡 韩璞 胥博文 商建东 《计算机应用与软件》 北大核心 2025年第4期44-50,共7页
供水管网仿真系统拓扑结构复杂,元件数据密集,系统的高效仿真对实施平台的性能提出了很高的要求。“嵩山”超级计算机系统采用CPU+DCU异构架构,为实现仿真计算在该架构上的高效运行。根据HIP异构编程模型将计算热点映射至DCU加速器上实... 供水管网仿真系统拓扑结构复杂,元件数据密集,系统的高效仿真对实施平台的性能提出了很高的要求。“嵩山”超级计算机系统采用CPU+DCU异构架构,为实现仿真计算在该架构上的高效运行。根据HIP异构编程模型将计算热点映射至DCU加速器上实现,使用MULTPARA多级并行优化方法实现不同元件计算在DCU加速器上的并发,解决线程块间不能充分并行的问题,利用跨线程访问方法解决部分元件计算中存在的线程束分化问题。实验结果表明,相较过往实施平台取得了8.537的加速比。 展开更多
关键词 异构并行 管网仿真计算 DCU加速器 MULTPARA方法 跨线程访问
在线阅读 下载PDF
面向国产异构众核系统的Parallel C语言设计与实现 被引量:10
6
作者 何王全 刘勇 +2 位作者 方燕飞 魏迪 漆锋滨 《软件学报》 EI CSCD 北大核心 2017年第4期764-785,共22页
异构众核架构具有超高的性能功耗比,已成为超级计算机体系结构的重要发展方向.但众核系统更为复杂的并行层次和存储层次,给编程和优化带来了极大的挑战.因此,研究面向众核系统的并行编程技术,对于降低国产众核系统并行应用的编程难度、... 异构众核架构具有超高的性能功耗比,已成为超级计算机体系结构的重要发展方向.但众核系统更为复杂的并行层次和存储层次,给编程和优化带来了极大的挑战.因此,研究面向众核系统的并行编程技术,对于降低国产众核系统并行应用的编程难度、提升并行程序的性能都具有重要的意义.提出统一架构的多模式并行编程模型,包括异构融合的加速运算模型和按同构方式编程的自主运算模型,根据编程模型设计了Parallel C语言,能够有效地描述国产众核系统的异构并行性.与其他众核系统上MPI+X的使用模式相比,编程和系统优化都具有全局视角,在多级局部性描述、单边消息、兼容已有多核应用等方面具有特色;基于Open64构建了Parallel C编译系统,全面支持加速运算模型和自主运算模型,提出并实现了数据布局与自动DMA、编译指导的线程代理和拓扑位置感知的集合通信等优化.Micro Benchmark和实际应用在神威太湖之光计算机系统上的测试数据结果表明:Parallel C语言和编译系统具有良好的性能和可扩展性,能够有效支撑大型应用. 展开更多
关键词 异构众核 编程模型 并行语言 parallel C 编译器 消息传递
在线阅读 下载PDF
基于国产异构众核处理器的等值线与等值面提取算法优化
7
作者 张元胤 肖敏广 +3 位作者 刘志勇 翁灵玲 陈志广 卢宇彤 《计算机工程与科学》 北大核心 2025年第2期200-209,共10页
MT-3000是由国防科技大学面向下一代超级计算机设计的国产异构众核处理器,具有优越的计算能力,可以有效加速可视化数据处理。等值线和等值面提取是标量场数据最常用的几何可视化方法,但现有的提取算法通常仅面向通用CPU或GPU。在MT-300... MT-3000是由国防科技大学面向下一代超级计算机设计的国产异构众核处理器,具有优越的计算能力,可以有效加速可视化数据处理。等值线和等值面提取是标量场数据最常用的几何可视化方法,但现有的提取算法通常仅面向通用CPU或GPU。在MT-3000处理器上,由于片上缓存空间有限,从核访存带宽限制等问题,导致计算效率低下;另外,由于编程模型的特殊性,现有软件与方法无法直接在MT-3000上运行。为了充分发挥国产超算系统在可视化领域的计算效能,基于MT-3000的微体系结构对等值线网格序列算法和等值面移动立方体算法分别提出了新的并行化算法。新方法采用向量指令、流水线实现存算重叠等技术,更加适应异构众核架构,从而达到加速算法执行的目的。实验结果表明,2种算法的加速比均达到4以上,并且随着从核的增多,算法的执行时间近呈线性下降,这证明所提算法具有良好的可扩展性。 展开更多
关键词 数据过滤 等值线 等值面 并行计算 异构 众核 国产超算系统
在线阅读 下载PDF
面向天河新一代超算系统的大规模精确对角化方法
8
作者 李彪 刘杰 王庆林 《计算机研究与发展》 北大核心 2025年第6期1347-1362,共16页
精确对角化(exact diagonalization)方法是一种在量子物理、凝聚态物理等领域广泛应用的数值计算方法,是最直接求得量子系统基态的数值方法.仅从哈密顿矩阵的对称性出发,利用无矩阵(matrix-free)方法、分层通信模型以及适配于MT-3000的... 精确对角化(exact diagonalization)方法是一种在量子物理、凝聚态物理等领域广泛应用的数值计算方法,是最直接求得量子系统基态的数值方法.仅从哈密顿矩阵的对称性出发,利用无矩阵(matrix-free)方法、分层通信模型以及适配于MT-3000的数据级并行算法,提出了面向天河新一代超算系统上的超大稀疏哈密顿矩阵向量乘异构并行算法,可以实现基于一维Hubbard模型的大规模精确对角化.提出的并行算法在天河新一代超算系统上进行了测试,其中在1400亿维度矩阵规模上,8192进程相比256进程强扩展效率为55.27%,而弱扩展到7300亿维度矩阵规模上,13740个进程相比64进程的弱扩展效率保持在51.25%以上. 展开更多
关键词 精确对角化 HUBBARD模型 异构并行计算 MT-3000处理器 量子多体系统
在线阅读 下载PDF
基于异构编程模型的共性算子移植与并行优化
9
作者 马兆佳 邵恩 +1 位作者 狄战元 马立贤 《计算机研究与发展》 北大核心 2025年第4期1017-1032,共16页
GPU作为构造大规模超算系统的核心计算部件,向着体系结构多样化和异构化的方向发展.来自不同芯片厂商的GPU加速器具有差异较大的体系结构设计.加速器类型和编程模型多样化是构建大规模超算系统的重要技术趋势.多样化加速器要求开发者为... GPU作为构造大规模超算系统的核心计算部件,向着体系结构多样化和异构化的方向发展.来自不同芯片厂商的GPU加速器具有差异较大的体系结构设计.加速器类型和编程模型多样化是构建大规模超算系统的重要技术趋势.多样化加速器要求开发者为多种硬件平台提供高性能共性算法库软件,然而这也导致了算法库软件重复开发问题.为降低重复开发成本,统一编程模型SYCL(system-wide compute language)应运而生,并适配了多种硬件平台.尽管如此,在不同硬件上,SYCL的性能仍不及各自原生编程模型.因此,需要进一步优化SYCL的性能以将目前成熟完备的CUDA(compute unified device architecture)编程思路和高性能程序应用到SYCL中.基于软硬件协同设计,提出了paraTRANS方法,该方法是面向跨异构编程模型SYCL代码移植过程中共性算子优化工具,并在不同场景下给出了对移植得到的SYCL的GEMM(general matrix multiplication)进行优化的方法.评测了paraTRANS优化后基于SYCL的GEMM算子在NVIDIA RTX 3090和AMD MI100上的性能情况.结果显示,在NVIDIA RTX 3090上,paraTRANS达到了96.95%CUDA原生算子的性能水平;在AMD MI100上,则接近CUDA在NVIDIA RTX 3090上硬件峰值百分比(100.47%)所表现出来的性能水平.这些结果表明成功地将原生高性能CUDA算子代码移植并进一步优化至SYCL环境中,并为未来类似工作提供新颖且有效的优化思路. 展开更多
关键词 SYCL 跨异构体系结构 代码移植 GEMM 并行优化
在线阅读 下载PDF
SW39000处理器上顺序任务流多从核辅助并行构图算法
10
作者 傅游 贾淑慧 +3 位作者 陈莉 花嵘 杜云龙 高希然 《计算机研究与发展》 北大核心 2025年第6期1455-1468,共14页
顺序任务流(sequential task flow,STF)将对共享数据的访问表示为任务之间的依赖关系,STF运行时系统通过任务构造、依赖分析和任务依赖图(task dependence graph,TDG)生成、任务调度实现异步并行,这3个环节的开销直接影响并行程序的性能... 顺序任务流(sequential task flow,STF)将对共享数据的访问表示为任务之间的依赖关系,STF运行时系统通过任务构造、依赖分析和任务依赖图(task dependence graph,TDG)生成、任务调度实现异步并行,这3个环节的开销直接影响并行程序的性能.目前以STF为核心的AceMesh运行时系统,在SW39000处理器上仅使用单主核构图、多从核执行的方式.然而,SW39000处理器离散访存性能较弱,细粒度任务构图离散访存增多,构图更容易成为瓶颈.对此,提出了一种利用多从核辅助主核进行构图的算法.首先,分析在依赖分析和TDG生成过程中的并行性,在SW39000处理器上实现了一种基于胖任务依赖图(fatTDG)的多核辅助并行构图算法PFBH(parallelized fatTDG building algorithm with helpers)并进行优化.其次,针对线程间的主存资源竞争问题,提出构图与执行并行中从核资源调节方法及参数选择.最终,在5类典型应用下进行实验测试.与单核串行构图系统相比,在细粒度任务场景下最高加速为1.75倍;与SW39000处理器上的OpenACC模型相比,AceMesh最高可达2倍加速. 展开更多
关键词 顺序任务流 异构众核并行 任务调度 并行构图 多从核协同 SW39000
在线阅读 下载PDF
基于局部性原理的最大误差并行检测方法
11
作者 冀立光 杨鸿儒 +3 位作者 周玉畅 崔梦琦 何昊天 许瑾晨 《计算机科学》 北大核心 2025年第9期152-159,共8页
浮点数采用有限的位数来表示无限的实数进行计算,因此浮点数计算天然具有不准确性,这种不准确性可以用最大误差来度量。传统浮点数最大误差检测算法采用串行计算思维并结合经典搜索算法,当采样点数量较少时,容易将局部极大值作为全局最... 浮点数采用有限的位数来表示无限的实数进行计算,因此浮点数计算天然具有不准确性,这种不准确性可以用最大误差来度量。传统浮点数最大误差检测算法采用串行计算思维并结合经典搜索算法,当采样点数量较少时,容易将局部极大值作为全局最大值处理,从而遗漏最大误差值。如果大规模提升采样点数量,那么检测程序用时大幅增加,检测性能降低。通过应用并行计算模式指数级增加采样点数量,同步结合局部性原理在误差热点附近采用浮点动态采样策略,大幅提高检测结果的准确性。这种方法可以最大限度地发挥并行计算的算力,不仅可以提升浮点数最大误差的检测精度,还可以压缩检测程序的执行时间并提升性能,加速比可以达到1136.3,检测出的最大误差值优于当前主流检测工具,这为衡量浮点数计算指标提供了新的检测方法。 展开更多
关键词 浮点运算 并行优化 区间采样 误差检测 申威异构架构
在线阅读 下载PDF
基于混合离散差分进化算法的分布式异构混合流水车间调度
12
作者 郦仕云 杨孟平 +1 位作者 易文超 裴植 《计算机集成制造系统》 北大核心 2025年第7期2515-2528,共14页
针对不相关并行机的分布式异构混合流水车间调度问题(DHHFSP),建立了以最小化最大完工时间为目标的数学模型,并提出了一种混合离散差分进化算法(HDDE)。考虑到异构车间的复杂性,HDDE算法首先在迭代搜索过程中引入了一类新的工厂分配规则... 针对不相关并行机的分布式异构混合流水车间调度问题(DHHFSP),建立了以最小化最大完工时间为目标的数学模型,并提出了一种混合离散差分进化算法(HDDE)。考虑到异构车间的复杂性,HDDE算法首先在迭代搜索过程中引入了一类新的工厂分配规则,可将工件分配至更加合适的工厂执行加工。为进一步增强初始种群的质量,设计了改进性的DNEH启发式算法(IDNEH),并采用DE/rand/1和DE/best/1混合的双差分策略进行最优解搜索。结果表明,混合这两种差分策略可更好地保证种群的多样性与算法的收敛性。为强化算法的局部搜索能力,本文还针对问题特性设计了基于关键工厂的双层变邻域下降(DVND)算法。在数值实验部分,通过与GA_LS2、ES_en、IABC、IG等算法进行性能对比,验证了本文所提出的HDDE算法的有效性。 展开更多
关键词 分布式异构车间 不相关并行机 离散差分进化 双差分策略 工厂分配规则
在线阅读 下载PDF
面向AI算力场景的多元异构混合训练系统研究
13
作者 李攀攀 牛红韦华 +6 位作者 赵万龙 马华伟 王艳辉 江伟 张雯欣 陆一鸣 赵峰 《电信科学》 北大核心 2025年第7期133-144,共12页
大语言模型训练是人工智能(artificial intelligence,AI)发展的核心场景,在算力多元化和异构化趋势下,跨生态异构算力协同能力将成为十万卡级训练的关键支撑。基于此背景,设计了一套异构AI算力混合训练系统,该系统能够主动检测、适配异... 大语言模型训练是人工智能(artificial intelligence,AI)发展的核心场景,在算力多元化和异构化趋势下,跨生态异构算力协同能力将成为十万卡级训练的关键支撑。基于此背景,设计了一套异构AI算力混合训练系统,该系统能够主动检测、适配异构AI芯片,实现异构算力间的集合通信。基于该原型系统,在一个由3种异构算力组成的RoCEv2网络互通集群实现了多种异构算力组合的混训。在异构流水线并行(pipeline parallelism,PP)混训场景下,英伟达与壁仞的最优混训效率达到99.77%,英伟达、天数智芯、壁仞的最优混训效率可达99.03%。在异构数据并行(data parallelism,DP)混训场景下,英伟达与壁仞的最优混训效率达到92.88%。 展开更多
关键词 大语言模型 集合通信 异构并行 异构混合训练
在线阅读 下载PDF
一种异构多核系统动态调度协处理器设计
14
作者 曾树铭 倪伟 《合肥工业大学学报(自然科学版)》 北大核心 2025年第2期185-195,共11页
为研究异构多核片上系统(multi-processor system on chip,MPSoC)在密集并行计算任务中的潜力,文章设计并实现了一种适用于粗粒度数据特征、面向任务级并行应用的异构多核系统动态调度协处理器,采用了片上缓存、任务输出的多级写回管理... 为研究异构多核片上系统(multi-processor system on chip,MPSoC)在密集并行计算任务中的潜力,文章设计并实现了一种适用于粗粒度数据特征、面向任务级并行应用的异构多核系统动态调度协处理器,采用了片上缓存、任务输出的多级写回管理、任务自动映射、通讯任务乱序执行等机制。实验结果表明,该动态调度协处理器不仅能够实现任务级乱序执行等基本设计目标,还具有极低的调度开销,相较于基于动态记分牌算法的调度器,运行多个子孔径距离压缩算法的时间降低达17.13%。研究结果证明文章设计的动态调度协处理器能够有效优化目标场景下的任务调度效果。 展开更多
关键词 动态调度 硬件调度器 异构多核系统 任务级并行 编程模型 片上缓存 片上网络
在线阅读 下载PDF
非均质油藏层间干扰室内实验优化 被引量:1
15
作者 王杰 黎鸿屿 +2 位作者 吕栋梁 钱川川 周群茂 《新疆石油地质》 CAS CSCD 北大核心 2024年第2期199-204,共6页
多层非均质油藏在合注合采开发时,受储集层岩性、物性、地层压力、流体性质等因素影响,层与层之间相互干扰。早期开展的并联驱替室内实验,无法有效地模拟油藏多层合采时各层间的流体交换,且所定义的干扰系数的物理内涵与注水开发渗流过... 多层非均质油藏在合注合采开发时,受储集层岩性、物性、地层压力、流体性质等因素影响,层与层之间相互干扰。早期开展的并联驱替室内实验,无法有效地模拟油藏多层合采时各层间的流体交换,且所定义的干扰系数的物理内涵与注水开发渗流过程不符。为此,建立串并联组合驱替实验模型,模拟储集层层内岩性的变化。通过研究串并联驱替实验下不同渗透率岩心的产油量、含水率以及采收率,对干扰系数进行验证和再认识。研究结果表明:层间干扰的实质是不同储集层渗流阻力随着时间的变化,导致储集层流量分配发生改变;储集层非均质性是多层合采过程中形成优势渗流通道的主要因素。研究结果为后续开展层间干扰相关实验设计和非均质油藏合理高效开发提供了参考依据。 展开更多
关键词 非均质油藏 层间干扰 干扰系数 驱替实验 并联 串联 岩心
在线阅读 下载PDF
基于VIKOR的多网并行传输选网算法 被引量:1
16
作者 林海涛 肖丹妮 王斌 《海军工程大学学报》 CAS 北大核心 2024年第3期83-88,共6页
海上异构无线网络通信场景下,针对单一无线网络难以承载大带宽业务的现实问题,提出了一种基于VIKOR的多网并行传输网络选择算法。该算法首先将多个网络的参数聚合,筛选可用网络组合;然后,结合网络属性的主客观权重和用户偏好权重得到网... 海上异构无线网络通信场景下,针对单一无线网络难以承载大带宽业务的现实问题,提出了一种基于VIKOR的多网并行传输网络选择算法。该算法首先将多个网络的参数聚合,筛选可用网络组合;然后,结合网络属性的主客观权重和用户偏好权重得到网络属性的综合权重;最后,根据VIKOR方法对网络组合进行排序,选出最佳网络组合方案。仿真结果表明:该算法具有可行性,相较于传统算法,在舰船通信业务繁忙情况下选网综合性能更优。 展开更多
关键词 异构无线网络 多网并行传输 网络组合 大带宽业务
在线阅读 下载PDF
基于中文电子病历知识图谱的实体对齐研究 被引量:3
17
作者 李丽双 董姜媛 《中文信息学报》 CSCD 北大核心 2024年第8期103-111,共9页
医疗知识图谱中知识重叠和互补的现象普遍存在,利用实体对齐进行医疗知识图谱融合成为迫切需要。然而据作者调研,目前医疗领域中的实体对齐尚没有一个完整的处理方案。因此该文提出了一个规范的基于中文电子病历的医疗知识图谱实体对齐... 医疗知识图谱中知识重叠和互补的现象普遍存在,利用实体对齐进行医疗知识图谱融合成为迫切需要。然而据作者调研,目前医疗领域中的实体对齐尚没有一个完整的处理方案。因此该文提出了一个规范的基于中文电子病历的医疗知识图谱实体对齐流程,为医疗领域的实体对齐提供了一种可行的方案。同时针对基于中文电子病历医疗知识图谱之间结构异构性的特点,该文设计了一个双视角并行图神经网络(DuPNet)模型用于解决医疗领域实体对齐,并取得较好的效果。 展开更多
关键词 医疗知识图谱 中文电子病历 实体对齐 结构异构体 并行图神经网络
在线阅读 下载PDF
基于MPI+CUDA的DSMC/PIC耦合模拟异构并行及性能优化研究 被引量:1
18
作者 林拥真 徐传福 +4 位作者 邱昊中 汪青松 王正华 杨富翔 李洁 《计算机科学》 CSCD 北大核心 2024年第9期31-39,共9页
DSMC/PIC耦合模拟是一类重要的高性能计算应用,大规模DSMC/PIC耦合模拟计算量巨大,需要实现高效并行计算。由于粒子动态注入、迁移等操作,基于MPI并行的DSMC/PIC耦合模拟往往通信开销较大且难以实现负载均衡。针对自主研发的DSMC/PIC耦... DSMC/PIC耦合模拟是一类重要的高性能计算应用,大规模DSMC/PIC耦合模拟计算量巨大,需要实现高效并行计算。由于粒子动态注入、迁移等操作,基于MPI并行的DSMC/PIC耦合模拟往往通信开销较大且难以实现负载均衡。针对自主研发的DSMC/PIC耦合模拟软件,在原有MPI并行优化版本上设计实现了高效的MPI+CUDA异构并行算法,结合GPU体系结构和DSMC/PIC计算特点,开展了GPU访存优化、GPU线程工作负载优化、CPU-GPU数据传输优化及DSMC/PIC数据冲突优化等一系列性能优化。在北京北龙超级云HPC系统的NVIDIA V100和A100 GPU上,针对数亿粒子规模的脉冲真空弧等离子体羽流应用,开展了大规模DSMC/PIC耦合异构并行模拟,相比原有纯MPI并行,GPU异构并行大幅缩短了模拟时间,两块GPU卡较192核的CPU加速比达到550%,同时具有更好的强可扩展性。 展开更多
关键词 DSMC/PIC耦合 粒子模拟 异构并行 MPI+CUDA
在线阅读 下载PDF
基于异构系统的多级并行稀疏张量向量乘算法 被引量:4
19
作者 陈玥丹 肖国庆 +3 位作者 阳王东 金纪勇 龙军 李肯立 《计算机学报》 EI CSCD 北大核心 2024年第2期441-455,共15页
张量在许多实际应用中被用来表示大规模、多源、高维、多模态的数据.稀疏张量分解作为挖掘数据中隐藏信息的有效方法之一,已被广泛应用于机器学习、文本分析、生物医疗等研究领域中.稀疏张量向量乘(Sparse Tensor-VectorMultiplication,... 张量在许多实际应用中被用来表示大规模、多源、高维、多模态的数据.稀疏张量分解作为挖掘数据中隐藏信息的有效方法之一,已被广泛应用于机器学习、文本分析、生物医疗等研究领域中.稀疏张量向量乘(Sparse Tensor-VectorMultiplication,SpTV)是张量分解中最基础、耗时最多的运算之一.为加速大数据和人工智能相关应用的运行效率,本文提出了基于CPU-GPU异构结构的多级并行SpTV加速算法.首先,为了将SpTV运算映射到混合、多级并行的分布式CPU-GPU异构多/众核构架,本文设计了一种多维并行SpTV划分方法,采用面向节点级并行的N-1维张量划分和面向GPU线程级并行的矩阵划分,充分利用计算节点间和节点内的多级并行计算能力.其次,设计了一种基于稀疏张量纤维的压缩存储格式,压缩稀疏张量的内存占用,优化SpTV运算的计算和访存模式.最后,提出了基于多流并行的异构高效SpTV算法,进一步设计了稀疏张量的细粒度划分方法、多流并行运行机制和基于张量块排序的多流并行优化技术,实现了SpTV运算中通信开销和计算开销的相互重叠与隐藏.实验结果表明,与相关工作aeSpTV相比,所提出的SpTV算法在所有测试数据集上最高能够获得3.28倍的加速比. 展开更多
关键词 CPU-GPU 异构并行计算 多级并行 稀疏张量 张量运算
在线阅读 下载PDF
数字乡村建设赋能共同富裕:统计测度与机制检验 被引量:9
20
作者 李兴锋 王力 董伟萍 《统计与决策》 CSSCI 北大核心 2024年第11期46-51,共6页
数字乡村建设是乡村振兴的重要方向,也是实现共同富裕目标的主要途径。文章基于2011-2020年中国31个省份的面板数据,分别构建共同富裕与数字乡村建设评价指标体系,考察数字乡村建设对共同富裕的影响效应和作用机理。结果表明:(1)中国数... 数字乡村建设是乡村振兴的重要方向,也是实现共同富裕目标的主要途径。文章基于2011-2020年中国31个省份的面板数据,分别构建共同富裕与数字乡村建设评价指标体系,考察数字乡村建设对共同富裕的影响效应和作用机理。结果表明:(1)中国数字乡村建设水平与共同富裕水平均在上升,且均呈现“东高、西低”的空间分布格局,但中西部地区的“追赶”效应明显;(2)数字乡村建设对共同富裕具有显著的促进作用,并且其促进共享富裕的“分好蛋糕”效应强于促进总体富裕的“做大蛋糕”效应;(3)机制分析表明,数字乡村建设主要通过农民收入增长、农村创业活力和农村产业融合三种渠道促进共同富裕;(4)在空间异质性视角下,数字乡村建设对共同富裕的促进效应从东部到西部依次递增。 展开更多
关键词 数字乡村建设 共同富裕 一元并行多重中介模型 异质性
在线阅读 下载PDF
上一页 1 2 13 下一页 到第
使用帮助 返回顶部