期刊文献+
共找到48篇文章
< 1 2 3 >
每页显示 20 50 100
基于InfiniBand的高性能计算机技术研究 被引量:13
1
作者 谢向辉 彭龙根 +1 位作者 吴志兵 卢德平 《计算机研究与发展》 EI CSCD 北大核心 2005年第6期905-912,共8页
网络性能一直是制约高性能计算技术发展的瓶颈,无论是面向计算的网络还是面向存储的网络,通信速度的发展远落后于CPU的发展.InfiniBand互连结构能够缩短网络和CPU之间的性能差距,使高性能计算机的性能趋于平衡.2000年在InfiniBand协议... 网络性能一直是制约高性能计算技术发展的瓶颈,无论是面向计算的网络还是面向存储的网络,通信速度的发展远落后于CPU的发展.InfiniBand互连结构能够缩短网络和CPU之间的性能差距,使高性能计算机的性能趋于平衡.2000年在InfiniBand协议发展初期,国家并行计算机工程技术研究中心就在国家“八六三”计划的支持下开始对InfiniBand协议展开了深入研究,旨在改进高性能计算特别是集群系统的互连性能,研制出符合InfiniBand标准规范的高性能互连部件,并最终开发出了具有自主知识产权的InfiniBand互连网络产品.论述了以自行研制的InfiniBand部件技术为基础的高性能集群计算机系统的组成、结构和应用,并对系统性能进行了实验分析. 展开更多
关键词 HPC 存储网络 系统域网 ISCSI RDMA
在线阅读 下载PDF
swLLVM:面向神威新一代超级计算机的优化编译器 被引量:2
2
作者 沈莉 周文浩 +5 位作者 王飞 肖谦 武文浩 张鲁飞 安虹 漆锋滨 《软件学报》 EI CSCD 北大核心 2024年第5期2359-2378,共20页
异构众核架构具有超高的能效比,已成为超级计算机体系结构的重要发展方向.然而,异构系统的复杂性给应用开发和优化提出了更高要求,其在发展过程中面临好用性和可编程性等众多技术挑战.我国自主研制的神威新一代超级计算机采用了国产申... 异构众核架构具有超高的能效比,已成为超级计算机体系结构的重要发展方向.然而,异构系统的复杂性给应用开发和优化提出了更高要求,其在发展过程中面临好用性和可编程性等众多技术挑战.我国自主研制的神威新一代超级计算机采用了国产申威异构众核处理器SW26010Pro.为了发挥新一代众核处理器的性能优势,支撑新兴科学计算应用的开发和优化,设计并实现面向SW26010Pro平台的优化编译器swLLVM.该编译器支持Athread和SDAA双模态异构编程模型,提供多级存储层次描述及向量操作扩展,并且针对SW26010Pro架构特点实现控制流向量化、基于代价的节点合并以及针对多级存储层次的编译优化.测试结果表明,所设计并实现的编译优化效果显著,其中,控制流向量化和节点合并优化的平均加速比分别为1.23和1.11,而访存相关优化最高可获得2.49倍的性能提升.最后,使用SPEC CPU2006标准测试集从多个维度对swLLVM进行了综合评估,相较于SWGCC的相同优化级别,swLLVM整型课题性能平均下降0.12%,浮点型课题性能平均提升9.04%,整体性能平均提升5.25%,编译速度平均提升79.1%,代码尺寸平均减少1.15%. 展开更多
关键词 异构众核 编译系统 编程模型 存储层次 向量化 节点合并 访存优化
在线阅读 下载PDF
神威超级计算机运行时故障定位方法 被引量:2
3
作者 高剑刚 郑岩 +6 位作者 于康 彭达佳 李宏亮 刘勇 何王全 陈德训 王飞 《计算机研究与发展》 EI CSCD 北大核心 2024年第1期86-97,共12页
随着高性能计算机的性能不断提升、系统规模不断提高,系统和应用的错误率也不可避免地持续增多.快速发现和定位系统及应用级的错误、为用户提供高质量服务,成为了超级计算机系统设计开发过程中急需考虑的问题.超级计算机系统中硬件故障... 随着高性能计算机的性能不断提升、系统规模不断提高,系统和应用的错误率也不可避免地持续增多.快速发现和定位系统及应用级的错误、为用户提供高质量服务,成为了超级计算机系统设计开发过程中急需考虑的问题.超级计算机系统中硬件故障与异常、软件程序的错误等都会导致用户大规模并行应用的错误、挂死与退出.如何快速准确定位错误现场,让管理员或用户以此为基础查看异常发生的故障进行高精度、高效率的诊断,是维护高性能计算系统可靠性的重要基础.高性能计算机传统的故障定位主要通过硬件异常跟踪、系统日志分析和程序主动探测等方法,缺乏对无日志信息、无明显故障现象的程序挂死问题的定位手段,并且技术的扩展性也面临挑战.针对“新一代神威超级计算机”体系结构和SW26010-Pro众核处理器特点,提出一种运行时故障定位方法,包括基于消息传递的故障关联分析、基于全局聚合信息的在线综合分析诊断、面向申威众核处理器的异常线程过滤方法等关键技术,阐述了如何有效检测、收集、处理大量系统资源和并行进程的异常信息问题,为应对未来超大规模高性能计算中故障高效定位难题提供有效支撑. 展开更多
关键词 E级计算机 可靠性 错误定位 运行时 众核处理器
在线阅读 下载PDF
基于指导语句的函数向量化技术研究
4
作者 刘丽丽 单征 +2 位作者 李颖颖 武文浩 刘文博 《计算机科学》 北大核心 2025年第5期76-82,共7页
随着处理器技术的不断发展,SIMD(Single Instruction Multiple Data)向量化已经在各个领域得到广泛的应用。然而,过去的研究主要集中在循环和基本块上,而全函数向量化可以更好地利用SIMD指令的优势,从而提高应用程序的性能。文中提出了... 随着处理器技术的不断发展,SIMD(Single Instruction Multiple Data)向量化已经在各个领域得到广泛的应用。然而,过去的研究主要集中在循环和基本块上,而全函数向量化可以更好地利用SIMD指令的优势,从而提高应用程序的性能。文中提出了一种基于指导语句的函数向量化方法。首先,在涉及函数调用的循环上加上一种较为简单的指导语句,即可对循环中涉及函数调用的指令进行向量化。其次,对于被调函数的向量化采用全函数向量化的方式,生成向量化的全函数而不是对其内联。最后,处理循环中的函数调用点,生成向量化的函数调用指令。这种方法可以充分利用SIMD指令的优势,提高应用程序的性能。从ISPC基准测试和SIMD库基准测试中选取了10个基准测试来评估所提方法,实验结果表明该方法与标量相比,平均加速比达到了6.949倍。 展开更多
关键词 函数向量化 SIMD 自动向量化
在线阅读 下载PDF
E级高性能计算机的维护故障诊断系统研究 被引量:7
5
作者 建澜涛 任秀江 +3 位作者 张祯 石嵩 黄益明 张春林 《计算机工程》 CAS CSCD 北大核心 2022年第12期24-37,共14页
E级计算机系统规模巨大,使得故障异常总量随之增多,导致诊断发现的难度增加,因此,迫切需要一套更加准确高效的实时维护故障诊断系统,对硬件系统进行全面的异常及故障信息实时检测、故障诊断及故障预测。传统故障诊断系统在面对数万节点... E级计算机系统规模巨大,使得故障异常总量随之增多,导致诊断发现的难度增加,因此,迫切需要一套更加准确高效的实时维护故障诊断系统,对硬件系统进行全面的异常及故障信息实时检测、故障诊断及故障预测。传统故障诊断系统在面对数万节点规模的诊断时存在执行效率低、异常检测误报率高的问题,异常检测及故障诊断的覆盖率不足。对异常及故障检测、故障诊断与故障预测相关技术进行研究,分析技术原理及适用性,并结合E级高性能计算机实际工程需求,设计一套满足数E级高性能计算机需求的维护故障诊断系统。基于维护系统的结构组成设计可扩展的边缘诊断架构,将高性能计算机系统知识、专家知识与数理统计、机器学习相融合给出故障检测、诊断及预测算法,并针对专用场景建立预测模型。实验结果表明,该系统具有较好的可扩展性,能在10 s内完成对十万个节点规模系统的故障诊断,与传统故障诊断系统相比,异常检测某特定指标误报率从3.3%降低到几乎为0,硬件故障检测覆盖率从90.2%提升至96%以上,硬件故障诊断覆盖率从71%提升至约94%,能较准确地预测多个重要应用场景下的故障。 展开更多
关键词 高性能计算 维护系统 异常检测 故障诊断 故障预测
在线阅读 下载PDF
“神威·太湖之光”计算机系统大规模应用特征分析与E级可扩展性研究 被引量:18
6
作者 刘鑫 郭恒 +1 位作者 孙茹君 陈左宁 《计算机学报》 EI CSCD 北大核心 2018年第10期2209-2220,共12页
复杂应用系统面临着全系统、全物理过程、自然尺度的计算模拟,对计算机能力提出更高要求.该文介绍了"神威·太湖之光"系统半机以上超大规模并行应用的算法特点、体系结构适应性、计算复杂度、访存复杂度和通信复杂度的大... 复杂应用系统面临着全系统、全物理过程、自然尺度的计算模拟,对计算机能力提出更高要求.该文介绍了"神威·太湖之光"系统半机以上超大规模并行应用的算法特点、体系结构适应性、计算复杂度、访存复杂度和通信复杂度的大规模实验分析结果,基于大规模应用计算和数据移动特征以及异构众核体系结构特点提出新的性能模型,得出影响大规模应用性能的关键因素,提出E级复杂应用对未来E级计算机系统的设计需求. 展开更多
关键词 神威·太湖之光 大规模应用 复杂度分析 计算特征
在线阅读 下载PDF
高性能计算机的关键技术和发展趋势 被引量:10
7
作者 金怡濂 黄永勤 +2 位作者 陈左宁 桂亚东 漆锋滨 《中国工程科学》 2001年第6期1-8,共8页
介绍高性能计算机的关键技术和发展趋势。简要回顾高性能计算机的发展历史和当前形势 ,重点讨论大规模并行处理 (MPP)所面临的挑战 ,包括可扩展性、友善性和可用性。介绍神威高性能计算机及其应用情况 ,并对如何发展我国高性能计算机提... 介绍高性能计算机的关键技术和发展趋势。简要回顾高性能计算机的发展历史和当前形势 ,重点讨论大规模并行处理 (MPP)所面临的挑战 ,包括可扩展性、友善性和可用性。介绍神威高性能计算机及其应用情况 ,并对如何发展我国高性能计算机提出一些初浅的看法。 展开更多
关键词 大规模并行处理 系统软件 并行编译 系统效率 可扩展性 可用性 技术发展 高性能计算机
在线阅读 下载PDF
Beacon^(+):面向E级超级计算机的轻量级端到端I/O性能监控与分析诊断系统 被引量:2
8
作者 杨斌 王敬宇 +6 位作者 刘世超 邵明山 肖伟 陈起 何晓斌 刘卫国 薛巍 《计算机工程与科学》 CSCD 北大核心 2022年第9期1521-1531,共11页
随着E级计算的屏障被打破,高性能计算已经迈入了新时代。为了满足日益增长的数据访问需求,新兴的技术和存储介质都被运用到了超级计算机中,这使得其架构变得日趋复杂,其性能异常和系统热点定位也变得十分困难。为此,设计并实现了一个面... 随着E级计算的屏障被打破,高性能计算已经迈入了新时代。为了满足日益增长的数据访问需求,新兴的技术和存储介质都被运用到了超级计算机中,这使得其架构变得日趋复杂,其性能异常和系统热点定位也变得十分困难。为此,设计并实现了一个面向E级超级计算机的轻量级端到端I/O性能监控与分析诊断系统——Beacon^(+)。该系统无需修改应用代码/脚本即可对每个应用的数据访问过程进行全路径实时监控与分析。通过在线+离线的压缩方法和分布式缓存/存储等机制,Beacon^(+)在保证系统本身高扩展性、低开销的同时还可以持续稳定地提供I/O诊断服务。以神威新一代超级计算机为部署平台,通过I/O标准测试应用和实际应用证明了Beacon^(+)的低开销和高准确性,以及I/O诊断的高效性。 展开更多
关键词 I/O监控 数据压缩 I/O诊断 异常检测 性能瓶颈优化
在线阅读 下载PDF
大语言模型微调方法研究综述 被引量:3
9
作者 吴春志 赵玉龙 +3 位作者 刘鑫 司念文 张鲁飞 范昊 《中文信息学报》 北大核心 2025年第2期1-26,共26页
近年来,大语言模型成为人工智能领域非常受关注的技术,引发了自然语言处理领域新的研究范式。在大语言模型训练实践中,参数微调是其中非常重要的一个环节,它允许用户在资源受限条件下,通过调整少部分参数来提升模型理解用户指令、解决... 近年来,大语言模型成为人工智能领域非常受关注的技术,引发了自然语言处理领域新的研究范式。在大语言模型训练实践中,参数微调是其中非常重要的一个环节,它允许用户在资源受限条件下,通过调整少部分参数来提升模型理解用户指令、解决下游任务的能力。该文全面回顾了2019—2024年间50余种主要的大语言模型微调方法,从全新的角度进行了系统性的整理和概括,分为全参数微调、部分参数微调、新增参数微调和无参数微调方法,对每种方法的原理、微调位置及方法特点作了总结归纳和比较;接着,从计算的视角出发,着重分析比较了各类方法的参数量、内存消耗和计算量;最后,基于该文的微调方法调研及相关的参数微调实践,对大语言模型微调策略给出建议,以促进该领域的发展。 展开更多
关键词 人工智能 大语言模型 微调 ADAPTER LoRA
在线阅读 下载PDF
面向神威众核超算系统的并行计算模型研究 被引量:3
10
作者 高剑刚 刘鑫 +4 位作者 李芳 刘勇 彭达佳 陈鑫 陈德训 《计算机学报》 EI CAS CSCD 北大核心 2023年第7期1339-1349,共11页
基于异构众核处理器的超级计算机已经成为TOP500高性能计算机的主流,BSP、LogP、PRAM等已有并行计算模型均针对基于多核处理器的超级计算机设计,不能满足日益迫切的基于众核架构的超级计算机和应用发展需求.本文面向“神威·太湖之... 基于异构众核处理器的超级计算机已经成为TOP500高性能计算机的主流,BSP、LogP、PRAM等已有并行计算模型均针对基于多核处理器的超级计算机设计,不能满足日益迫切的基于众核架构的超级计算机和应用发展需求.本文面向“神威·太湖之光”和神威E级原型系统的众核体系结构特点,提出P-PALN(Parallel-Parallel Access via LDM&NOC)并行计算模型,对于计算节点间的并行,该模型沿用BSP/LogP模型描述;对于计算节点内的众核并行,该模型提供私有存储访问和片上阵列通信的众核并行架构的有效描述PALN,能够协助用户进行众核并行算法设计,并在申威众核处理器硬件设计中指导参数的优化.实验结果表明,该模型可有效指导硬件设计和用户众核编程,从而提高系统和应用的性能. 展开更多
关键词 众核处理器 并行计算模型 P-PALN PALN 片上通信
在线阅读 下载PDF
基于统计数据的超级计算机内存故障分析 被引量:2
11
作者 刘睿涛 陈左宁 《计算机工程》 CAS CSCD 北大核心 2019年第5期35-45,共11页
基于神威太湖之光和神威蓝光超级计算机的巨量内存故障统计数据,建立P级超级计算机的内存失效时间模型。采用序列规则挖掘方法,分析内存失效序列模式,得到CPU节点上内存失效序列与后续内存失效的关联关系。通过协同分析方法研究并行应... 基于神威太湖之光和神威蓝光超级计算机的巨量内存故障统计数据,建立P级超级计算机的内存失效时间模型。采用序列规则挖掘方法,分析内存失效序列模式,得到CPU节点上内存失效序列与后续内存失效的关联关系。通过协同分析方法研究并行应用的内存故障与内存失效特征,结果表明计算-访存-I/O密集型应用对内存故障影响较大,而应用类型对内存失效的影响有限,内存失效可能与内存芯片自身的可靠性有关。 展开更多
关键词 超级计算机 内存故障 内存失效 统计数据 失效模型 关联关系 协同分析
在线阅读 下载PDF
面向SW26010-Pro的1、2级BLAS函数众核并行优化技术 被引量:2
12
作者 胡怡 陈道琨 +5 位作者 杨超 刘芳芳 马文静 尹万旺 袁欣辉 林蓉芬 《软件学报》 EI CSCD 北大核心 2023年第9期4421-4436,共16页
BLAS (basic linear algebra subprograms)是高性能扩展数学库的一个重要模块,广泛应用于科学与工程计算领域. BLAS 1级提供向量-向量运算, BLAS 2级提供矩阵-向量运算.针对国产SW26010-Pro众核处理器设计并实现了高性能BLAS 1、2级函数... BLAS (basic linear algebra subprograms)是高性能扩展数学库的一个重要模块,广泛应用于科学与工程计算领域. BLAS 1级提供向量-向量运算, BLAS 2级提供矩阵-向量运算.针对国产SW26010-Pro众核处理器设计并实现了高性能BLAS 1、2级函数.基于RMA通信机制设计了从核归约策略,提升了BLAS 1、2级若干函数的归约效率.针对TRSV、TPSV等存在数据依赖关系的函数,提出了一套高效并行算法,该算法通过点对点同步维持数据依赖关系,设计了适用于三角矩阵的高效任务映射机制,有效减少了从核点对点同步的次数,提高了函数的执行效率.通过自适应优化、向量压缩、数据复用等技术,进一步提升了BLAS 1、2级函数的访存带宽利用率.实验结果显示, BLAS 1级函数的访存带宽利用率最高可达95%,平均可达90%以上, BLAS 2级函数的访存带宽利用率最高可达98%,平均可达80%以上.与广泛使用的开源数学库GotoBLAS相比, BLAS 1、2级函数分别取得了平均18.78倍和25.96倍的加速效果. LU分解、QR分解以及对称特征值问题通过调用所提出的高性能BLAS 1、2级函数取得了平均10.99倍的加速效果. 展开更多
关键词 BLAS 1级 BLAS 2级 访存带宽 SW26010-Pro众核处理器 RMA通信 点对点同步 自适应优化
在线阅读 下载PDF
应用透明的超算多层存储加速技术研究 被引量:1
13
作者 何晓斌 高洁 +3 位作者 肖伟 陈起 刘鑫 陈左宁 《计算机工程》 CAS CSCD 北大核心 2022年第12期1-8,共8页
在E级计算时代,超算系统一般使用多层存储架构以满足应用数据访问的容量和性能需求,这种架构中不同层次的存储介质差异较大,难以实现统一名字空间管理,往往需要应用修改数据访问流程才能最大程度利用到多层存储的性能和容量优势。针对... 在E级计算时代,超算系统一般使用多层存储架构以满足应用数据访问的容量和性能需求,这种架构中不同层次的存储介质差异较大,难以实现统一名字空间管理,往往需要应用修改数据访问流程才能最大程度利用到多层存储的性能和容量优势。针对多层存储统一名字空间的问题,提出针对非易失性双列存储模块(NVDIMM)的块级缓存和针对突发缓冲存储(BB)的文件级缓存技术。基于NVDIMM的块级缓存技术对缓存窗口灵活控制,以支持数据块粒度的异步读写,实现NVDIMM与BB层统一名字空间管理;基于BB的文件级缓存技术将数据缓存在BB层中,并动态迁移和管理文件副本,实现BB层与传统磁盘文件系统统一名字空间管理。在神威E级原型验证系统中的测试结果表明,所提出的两种技术较好地解决了多层存储的透明加速难题,NVDIMM块级缓存与BB相比,在缓存窗口16 MB时128 KB顺序读写带宽分别提升27%和36%,8 KB随机读写带宽分别提升20%和37%;基于BB的文件缓存技术利用BB的高带宽支撑数据访问,与全局文件系统相比,128 KB顺序读写带宽分别提升55%和141%,8 KB随机读写带宽分别提升163%和209%。此外,实际应用的测试也表明以上两种缓存技术具有透明的存储加速效果。 展开更多
关键词 超算系统 分层存储 非易失性双列存储模块 突发缓冲存储 块级缓存 文件级缓存 透明加速
在线阅读 下载PDF
国产SW26010-Pro处理器上3级BLAS函数众核并行优化 被引量:3
14
作者 胡怡 陈道琨 +5 位作者 杨超 马文静 刘芳芳 宋超博 孙强 史俊达 《软件学报》 EI CSCD 北大核心 2024年第3期1569-1584,共16页
BLAS(basic linear algebra subprograms)是最基本、最重要的底层数学库之一.在一个标准的BLAS库中,BLAS 3级函数涵盖的矩阵-矩阵运算尤为重要,在许多大规模科学与工程计算应用中被广泛调用.另外,BLAS 3级属于计算密集型函数,对充分发... BLAS(basic linear algebra subprograms)是最基本、最重要的底层数学库之一.在一个标准的BLAS库中,BLAS 3级函数涵盖的矩阵-矩阵运算尤为重要,在许多大规模科学与工程计算应用中被广泛调用.另外,BLAS 3级属于计算密集型函数,对充分发挥处理器的计算性能有至关重要的作用.针对国产SW26010-Pro处理器研究BLAS 3级函数的众核并行优化技术.具体而言,根据SW26010-Pro的存储层次结构,设计多级分块算法,挖掘矩阵运算的并行性.在此基础上,基于远程内存访问(remote memory access,RMA)机制设计数据共享策略,提高从核间的数据传输效率.进一步地,采用三缓冲、参数调优等方法对算法进行全面优化,隐藏直接内存访问(direct memory access,DMA)访存开销和RMA通信开销.此外,利用SW26010-Pro的两条硬件流水线和若干向量化计算/访存指令,还对BLAS 3级函数的矩阵-矩阵乘法、矩阵方程组求解、矩阵转置操作等若干运算进行手工汇编优化,提高了函数的浮点计算效率.实验结果显示,所提出的并行优化技术在SW26010-Pro处理器上为BLAS 3级函数带来了明显的性能提升,单核组BLAS 3级函数的浮点计算性能最高可达峰值性能的92%,多核组BLAS 3级函数的浮点计算性能最高可达峰值性能的88%. 展开更多
关键词 BLAS 3级 SW26010-Pro众核处理器 直接内存访问 远程内存访问 浮点计算效率
在线阅读 下载PDF
面向高性能计算的众核处理器结构级高能效技术 被引量:17
15
作者 郑方 张昆 +7 位作者 邬贵明 高红光 唐勇 吕晖 过锋 李宏亮 谢向辉 陈左宁 《计算机学报》 EI CSCD 北大核心 2014年第10期2176-2186,共11页
随着半导体技术的进步,众核处理器已经广泛应用于高性能计算领域.而要构建未来高性能计算系统,处理器必须突破严峻的"能耗墙"挑战.文中以一款自主众核处理器DFMC原型为基础,首先对其在典型负载下的能耗分布进行了分析,结合该... 随着半导体技术的进步,众核处理器已经广泛应用于高性能计算领域.而要构建未来高性能计算系统,处理器必须突破严峻的"能耗墙"挑战.文中以一款自主众核处理器DFMC原型为基础,首先对其在典型负载下的能耗分布进行了分析,结合该处理器的具体结构,提出了基于指令窗口的指令缓冲、操作数锁存两种结构级能效优化技术,探索了能效优先的浮点部件设计方法.实验表明,通过上述技术可以降低处理器取指和译码能耗约50%、寄存器文件能耗11.2%和浮点部件能耗17.6%,最终全芯片降低能耗约14.7%.在该文所述实验环境下,作者还进行了DFMC原型的双精度矩阵乘(DGEMM)性能功耗比测试,并与NVIDIA公司的Kepler K20GPU进行了对比. 展开更多
关键词 众核处理器 结构优化 能效 高性能计算
在线阅读 下载PDF
二进制翻译技术综述 被引量:3
16
作者 谢汶兵 田雪 +3 位作者 漆锋滨 武成岗 王俊 罗巧玲 《软件学报》 EI CSCD 北大核心 2024年第6期2687-2723,共37页
随着信息技术的快速发展,涌现出各种新型处理器体系结构.新的体系结构出现为处理器多样化发展带来机遇的同时也提出了巨大挑战,需要兼容运行已有软件,确保较为丰富的软件生态群.但要在短期内从源码编译构建大量生态软件并非易事,二进制... 随着信息技术的快速发展,涌现出各种新型处理器体系结构.新的体系结构出现为处理器多样化发展带来机遇的同时也提出了巨大挑战,需要兼容运行已有软件,确保较为丰富的软件生态群.但要在短期内从源码编译构建大量生态软件并非易事,二进制翻译作为一种直接从二进制层面迁移可执行代码技术,支持跨平台软件兼容运行,既扩大了软件生态群,又有效降低了应用程序与硬件之间的耦合度.近年来,二进制翻译技术研究取得了较大进展.为总结现有成果并分析存在的不足,首先介绍二进制翻译技术的分类以及典型的二进制翻译系统,之后从指令翻译方法、关键问题研究、优化技术等方面分别进行分析总结,接着阐述二进制翻译技术的核心应用领域,最后对二进制翻译技术的潜在研究方向进行展望. 展开更多
关键词 二进制翻译 翻译效率 等价变换 软件迁移 多融合优化
在线阅读 下载PDF
面向E级计算的功耗管理技术 被引量:3
17
作者 高剑刚 龚道永 +5 位作者 吴伟 郑岩 朱琪 王飞 郑方 金利峰 《计算机学报》 EI CAS CSCD 北大核心 2022年第7期1373-1383,共11页
E级计算机的构建面临严峻的“功耗墙”问题.为了应对功耗挑战,本文面向神威E级系统提出了一套低功耗管理体系.该体系采用软硬件协同的多层次低功耗管理机制,主要技术包括高能效基础设施设计、低功耗编译优化和细粒度功耗运行时管理,在... E级计算机的构建面临严峻的“功耗墙”问题.为了应对功耗挑战,本文面向神威E级系统提出了一套低功耗管理体系.该体系采用软硬件协同的多层次低功耗管理机制,主要技术包括高能效基础设施设计、低功耗编译优化和细粒度功耗运行时管理,在系统功耗量化监测技术支撑下实现软硬件协同能耗控制集成,具有功能层次多、覆盖面广、节能效果明显的特点.本文基于神威E级原型超级计算机进行了系统验证,实验结果证明本文提出的低功耗管理体系能够显著降低系统功耗,并且可扩展性良好,在大规模系统中具有广泛的适应性,能够支撑E级计算机绿色运行. 展开更多
关键词 E级计算机 异构众核处理器 功耗管理 编译优化 运行时优化
在线阅读 下载PDF
非结构网格下稀疏下三角方程求解器众核优化技术研究 被引量:3
18
作者 倪鸿 刘鑫 《计算机科学》 CSCD 北大核心 2019年第B06期518-522,共5页
稀疏下三角方程求解器(SpTRSV)作为基础线性代数库中一个重要的算法,在大规模科学计算中有着广泛应用。在非结构网格中,由于非结构网格具有数据存储无序性、数据强相关性以及频繁地离散访存等特点,该算法在众核架构上难以实现有效的并... 稀疏下三角方程求解器(SpTRSV)作为基础线性代数库中一个重要的算法,在大规模科学计算中有着广泛应用。在非结构网格中,由于非结构网格具有数据存储无序性、数据强相关性以及频繁地离散访存等特点,该算法在众核架构上难以实现有效的并行。文中基于国产异构众核处理器SW26010体系结构的特点,针对非结构网格计算,提出了一种基于流水线串行-局部并行思想的通用众核优化方法。该方法能够有效减少非结构网格计算中的随机访存,提高计算效率,并且具有很好的扩展性。基于该算法对多个实际应用算例进行众核优化,实验结果表明:该方法能够实现单核组3倍以上的加速,显著降低了运行时间。 展开更多
关键词 稀疏下三角方程求解器 非结构网格 SW26010 异构众核优化 并行算法
在线阅读 下载PDF
基于多虚空间多重映射技术的并行操作系统 被引量:3
19
作者 陈左宁 金怡濂 《软件学报》 EI CSCD 北大核心 2001年第10期1562-1568,共7页
高性能计算机系统的可扩展性是系统设计的一大难题 ,NUMA(non-uniform memory architecture)结构正是为了解决共享存储体系的可扩展性问题而提出来的 .研究和实践表明 ,整机系统的可扩展性与操作系统的结构有着密切的关系 .典型的多处... 高性能计算机系统的可扩展性是系统设计的一大难题 ,NUMA(non-uniform memory architecture)结构正是为了解决共享存储体系的可扩展性问题而提出来的 .研究和实践表明 ,整机系统的可扩展性与操作系统的结构有着密切的关系 .典型的多处理机操作系统通常采用两种结构 ,基于共享的单一核心结构以及基于消息的多核心结构 .通过分析得出结论认为 ,这两种结构都不能很好地适应可扩展并行机尤其是 NUMA结构并行机的需求 .针对存在的问题 ,提出了新的结构设计思想 :多虚空间多重映射与主动消息相结合 .测试和运行结果显示 。 展开更多
关键词 并行操作系统 多重映射技术 可扩展性 计算机系统
在线阅读 下载PDF
基于InfiniBand网络的消息可扩展技术研究 被引量:2
20
作者 彭龙根 尤洪涛 尹万旺 《计算机科学》 CSCD 北大核心 2013年第3期104-106,120,共4页
InfiniBand是目前HPC系统互连的主流网络之一,其提供的可靠连接传输服务因为支持RDMA、原子操作等功能而被广泛应用于MPI等并行应用编程模型。但是支撑可靠连接所需的消息队列及缓冲区开销往往会随着并行规模的扩大而急剧增加,从而制约... InfiniBand是目前HPC系统互连的主流网络之一,其提供的可靠连接传输服务因为支持RDMA、原子操作等功能而被广泛应用于MPI等并行应用编程模型。但是支撑可靠连接所需的消息队列及缓冲区开销往往会随着并行规模的扩大而急剧增加,从而制约了应用规模的扩大。为了解决这种内存开销带来的消息可扩展性问题,先从In-finiBand传输优化方面介绍了共享接收队列和扩展可靠连接技术,然后基于并行通信模型提出了分组连接技术。通过这些技术可以将节点内存开销减少2个数量级,并且开销不会随并行规模的扩大而明显增加。 展开更多
关键词 可扩展 共享接收队列 分组连接 INFINIBAND
在线阅读 下载PDF
上一页 1 2 3 下一页 到第
使用帮助 返回顶部