期刊文献+
共找到16篇文章
< 1 >
每页显示 20 50 100
申威处理器硬件数据预取技术的实现 被引量:6
1
作者 贾迅 胡向东 尹飞 《计算机工程与科学》 CSCD 北大核心 2015年第11期2013-2017,共5页
硬件数据预取技术可以有效提升处理器的访存性能,是申威处理器性能优化过程中亟需突破的一项技术。硬件开销和处理器架构的制约是硬件预取技术实现中的主要难点。借鉴学术界对硬件预取技术的研究成果和工业界的应用现状,紧密结合申威处... 硬件数据预取技术可以有效提升处理器的访存性能,是申威处理器性能优化过程中亟需突破的一项技术。硬件开销和处理器架构的制约是硬件预取技术实现中的主要难点。借鉴学术界对硬件预取技术的研究成果和工业界的应用现状,紧密结合申威处理器的结构特点,研究了申威处理器硬件预取技术的实现方法。以流预取为例,在处理器核心面积增加0.97%的情况下,硬件预取技术的应用可以将目前申威处理器的整数性能平均提升5.17%,最高提升28.88%;浮点性能平均提升6.39%,最高提升30.11%。 展开更多
关键词 硬件预取 申威处理器 访存 流预取
在线阅读 下载PDF
DPDK在国产申威处理器平台上的应用与研究 被引量:5
2
作者 明旭 何慧文 陈磊 《信息安全研究》 2018年第1期53-62,共10页
发展自主可控处理器,对我国新时代中国特色社会主义的建设具有重大的战略意义.经过10多年的发展,国产申威处理器在超算等领域取得了举世瞩目的成就,已经基本具备了与当今国际先进处理器相抗衡的能力.DPDK是Intel提供的数据平面开发工具... 发展自主可控处理器,对我国新时代中国特色社会主义的建设具有重大的战略意义.经过10多年的发展,国产申威处理器在超算等领域取得了举世瞩目的成就,已经基本具备了与当今国际先进处理器相抗衡的能力.DPDK是Intel提供的数据平面开发工具集,由一系列功能库、网卡驱动组成,开发者可以利用这些库进行二次开发,实现网络数据包的快速处理.基于DPDK实现用户态网络协议栈,且用户态协议栈可以避免中断,避免不必要的上下文切换,可以作到真正的zero-copy,在云计算,大数据场景下越发重要.DPDK正在SDN和NFV中发挥越来越重要的作用,并逐渐成为事实上的标准.将DPDK移植到国产申威处理器硬件的平台上,不仅可以大幅提升基于申威平台的网络设备的数据包处理能力,还可以拓宽申威硬件平台在高性能计算、大数据平台、安全设备以及服务器领域的应用.首先阐述了将DPDK移植到国产申威处理器平台上的重要意义,并简述了DPDK的架构和核心技术;然后分析了将DPDK移植到申威处理器平台上的难点,描述了移植工作的具体技术实现;最后,简述了基于申威SW411处理器的防火墙原型机的设计与实现工作,并通过对比移植前后原型机的关键性能指标,验证了DPDK移植到申威平台上能够达到的效果. 展开更多
关键词 DPDK 申威处理器 移植 框架 协议栈
在线阅读 下载PDF
申威处理器上数据流运行时系统的设计与实现 被引量:1
3
作者 张鹏飞 陈俊仕 +3 位作者 郑重 沈沛祺 安虹 许乐 《计算机工程》 CAS CSCD 北大核心 2023年第12期46-54,共9页
我国自主研发的新一代神威异构众核计算平台主要采用athread异构编程方法,athread异构编程属于大同步并行模型,难以充分挖掘程序中的细粒度并行性,其采用的同步方式难以实现众核上的任务负载均衡。数据流并行编程模型因其天然并行性、... 我国自主研发的新一代神威异构众核计算平台主要采用athread异构编程方法,athread异构编程属于大同步并行模型,难以充分挖掘程序中的细粒度并行性,其采用的同步方式难以实现众核上的任务负载均衡。数据流并行编程模型因其天然并行性、点对点同步的特点能够很好地解决上述问题。基于Codelet程序执行模型和申威主从核架构特点,设计并实现面向申威处理器的数据流运行时系统swTasklet,通过对Codelet功能的进一步细化和对Codelet机器模型到主从核的映射,避免从核阵列上的同步操作,减少同步开销;由主核完成从核计算任务的调度分配,将计算和同步操作分离,保证运行时系统可以和从核计算库的共用。实验以NPB LU程序和向量-向量加作为测试用例,采用相同的优化方法分别对swTasklet和athread实现进行并行化。实验结果表明:在规模较大情况下,LU程序的swTasklet实现版本比athread版本快16%,向量-向量加swTasklet实现版本比athread版本快1倍;使用swTasklet实现的LU并行版本较主核本取得了平均8倍以上的加速,而向量-向量加swTasklet版本较主核版本取得30倍左右的加速。 展开更多
关键词 申威异构处理器 数据流运行时系统 Codelet程序执行模型 并行编程模型 众核加速
在线阅读 下载PDF
申威26010众核处理器上Winograd卷积算法的研究与优化 被引量:2
4
作者 武铮 金旭 安虹 《计算机研究与发展》 EI CSCD 北大核心 2024年第4期955-972,共18页
卷积作为深度学习中被频繁使用的关键部分,其并行算法的研究已成为高性能计算领域中的热门话题.随着我国自主研发的申威26010众核处理器在人工智能领域的快速发展,对面向该处理器的高性能并行卷积算法提出了迫切的需求.针对申威26010处... 卷积作为深度学习中被频繁使用的关键部分,其并行算法的研究已成为高性能计算领域中的热门话题.随着我国自主研发的申威26010众核处理器在人工智能领域的快速发展,对面向该处理器的高性能并行卷积算法提出了迫切的需求.针对申威26010处理器的架构特征以及Winograd卷积算法的计算特性,提出了一种高性能并行卷积算法——融合Winograd卷积算法.该算法不同于依赖官方GEMM(general matrix multiplication)库接口的传统Winograd卷积算法,定制的矩阵乘实现使得该算法的执行过程变得可见,且能够更好地适应现实中常见卷积运算.整个算法由输入的Winograd变换、卷积核的Winograd变换、核心运算和输出的Winograd逆变换4部分构成,这4个部分并不是单独执行而是融合到一起执行.通过实时地为核心运算提供需要的变换后数据,并将计算结果及时地逆变换得到最终的输出数据,提高了算法执行过程中的数据局部性,极大地降低了整体的访存开销.同时,为该算法设计了合并的Winograd变换模式、DMA(direct memory access)双缓冲、片上存储的强化使用、输出数据块的弹性处理以及指令重排等优化方案.最终的实验结果表明,在VGG网络模型的总体卷积测试中,该算法性能是传统Winograd卷积算法的7.8倍.同时,抽取典型卷积神经网络模型中的卷积进行测试,融合Winograd卷积算法能够在所有的卷积场景中发挥明显高于传统Winograd卷积算法的性能.其中,最大能够发挥申威26010处理器峰值性能的116.21%,平均能够发挥峰值性能的93.14%. 展开更多
关键词 深度学习 Winograd卷积 高性能计算 并行算法 申威处理器
在线阅读 下载PDF
面向国产申威26010众核处理器的SpMV实现与优化 被引量:13
5
作者 刘芳芳 杨超 +2 位作者 袁欣辉 吴长茂 敖玉龙 《软件学报》 EI CSCD 北大核心 2018年第12期3921-3932,共12页
世界首台峰值性能超过100P的超级计算机——神威太湖之光已经研制完成,该超级计算机采用了国产申威异构众核处理器,该处理器不同于现有的纯CPU,CPU-MIC,CPU-GPU架构,采用了主-从核架构,单处理器峰值计算能力为3TFlops/s,访存带宽为130GB... 世界首台峰值性能超过100P的超级计算机——神威太湖之光已经研制完成,该超级计算机采用了国产申威异构众核处理器,该处理器不同于现有的纯CPU,CPU-MIC,CPU-GPU架构,采用了主-从核架构,单处理器峰值计算能力为3TFlops/s,访存带宽为130GB/s.稀疏矩阵向量乘SpMV(sparse matrix-vector multiplication)是科学与工程计算中的一个非常重要的核心函数,众所周知,其是带宽受限型的,且存在间接访存操作.国产申威处理器给稀疏矩阵向量乘的高效实现带来了很大的挑战.针对申威处理器提出了一种CSR格式SpMV操作的通用异构众核并行算法,该算法从任务划分、LDM空间划分方面进行精细设计,提出了一套动静态buffer的缓存机制以提升向量x的访存命中率,提出了一套动静态的任务调度方法以实现负载均衡.另外还分析了该算法中影响SpMV性能的几个关键因素,并开展了自适应优化,进一步提升了性能.采用Matrix Market矩阵集中具有代表性的16个稀疏矩阵进行了测试,相比主核版最高有10倍左右的加速,平均加速比为6.51.通过采用主核版CSR格式SpMV的访存量进行分析,测试矩阵最高可达该处理器实测带宽的86%,平均可达到47%. 展开更多
关键词 稀疏矩阵向量乘 SpMV 申威26010处理器 异构众核并行 自适应优化
在线阅读 下载PDF
申威26010众核处理器上一维FFT实现与优化 被引量:2
6
作者 赵玉文 敖玉龙 +3 位作者 杨超 刘芳芳 尹万旺 林蓉芬 《软件学报》 EI CSCD 北大核心 2020年第10期3184-3196,共13页
根据申威26010众核处理器的特点提出了基于两层分解的一维FFT众核并行算法.该算法基于迭代的Stockham FFT计算框架和Cooley-Tukey FFT算法,将大规模FFT分解成一系列的小规模FFT来计算,并通过设计合理的任务划分方式、寄存器通信、双缓... 根据申威26010众核处理器的特点提出了基于两层分解的一维FFT众核并行算法.该算法基于迭代的Stockham FFT计算框架和Cooley-Tukey FFT算法,将大规模FFT分解成一系列的小规模FFT来计算,并通过设计合理的任务划分方式、寄存器通信、双缓冲以及SIMD向量化等与计算平台相关的优化方法来提高FFT的计算性能.最后对所提出算法的性能进行了测试,相比于单主核上运行的FFTW3.3.4库,获得了平均44.53x的加速比,最高加速比可达56.33x,且其带宽利用率最高可达83.45%. 展开更多
关键词 申威26010处理器 一维FFT 两层分解 Cooley-Tukey 众核并行
在线阅读 下载PDF
一种面向申威26010处理器的分布式传递锁机制
7
作者 李明亮 庞建民 岳峰 《计算机科学》 CSCD 北大核心 2022年第10期52-58,共7页
在并行程序中,互斥锁通常被用来避免访问共享资源时发生冲突。申威26010处理器是“神威·太湖之光”超级计算机采用的异构众核处理器,众核之间并无硬件互斥锁机制。其开发人员基于原子操作实现了一种软件互斥锁,但是该软件锁在激烈... 在并行程序中,互斥锁通常被用来避免访问共享资源时发生冲突。申威26010处理器是“神威·太湖之光”超级计算机采用的异构众核处理器,众核之间并无硬件互斥锁机制。其开发人员基于原子操作实现了一种软件互斥锁,但是该软件锁在激烈锁竞争情况下会产生大量的锁操作开销,影响了并行程序的性能。针对这一问题,提出了一种分布式传递锁机制HDT-LOCK。首先,提出并实现了基于众核上便签存储器和主存的混合分布锁来避免访存拥塞;其次,设计了基于寄存器通信和单指令多数据指令(Single-instruction Multiple-data Instruction)的锁传递机制,以进一步提高HDT-LOCK机制的吞吐量。实验结果表明,与原锁机制相比,所提HDT-LOCK机制避免了访存拥塞,并且可扩展性更佳。此外,锁传递机制使HDT-LOCK的吞吐量提升最高可达5.6倍。 展开更多
关键词 申威26010处理器 混合分布锁 锁传递 单指令多数据指令 寄存器通信
在线阅读 下载PDF
基于申威26010处理器的扩展函数库实现与优化 被引量:10
8
作者 曹代 郭绍忠 张辛 《计算机工程》 CAS CSCD 北大核心 2017年第1期61-66,71,共7页
Intel,AMD和IBM都具有针对自身特点的向量扩展库。相比于传统的标量计算,向量化技术带来的加速比较高。为此,针对申威26010处理器开发向量数学库软件。在分析函数常用级数法和迭代法算法的基础上,结合三角函数、反三角函数、指数函数和... Intel,AMD和IBM都具有针对自身特点的向量扩展库。相比于传统的标量计算,向量化技术带来的加速比较高。为此,针对申威26010处理器开发向量数学库软件。在分析函数常用级数法和迭代法算法的基础上,结合三角函数、反三角函数、指数函数和对数函数研究一种高效向量化算法,并对其进行实现与优化,使其支持函数高精度和高性能计算,并且满足浮点运算的要求。测试结果表明,该算法精度达到申威26010处理器上特定应用的要求,与Intel VML数学库相比,各函数的平均加速比均达到1.1以上。 展开更多
关键词 浮点运算 数学函数 申威26010处理器 数据分段 指令调度
在线阅读 下载PDF
基于申威NMII的锁死故障监测与诊断 被引量:3
9
作者 郜晨 何升 杭骁骞 《计算机应用研究》 CSCD 北大核心 2024年第4期1015-1021,共7页
国产申威处理器的不可屏蔽核间中断(NMII)具有必须由某一核心主动发起的特性,导致目前无法适用Linux通用的锁死故障监测算法,严重情况下将影响关键领域的数据处理。针对该问题设计适用于申威架构的锁死故障监测与诊断系统。采用链式结... 国产申威处理器的不可屏蔽核间中断(NMII)具有必须由某一核心主动发起的特性,导致目前无法适用Linux通用的锁死故障监测算法,严重情况下将影响关键领域的数据处理。针对该问题设计适用于申威架构的锁死故障监测与诊断系统。采用链式结构发送NMII请求,结合定时器事件和内核线程进行锁死时间戳检查,实现系统内单核心的软锁死与硬锁死监测;基于故障容错机制,采用主从式结构监测所有核心状态,当主核心发生故障时,执行容错措施并迁移主核心,实现系统内多核心故障的锁死监测;设计基于NMII的任务模型,实现锁死故障核心的诊断信息输出并扩展NMII应用场景。测试结果表明,所提算法在低与高故障风险下均可实现锁死故障的准确检出并作出实时诊断,满足申威平台锁死故障监测与诊断的可靠性与实时性要求。 展开更多
关键词 申威处理器 不可屏蔽中断 操作系统 锁死 故障诊断 看门狗
在线阅读 下载PDF
基于申威SIMD指令的H.264编码优化 被引量:2
10
作者 黄朴 刘世巍 +1 位作者 张昊 王聪 《现代电子技术》 北大核心 2024年第6期49-54,共6页
国产化申威处理器出现较晚,其在多媒体领域中的性能还不突出,同时通用处理器中的单指令流多数据流(SIMD)因能有效提升并行处理能力而受到处理器厂商的青睐。为提高国产化自主平台申威架构的多媒体处理能力,结合申威架构Core3B体系的SIM... 国产化申威处理器出现较晚,其在多媒体领域中的性能还不突出,同时通用处理器中的单指令流多数据流(SIMD)因能有效提升并行处理能力而受到处理器厂商的青睐。为提高国产化自主平台申威架构的多媒体处理能力,结合申威架构Core3B体系的SIMD指令系统,提出一种基于申威架构的SIMD指令集H.264编码优化方法。结合申威处理器的并行结构特点,利用申威适配的Perf、Top指令等系统性能分析工具,采集两种主流视频分辨率下与编码性能强相关的高频热点函数,详细分析其程序并行化可行性,采用手工嵌入申威SIMD和访存扩展等汇编指令进行细粒度优化。实验结果表明,该方法在申威架构下的H.264平均编码性能提升了约30%。相应工作成果已推送到申威社区,增强了基于申威处理器的国产计算机在桌面多媒体应用领域的工作体验。 展开更多
关键词 单指令流多数据流 H.264标准 申威处理器 热点函数 程序并行化 细粒度
在线阅读 下载PDF
申威同时多线程功能模拟器实现与应用 被引量:2
11
作者 陈伟健 郭勇 尹飞 《计算机工程》 CAS CSCD 北大核心 2016年第6期55-59,67,共6页
同时多线程(SMT)技术允许来自多个线程的不相关指令同时执行,实现线程级并行与指令级并行相结合,提升处理器的性能。在SMT设计中,运用体系结构模拟器进行实现性分析与正确性验证。以申威多核功能模拟器为基础,提出申威SMT功能模拟器设... 同时多线程(SMT)技术允许来自多个线程的不相关指令同时执行,实现线程级并行与指令级并行相结合,提升处理器的性能。在SMT设计中,运用体系结构模拟器进行实现性分析与正确性验证。以申威多核功能模拟器为基础,提出申威SMT功能模拟器设计方法,并实现申威SMT功能模拟器。模拟结果表明了申威SMT功能模拟器设计实现的正确性,并基于申威SMT功能模拟器构建RTL级实时验证平台,在处理器设计验证领域具有较高的应用价值。 展开更多
关键词 申威处理器 功能模拟器 体系结构模拟器 同时多线程 线程级并行
在线阅读 下载PDF
基于LLVM的编译锁机制技术研究与实现 被引量:2
12
作者 巩令钦 沈莉 +1 位作者 周清雷 胡浩 《计算机应用与软件》 北大核心 2021年第11期11-17,97,共8页
基于申威处理器,在底层虚拟机(Low Level Virtual Machine, LLVM)编译器后端对锁机制提供编译支持,保证多线程环境下,对共享内存操作的原子性。锁机制研究与实现主要包括实现原子指令语义映射策略保证原子操作的原子性并在锁机制算法中... 基于申威处理器,在底层虚拟机(Low Level Virtual Machine, LLVM)编译器后端对锁机制提供编译支持,保证多线程环境下,对共享内存操作的原子性。锁机制研究与实现主要包括实现原子指令语义映射策略保证原子操作的原子性并在锁机制算法中加入对8位和16位数据类型的数据处理,实现锁机制在申威处理器上对小粒度数据类型的支持。基于并行计算机基准测试集NPB进行测试,在多线程环境下所有程序皆自校验通过。在16个线程下,Fortran语言程序平均加速比为11.91,最大加速比为15.73,C语言程序平均加速比为8.08,最大加速比为13.32。 展开更多
关键词 LLVM 锁机制 多线程 原子性 申威处理器
在线阅读 下载PDF
神威平台上AceMesh编程模型的构图优化 被引量:1
13
作者 叶雨曦 傅游 +3 位作者 梁建国 孟现粉 刘颖 花嵘 《山东科技大学学报(自然科学版)》 CAS 北大核心 2021年第4期76-85,共10页
面向高性能计算领域的多核、众核处理器飞速发展,为了降低并行编程的难度,提高并行计算效率,数据驱动的并行编程模型成为高性能计算领域的研究热点。AceMesh是数据流驱动的、支持多核和众核异构平台的任务并行编程模型,能自动发掘结构... 面向高性能计算领域的多核、众核处理器飞速发展,为了降低并行编程的难度,提高并行计算效率,数据驱动的并行编程模型成为高性能计算领域的研究热点。AceMesh是数据流驱动的、支持多核和众核异构平台的任务并行编程模型,能自动发掘结构化网格应用中存在的数据驱动的任务图并行性。但如果任务粒度划分较细,其构图过程会造成很大开销。本研究结合“申威26010”异构众核处理器的结构特点,从主、从核通信优化、内存池、无后继任务收集等方面对AceMesh构图过程进行优化,并采用航天飞行器应用中的7个热点子程序对优化效果进行测试。测试数据表明以上优化取得5倍的加速。为验证构图优化对AceMesh整体性能的提升,对航天飞行器应用分别在Acemesh和神威OpenACC的加速效果进行了测试,优化后的AceMesh加速效果约为神威OpenACC的1.5倍。 展开更多
关键词 DAG构图优化 任务并行编程模型 神威·太湖之光 申威处理器 性能
在线阅读 下载PDF
基于热例程的动态二进制翻译优化 被引量:3
14
作者 董卫宇 刘金鑫 +2 位作者 戚旭衍 何红旗 蒋烈辉 《计算机科学》 CSCD 北大核心 2016年第5期27-33,41,共8页
依据对系统级程序行为特性的观察,提出了一种基于热例程的动态二进制翻译优化方法。该方法以频繁执行的例程作为优化单位,通过块内和块间优化算法消除动态二进制翻译引入的冗余。相比基于踪迹的优化方法,该方法具有优化单位发现开销更... 依据对系统级程序行为特性的观察,提出了一种基于热例程的动态二进制翻译优化方法。该方法以频繁执行的例程作为优化单位,通过块内和块间优化算法消除动态二进制翻译引入的冗余。相比基于踪迹的优化方法,该方法具有优化单位发现开销更小、代码区域更大、无重复翻译等优点,更适用于系统虚拟机中操作系统代码的优化。在跨平台系统虚拟机监控器ARCH-BRIDGE上的测试表明,通过对内核代码实施该优化方法,SPEC CPUINT 2006程序的效率提升了3.5%~14.4%,相比基于踪迹的优化,性能最大提升了5.1%。 展开更多
关键词 跨平台系统虚拟机 动态二进制翻译 动态二进制优化 申威处理器
在线阅读 下载PDF
译码制导的动态二进制翻译优化 被引量:1
15
作者 董卫宇 王瑞敏 +1 位作者 戚旭衍 曾韵 《计算机科学》 CSCD 北大核心 2015年第6期189-192,203,共5页
提出了一种译码制导的轻量级动态二进制翻译优化技术,该技术在译码阶段提取源指令的高层语义信息,结合上下文对其进行标注,并在翻译阶段利用标注信息直接生成优化的目标指令。该技术可识别动态二进制翻译系统中主要的基本块级优化机会,... 提出了一种译码制导的轻量级动态二进制翻译优化技术,该技术在译码阶段提取源指令的高层语义信息,结合上下文对其进行标注,并在翻译阶段利用标注信息直接生成优化的目标指令。该技术可识别动态二进制翻译系统中主要的基本块级优化机会,去除load/store冗余、精确异常导致的冗余和标志位处理冗余。测试表明,相比QEMU,该优化技术的跨平台x86系统虚拟机ARCH-BRIDGE的翻译开销降低了53%,翻译块尺寸降低了78%,load和store操作数量分别了降低了50%和21%。 展开更多
关键词 动态二进制翻译 系统虚拟机 软件透明移植 申威处理器
在线阅读 下载PDF
跨平台系统虚拟机的二进制翻译优化
16
作者 董卫宇 戚旭衍 +2 位作者 曾韵 郭玉东 蒋烈辉 《计算机工程与应用》 CSCD 北大核心 2016年第23期42-49,共8页
在跨平台系统虚拟机原型ARCH-BRIDGE的基础上,提出了一种基本块级的动态二进制翻译优化方法,通过两阶段翻译、基于虚拟寄存器的优化翻译及延迟机器状态提交等技术,可在不采用中间表示及确保精确异常的情况下,有效去除二进制翻译所引入... 在跨平台系统虚拟机原型ARCH-BRIDGE的基础上,提出了一种基本块级的动态二进制翻译优化方法,通过两阶段翻译、基于虚拟寄存器的优化翻译及延迟机器状态提交等技术,可在不采用中间表示及确保精确异常的情况下,有效去除二进制翻译所引入的冗余。测试表明,优化后的ARCH-BRIDGE在翻译开销明显优于QEMU的同时,翻译块尺寸和翻译冗余得到了大幅降低,并且SPEC CPU2006、NBENCH及OS引导的性能均得到了显著提升。 展开更多
关键词 跨平台系统虚拟机 内存虚拟化 动态二进制翻译 软件透明移植 申威处理器
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部