期刊文献+
共找到9篇文章
< 1 >
每页显示 20 50 100
MIMD众核架构ILU分解并行算法优化研究
1
作者 石永振 莫淏天 +2 位作者 胡星宇 刘杰 王庆林 《计算机工程与科学》 北大核心 2025年第9期1544-1554,共11页
ILU分解被广泛应用于求解大规模稀疏线性系统,能够有效减少迭代次数、提高求解效率,但限于线性系统的数据依赖性和分解过程中计算访存的不规则,较难进行高效的并行优化。多指令多数据(MIMD)众核架构中众多并行计算线程可以执行不同的指... ILU分解被广泛应用于求解大规模稀疏线性系统,能够有效减少迭代次数、提高求解效率,但限于线性系统的数据依赖性和分解过程中计算访存的不规则,较难进行高效的并行优化。多指令多数据(MIMD)众核架构中众多并行计算线程可以执行不同的指令,对于控制流不规则的算法具有天然的适应性。基于MIMD众核架构PEZY-SC3s处理器开展ILU分解并行算法优化研究,提出了一种面向MIMD架构的ILU并行算法,并采用基于图着色的并行性优化、基于向量单元的访存优化、基于线程分组的负载平衡优化以及基于片上局部存储的数据局部性优化等措施来优化算法性能。实验结果表明,所提ILU并行分解算法与Intel^(R)Xeon^(R)4314 CPU上MKL实现和NVIDIA^(R)A30 GPU上cuSPARSE实现相比,分别获得了16.70与1.39的平均加速比。 展开更多
关键词 ILU分解 MIMD众核架构 并行计算
在线阅读 下载PDF
多核数字信号处理卷积算法并行优化 被引量:3
2
作者 许金伟 王庆林 +4 位作者 李娅琳 姜晶菲 高蕾 李荣春 李东升 《国防科技大学学报》 EI CAS CSCD 北大核心 2024年第1期103-112,共10页
针对国防科技大学自主研发的异构多核数字信号处理(digital signal processing, DSP)芯片的特征以及卷积算法自身特点,提出了一种面向多核DSP架构的高性能多核并行卷积实现方案。针对1×1卷积提出了特征图级多核并行方案;针对卷积... 针对国防科技大学自主研发的异构多核数字信号处理(digital signal processing, DSP)芯片的特征以及卷积算法自身特点,提出了一种面向多核DSP架构的高性能多核并行卷积实现方案。针对1×1卷积提出了特征图级多核并行方案;针对卷积核大于1的卷积提出了窗口级多核并行优化设计,同时提出了逐元素向量化计算的核内并行优化实现。实验结果表明,所提并行优化方法实现单核计算效率最高能达到64.95%,在带宽受限情况下,多核并行扩展效率可达到48.36%~88.52%,在典型网络ResNet50上的执行性能与E5-2640 CPU相比,获得了5.39倍性能加速。 展开更多
关键词 多核DSP 卷积神经网络 卷积算法 并行优化
在线阅读 下载PDF
面向大规模异构计算平台的MiniGo高效训练方法
3
作者 李荣春 贺周雨 +3 位作者 乔鹏 姜晶菲 窦勇 李东升 《国防科技大学学报》 EI CAS CSCD 北大核心 2024年第5期209-218,共10页
提出一种适用于大规模异构计算平台训练MiniGo智能体的高效多级并行训练方法,包括节点间任务级并行、中央处理器-数字信号处理器(central processing unit-digital signal processor, CPU-DSP)异构并行、DSP核内并行。实现了高效的输入... 提出一种适用于大规模异构计算平台训练MiniGo智能体的高效多级并行训练方法,包括节点间任务级并行、中央处理器-数字信号处理器(central processing unit-digital signal processor, CPU-DSP)异构并行、DSP核内并行。实现了高效的输入/输出部署,消除网络通信瓶颈。提出了面向CPU-DSP共享内存结构的异构计算内存管理,减少异构设备间的数据搬运。实现了共享内存编程优化,并利用DSP实现密集卷积计算算子加速优化。结果表明,与16核CPU计算相比,单核DSP算子加速最大加速比达16.44;该方法实现计算节点规模从1 067扩展至4 139,得到达到给定终止条件所需时间从43.02 h降至16.05 h,可扩展效率为69.1%。评估表明,该方法能够实现MiniGo在大规模异构计算平台的高效并行训练。 展开更多
关键词 MiniGo 大规模异构计算平台 数字信号处理器
在线阅读 下载PDF
基于“天河二号”聚合通信卸载特性的MPI_Barrier优化
4
作者 朱琦 戴艺 +5 位作者 彭晋韬 谢旻 梁崇山 刘鹏 杨博 刘杰 《计算机工程与科学》 北大核心 2025年第3期400-411,共12页
Barrier作为消息传递接口MPI程序的基本操作,是确保程序正确执行的重要机制之一。目前已有的Barrier实现方案主要存在2个缺陷:首先,节点间同步存在大量冗余的数据路径传输开销;其次,节点内同步存在大量缓存失效的情况。为解决这些性能限... Barrier作为消息传递接口MPI程序的基本操作,是确保程序正确执行的重要机制之一。目前已有的Barrier实现方案主要存在2个缺陷:首先,节点间同步存在大量冗余的数据路径传输开销;其次,节点内同步存在大量缓存失效的情况。为解决这些性能限制,针对“天河二号”定制网络TH-Express聚合通信卸载特性,提出了基于GLEX NIC的Barrier加速和共享内存标志位重排列2种优化技术,有效减少了节点间同步开销,提高了节点内基于共享内存的同步效率。基于上述优化方法,重新设计了MPI_Barrier算法,并将其集成到MPI通信库中,并在国家超级计算长沙中心通过运行微基准测试程序和实际应用程序对所提优化方法进行性能测试,规模达到7168个节点。实验结果表明,优化后的MPI_Barrier集合操作获得了1.3~14.5倍的加速,并在应用级真实负载评测中,性能提升高达54%。 展开更多
关键词 MPI BARRIER 大规模并行应用 NIC聚合通信卸载
在线阅读 下载PDF
长向量处理器高效RNN推理方法 被引量:2
5
作者 苏华友 陈抗抗 杨乾明 《国防科技大学学报》 EI CAS CSCD 北大核心 2024年第1期121-130,共10页
模型深度的不断增加和处理序列长度的不一致对循环神经网络在不同处理器上的性能优化提出巨大挑战。针对自主研制的长向量处理器FT-M7032,实现了一个高效的循环神经网络加速引擎。该引擎采用行优先矩阵向量乘算法和数据感知的多核并行方... 模型深度的不断增加和处理序列长度的不一致对循环神经网络在不同处理器上的性能优化提出巨大挑战。针对自主研制的长向量处理器FT-M7032,实现了一个高效的循环神经网络加速引擎。该引擎采用行优先矩阵向量乘算法和数据感知的多核并行方式,提高矩阵向量乘的计算效率;采用两级内核融合优化方法降低临时数据传输的开销;采用手写汇编优化多种算子,进一步挖掘长向量处理器的性能潜力。实验表明,长向量处理器循环神经网络推理引擎可获得较高性能,相较于多核ARM CPU以及Intel Golden CPU,类循环神经网络模型长短记忆网络可获得最高62.68倍和3.12倍的性能加速。 展开更多
关键词 多核DSP 长向量处理器 循环神经网络 并行优化
在线阅读 下载PDF
面向GPU的5G新型无线电的高吞吐率LDPC译码器 被引量:2
6
作者 李荣春 周鑫 +1 位作者 乔鹏 王庆林 《国防科技大学学报》 EI CAS CSCD 北大核心 2024年第1期141-148,共8页
提出了一种基于图形处理单元(graphic processing unit,GPU)的5G软件无线电准循环低密度奇偶校验(low density parity check,LDPC)码译码器,为了节省片上和片下带宽,采用码字缩短和打孔技术、两级量化和数据打包方案,以提升数据带宽的... 提出了一种基于图形处理单元(graphic processing unit,GPU)的5G软件无线电准循环低密度奇偶校验(low density parity check,LDPC)码译码器,为了节省片上和片下带宽,采用码字缩短和打孔技术、两级量化和数据打包方案,以提升数据带宽的利用率。实验基于Nvidia RTX 2080Ti GPU平台实现了高码率情况下的最小和近似译码算法的并行译码,通过分析GPU上的最优线程设置,将码率为5/6的(2080,1760)LDPC算法的译码吞吐率提升至1.38 Gbit/s,译码吞吐率性能优于现有其他基于GPU的LDPC译码器。 展开更多
关键词 低密度奇偶校验 5G 图形处理单元 软件无线电
在线阅读 下载PDF
面向众核处理器的阴阳K-means算法优化 被引量:1
7
作者 周天阳 王庆林 +4 位作者 李荣春 梅松竹 尹尚飞 郝若晨 刘杰 《国防科技大学学报》 EI CAS CSCD 北大核心 2024年第1期93-102,共10页
传统阴阳K-means算法处理大规模聚类问题时计算开销十分昂贵。针对典型众核处理器的体系结构特征,提出了一种阴阳K-means算法高效并行加速实现。该实现基于一种新内存数据布局,采用众核处理器中的向量单元来加速阴阳K-means中的距离计算... 传统阴阳K-means算法处理大规模聚类问题时计算开销十分昂贵。针对典型众核处理器的体系结构特征,提出了一种阴阳K-means算法高效并行加速实现。该实现基于一种新内存数据布局,采用众核处理器中的向量单元来加速阴阳K-means中的距离计算,并面向非一致内存访问(non-unified memory access, NUMA)特性进行了针对性的访存优化。与阴阳K-means算法的开源多线程实现相比,该实现在ARMv8和x86众核平台上分别获得了最高约5.6与8.7的加速比。因此上述优化方法在众核处理器上成功实现了对阴阳K-means算法的加速。 展开更多
关键词 K-MEANS 非一致内存访问 向量化 众核处理器 性能优化
在线阅读 下载PDF
注意力机制量化剪枝优化方法 被引量:2
8
作者 何源宏 姜晶菲 许金伟 《国防科技大学学报》 EI CAS CSCD 北大核心 2024年第1期113-120,共8页
面向基于注意力机制模型的巨大计算和访存开销问题,研究量化和剪枝协同优化的模型压缩技术,提出针对注意力机制中查询、键、值、概率共四个激活值矩阵的对称线性定点量化方法。同时,提出概率矩阵剪枝方法和渐进式剪枝策略,有效降低剪枝... 面向基于注意力机制模型的巨大计算和访存开销问题,研究量化和剪枝协同优化的模型压缩技术,提出针对注意力机制中查询、键、值、概率共四个激活值矩阵的对称线性定点量化方法。同时,提出概率矩阵剪枝方法和渐进式剪枝策略,有效降低剪枝精度损失。在不同数据集上的实验结果表明,针对典型基于注意力机制模型BERT,在较低或者没有精度损失的情况下该优化方法可达到4位或8位定点量化、0.93~0.98的稀疏度,大幅度降低模型计算量,为加速量化稀疏模型的推理奠定良好的基础。 展开更多
关键词 自然语言处理 注意力机制 量化 剪枝
在线阅读 下载PDF
高性能异构加速器MiniGo算子优化方法
9
作者 乔鹏 贺周雨 +1 位作者 李荣春 姜晶菲 《国防科技大学学报》 EI CAS CSCD 北大核心 2024年第1期131-140,共10页
根据高性能异构加速器的特性和MiniGo的训练模式提出了一种高效的并行计算方法。对片上计算资源进行合理规划,实现异构设备之间的流水并行优化;根据异构设备间存在共享存储段设计了共享内存编码模式,减少数据传输开销;根据数字信号处理... 根据高性能异构加速器的特性和MiniGo的训练模式提出了一种高效的并行计算方法。对片上计算资源进行合理规划,实现异构设备之间的流水并行优化;根据异构设备间存在共享存储段设计了共享内存编码模式,减少数据传输开销;根据数字信号处理簇内具有多计算资源的特点结合算子计算-访存特性设计了不同的算子并行计算优化策略。同时,面向TensorFlow实现了一个易于使用的高性能计算库。实验结果显示,该方法实现了典型算子的多核并行计算。相对于单核,卷积算子加速比为24.69。相较于裁剪版8核FT2000+CPU,该方法训练和自博弈执行速度加速比分别为3.83和1.5。 展开更多
关键词 异构计算 算子优化 卷积神经网络 强化学习
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部