期刊文献+
共找到51篇文章
< 1 2 3 >
每页显示 20 50 100
基于不同总线协议的DMA控制器研究进展 被引量:1
1
作者 任小龙 杨延飞 +4 位作者 王立涵 严登辉 张浩 李飞飞 李连碧 《半导体技术》 北大核心 2025年第2期117-126,共10页
随着计算机技术的飞速发展,对大规模数据传输和处理效率的要求越来越高。直接存取存储(DMA)控制允许设备和存储器之间直接进行高速数据传输,有效提升了数据传输效率,因而得到广泛的研究。综述了基于不同总线架构的DMA控制器的研究进展... 随着计算机技术的飞速发展,对大规模数据传输和处理效率的要求越来越高。直接存取存储(DMA)控制允许设备和存储器之间直接进行高速数据传输,有效提升了数据传输效率,因而得到广泛的研究。综述了基于不同总线架构的DMA控制器的研究进展。首先,在分析传统中央处理器(CPU)传输数据局限性的基础上,阐述了DMA控制器与总线结合的重要性。其次,重点探讨了基于高级微控制器总线架构(AMBA)和高速外设部件互连标准(PCIe)两种常用总线协议的DMA控制器的研究进展,从频率、传输速率、功耗等方面进行性能比较和分析总结,并在此基础上展望了未来基于这两种总线协议的DMA技术的发展方向。最后,介绍了基于其他总线协议的DMA控制器的研究进展,在分析其性能优势的基础上为新型DMA控制器设计提供新思路。 展开更多
关键词 直接存取存储(dma)控制器 高级微控制器总线架构(AMBA) 高级高性能总线(AHB) 高级可拓展接口(AXI)总线 高速外设部件互连标准(PCIe)总线 CoreConnect总线 片内总线(ICB)
在线阅读 下载PDF
数据处理单元赋能的智算中心网络拥塞控制机制 被引量:3
2
作者 陈锦前 郭少勇 +2 位作者 刘畅 亓峰 邱雪松 《通信学报》 北大核心 2025年第2期1-17,共17页
针对智算中心集群间交互频繁造成网络拥塞频发导致智能业务实时性难以保障的问题,以数据处理单元(DPU)为核心载体构建了深度强化学习算法驱动的拥塞控制模型,利用剪枝与量化融合的方式对模型进行压缩,并通过知识蒸馏方法生成高效梯度增... 针对智算中心集群间交互频繁造成网络拥塞频发导致智能业务实时性难以保障的问题,以数据处理单元(DPU)为核心载体构建了深度强化学习算法驱动的拥塞控制模型,利用剪枝与量化融合的方式对模型进行压缩,并通过知识蒸馏方法生成高效梯度增强决策树,实现调速动作与网络实时状态的精准匹配。仿真结果表明,所提机制在泛化能力和控制效果方面均优于现有方法,在多个压力测试场景中提升网络有效吞吐率与公平性指标JAIN10.8%和8.9%以上,降低P99端到端时延与丢包率17.31%和11.47%以上,降低并行计算场景下数据流传输任务完成时间11.23%以上,且具备应对网络状态突变的快速响应能力。 展开更多
关键词 拥塞控制 多智能体深度强化学习 智算中心网络 远程直接内存访问网络 数据处理单元
在线阅读 下载PDF
通用多通道高性能DMA控制器设计 被引量:12
3
作者 梁科 李国峰 +3 位作者 王锦 董海坤 高静 秦世才 《天津大学学报》 EI CAS CSCD 北大核心 2008年第5期621-626,共6页
直接存储器存取(DMA)是计算机应用系统中用于提高数据传输速率和微处理器使用效率的一项重要技术.文中提出了一种功能较为完备的通用多通道DMA控制器的设计方法,给出了系统仿真和测试结果.该控制器具有8通道,支持优先级和轮转相结合的... 直接存储器存取(DMA)是计算机应用系统中用于提高数据传输速率和微处理器使用效率的一项重要技术.文中提出了一种功能较为完备的通用多通道DMA控制器的设计方法,给出了系统仿真和测试结果.该控制器具有8通道,支持优先级和轮转相结合的仲裁机制,利用地址掩码和指针实现FIFO型环形缓冲.采用流水线结构设计,支持硬件握手模式和链表描述符传输方式,具有传输速度快和编程灵活的优点,适用于网络通信、多媒体处理等多种应用领域. 展开更多
关键词 直接存储器存取 多通道 仲裁器 环形缓冲 硬件握手 流水线 链表描述符
在线阅读 下载PDF
MCS-DMA:一种面向SoC内DMA传输的内存控制器优化设计 被引量:6
4
作者 黄侃 佟冬 +2 位作者 刘洋 杨寿贵 程旭 《电子学报》 EI CAS CSCD 北大核心 2010年第3期598-604,共7页
当前主流片上总线协议——AHB存在访存带宽利用率较低的问题.本文基于SoC内DMA传输较多的特点,提出一种新的优化设计:在内存控制器内部增加MCS-DMA模块,并通过驱动程序将MCS-DMA模块与目标DMA传输绑定.一方面实现数据预取,提升了单个DM... 当前主流片上总线协议——AHB存在访存带宽利用率较低的问题.本文基于SoC内DMA传输较多的特点,提出一种新的优化设计:在内存控制器内部增加MCS-DMA模块,并通过驱动程序将MCS-DMA模块与目标DMA传输绑定.一方面实现数据预取,提升了单个DMA传输时的总线带宽利用率;另一方面使访存请求在内存控制器内部流水化完成,提升多个DMA并发时的总线带宽利用率.将该设计应用到北大众志SKSoC后,单个DMA传输时的总线带宽利用率提升至100%,多个DMA并发时的总线带宽利用率从33.3%提升至85.5%,而芯片的设计面积仅增加2.9%. 展开更多
关键词 系统芯片 内存控制器 直接内存访问
在线阅读 下载PDF
基于PCIe的多路传输系统的DMA控制器设计 被引量:11
5
作者 李胜蓝 姜宏旭 +1 位作者 符炜剑 陈姣 《计算机应用》 CSCD 北大核心 2017年第3期691-694,716,共5页
为了避免PCIe传输过程中PIO写延时、主机与嵌入式处理系统交互次数过多等问题对于传输带宽的影响,设计了一种基于命令缓冲机制的直接存储访问(DMA)控制器以提高传输带宽利用率。采用FPGA端内部设置命令缓冲区的方式,使得DMA控制器可以缓... 为了避免PCIe传输过程中PIO写延时、主机与嵌入式处理系统交互次数过多等问题对于传输带宽的影响,设计了一种基于命令缓冲机制的直接存储访问(DMA)控制器以提高传输带宽利用率。采用FPGA端内部设置命令缓冲区的方式,使得DMA控制器可以缓存PC端的数据传输请求,FPGA根据自身需求动态地访问PC端存储空间,增强了传输灵活性;同时,提出一种动态拼接的DMA调度方法,通过合并相邻存储区访问请求的方式,进一步减少主机与硬件的交互次数和中断产生次数。系统传输速率测试实验中,DMA写最高速率可达1 631 MB/s,DMA读最高速率可达1 582 MB/s,带宽最大值可达PCIe总线理论带宽值的85.4%;与传统PIO方式的DMA传输方法相比,DMA读带宽提升58%,DMA写带宽提升36%。实验结果表明,本设计能够有效提升DMA传输效率,明显优于PIO方式。 展开更多
关键词 PCIE 直接存储访问 高带宽 多路传输 FPGA
在线阅读 下载PDF
基于DMA的连续脉宽数据采集装置 被引量:4
6
作者 员玉良 冯强 +1 位作者 杨丽丽 王方艳 《实验室研究与探索》 CAS 北大核心 2020年第2期60-63,共4页
提出了一种基于DMA的连续脉宽数据采集装置。该装置以STM32F767ZI单片机作为主控CPU,利用DMA的快速数据搬运能力,在无CPU干预的情况下,将定时器在输入捕获模式下测得的连续脉宽数据快速转运至内存存储,提高CPU的指令执行效率,实现较宽... 提出了一种基于DMA的连续脉宽数据采集装置。该装置以STM32F767ZI单片机作为主控CPU,利用DMA的快速数据搬运能力,在无CPU干预的情况下,将定时器在输入捕获模式下测得的连续脉宽数据快速转运至内存存储,提高CPU的指令执行效率,实现较宽频率范围内的多通道连续脉宽参数的等精度获取。对连续脉宽数据采集装置进行标定。结果显示:该方法在高频段测量时,精度优于传统测量方法,测量频率范围宽,有效避免传统方法存在数据漏采漏读的弊端,具有较高的实用价值。 展开更多
关键词 直接存储器存取 数据采集 连续脉宽
在线阅读 下载PDF
嵌入式异构智能计算系统的PCIe总线传输带宽优化
7
作者 喻绪邦 吴济文 +2 位作者 夏宏 莫昊 赵二虎 《计算机应用》 北大核心 2025年第9期2913-2918,共6页
近年来随着人工智能(AI)技术的发展,深度学习算法和专用AI处理器芯片已日益广泛地应用于边缘端和物端数据信号处理系统,如何在赋能系统高智能计算能力的同时,实现异构处理器之间高带宽、低延时的数据传输,已成为亟须解决的核心技术之一... 近年来随着人工智能(AI)技术的发展,深度学习算法和专用AI处理器芯片已日益广泛地应用于边缘端和物端数据信号处理系统,如何在赋能系统高智能计算能力的同时,实现异构处理器之间高带宽、低延时的数据传输,已成为亟须解决的核心技术之一。因此,设计一种集成寒武纪MLU220芯片、国产飞腾FT2000/4型CPU和Xilinx XC7K325T现场可编程门阵列(FPGA)的嵌入式异构智能计算系统,系统异构处理器之间采用PCIe(Peripheral Component Interconnect express)总线实现高速互联与数据传输。此外,提出一种Linux下的PCIe总线Scatter-Gather DMA(Direct Memory Access)传输优化技术,通过基于双缓冲的预取技术和基于工作队列的中断处理,有效提高CPU与FPGA异构处理器之间的PCIe总线数据传输带宽。系统图像传输测试结果表明,CPU与FPGA异构处理器之间的PCIe2.0 X4总线传输10张2048×1024灰度图像数据时,所提系统在DMA双通道上的读写速率分别达到了1610 MB/s和1655 MB/s,为PCIe2.0 X4总线理论带宽值的81%和83%,验证了所设计系统的实用性和先进性。 展开更多
关键词 PCIe总线 异构计算系统 Scatter-Gather dma dma多通道 图像传输
在线阅读 下载PDF
一种用于图像加速的DMA2D控制器 被引量:4
8
作者 王磊 王鑫 +2 位作者 王绍权 闫维高 齐贺飞 《半导体技术》 CAS 北大核心 2022年第7期564-569,共6页
随着片上系统(SoC)规模的不断增大,直接内存存取(DMA)控制器的功能也越来越完善,但目前对DMA控制器用于图像处理方面的理论研究和实现方法却鲜有报道。为了提高液晶屏(LCD)图像的刷新速度并降低内核的资源占用,提出了一种用于图像数据... 随着片上系统(SoC)规模的不断增大,直接内存存取(DMA)控制器的功能也越来越完善,但目前对DMA控制器用于图像处理方面的理论研究和实现方法却鲜有报道。为了提高液晶屏(LCD)图像的刷新速度并降低内核的资源占用,提出了一种用于图像数据处理的二维DMA(DMA2D)控制器。该控制器基于先进高性能总线(AHB)完成数据传输,支持多种RGB图像输入输出格式并且能够进行两层图像的混合处理运算。对DMA2D的技术和工作原理进行分析,提出了较为完善的DMA2D控制器的设计方案。后端设计基于28 nm工艺库,测试结果表明,DMA2D控制器的工作频率可达到180 MHz,面积仅为400μm×500μm,相比于通用DMA控制器,其面积减小约69%,功耗仅为2.97 mW。DMA2D控制器加速启用后,速度提升约60%,数据传输速度可达330 MiB/s,显著提高了液晶屏的图像刷新速度。 展开更多
关键词 直接内存存取(dma) 先进高性能总线(AHB)协议 物理设计 片上系统(SoC) 图像加速
在线阅读 下载PDF
TMS320C3x高速数据采集的DMA实现 被引量:2
9
作者 王金础 余松煜 《数据采集与处理》 EI CSCD 2000年第1期86-89,共4页
介绍了通用数字信号处理器 TMS32 0 C3x的 DMA结构及其应用设计 ,分析了采用 C3xDMA进行高速实时数据采集的硬件和软件设计要点 ,成功实现了 DMA高速数据采集和数据运算的并行处理 ,使系统具有较高的集成度和性价比。
关键词 数字信号处理 TMS320C3X dma 数据采集 雷达
在线阅读 下载PDF
MPEG-2解码芯片的AMBA总线和DMA控制器设计 被引量:1
10
作者 高勇 郭冬玉 杨媛 《计算机工程与应用》 CSCD 北大核心 2009年第26期68-71,77,共5页
MPEG-2是目前应用最广泛的数字音视频编码的国际标准,采用Top-Down的方法,完成了MPEG-2解码系统芯片中的AMBA(Advanced Microcontroller Bus Architecture)总线和DMA(Direct Memory Access)控制器的RTL级代码设计,并搭建测试平台进行功... MPEG-2是目前应用最广泛的数字音视频编码的国际标准,采用Top-Down的方法,完成了MPEG-2解码系统芯片中的AMBA(Advanced Microcontroller Bus Architecture)总线和DMA(Direct Memory Access)控制器的RTL级代码设计,并搭建测试平台进行功能仿真,最后通过了FPGA的验证。测试结果表明该设计能够在150MHz频率下工作,满足数字电视标清和高清的标准要求。 展开更多
关键词 MPEG-2 AMBA总线 dma控制器
在线阅读 下载PDF
基于PXA3xx处理器的NAND闪存DMA方案 被引量:5
11
作者 史斌 丁志刚 张伟宏 《计算机应用》 CSCD 北大核心 2009年第8期2136-2138,2142,共4页
针对PXA3xx处理器的特性,提出一种DMA控制器系统架构方案,并在此架构上结合嵌入式Linux操作系统实现NAND Flash的底层驱动程序。重点设计了基于JFFS2文件系统的读操作测试方案,测试结果表明,DMA方式能够有效降低CPU处理负载,缓解NAND Fl... 针对PXA3xx处理器的特性,提出一种DMA控制器系统架构方案,并在此架构上结合嵌入式Linux操作系统实现NAND Flash的底层驱动程序。重点设计了基于JFFS2文件系统的读操作测试方案,测试结果表明,DMA方式能够有效降低CPU处理负载,缓解NAND Flash性能瓶颈。 展开更多
关键词 PXA3xx处理器 NAND 直接存储器存取
在线阅读 下载PDF
一种基于FPGA的PCIe总线及其DMA的设计方法 被引量:9
12
作者 陈刚 张京 唐建 《兵工自动化》 2014年第5期75-77,共3页
为实现PCIe总线的DMA功能,根据Xilinx的PCIe IP核以及相关参考例程,介绍一种PCIe总线及其DMA功能的设计方法。硬件验证与测试表明:该设计具有较高的带宽,DMA读、写带宽可分别达到554 MB/s和881 MB/s,目前已在实际工程中尤其是在高速数... 为实现PCIe总线的DMA功能,根据Xilinx的PCIe IP核以及相关参考例程,介绍一种PCIe总线及其DMA功能的设计方法。硬件验证与测试表明:该设计具有较高的带宽,DMA读、写带宽可分别达到554 MB/s和881 MB/s,目前已在实际工程中尤其是在高速数据采集系统中得到广泛应用。 展开更多
关键词 现场可编程门阵列 PCIe总线 直接存储器访问 赛灵斯
在线阅读 下载PDF
基于DMA实现高速数据包收发 被引量:3
13
作者 黄宗和 谢高岗 张大方 《计算机应用研究》 CSCD 北大核心 2006年第5期219-221,227,共4页
网络测试是了解网络流量,分析业务性能的重要手段。如何实现高速链路流量捕获分析是目前人们非常关注的问题。在网络处理器上设计了一种B IOS下基于DMA技术的接收、发送以太数据帧的方法,以提高处理器数据包处理能力。该方法已经在BCM1... 网络测试是了解网络流量,分析业务性能的重要手段。如何实现高速链路流量捕获分析是目前人们非常关注的问题。在网络处理器上设计了一种B IOS下基于DMA技术的接收、发送以太数据帧的方法,以提高处理器数据包处理能力。该方法已经在BCM1250处理器上实现,测试实验表明,该方法数据包处理能力较之嵌入式Linux环境下提高了两倍。 展开更多
关键词 直接内存访问(dma) 网络处理器 数据包捕获 数据包发送
在线阅读 下载PDF
Ultra DMA模式下硬盘数据加密系统的设计及FPGA实现 被引量:3
14
作者 尹栋 慕德俊 戴冠中 《计算机应用研究》 CSCD 北大核心 2007年第12期174-176,共3页
设计了基于FPGA芯片的硬盘数据加密系统。该加密系统运行在Ultra DMA传输模式下,其加密核支持常用对称密码算法(AES、DES、3DES)和用户自主开发的各种对称密码算法。测试结果表明,在Ultra DMA模式2下系统运行速度为32 Mbps,对计算机正... 设计了基于FPGA芯片的硬盘数据加密系统。该加密系统运行在Ultra DMA传输模式下,其加密核支持常用对称密码算法(AES、DES、3DES)和用户自主开发的各种对称密码算法。测试结果表明,在Ultra DMA模式2下系统运行速度为32 Mbps,对计算机正常运行没有任何影响。 展开更多
关键词 极端直接存储器存取模式 硬盘数据加密系统 现场可编程门阵列
在线阅读 下载PDF
高性能DSP软核中DMA控制器的设计与验证 被引量:2
15
作者 郑挺 李勇 《计算机工程与设计》 CSCD 北大核心 2014年第1期112-118,共7页
为解决数字信号处理器(digital signal processor,DSP)的数据供给问题,设计了一个可高效搬运数据的部件———直接存储器访问控制器(direct memory access controller,DMAC)。采用了模拟验证方法和基于断言的验证方法对设计进行了功能... 为解决数字信号处理器(digital signal processor,DSP)的数据供给问题,设计了一个可高效搬运数据的部件———直接存储器访问控制器(direct memory access controller,DMAC)。采用了模拟验证方法和基于断言的验证方法对设计进行了功能验证。传统的模拟验证方法目前仍是主流的功能验证方法,但基于断言的验证方法是今后集成电路验证的发展方向。模拟验证方法虽具有使用简单,不受设计规模影响的优点,却不能证明设计的完备性,而基于断言的验证方法虽具有验证完备性,但能够验证的设计规模有限。把两者结合起来,就能够发挥各自的优点。实验结果表明,把两者结合起来进行验证,确实能够提高验证质量。 展开更多
关键词 数字信号处理器 直接存储器访问控制器 功能验证 模拟验证 基于断言的验证
在线阅读 下载PDF
基于DMA的常规弹导航信息实时处理技术 被引量:1
16
作者 王天宇 张晓明 +1 位作者 关洋 吕忆玲 《传感器与微系统》 CSCD 2015年第12期25-28,共4页
针对常规弹制导中导航传感信息采集、解算、通信的实时性问题,提出利用直接存储器访问(DMA)与传统信息处理方法相结合的方式实现常规弹多路传感信息的实时处理。分析了常规弹制导对传感信息处理技术的要求,并根据要求设计硬件电路。介... 针对常规弹制导中导航传感信息采集、解算、通信的实时性问题,提出利用直接存储器访问(DMA)与传统信息处理方法相结合的方式实现常规弹多路传感信息的实时处理。分析了常规弹制导对传感信息处理技术的要求,并根据要求设计硬件电路。介绍了传统方式下传感信息处理的工作原理和在DMA方式下传感信息处理的工作原理。设计软件,并进行实验验证。实验结果表明:DMA与传统信息处理方法相结合的方式相对于传统方式的信息采集、解算、通信,其速度能够提高到3倍,满足常规弹导航信息处理的实时性要求。 展开更多
关键词 直接存储访问 信息处理 导航控制
在线阅读 下载PDF
一种基于DMA方式接口模块的软硬件实现方案
17
作者 傅晓宇 兰宇 吴诗其 《计算机应用研究》 CSCD 北大核心 2002年第10期152-153,共2页
介绍一种采用DMA方式的接口模块的实现方案 ,并给出具体的硬件设计框图。
关键词 存储器 微机系统 dma方式 接口模块 软件 硬件
在线阅读 下载PDF
基于CoreConnect总线的DMA控制器设计 被引量:7
18
作者 吴思博 于宗光 《半导体技术》 CAS 北大核心 2020年第1期31-36,共6页
随着片上系统(SOC)规模的不断增大,各外部设备之间大量数据的交互问题成为芯片系统提高性能的瓶颈。提出了一种基于CoreConnect总线架构的直接内存存取(DMA)高速数据传输系统设计方法,并给出了一种较为完善的DMA控制器设计方案。根据DM... 随着片上系统(SOC)规模的不断增大,各外部设备之间大量数据的交互问题成为芯片系统提高性能的瓶颈。提出了一种基于CoreConnect总线架构的直接内存存取(DMA)高速数据传输系统设计方法,并给出了一种较为完善的DMA控制器设计方案。根据DMA在数据传输应用中的特性,减小了外部设备之间数据大量交互对CPU产生的负担,同时解决了处理器内部总线(PLB)上128 bit数据与片上外围总线(OPB)上32 bit数据之间的传输问题,实现PLB与OPB上外部设备之间数据的双向传输。最后给出了相应的功能仿真结果与现场可编程门阵列(FPGA)验证结果。 展开更多
关键词 片上系统(SOC) 直接内存存取(dma)控制器 CoreConnect总线架构 多通道 数据传输
在线阅读 下载PDF
面向两段锁并发控制的RDMA优化技术
19
作者 李婧瑶 张倩 +3 位作者 赵展浩 卢卫 张孝 杜小勇 《计算机科学与探索》 CSCD 北大核心 2023年第5期1201-1209,共9页
分布式事务的性能优化是学术界和工业界的研究热点之一。基于两段锁的并发控制技术可以保证并发事务调度的正确性,目前广泛应用于主流的商用和开源分布式数据库中。然而,现有的研究结果表明,基于传统TCP/IP协议以及Share-Nothing架构的... 分布式事务的性能优化是学术界和工业界的研究热点之一。基于两段锁的并发控制技术可以保证并发事务调度的正确性,目前广泛应用于主流的商用和开源分布式数据库中。然而,现有的研究结果表明,基于传统TCP/IP协议以及Share-Nothing架构的分布式事务处理技术,受制于事务调度器的CPU低利用率、事务调度器与存取节点的网络高延迟,分布式事务的性能瓶颈明显。针对上述两个问题,提出基于远程直接数据存取(RDMA)的两段锁(2PL)并发控制优化技术,利用RDMA的高带宽、低延时以及内核旁路(消除了TCP/IP协议栈所带来的CPU开销)特性,提升分布式事务的性能。主要贡献包括基于RDMA的网络通信算子重写与优化,利用RDMA单边施加、释放读写锁时的原子性保障。基于YCSB测试基准的实验结果表明:单边排他锁算法和单边读写锁算法分别在低、高冲突负载下具有相对优越性;引入RDMA的2PL并发控制,在高冲突负载下,NO WAIT和WAIT DIE两种模式最高可分别实现5.3倍和10.6倍的吞吐量提升。 展开更多
关键词 远程直接数据存取(Rdma) 两段锁(2PL) 分布式数据库 并发控制
在线阅读 下载PDF
国产SW26010-Pro处理器上3级BLAS函数众核并行优化 被引量:4
20
作者 胡怡 陈道琨 +5 位作者 杨超 马文静 刘芳芳 宋超博 孙强 史俊达 《软件学报》 EI CSCD 北大核心 2024年第3期1569-1584,共16页
BLAS(basic linear algebra subprograms)是最基本、最重要的底层数学库之一.在一个标准的BLAS库中,BLAS 3级函数涵盖的矩阵-矩阵运算尤为重要,在许多大规模科学与工程计算应用中被广泛调用.另外,BLAS 3级属于计算密集型函数,对充分发... BLAS(basic linear algebra subprograms)是最基本、最重要的底层数学库之一.在一个标准的BLAS库中,BLAS 3级函数涵盖的矩阵-矩阵运算尤为重要,在许多大规模科学与工程计算应用中被广泛调用.另外,BLAS 3级属于计算密集型函数,对充分发挥处理器的计算性能有至关重要的作用.针对国产SW26010-Pro处理器研究BLAS 3级函数的众核并行优化技术.具体而言,根据SW26010-Pro的存储层次结构,设计多级分块算法,挖掘矩阵运算的并行性.在此基础上,基于远程内存访问(remote memory access,RMA)机制设计数据共享策略,提高从核间的数据传输效率.进一步地,采用三缓冲、参数调优等方法对算法进行全面优化,隐藏直接内存访问(direct memory access,DMA)访存开销和RMA通信开销.此外,利用SW26010-Pro的两条硬件流水线和若干向量化计算/访存指令,还对BLAS 3级函数的矩阵-矩阵乘法、矩阵方程组求解、矩阵转置操作等若干运算进行手工汇编优化,提高了函数的浮点计算效率.实验结果显示,所提出的并行优化技术在SW26010-Pro处理器上为BLAS 3级函数带来了明显的性能提升,单核组BLAS 3级函数的浮点计算性能最高可达峰值性能的92%,多核组BLAS 3级函数的浮点计算性能最高可达峰值性能的88%. 展开更多
关键词 BLAS 3级 SW26010-Pro众核处理器 直接内存访问 远程内存访问 浮点计算效率
在线阅读 下载PDF
上一页 1 2 3 下一页 到第
使用帮助 返回顶部