期刊文献+
共找到37篇文章
< 1 2 >
每页显示 20 50 100
数据处理单元赋能的智算中心网络拥塞控制机制 被引量:3
1
作者 陈锦前 郭少勇 +2 位作者 刘畅 亓峰 邱雪松 《通信学报》 北大核心 2025年第2期1-17,共17页
针对智算中心集群间交互频繁造成网络拥塞频发导致智能业务实时性难以保障的问题,以数据处理单元(DPU)为核心载体构建了深度强化学习算法驱动的拥塞控制模型,利用剪枝与量化融合的方式对模型进行压缩,并通过知识蒸馏方法生成高效梯度增... 针对智算中心集群间交互频繁造成网络拥塞频发导致智能业务实时性难以保障的问题,以数据处理单元(DPU)为核心载体构建了深度强化学习算法驱动的拥塞控制模型,利用剪枝与量化融合的方式对模型进行压缩,并通过知识蒸馏方法生成高效梯度增强决策树,实现调速动作与网络实时状态的精准匹配。仿真结果表明,所提机制在泛化能力和控制效果方面均优于现有方法,在多个压力测试场景中提升网络有效吞吐率与公平性指标JAIN10.8%和8.9%以上,降低P99端到端时延与丢包率17.31%和11.47%以上,降低并行计算场景下数据流传输任务完成时间11.23%以上,且具备应对网络状态突变的快速响应能力。 展开更多
关键词 拥塞控制 多智能体深度强化学习 智算中心网络 远程直接内存访问网络 数据处理单元
在线阅读 下载PDF
以太网RDMA网卡综述
2
作者 黄曼蒂 李韬 +3 位作者 杨惠 李成龙 张毓涛 孙志刚 《计算机研究与发展》 北大核心 2025年第5期1262-1289,共28页
目前数据中心规模迅速扩大和网络带宽大幅度提升,传统软件网络协议栈的处理器开销较大,并且难以满足众多数据中心应用程序在吞吐、延迟等方面的需求.远程直接内存访问(remote direct memory access,RDMA)技术采用零拷贝、内核旁路和处... 目前数据中心规模迅速扩大和网络带宽大幅度提升,传统软件网络协议栈的处理器开销较大,并且难以满足众多数据中心应用程序在吞吐、延迟等方面的需求.远程直接内存访问(remote direct memory access,RDMA)技术采用零拷贝、内核旁路和处理器功能卸载等思想,能够高带宽、低延迟地读写远端主机内存数据.兼容以太网的RDMA技术正在数据中心领域展开应用,以太网RDMA网卡作为主要功能承载设备,对其部署发挥重要作用.综述从架构、优化和实现评估3个方面进行分析:1)对以太网RDMA网卡的通用架构进行了总结,并对其关键功能部件进行了介绍;2)重点阐述了存储资源、可靠传输和应用相关3方面的优化技术,包括面向网卡缓存资源的连接可扩展性和面向主机内存资源的注册访问优化,面向有损以太网实现可靠传输的拥塞控制、流量控制和重传机制优化,面向分布式存储中不同存储类型、数据库系统、云存储系统以及面向数据中心应用的多租户性能隔离、安全性、可编程性等方面的优化工作;3)调研了不同实现方式、评估方式.最后,给出总结和展望. 展开更多
关键词 远程直接内存访问 以太网RDMA网卡 RoCEv2 网卡架构 网卡优化 数据中心网络
在线阅读 下载PDF
基于动态页面映射的远程交换系统内存管理优化
3
作者 李昱祁 王霄阳 +1 位作者 朱文喆 李永坤 《计算机应用研究》 北大核心 2025年第10期3099-3105,共7页
远程交换系统利用内核的页面交换机制透明地使用远程内存,是构建分离式内存架构的一种常见方法。然而,现有系统在创建远程交换分区时,会预先分配完整容量的远程内存,导致内部碎片并降低内存使用率。针对此问题,设计了一种新型远程内存... 远程交换系统利用内核的页面交换机制透明地使用远程内存,是构建分离式内存架构的一种常见方法。然而,现有系统在创建远程交换分区时,会预先分配完整容量的远程内存,导致内部碎片并降低内存使用率。针对此问题,设计了一种新型远程内存管理方法,动态地为系统中正在使用的交换条目映射远程页面,减少非必要内存占用。该方法引入高效的节点间内存分配与回收机制,以支持细粒度内存管理并确保计算节点间的内存访问隔离性。实验结果表明,该方法可以在不同场景下将远程交换分区的内存利用率提高5.2%~89.1%,同时仅引入较少的额外开销。因此,该方法可以有效提高远程交换系统的内存管理效率。 展开更多
关键词 远程交换系统 内存管理 动态页面映射 远程直接内存访问
在线阅读 下载PDF
自主多模式网络性能测试技术
4
作者 吴登勇 谷群 +1 位作者 于英杰 赵鑫 《计算机工程与设计》 北大核心 2025年第8期2219-2225,共7页
为解决网络测试工具兼容性差、测试场景受限、国内无通用自主网络测试工具等问题,设计一种基于ServerClient-Ctrl三端模式的自主多模式网络性测试工具,旨在通过创新的架构、模块设计,提升测试工具的通用性和灵活性,解决行业痛点。基于... 为解决网络测试工具兼容性差、测试场景受限、国内无通用自主网络测试工具等问题,设计一种基于ServerClient-Ctrl三端模式的自主多模式网络性测试工具,旨在通过创新的架构、模块设计,提升测试工具的通用性和灵活性,解决行业痛点。基于国产自主ARM平台及X86平台开展的网络性能测试验证,结果表明该测试工具不仅展现出良好的平台兼容性,还适用于多测试场景,并在测试中能有效提升测试工作效率,为网络测试技术的发展提供了新的思路与方向。 展开更多
关键词 主动测量 带宽 时延 抖动 线程管理 非一致性内存访问 TCP/IP卸载引擎 远程直接内存访问
在线阅读 下载PDF
基于RDMA的高效拥塞控制方法设计
5
作者 王芳慧 黄正峰 +1 位作者 邱麟雅 郭二辉 《合肥工业大学学报(自然科学版)》 北大核心 2025年第10期1344-1351,共8页
文章研究并解决数据中心的远程内存直接读取(remote direct memory access, RDMA)技术的网络拥塞控制问题。针对主流拥塞控制算法数据中心量化拥塞通知(data center quantized congestion notification, DCQCN)的收敛速度慢和缺乏硬件... 文章研究并解决数据中心的远程内存直接读取(remote direct memory access, RDMA)技术的网络拥塞控制问题。针对主流拥塞控制算法数据中心量化拥塞通知(data center quantized congestion notification, DCQCN)的收敛速度慢和缺乏硬件实现方案的不足,提出可参数硬件化的数据中心量化拥塞通知(parameterized DCQCN,DCQCN-p)算法,该算法通过优化拥塞流的速度因子a、g调整速度比例Rc,并通过电路设计减少降速的频次;通过建立算法模型和搭建网络仿真NS-3平台,对比DCQCN-p算法在面临拥塞时单个调度流速度调整的性能以及多个调度流并发情况下的时延和吞吐量。仿真结果表明:在单个流面临拥塞时,DCQCN-p算法的数据传输速率比DCQCN算法的提高了50%;DCQCN-p算法在链路上最小速率为13.28 Gbit/s,相较于DCQCN、TIMELY、数据中心传输控制协议(data center transmission control protocol, DCTCP)算法,分别增长了24%、48%、23%;DCQCN-p算法(方差65%)的带宽分配公平性相较于TIMELY算法(方差216%)和DCTCP算法(方差191%)表现出显著的性能提升。 展开更多
关键词 远程内存直接读取(RDMA) 可参数硬件化的数据中心量化拥塞通知(DCQCN-p)算法 电路设计 多流高效 网络仿真
在线阅读 下载PDF
国产SW26010-Pro处理器上3级BLAS函数众核并行优化 被引量:3
6
作者 胡怡 陈道琨 +5 位作者 杨超 马文静 刘芳芳 宋超博 孙强 史俊达 《软件学报》 EI CSCD 北大核心 2024年第3期1569-1584,共16页
BLAS(basic linear algebra subprograms)是最基本、最重要的底层数学库之一.在一个标准的BLAS库中,BLAS 3级函数涵盖的矩阵-矩阵运算尤为重要,在许多大规模科学与工程计算应用中被广泛调用.另外,BLAS 3级属于计算密集型函数,对充分发... BLAS(basic linear algebra subprograms)是最基本、最重要的底层数学库之一.在一个标准的BLAS库中,BLAS 3级函数涵盖的矩阵-矩阵运算尤为重要,在许多大规模科学与工程计算应用中被广泛调用.另外,BLAS 3级属于计算密集型函数,对充分发挥处理器的计算性能有至关重要的作用.针对国产SW26010-Pro处理器研究BLAS 3级函数的众核并行优化技术.具体而言,根据SW26010-Pro的存储层次结构,设计多级分块算法,挖掘矩阵运算的并行性.在此基础上,基于远程内存访问(remote memory access,RMA)机制设计数据共享策略,提高从核间的数据传输效率.进一步地,采用三缓冲、参数调优等方法对算法进行全面优化,隐藏直接内存访问(direct memory access,DMA)访存开销和RMA通信开销.此外,利用SW26010-Pro的两条硬件流水线和若干向量化计算/访存指令,还对BLAS 3级函数的矩阵-矩阵乘法、矩阵方程组求解、矩阵转置操作等若干运算进行手工汇编优化,提高了函数的浮点计算效率.实验结果显示,所提出的并行优化技术在SW26010-Pro处理器上为BLAS 3级函数带来了明显的性能提升,单核组BLAS 3级函数的浮点计算性能最高可达峰值性能的92%,多核组BLAS 3级函数的浮点计算性能最高可达峰值性能的88%. 展开更多
关键词 BLAS 3级 SW26010-Pro众核处理器 直接内存访问 远程内存访问 浮点计算效率
在线阅读 下载PDF
基于CAN通信和UART通信的ECU板卡程序升级方案设计 被引量:5
7
作者 王霖 崔冬冬 +2 位作者 杨帆 付波 高吉磊 《铁道机车车辆》 北大核心 2024年第3期105-112,共8页
为实现电子控制单元内的板卡程序可靠升级,将MCU的存储区进行分割,设置了程序备份区域。介绍了基于统一诊断服务UDS协议和CAN通信的启动加载程序Bootloader升级板卡程序的方案,并在此基础上设计了基于Ymodem协议UART通信的在线程序升级... 为实现电子控制单元内的板卡程序可靠升级,将MCU的存储区进行分割,设置了程序备份区域。介绍了基于统一诊断服务UDS协议和CAN通信的启动加载程序Bootloader升级板卡程序的方案,并在此基础上设计了基于Ymodem协议UART通信的在线程序升级方法。该方法利用MCU支持边读边写功能,通过在应用程序里增加程序下载任务,使用Ymodem协议接收程序,并将程序烧写至备份区内,待板卡再次上电后,利用Bootloader将备份区内的程序搬运至程序运行区内,实现程序的更新。为降低程序下载任务对其他任务的影响,减少CPU的占用时间,程序下载任务通过直接存储器访问DMA方式获取串口数据,同时通过在任务中增加延迟防止其他任务被长时间挂起。 展开更多
关键词 统一诊断协议 启动加载程序 Ymodem协议 直接存储器访问
在线阅读 下载PDF
广域抗损高吞吐URDMA技术 被引量:1
8
作者 段晓东 陆璐 +3 位作者 孙滔 李志强 杨红伟 杜宗鹏 《中兴通讯技术》 北大核心 2024年第6期23-30,共8页
随着国家“东数西算”战略实施以及智算、超算业务的快速发展,海量数据广域传输需求不断增多。提出一种广域抗损高吞吐超远程直接内存访问(URDMA)技术方案,通过对传输控制协议/互联网协议(TCP/IP)协议栈的完全卸载,消除中央处理器(CPU)... 随着国家“东数西算”战略实施以及智算、超算业务的快速发展,海量数据广域传输需求不断增多。提出一种广域抗损高吞吐超远程直接内存访问(URDMA)技术方案,通过对传输控制协议/互联网协议(TCP/IP)协议栈的完全卸载,消除中央处理器(CPU)对网络高吞吐性能的限制。采用拥塞控制、丢包恢复、丢包重传等技术增强标准第2代基于融合以太网的远程直接内存访问(RoCEv2)协议,使其在广域有损网络下保持高吞吐性能。测试结果表明,在往返时延(RTT)时延为20 ms、丢包率0.1%的网络环境下,TCP协议吞吐性能仅为0.02 Gbit/s,标准RoCEv2性能接近为0,URDMA协议吞吐性能为88.26 Gbit/s;当RTT时延增加到80 ms时,TCP和RoCEv2协议吞吐基本衰减为0,URDMA协议吞吐性能为83.12 Gbit/s,仍然保持较高的性能。 展开更多
关键词 广域抗损高吞吐 数据快递 远程直接内存访问 RoCEv2
在线阅读 下载PDF
卫星通信高速数据传输系统设计 被引量:8
9
作者 丁元明 李花芳 +1 位作者 刘春玲 周华宇 《计算机工程》 CAS CSCD 2012年第9期252-254,共3页
设计一种用于卫星通信的高速数据传输系统。该系统采用Virtex-5系列现场可编程门阵列,由PCI Express通信模块和基于Aurora协议的光纤通信模块组成,具有双单工同时收发的特点。测试结果表明,该系统的PCI Express通信模块可实现8路通道工... 设计一种用于卫星通信的高速数据传输系统。该系统采用Virtex-5系列现场可编程门阵列,由PCI Express通信模块和基于Aurora协议的光纤通信模块组成,具有双单工同时收发的特点。测试结果表明,该系统的PCI Express通信模块可实现8路通道工作模式,光纤通信模块的数据传输速率达到1.25 Gb/s,能有效模拟星载数据的下发和地面站对卫星的遥控。 展开更多
关键词 现场可编程门阵列 PCI Express协议 光纤通信 直接存储器存储 卫星通信
在线阅读 下载PDF
基于InfiniBand的RAID存储系统设计 被引量:4
10
作者 阙清贤 谭怀亮 《计算机工程与设计》 CSCD 北大核心 2009年第11期2730-2733,F0003,共5页
以Infiniband(IB)体系结构和SCSI远程直接内存访问协议(SRP)为基础,结合RAID技术,设计了一种RAID存储系统,系统与主机接口的前端采用IB,为主机的I/O访问提供无限带宽,与物理存储设备接口的后端设计了多个RAID5控制卡的RAID0分条技术,以... 以Infiniband(IB)体系结构和SCSI远程直接内存访问协议(SRP)为基础,结合RAID技术,设计了一种RAID存储系统,系统与主机接口的前端采用IB,为主机的I/O访问提供无限带宽,与物理存储设备接口的后端设计了多个RAID5控制卡的RAID0分条技术,以提高磁盘访问的并发性。从而获得了很好的主机存取I/O性能。 展开更多
关键词 无限带宽 scsi远程直接内存访问协议 磁盘阵列 启动器 目标器
在线阅读 下载PDF
一种面向高性能计算机的超节点控制器的研究 被引量:4
11
作者 王凯 陈飞 +3 位作者 李强 李晓民 安学军 孙凝晖 《计算机研究与发展》 EI CSCD 北大核心 2011年第1期1-8,共8页
传统高性能计算机的节点由一个处理单元和一个节点控制器组成.为了有效地维护高速缓存一致性,处理单元中的处理器个数会非常有限.因此一台具有千万亿次处理能力的高性能计算机将会有上万个节点,这对互连网络的延迟和带宽都提出了非常高... 传统高性能计算机的节点由一个处理单元和一个节点控制器组成.为了有效地维护高速缓存一致性,处理单元中的处理器个数会非常有限.因此一台具有千万亿次处理能力的高性能计算机将会有上万个节点,这对互连网络的延迟和带宽都提出了非常高的要求.超节点控制器能够同时连接多个处理单元构成一个超节点,这能够减小互连网络的规模,从而降低互连网络的设计难度,并保证互连网络的性能.用FPGA实现了超节点控制器的原型系统的测试结果表明,采用超节点设计的高性能计算机拥有非常低的通信延迟,同时其通信带宽也有非常好的扩展性. 展开更多
关键词 高性能计算机 超节点控制器 全局地址空间 直接内存访问 远程读写
在线阅读 下载PDF
vsocket:一种基于RDMA的兼容标准套接字加速方法 被引量:3
12
作者 陈云芳 茆昊天 张伟 《计算机科学》 CSCD 北大核心 2023年第10期239-247,共9页
为了兼容Linux标准套接字,同时利用RDMA提高使用套接字的程序的性能,提出在上层应用与底层RDMA之间搭建一个中间件——Viscore Socket adaptor(简称vsocket);通过拦截socket API,将上层应用通过套接字收发的数据流无缝转接到RDMA承载上... 为了兼容Linux标准套接字,同时利用RDMA提高使用套接字的程序的性能,提出在上层应用与底层RDMA之间搭建一个中间件——Viscore Socket adaptor(简称vsocket);通过拦截socket API,将上层应用通过套接字收发的数据流无缝转接到RDMA承载上。vsocket绕过管理收发缓冲区的内核,针对TCP和UDP分别实现了用户空间的内存管理机制,使用RC类型的RDMA网络支持TCP加速,使用UD类型的RDMA网络支持UDP加速,并重用Linux UDP来辅助其路由。实验结果表明vsocket能够保证Linux标准套接字接口的兼容性,提升网络性能,摆脱Linux内核网络协议栈的限制,改善收发数据的延迟与带宽。 展开更多
关键词 套接字 远程内存直接访问 协议加速
在线阅读 下载PDF
面向天河互连网络的可扩展通信框架实现技术 被引量:4
13
作者 谢旻 张伟 +1 位作者 周恩强 董勇 《计算机工程与科学》 CSCD 北大核心 2020年第10期1720-1729,共10页
开源通信框架在编程模型和互连接口之间定义标准化的通信编程接口,提供了独立于互连网络特性的高性能通信操作,提高了编程模型在新型互连网络上的开发效率。通过设计与实现多通道数据传输协议,解决了通信框架在天河互连网络上实现时的... 开源通信框架在编程模型和互连接口之间定义标准化的通信编程接口,提供了独立于互连网络特性的高性能通信操作,提高了编程模型在新型互连网络上的开发效率。通过设计与实现多通道数据传输协议,解决了通信框架在天河互连网络上实现时的性能和扩展性问题。测试数据表明,天河互连网络上的通信框架具有很低的软件层开销,提供了接近于互连硬件设计指标的通信性能,为拓展天河互连网络对各种编程模型和分布式计算框架的高效支持提供了良好的基础。 展开更多
关键词 高速互连网络 通信框架 消息传递接口 远程直接内存访问
在线阅读 下载PDF
一种用于图像加速的DMA2D控制器 被引量:4
14
作者 王磊 王鑫 +2 位作者 王绍权 闫维高 齐贺飞 《半导体技术》 CAS 北大核心 2022年第7期564-569,共6页
随着片上系统(SoC)规模的不断增大,直接内存存取(DMA)控制器的功能也越来越完善,但目前对DMA控制器用于图像处理方面的理论研究和实现方法却鲜有报道。为了提高液晶屏(LCD)图像的刷新速度并降低内核的资源占用,提出了一种用于图像数据... 随着片上系统(SoC)规模的不断增大,直接内存存取(DMA)控制器的功能也越来越完善,但目前对DMA控制器用于图像处理方面的理论研究和实现方法却鲜有报道。为了提高液晶屏(LCD)图像的刷新速度并降低内核的资源占用,提出了一种用于图像数据处理的二维DMA(DMA2D)控制器。该控制器基于先进高性能总线(AHB)完成数据传输,支持多种RGB图像输入输出格式并且能够进行两层图像的混合处理运算。对DMA2D的技术和工作原理进行分析,提出了较为完善的DMA2D控制器的设计方案。后端设计基于28 nm工艺库,测试结果表明,DMA2D控制器的工作频率可达到180 MHz,面积仅为400μm×500μm,相比于通用DMA控制器,其面积减小约69%,功耗仅为2.97 mW。DMA2D控制器加速启用后,速度提升约60%,数据传输速度可达330 MiB/s,显著提高了液晶屏的图像刷新速度。 展开更多
关键词 直接内存存取(DMA) 先进高性能总线(AHB)协议 物理设计 片上系统(SoC) 图像加速
在线阅读 下载PDF
Infiniband网络架构下RTI通信机制研究 被引量:4
15
作者 邢驰 李伯虎 《电子学报》 EI CAS CSCD 北大核心 2016年第2期327-333,共7页
复杂系统的协同仿真中需要运行支撑软件RTI(Run Time Infrastructure)来解决异构模型、异构仿真软件间的数据交互的问题.但RTI的TCP/IP通信机制却无法使得HPC(High Performance Computer)的高速网络Infiniband(IB)在仿真中发挥最大的优... 复杂系统的协同仿真中需要运行支撑软件RTI(Run Time Infrastructure)来解决异构模型、异构仿真软件间的数据交互的问题.但RTI的TCP/IP通信机制却无法使得HPC(High Performance Computer)的高速网络Infiniband(IB)在仿真中发挥最大的优势.针对这一问题,本文提出在IB网络架构下基于RDMA(Remote Direct Memory Access)通信机制对RTI进行优化,并以开源HLA项目CERTI软件为基础,研制运行在IB网络下的IB-CERTI软件,最后在不同网络环境下进行对比实验,实验结果证明了IB—CERTI软件在仿真通信中的高效性,特别是仿真邦员间的交互数据量越大,越能提高仿真数据传输效率. 展开更多
关键词 INFINIBAND网络 RDMA CERTI 高层体系结构 高性能计算机
在线阅读 下载PDF
基于天河互连的公共通信接口UCX实现与评估 被引量:2
16
作者 谢旻 周恩强 +1 位作者 董勇 张伟 《计算机应用》 CSCD 北大核心 2019年第A01期113-118,共6页
为解决在天河互连和未来高性能互连网络上支持多种高性能、可扩展并行编程模型的问题,提出了一种基于远程直接内存访问(RDMA)技术的公共通信接口UCX实现方案。该UCX实现系统建立了UCX数据抽象到天河互连系统通信资源对象的映射关系,基... 为解决在天河互连和未来高性能互连网络上支持多种高性能、可扩展并行编程模型的问题,提出了一种基于远程直接内存访问(RDMA)技术的公共通信接口UCX实现方案。该UCX实现系统建立了UCX数据抽象到天河互连系统通信资源对象的映射关系,基于短报文通信和共享的RDMA缓冲池实现了一种面向ActiveMessage和单边通信接口的高速数据传输协议,并提出了一种动态可扩展信用流控机制来提高UCX系统在大规模并行应用运行时的可扩展性。实验测试测试表明,由于UCX通信接口操作更匹配互连网络硬件特性,精简了软件处理层次,UCX软件层增加的总开销小于200ns,而基于该UCX的消息传递接口(MPI)系统,相对于现有的天河互连MPI实现架构,减少了约50ns的通信延迟,短消息速率也有约10%的性能提升。该UCX实现系统对拓展天河互连网络上的并行编程模型和应用类型,并确保并行运行效率,提供了较好的技术支撑。 展开更多
关键词 高速互连网络 并行编程模型 消息传递接口 公共通信接口 远程直接内存访问
在线阅读 下载PDF
实质与经验:主动消息实现技术 被引量:1
17
作者 李晓峰 寿标 郑世荣 《计算机研究与发展》 EI CSCD 北大核心 1996年第6期408-412,共5页
主动消息以其高效性与灵活性正逐渐成为大规模并行机上重要的通信机制。利用主动消息的思想可以在多种体系结构上实现相当优化的通信处理层。本文分析了主动消息的实质和它在传统消息传递(messagepassing)、远程过程调... 主动消息以其高效性与灵活性正逐渐成为大规模并行机上重要的通信机制。利用主动消息的思想可以在多种体系结构上实现相当优化的通信处理层。本文分析了主动消息的实质和它在传统消息传递(messagepassing)、远程过程调用(remoteprocedurecal)、消息驱动(mesagedriven)、直接内存访问(DMA)系统上的实现,比较了不同系统组织对其实现技术的影响。我们认为,对于机器的通信部件来说。 展开更多
关键词 大规模 并行处理 主动消息 并行计算机
在线阅读 下载PDF
面向分布式AI的智能网卡低延迟Fabric技术 被引量:2
18
作者 熊先奎 袁进辉 宋庆春 《中兴通讯技术》 2020年第5期23-28,共6页
系统阐述了在分布式人工智能计算负载中使用低延迟Fabric技术出现的问题,包括虚拟化环境支撑、通信原语抽象化、网络拥塞控制等。针对这些问题,提出了使用基于可编程智能网卡的解决思路。
关键词 分布式人工智能 智能网卡 远程直接内存访问
在线阅读 下载PDF
基于RDMA的RapidIO用户态通信接口实现
19
作者 冀映辉 张建东 +1 位作者 蔡炜 蔡惠智 《计算机科学》 CSCD 北大核心 2010年第6期293-296,共4页
作为一款高性能的嵌入式互联协议,RapidIO支持RDMA操作以获得高性能。目前,针对RapidIO通信接口只有以太网模拟器,这种实现机制限制了RapidIO通信性能的发挥。参考国内外基于RDMA的通信协议实现方法,并结合RapidIO互联协议的特点,提出... 作为一款高性能的嵌入式互联协议,RapidIO支持RDMA操作以获得高性能。目前,针对RapidIO通信接口只有以太网模拟器,这种实现机制限制了RapidIO通信性能的发挥。参考国内外基于RDMA的通信协议实现方法,并结合RapidIO互联协议的特点,提出了一套基于RDMA技术的RapidIO用户态通信接口实现方法。在此基础上,验证了通信接口的性能并对实现方案进行了多种优化。经比较,实现的RapidIO通信接口数据吞吐量是目前所有已知的RapidIO通信接口中最高的。 展开更多
关键词 RAPIDIO 远程直接内存存取 用户态通信接口 并行信号处理系统
在线阅读 下载PDF
多核下基于远程直接内存访问的高效远程过程调用研究
20
作者 李波 孟丹 霍志刚 《高技术通讯》 CAS CSCD 北大核心 2011年第7期681-686,共6页
针对目前基于远程直接内存访问(RDMA)的远程过程调用(RPC)设计在多核背景下存在的性能和扩展性问题,提出了一种新的基于RDMAWrite的高效RPC设计方法并对网络文件系统(NFS)提供了支持。重点就设计中的安全性问题和内存管理机制进... 针对目前基于远程直接内存访问(RDMA)的远程过程调用(RPC)设计在多核背景下存在的性能和扩展性问题,提出了一种新的基于RDMAWrite的高效RPC设计方法并对网络文件系统(NFS)提供了支持。重点就设计中的安全性问题和内存管理机制进行了分析,并针对内存有效利用提出了被动和主动两种回收机制。测试结果表明,这种新的RPC设计方法能降低RPC延迟13%~20%。对内存文件系统及真实磁盘文件系统的测试表明,此设计能有效提高多核系统中RPC的性能和扩展性。 展开更多
关键词 远程直接内存访问(RDMA) 远程过程调用(RPC) 多核 网络文件系统(NFS)
在线阅读 下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部