期刊文献+
共找到11篇文章
< 1 >
每页显示 20 50 100
基于直接内存访问和动态共享缓冲区的超长向量归约操作硬件卸载结构与方法
1
作者 徐金波 戴艺 翦杰 《计算机工程与科学》 北大核心 2025年第4期571-581,共11页
MPI聚合通信通过将多个计算结点的多个进程组织起来协同完成一系列通信操作,以提高系统性能。其中,超长操作数向量的归约操作在高性能计算和AI计算中应用广泛。提出了一种基于DMA和动态共享缓冲区的超长向量归约操作的硬件卸载结构与方... MPI聚合通信通过将多个计算结点的多个进程组织起来协同完成一系列通信操作,以提高系统性能。其中,超长操作数向量的归约操作在高性能计算和AI计算中应用广泛。提出了一种基于DMA和动态共享缓冲区的超长向量归约操作的硬件卸载结构与方法。通过专用硬件通信序列触发机制,实现聚合通信硬件卸载流程的控制;通过DMA传输协议提升归约操作数的软硬件传输效率;提出片上动态共享缓冲区存储结构,以实现大量操作数的灵活高效缓存;通过部署片上ALU阵列,直接在网络芯片中完成计算。实验结果表明,相对于MPI非卸载方式和“天河”原有卸载方式均有明显的加速效果,尤其是当归约向量长度较大时,加速效果显著提升。 展开更多
关键词 聚合通信 归约 直接内存访问 动态共享缓冲区 硬件
在线阅读 下载PDF
数据处理单元赋能的智算中心网络拥塞控制机制 被引量:3
2
作者 陈锦前 郭少勇 +2 位作者 刘畅 亓峰 邱雪松 《通信学报》 北大核心 2025年第2期1-17,共17页
针对智算中心集群间交互频繁造成网络拥塞频发导致智能业务实时性难以保障的问题,以数据处理单元(DPU)为核心载体构建了深度强化学习算法驱动的拥塞控制模型,利用剪枝与量化融合的方式对模型进行压缩,并通过知识蒸馏方法生成高效梯度增... 针对智算中心集群间交互频繁造成网络拥塞频发导致智能业务实时性难以保障的问题,以数据处理单元(DPU)为核心载体构建了深度强化学习算法驱动的拥塞控制模型,利用剪枝与量化融合的方式对模型进行压缩,并通过知识蒸馏方法生成高效梯度增强决策树,实现调速动作与网络实时状态的精准匹配。仿真结果表明,所提机制在泛化能力和控制效果方面均优于现有方法,在多个压力测试场景中提升网络有效吞吐率与公平性指标JAIN10.8%和8.9%以上,降低P99端到端时延与丢包率17.31%和11.47%以上,降低并行计算场景下数据流传输任务完成时间11.23%以上,且具备应对网络状态突变的快速响应能力。 展开更多
关键词 拥塞控制 多智能体深度强化学习 智算中心网络 远程直接内存访问网络 数据处理单元
在线阅读 下载PDF
非连续数据网络通信实现方法和性能分析 被引量:10
3
作者 马潇潇 陆钢 +5 位作者 付斌章 安仲奇 朱泓睿 邵恩 王展 安学军 《计算机学报》 EI CSCD 北大核心 2020年第6期1123-1138,共16页
非连续数据通信是指发送端将位于不同地址的多块数据传输到接收端的多个非连续地址.这种通信模式在科学计算应用中十分常见,如求解计算、FFT计算、流体力学模拟等应用均涉及矩阵的转置传输,多维矩阵的子矩阵传输,非结构化数据访问等非... 非连续数据通信是指发送端将位于不同地址的多块数据传输到接收端的多个非连续地址.这种通信模式在科学计算应用中十分常见,如求解计算、FFT计算、流体力学模拟等应用均涉及矩阵的转置传输,多维矩阵的子矩阵传输,非结构化数据访问等非连续数据通信.所以,非连续数据的通信性能对众多科学计算应用有重要的影响.目前,有多种实现非连续数据通信的卸载或者非卸载的方法,但是迄今没有工作在同一平台对主流的非连续数据通信实现方法进行评测和分析,也没有工作对每一种实现方式适用的情况进行总结.本文首先总结了目前非连续数据通信的实现方式,然后,本文使用已有的测试集和自己设计的测试集对不同方式的非连续数据通信性能进行了详细的对比测试,细粒度地分析了在不同数据分布的情况下数据拷贝和RDMA通信的开销,尤其对基于RDMA sg_list(scatter-gather list)和UMR(User-mode Memory Registration)功能的卸载性能进行了分析,并总结了各种非连续数据通信方式的适用情况和存在的问题.最后,本文通过实验验证了分析结果的正确性,并对于该分析结果相关的技术提出了优化的方向. 展开更多
关键词 非连续数据通信 远程数据直接访问卸载 SGRS UMR 人工打包拆包
在线阅读 下载PDF
以太网RDMA网卡综述
4
作者 黄曼蒂 李韬 +3 位作者 杨惠 李成龙 张毓涛 孙志刚 《计算机研究与发展》 北大核心 2025年第5期1262-1289,共28页
目前数据中心规模迅速扩大和网络带宽大幅度提升,传统软件网络协议栈的处理器开销较大,并且难以满足众多数据中心应用程序在吞吐、延迟等方面的需求.远程直接内存访问(remote direct memory access,RDMA)技术采用零拷贝、内核旁路和处... 目前数据中心规模迅速扩大和网络带宽大幅度提升,传统软件网络协议栈的处理器开销较大,并且难以满足众多数据中心应用程序在吞吐、延迟等方面的需求.远程直接内存访问(remote direct memory access,RDMA)技术采用零拷贝、内核旁路和处理器功能卸载等思想,能够高带宽、低延迟地读写远端主机内存数据.兼容以太网的RDMA技术正在数据中心领域展开应用,以太网RDMA网卡作为主要功能承载设备,对其部署发挥重要作用.综述从架构、优化和实现评估3个方面进行分析:1)对以太网RDMA网卡的通用架构进行了总结,并对其关键功能部件进行了介绍;2)重点阐述了存储资源、可靠传输和应用相关3方面的优化技术,包括面向网卡缓存资源的连接可扩展性和面向主机内存资源的注册访问优化,面向有损以太网实现可靠传输的拥塞控制、流量控制和重传机制优化,面向分布式存储中不同存储类型、数据库系统、云存储系统以及面向数据中心应用的多租户性能隔离、安全性、可编程性等方面的优化工作;3)调研了不同实现方式、评估方式.最后,给出总结和展望. 展开更多
关键词 远程直接内存访问 以太网RDMA网卡 RoCEv2 网卡架构 网卡优化 数据中心网络
在线阅读 下载PDF
自主多模式网络性能测试技术
5
作者 吴登勇 谷群 +1 位作者 于英杰 赵鑫 《计算机工程与设计》 北大核心 2025年第8期2219-2225,共7页
为解决网络测试工具兼容性差、测试场景受限、国内无通用自主网络测试工具等问题,设计一种基于ServerClient-Ctrl三端模式的自主多模式网络性测试工具,旨在通过创新的架构、模块设计,提升测试工具的通用性和灵活性,解决行业痛点。基于... 为解决网络测试工具兼容性差、测试场景受限、国内无通用自主网络测试工具等问题,设计一种基于ServerClient-Ctrl三端模式的自主多模式网络性测试工具,旨在通过创新的架构、模块设计,提升测试工具的通用性和灵活性,解决行业痛点。基于国产自主ARM平台及X86平台开展的网络性能测试验证,结果表明该测试工具不仅展现出良好的平台兼容性,还适用于多测试场景,并在测试中能有效提升测试工作效率,为网络测试技术的发展提供了新的思路与方向。 展开更多
关键词 主动测量 带宽 时延 抖动 线程管理 非一致性内存访问 TCP/IP引擎 远程直接内存访问
在线阅读 下载PDF
数据中心网络传输协议综述 被引量:24
6
作者 曾高雄 胡水海 +1 位作者 张骏雪 陈凯 《计算机研究与发展》 EI CSCD 北大核心 2020年第1期74-84,共11页
近10年来,在盛行的网络应用(如搜索、在线零售和云计算等)的需求驱动下,数据中心在全球范围内以前所未有的速度和规模发展建立起来.特别地,数据中心网络引起了学术界和工业界的广泛关注.在这样的背景下,调研了数据中心网络的一个核心方... 近10年来,在盛行的网络应用(如搜索、在线零售和云计算等)的需求驱动下,数据中心在全球范围内以前所未有的速度和规模发展建立起来.特别地,数据中心网络引起了学术界和工业界的广泛关注.在这样的背景下,调研了数据中心网络的一个核心方面——传输层协议.虽然传输协议在因特网上已经有很长的历史,它却直到2010年才在数据中心网络环境下被系统性地探索.数据中心网络有着和因特网不一样的特点(如单一控制域和同构网络架构),这给数据中心网络上的传输协议设计同时带来了机遇和挑战.在这驱使下,一系列的传输协议被设计提出.将早期(2010—2015年)数据中心网络传输设计方面的工作分成3类——基于端主机的拥塞控制、网络仲裁机制和交换机优先级调度,对这3类工作的优缺点作深入讨论.最后,分析近年来数据中心网络传输设计的研究趋势——接收端驱动的主动拥塞控制和RDMA传输协议设计. 展开更多
关键词 数据中心网络 传输层协议 拥塞控制 显式拥塞通告 远程直接内存访问
在线阅读 下载PDF
BOOM-KV:基于RDMA的高性能NVM键值数据库
7
作者 李文捷 蒋德钧 +1 位作者 熊劲 包云岗 《高技术通讯》 CAS 2023年第1期29-41,共13页
随着英特尔傲腾数据中心持久化内存模块(DCPMM)开始进入市场以及远程直接内存访问(RDMA)硬件成本的降低,设计融合非易失性内存(NVM)和RDMA的键值(KV)数据库面临新的机遇和挑战。构建基于NVM和RDMA的KV数据库的关键在于设计一个高效的通... 随着英特尔傲腾数据中心持久化内存模块(DCPMM)开始进入市场以及远程直接内存访问(RDMA)硬件成本的降低,设计融合非易失性内存(NVM)和RDMA的键值(KV)数据库面临新的机遇和挑战。构建基于NVM和RDMA的KV数据库的关键在于设计一个高效的通信协议。遗憾的是,现有工作或采用NVM不感知的RDMA协议,或采用低效的NVM感知的RDMA协议,这导致它们无法最大化KV数据库的性能。本文提出了BOOM协议——一种新型的NVM感知的RDMA协议。相较于NVM不感知的协议,BOOM协议允许直接对远端NVM进行RDMA操作,消除了冗余的数据拷贝;相较于现有的NVM感知的协议,它可以显著减少元数据请求,降低KV请求的端对端延迟。在BOOM协议的基础上构建了BOOM-KV,并针对服务端中央处理器(CPU)利用率和宕机持久化等问题进一步进行优化。将BOOM-KV与最新的研究成果进行对比,结果表明,BOOM-KV能显著降低请求延迟,其中PUT延迟最大降低了42%,GET延迟最大降低了41%,并且展现出良好的扩展性。 展开更多
关键词 非易失性内存(NVM) 远程直接内存访问(RDMA) 键值(KV)数据
在线阅读 下载PDF
基于RDMA的高性能单向数据采集技术研究 被引量:1
8
作者 梁嘉诚 余江 +2 位作者 王洪波 刘渊 王晓锋 《计算机工程》 CAS CSCD 北大核心 2023年第10期31-40,共10页
高性能数据采集技术是提高数据分析效率的重要前提。为解决当前数据采集技术中安全性低、传输时延高、CPU开销大的问题,设计一种基于远程直接内存访问的高性能单向数据采集(ODAR)架构,提高数据采集过程中的安全性和传输性能。针对传输... 高性能数据采集技术是提高数据分析效率的重要前提。为解决当前数据采集技术中安全性低、传输时延高、CPU开销大的问题,设计一种基于远程直接内存访问的高性能单向数据采集(ODAR)架构,提高数据采集过程中的安全性和传输性能。针对传输时数据正确性问题,基于可靠性的数据封装策略,设计动态内存优化策略解决内存分配时存在的时延问题,并提出基于优先级的数据传输调度算法解决高吞吐量数据传输中存在的带宽利用率低的问题。实验结果表明,相对于基于UDP协议实现的单向数据采集技术,ODAR架构的吞吐量平均提高了57.01%,传输时延与CPU开销平均降低了61.27%与68.01%,并且大幅提高了数据传输的准确率,内存分配时的时延平均降低了80.15%,网卡带宽利用率平均提高了33.03%。 展开更多
关键词 单向数据采集 远程直接内存访问 消息中间件 动态内存优化 数据传输调度
在线阅读 下载PDF
远程持久性和写合并的混合部署R树
9
作者 吴瑶 张瑞 吴杰 《小型微型计算机系统》 CSCD 北大核心 2023年第12期2858-2864,共7页
新兴的持久性内存技术的出现和RDMA网络为构建新型的远程空间数据索引提供了新的可能,有望为R树这样的空间数据结构带来性能提升.由于持久性内存相比DRAM具有更慢的访问时延、额外的持久化开销以及缺少远程持久化原语等因素导致完全持... 新兴的持久性内存技术的出现和RDMA网络为构建新型的远程空间数据索引提供了新的可能,有望为R树这样的空间数据结构带来性能提升.由于持久性内存相比DRAM具有更慢的访问时延、额外的持久化开销以及缺少远程持久化原语等因素导致完全持久化的远程R树性能下降.在此基础上,本文设计并实现了RRtree,一种基于混合部署架构的远程持久性R树,在保证数据持久性的前提下实现尽可能高的性能.同时,通过选择性元数据持久化、写合并和对双边RDMA原语结合持久性内存使用进行优化.最后,在真实的傲腾持久性内存上实现并验证了RRtree的高性能和高可扩展性.实验结果表明,RRtree和对比对象FBR-tree相比其时延和吞吐分别有显著的降低和提升. 展开更多
关键词 R树 持久性内存 远程直接内存访问 空间数据 索引
在线阅读 下载PDF
广域抗损高吞吐URDMA技术 被引量:1
10
作者 段晓东 陆璐 +3 位作者 孙滔 李志强 杨红伟 杜宗鹏 《中兴通讯技术》 北大核心 2024年第6期23-30,共8页
随着国家“东数西算”战略实施以及智算、超算业务的快速发展,海量数据广域传输需求不断增多。提出一种广域抗损高吞吐超远程直接内存访问(URDMA)技术方案,通过对传输控制协议/互联网协议(TCP/IP)协议栈的完全卸载,消除中央处理器(CPU)... 随着国家“东数西算”战略实施以及智算、超算业务的快速发展,海量数据广域传输需求不断增多。提出一种广域抗损高吞吐超远程直接内存访问(URDMA)技术方案,通过对传输控制协议/互联网协议(TCP/IP)协议栈的完全卸载,消除中央处理器(CPU)对网络高吞吐性能的限制。采用拥塞控制、丢包恢复、丢包重传等技术增强标准第2代基于融合以太网的远程直接内存访问(RoCEv2)协议,使其在广域有损网络下保持高吞吐性能。测试结果表明,在往返时延(RTT)时延为20 ms、丢包率0.1%的网络环境下,TCP协议吞吐性能仅为0.02 Gbit/s,标准RoCEv2性能接近为0,URDMA协议吞吐性能为88.26 Gbit/s;当RTT时延增加到80 ms时,TCP和RoCEv2协议吞吐基本衰减为0,URDMA协议吞吐性能为83.12 Gbit/s,仍然保持较高的性能。 展开更多
关键词 广域抗损高吞吐 数据快递 远程直接内存访问 RoCEv2
在线阅读 下载PDF
USPS:面向算力资源高效协同的用户态跨协议代理系统
11
作者 夏景旋 申国伟 +1 位作者 郭春 崔允贺 《计算机科学》 CSCD 北大核心 2023年第11期348-355,共8页
随着算力网络的快速发展,通用算力、人工智能算力、超算等算力资源分布广泛。算力资源协同服务是算力网络研究的关键问题。在算力资源协同过程中,一方面,算力网络面临海量终端算力服务的高并发请求和低时延响应需求;另一方面,其难以充... 随着算力网络的快速发展,通用算力、人工智能算力、超算等算力资源分布广泛。算力资源协同服务是算力网络研究的关键问题。在算力资源协同过程中,一方面,算力网络面临海量终端算力服务的高并发请求和低时延响应需求;另一方面,其难以充分发挥数据中心算力资源的高吞吐和低时延优势,进而难以为用户提供高效的算力服务。针对上述挑战,提出一种基于用户态协议栈和远程直接内存访问(Remote Direct Memory Access,RDMA)的用户态代理系统(User-Space Proxy System,USPS),通过用户态协议栈响应客户高并发算力请求,在动态批处理策略协调下实现基于RDMA的数据中心算力高吞吐、低时延服务。在通信方面,USPS实现了一个高效的远程过程调用(Remote Procedure Call,RPC)通信机制,能够充分利用RDMA网卡带宽提供高速消息通信;在请求处理方面,提出了一个动态批处理调度方法,能够在满足用户时延要求的前提下最大化批处理效率。实验结果表明,USPS的服务响应时延仅是传统内核态Nginx代理系统的7.8%~23.1%,是其他用户态代理系统的17.3%~24.7%;吞吐量比传统内核态的Nginx代理系统提升了3.4~8.9倍,比其他用户态代理系统提升了3.2~4.2倍。 展开更多
关键词 算力资源高效协同 用户态代理 远程直接内存访问 数据中心 批处理调度
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部