期刊文献+
共找到36篇文章
< 1 2 >
每页显示 20 50 100
多核下基于远程直接内存访问的高效远程过程调用研究
1
作者 李波 孟丹 霍志刚 《高技术通讯》 CAS CSCD 北大核心 2011年第7期681-686,共6页
针对目前基于远程直接内存访问(RDMA)的远程过程调用(RPC)设计在多核背景下存在的性能和扩展性问题,提出了一种新的基于RDMAWrite的高效RPC设计方法并对网络文件系统(NFS)提供了支持。重点就设计中的安全性问题和内存管理机制进... 针对目前基于远程直接内存访问(RDMA)的远程过程调用(RPC)设计在多核背景下存在的性能和扩展性问题,提出了一种新的基于RDMAWrite的高效RPC设计方法并对网络文件系统(NFS)提供了支持。重点就设计中的安全性问题和内存管理机制进行了分析,并针对内存有效利用提出了被动和主动两种回收机制。测试结果表明,这种新的RPC设计方法能降低RPC延迟13%~20%。对内存文件系统及真实磁盘文件系统的测试表明,此设计能有效提高多核系统中RPC的性能和扩展性。 展开更多
关键词 远程直接内存访问(RDMA) 远程过程调用(RPC) 多核 网络文件系统(NFS)
在线阅读 下载PDF
基于动态页面映射的远程交换系统内存管理优化
2
作者 李昱祁 王霄阳 +1 位作者 朱文喆 李永坤 《计算机应用研究》 北大核心 2025年第10期3099-3105,共7页
远程交换系统利用内核的页面交换机制透明地使用远程内存,是构建分离式内存架构的一种常见方法。然而,现有系统在创建远程交换分区时,会预先分配完整容量的远程内存,导致内部碎片并降低内存使用率。针对此问题,设计了一种新型远程内存... 远程交换系统利用内核的页面交换机制透明地使用远程内存,是构建分离式内存架构的一种常见方法。然而,现有系统在创建远程交换分区时,会预先分配完整容量的远程内存,导致内部碎片并降低内存使用率。针对此问题,设计了一种新型远程内存管理方法,动态地为系统中正在使用的交换条目映射远程页面,减少非必要内存占用。该方法引入高效的节点间内存分配与回收机制,以支持细粒度内存管理并确保计算节点间的内存访问隔离性。实验结果表明,该方法可以在不同场景下将远程交换分区的内存利用率提高5.2%~89.1%,同时仅引入较少的额外开销。因此,该方法可以有效提高远程交换系统的内存管理效率。 展开更多
关键词 远程交换系统 内存管理 动态页面映射 远程直接内存访问
在线阅读 下载PDF
基于远程直接内存访问的高性能键值存储系统 被引量:2
3
作者 王成 叶保留 +1 位作者 梅峰 卢文达 《计算机应用》 CSCD 北大核心 2020年第2期316-320,共5页
随着数据与系统规模的不断扩大,网络传输成为了键值存储系统的性能瓶颈。同时,远程直接内存访问(RDMA)技术能够支持高带宽和低时延的数据传输,为键值存储系统设计提供了新的思路。结合高性能网络中的RDMA技术,设计并实现了高性能、低CP... 随着数据与系统规模的不断扩大,网络传输成为了键值存储系统的性能瓶颈。同时,远程直接内存访问(RDMA)技术能够支持高带宽和低时延的数据传输,为键值存储系统设计提供了新的思路。结合高性能网络中的RDMA技术,设计并实现了高性能、低CPU负载的键值存储系统Chequer;结合RDMA原语的特性,重新设计了键值存储系统的基本操作工作流程;并设计了基于线性探测的共享hash表,解决客户端缓存失效的问题以及提高hash命中率来减少客户端的读取轮数,进一步提高了系统的性能。在小规模集群上实现了Chequer系统,并通过实验验证了其性能。 展开更多
关键词 远程直接内存访问 哈希表 键值存储 高性能网络
在线阅读 下载PDF
数据处理单元赋能的智算中心网络拥塞控制机制 被引量:3
4
作者 陈锦前 郭少勇 +2 位作者 刘畅 亓峰 邱雪松 《通信学报》 北大核心 2025年第2期1-17,共17页
针对智算中心集群间交互频繁造成网络拥塞频发导致智能业务实时性难以保障的问题,以数据处理单元(DPU)为核心载体构建了深度强化学习算法驱动的拥塞控制模型,利用剪枝与量化融合的方式对模型进行压缩,并通过知识蒸馏方法生成高效梯度增... 针对智算中心集群间交互频繁造成网络拥塞频发导致智能业务实时性难以保障的问题,以数据处理单元(DPU)为核心载体构建了深度强化学习算法驱动的拥塞控制模型,利用剪枝与量化融合的方式对模型进行压缩,并通过知识蒸馏方法生成高效梯度增强决策树,实现调速动作与网络实时状态的精准匹配。仿真结果表明,所提机制在泛化能力和控制效果方面均优于现有方法,在多个压力测试场景中提升网络有效吞吐率与公平性指标JAIN10.8%和8.9%以上,降低P99端到端时延与丢包率17.31%和11.47%以上,降低并行计算场景下数据流传输任务完成时间11.23%以上,且具备应对网络状态突变的快速响应能力。 展开更多
关键词 拥塞控制 多智能体深度强化学习 智算中心网络 远程直接内存访问网络 数据处理单元
在线阅读 下载PDF
自主多模式网络性能测试技术
5
作者 吴登勇 谷群 +1 位作者 于英杰 赵鑫 《计算机工程与设计》 北大核心 2025年第8期2219-2225,共7页
为解决网络测试工具兼容性差、测试场景受限、国内无通用自主网络测试工具等问题,设计一种基于ServerClient-Ctrl三端模式的自主多模式网络性测试工具,旨在通过创新的架构、模块设计,提升测试工具的通用性和灵活性,解决行业痛点。基于... 为解决网络测试工具兼容性差、测试场景受限、国内无通用自主网络测试工具等问题,设计一种基于ServerClient-Ctrl三端模式的自主多模式网络性测试工具,旨在通过创新的架构、模块设计,提升测试工具的通用性和灵活性,解决行业痛点。基于国产自主ARM平台及X86平台开展的网络性能测试验证,结果表明该测试工具不仅展现出良好的平台兼容性,还适用于多测试场景,并在测试中能有效提升测试工作效率,为网络测试技术的发展提供了新的思路与方向。 展开更多
关键词 主动测量 带宽 时延 抖动 线程管理 非一致性内存访问 TCP/IP卸载引擎 远程直接内存访问
在线阅读 下载PDF
面向大模型预训练的智算网络技术研究 被引量:5
6
作者 王学聪 冀思伟 李聪 《电信科学》 北大核心 2024年第6期160-172,共13页
随着人工智能的发展,大规模预训练模型在自然语言处理和计算机视觉等领域都取得了显著成果,促进了智算中心的建设。针对面向大模型预训练的智算网络关键技术展开研究,系统梳理了智算网络国内外最新的标准化进展,提出了一种面向智算网络... 随着人工智能的发展,大规模预训练模型在自然语言处理和计算机视觉等领域都取得了显著成果,促进了智算中心的建设。针对面向大模型预训练的智算网络关键技术展开研究,系统梳理了智算网络国内外最新的标准化进展,提出了一种面向智算网络的目标架构,探讨了智算网络关键技术的原理,包括远程直接内存访问(RDMA)、IB(InfiniBand)、基于以太网的RDMA(RoCE)、集合通信等,同时也分析了智算网络目前存在的问题以及未来的发展趋势,在推动智算网络技术发展、指导智算中心建设等方面具有重要意义。 展开更多
关键词 智算网络 远程直接内存访问 大模型
在线阅读 下载PDF
基于以太无损网络的智算中心光网络架构研究(特邀) 被引量:2
7
作者 翟锐 李壮志 +2 位作者 侯广营 马艺嘉 徐化朗 《光通信研究》 北大核心 2024年第5期35-40,共6页
【目的】近年来,生成式人工智能(AIGC)掀起了人工智能革命,智算中心(ICC)的网络联接也随之向超高带宽、智能无损和算网融合等方向发展,因此ICC光网络需要降低卡间通信时间,以提升数据访问效率。【方法】文章针对ICC场景光网络的组网架... 【目的】近年来,生成式人工智能(AIGC)掀起了人工智能革命,智算中心(ICC)的网络联接也随之向超高带宽、智能无损和算网融合等方向发展,因此ICC光网络需要降低卡间通信时间,以提升数据访问效率。【方法】文章针对ICC场景光网络的组网架构进行了研究,实现了大带宽、低时延和中央处理器(CPU)效率高的无损网络,满足了ICC的大模型训练和推理需求。文章详细分析了ICC的流量分布特征和人工智能(AI)大模型训练组网场景下的通信流特征,深入研究了基于远程直接内存访问(RDMA)的以太无损传输方案的ICC组网架构,并最终在ICC场景下进行了组网实践和时延测试。【结果】文章提出的基于以太网的RDMA(RoCE)传输方案具备基于优先级的流控制、显示拥塞通知、增强传输选择和数据中心桥能力交换协议(DCBX)等能力,可实现数据中心内基于以太协议的无损传输。测试结果显示,使用RoCE协议的传输时延大约稳定在1μs,并且显著优于互联网广域RDMA协议(iWARP)。【结论】文章基于智算场景下的流量特征分析,深入研究了ICC的无损以太网络关键特性,利用RDMA技术实现了ICC场景下光交换网络传输效率的提升,并提出了一种在ICC大模型推理场景下的无损以太网络方案,为RDMA技术在智算场景下的应用探索出了可行的方向。 展开更多
关键词 长距直接内存访问 以太无损网络 智算中心 光交换
在线阅读 下载PDF
以太网RDMA网卡综述
8
作者 黄曼蒂 李韬 +3 位作者 杨惠 李成龙 张毓涛 孙志刚 《计算机研究与发展》 北大核心 2025年第5期1262-1289,共28页
目前数据中心规模迅速扩大和网络带宽大幅度提升,传统软件网络协议栈的处理器开销较大,并且难以满足众多数据中心应用程序在吞吐、延迟等方面的需求.远程直接内存访问(remote direct memory access,RDMA)技术采用零拷贝、内核旁路和处... 目前数据中心规模迅速扩大和网络带宽大幅度提升,传统软件网络协议栈的处理器开销较大,并且难以满足众多数据中心应用程序在吞吐、延迟等方面的需求.远程直接内存访问(remote direct memory access,RDMA)技术采用零拷贝、内核旁路和处理器功能卸载等思想,能够高带宽、低延迟地读写远端主机内存数据.兼容以太网的RDMA技术正在数据中心领域展开应用,以太网RDMA网卡作为主要功能承载设备,对其部署发挥重要作用.综述从架构、优化和实现评估3个方面进行分析:1)对以太网RDMA网卡的通用架构进行了总结,并对其关键功能部件进行了介绍;2)重点阐述了存储资源、可靠传输和应用相关3方面的优化技术,包括面向网卡缓存资源的连接可扩展性和面向主机内存资源的注册访问优化,面向有损以太网实现可靠传输的拥塞控制、流量控制和重传机制优化,面向分布式存储中不同存储类型、数据库系统、云存储系统以及面向数据中心应用的多租户性能隔离、安全性、可编程性等方面的优化工作;3)调研了不同实现方式、评估方式.最后,给出总结和展望. 展开更多
关键词 远程直接内存访问 以太网RDMA网卡 RoCEv2 网卡架构 网卡优化 数据中心网络
在线阅读 下载PDF
面向天河互连网络的可扩展通信框架实现技术 被引量:4
9
作者 谢旻 张伟 +1 位作者 周恩强 董勇 《计算机工程与科学》 CSCD 北大核心 2020年第10期1720-1729,共10页
开源通信框架在编程模型和互连接口之间定义标准化的通信编程接口,提供了独立于互连网络特性的高性能通信操作,提高了编程模型在新型互连网络上的开发效率。通过设计与实现多通道数据传输协议,解决了通信框架在天河互连网络上实现时的... 开源通信框架在编程模型和互连接口之间定义标准化的通信编程接口,提供了独立于互连网络特性的高性能通信操作,提高了编程模型在新型互连网络上的开发效率。通过设计与实现多通道数据传输协议,解决了通信框架在天河互连网络上实现时的性能和扩展性问题。测试数据表明,天河互连网络上的通信框架具有很低的软件层开销,提供了接近于互连硬件设计指标的通信性能,为拓展天河互连网络对各种编程模型和分布式计算框架的高效支持提供了良好的基础。 展开更多
关键词 高速互连网络 通信框架 消息传递接口 远程直接内存访问
在线阅读 下载PDF
面向低精度神经网络的数据流体系结构优化 被引量:2
10
作者 范志华 吴欣欣 +4 位作者 李文明 曹华伟 安学军 叶笑春 范东睿 《计算机研究与发展》 EI CSCD 北大核心 2023年第1期43-58,共16页
数据流架构的执行方式与神经网络算法具有高度匹配性,能充分挖掘数据的并行性.然而,随着神经网络向更低精度的发展,数据流架构的研究并未面向低精度神经网络展开,在传统数据流架构部署低精度(INT8,INT4或者更低)神经网络时,会面临3个问... 数据流架构的执行方式与神经网络算法具有高度匹配性,能充分挖掘数据的并行性.然而,随着神经网络向更低精度的发展,数据流架构的研究并未面向低精度神经网络展开,在传统数据流架构部署低精度(INT8,INT4或者更低)神经网络时,会面临3个问题:1)传统数据流架构的计算部件数据通路与低精度数据不匹配,无法体现低精度神经网络的性能和能效优势;2)向量化并行计算的低精度数据在片上存储中要求顺序排列,然而它在片外存储层次中是分散排列的,使得数据的加载和写回操作变得复杂,传统数据流架构的访存部件无法高效支持这种复杂的访存模式;3)传统数据流架构中使用双缓冲机制掩盖数据的传输延迟,但是,当传输低精度数据时,传输带宽的利用率显著降低,导致计算延迟无法掩盖数据传输延迟,双缓冲机制面临失效风险,进而影响数据流架构的性能和能效.为解决这3个问题,设计了面向低精度神经网络的数据流加速器DPU_Q.首先,设计了灵活可重构的计算单元,根据指令的精度标志位动态重构数据通路,一方面能高效灵活地支持多种低精度数据运算,另一方面能进一步提高计算并行性和吞吐量.另外,为解决低精度神经网络复杂的访存模式,设计了Scatter引擎,该引擎将在低层次或者片外存储中地址空间离散分布的低精度数据进行拼接、预处理,以满足高层次或者片上存储对数据排列的格式要求.同时,Scatter引擎能有效解决传输低精度数据时带宽利用率低的问题,解决了双缓冲机制失效的问题.最后,从软件方面提出了基于数据流执行模式的低精度神经网络映射算法,兼顾负载均衡的同时能对权重、激活值数据进行充分复用,减少了访存和数据流图节点间的数据传输开销.实验表明,相比于同精度的GPU(Titan Xp)、数据流架构(Eyeriss)和低精度神经网络加速器(BitFusion),DPU_Q分别获得3.18倍、6.05倍、1.52倍的性能提升和4.49倍、1.6倍、1.13倍的能效提升. 展开更多
关键词 数据流架构 低精度神经网络 量化 可重构架构 直接内存访问
在线阅读 下载PDF
基于RDMA的高效拥塞控制方法设计
11
作者 王芳慧 黄正峰 +1 位作者 邱麟雅 郭二辉 《合肥工业大学学报(自然科学版)》 北大核心 2025年第10期1344-1351,共8页
文章研究并解决数据中心的远程内存直接读取(remote direct memory access, RDMA)技术的网络拥塞控制问题。针对主流拥塞控制算法数据中心量化拥塞通知(data center quantized congestion notification, DCQCN)的收敛速度慢和缺乏硬件... 文章研究并解决数据中心的远程内存直接读取(remote direct memory access, RDMA)技术的网络拥塞控制问题。针对主流拥塞控制算法数据中心量化拥塞通知(data center quantized congestion notification, DCQCN)的收敛速度慢和缺乏硬件实现方案的不足,提出可参数硬件化的数据中心量化拥塞通知(parameterized DCQCN,DCQCN-p)算法,该算法通过优化拥塞流的速度因子a、g调整速度比例Rc,并通过电路设计减少降速的频次;通过建立算法模型和搭建网络仿真NS-3平台,对比DCQCN-p算法在面临拥塞时单个调度流速度调整的性能以及多个调度流并发情况下的时延和吞吐量。仿真结果表明:在单个流面临拥塞时,DCQCN-p算法的数据传输速率比DCQCN算法的提高了50%;DCQCN-p算法在链路上最小速率为13.28 Gbit/s,相较于DCQCN、TIMELY、数据中心传输控制协议(data center transmission control protocol, DCTCP)算法,分别增长了24%、48%、23%;DCQCN-p算法(方差65%)的带宽分配公平性相较于TIMELY算法(方差216%)和DCTCP算法(方差191%)表现出显著的性能提升。 展开更多
关键词 远程内存直接读取(RDMA) 可参数硬件化的数据中心量化拥塞通知(DCQCN-p)算法 电路设计 多流高效 网络仿真
在线阅读 下载PDF
一种基于RDMA多播机制的分布式持久性内存文件系统 被引量:4
12
作者 陈茂棠 郑圣安 +5 位作者 游理通 王晶钰 闫田 屠要峰 韩银俊 黄林鹏 《计算机研究与发展》 EI CSCD 北大核心 2021年第2期384-396,共13页
持久性内存技术与远程直接内存访问(remote direct memory access,RDMA)技术的发展,为高效分布式系统的设计提供了新的思路.然而,现有的基于RDMA的分布式系统没有充分利用RDMA的多播能力,难以解决1对多传输场景下的多拷贝文件数据传输问... 持久性内存技术与远程直接内存访问(remote direct memory access,RDMA)技术的发展,为高效分布式系统的设计提供了新的思路.然而,现有的基于RDMA的分布式系统没有充分利用RDMA的多播能力,难以解决1对多传输场景下的多拷贝文件数据传输问题,严重影响了系统性能.针对此问题,提出一种基于RDMA多播机制的分布式持久性内存文件系统(RDMA multicast transmission based distributed persistent memory file system,MTFS),通过低延迟多播通信机制充分利用RDMA多播能力,将数据高效传输到多个数据节点,从而避免了多拷贝传输操作带来的高延迟.为提升传输操作灵活性,MTFS设计了多模式多播远程过程调用(remote procedure call,RPC)机制,实现了RPC请求自适应识别,并通过优化返回机制将部分传输操作移出关键路径,进一步提升传输效率.同时MTFS提供了轻量级一致性保障机制,通过设计故障恢复功能、数据校验系统、重传策略与窗口机制,当节点出现崩溃时进行快速恢复,并在传输出现错误时实现数据精准检测与纠正,保证了数据的可靠性和一致性.实验证明,MTFS在各测试集上相比现有系统GlusterFS吞吐量提升了10.2~219倍.在Redis数据库的工作负载下,MTFS相比于NOVA取得了最高10.7%的性能提升,并在多线程测试中取得了良好的可扩展性. 展开更多
关键词 持久性内存 远程直接内存访问 多播 分布式文件系统 远程过程调用
在线阅读 下载PDF
一种分布式持久性内存文件系统的一致性机制 被引量:2
13
作者 陈波 陆游游 +3 位作者 蔡涛 陈游旻 屠要峰 舒继武 《计算机研究与发展》 EI CSCD 北大核心 2020年第3期660-667,共8页
持久性内存(persistent memory,PM)和远程直接内存访问(remote direct memory access,RDMA)具有高带宽、低延迟的硬件性能,这为设计高性能的分布式存储系统提供了新的机遇.然而,它们这些新的特性为高效的数据一致性管理引出了诸多问题:... 持久性内存(persistent memory,PM)和远程直接内存访问(remote direct memory access,RDMA)具有高带宽、低延迟的硬件性能,这为设计高性能的分布式存储系统提供了新的机遇.然而,它们这些新的特性为高效的数据一致性管理引出了诸多问题:一方面,持久性内存数据一致性依赖于CPU主动执行硬件指令刷写缓存实现,而这类指令开销极高,严重影响CPU处理性能;另一方面,RDMA在服务器端CPU不参与的情况下直接读写服务器端内存,因此服务器端CPU无法主动感知数据写入事件以执行数据刷写操作,一旦系统崩溃会造成数据不一致的问题.针对以上2个问题,提出一种分布式持久性内存文件系统的一致性机制(crash consistency mechanism,CCM):首先设计实现了基于操作日志的一致性保障策略,通过将每次操作的元信息记录至日志,并持久化,以保障系统的一致性状态;其次,设计了一种客户端对服务器端的远程写一致性策略,在完成数据传输的同时使服务器端CPU主动执行数据刷写;最后实现了一种服务器端的数据异步持久化,以提高系统的处理能力.测试结果表明,基于CCM的文件系统写吞吐可达到网络裸带宽的88%.相比于现有系统Octopus,CCM性能下降控制在1%以内. 展开更多
关键词 持久性内存 远程直接内存访问 一致性 操作日志 分布式文件系统
在线阅读 下载PDF
适用于多核处理器的簇状片上网络设计 被引量:2
14
作者 尤凯迪 肖瑞瑾 +1 位作者 权衡 虞志益 《计算机工程》 CAS CSCD 北大核心 2011年第21期211-213,共3页
提出一种新型簇状片上网络架构。该架构以二维网状拓扑结构连接各个簇单元,每个簇单元由3个处理器、1个直接访存单元和1个簇共享存储单元组成。基于该架构的多核处理器可以获得更高的通信效率及存储器利用率。在实验系统上实现3 780点... 提出一种新型簇状片上网络架构。该架构以二维网状拓扑结构连接各个簇单元,每个簇单元由3个处理器、1个直接访存单元和1个簇共享存储单元组成。基于该架构的多核处理器可以获得更高的通信效率及存储器利用率。在实验系统上实现3 780点的快速傅里叶变换,结果表明,在快速傅里叶变换应用中存储器的利用率能提升至79.5%。 展开更多
关键词 片上网络 多核处理器 直接内存访问 簇共享存储
在线阅读 下载PDF
数据中心网络传输协议综述 被引量:24
15
作者 曾高雄 胡水海 +1 位作者 张骏雪 陈凯 《计算机研究与发展》 EI CSCD 北大核心 2020年第1期74-84,共11页
近10年来,在盛行的网络应用(如搜索、在线零售和云计算等)的需求驱动下,数据中心在全球范围内以前所未有的速度和规模发展建立起来.特别地,数据中心网络引起了学术界和工业界的广泛关注.在这样的背景下,调研了数据中心网络的一个核心方... 近10年来,在盛行的网络应用(如搜索、在线零售和云计算等)的需求驱动下,数据中心在全球范围内以前所未有的速度和规模发展建立起来.特别地,数据中心网络引起了学术界和工业界的广泛关注.在这样的背景下,调研了数据中心网络的一个核心方面——传输层协议.虽然传输协议在因特网上已经有很长的历史,它却直到2010年才在数据中心网络环境下被系统性地探索.数据中心网络有着和因特网不一样的特点(如单一控制域和同构网络架构),这给数据中心网络上的传输协议设计同时带来了机遇和挑战.在这驱使下,一系列的传输协议被设计提出.将早期(2010—2015年)数据中心网络传输设计方面的工作分成3类——基于端主机的拥塞控制、网络仲裁机制和交换机优先级调度,对这3类工作的优缺点作深入讨论.最后,分析近年来数据中心网络传输设计的研究趋势——接收端驱动的主动拥塞控制和RDMA传输协议设计. 展开更多
关键词 数据中心网络 传输层协议 拥塞控制 显式拥塞通告 远程直接内存访问
在线阅读 下载PDF
内存事务中并发控制协议研究综述 被引量:1
16
作者 姜天洋 张广艳 李之悦 《计算机研究与发展》 EI CSCD 北大核心 2022年第4期721-736,共16页
事务为数据库等系统的上层应用提供了强大的保证.NoSQL数据库通过弱化对事务的支持来获得更高的扩展性,却难以满足OLTP等应用的事务性需求.之后提出的NewSQL数据库架构回归了高一致性的事务支持,并兼顾了海量数据的高效管理.因此,NewSQ... 事务为数据库等系统的上层应用提供了强大的保证.NoSQL数据库通过弱化对事务的支持来获得更高的扩展性,却难以满足OLTP等应用的事务性需求.之后提出的NewSQL数据库架构回归了高一致性的事务支持,并兼顾了海量数据的高效管理.因此,NewSQL数据库逐步将事务执行所需的数据从硬盘迁移到内存中以提升事务执行的效率.但是,已有内存事务的并发控制协议与新兴的存储、网络设备并不适配.从处理策略、版本控制、冲突解决3个维度对近10年来的内存事务中并发控制协议进行了分类阐述,进而从性能、扩展性、持久性3个方面比较了有代表性的并发控制协议.之后总结了4个改进内存事务并发控制协议的技术思路:消除事务扩展瓶颈,利用新硬件加速事务处理,降低事务中止概率,高效保证事务持久性.最后指出了内存事务并发控制协议的未来研究方向. 展开更多
关键词 内存事务 并发控制 分布式系统 远程直接内存访问 持久性内存
在线阅读 下载PDF
纯用户态的网络文件系统——RUFS 被引量:1
17
作者 董豪宇 陈康 《计算机应用》 CSCD 北大核心 2020年第9期2577-2585,共9页
针对在使用高速存储硬件时常规网络文件系统会被软件开销影响整体性能的问题,提出了利用存储性能开发套件(SPDK)搭建文件系统的方法,并在此基础上实现了一个网络文件系统RUFS的原型。该系统通过键值存储模拟文件系统的目录树结构以及对... 针对在使用高速存储硬件时常规网络文件系统会被软件开销影响整体性能的问题,提出了利用存储性能开发套件(SPDK)搭建文件系统的方法,并在此基础上实现了一个网络文件系统RUFS的原型。该系统通过键值存储模拟文件系统的目录树结构以及对文件系统的元数据进行管理,通过SPDK存储文件的内容。另外,利用远程直接内存访问(RDMA)技术对外提供文件系统服务。RUFS相较于NFS+ext4,在4 KB随机访问上,读写吞吐性能分别提高了202.2%和738.9%,读写平均延迟分别降低了74.4%和97.2%;在4 MB顺序访问上,读写吞吐性能分别提高了153.1%和44.0%。在大部分元数据操作上,RUFS相比NFS+ext4也有显著优势,特别是文件夹创建操作,RUFS的吞吐性能提高了约5693.8%。该系统能够充分发挥高速网络和高速存储设备的性能优势,为用户提供延时更低、吞吐性能更好的文件系统服务。 展开更多
关键词 文件系统 远程直接内存访问 存储性能开发套件 用户态系统 固态硬盘
在线阅读 下载PDF
远程持久性和写合并的混合部署R树
18
作者 吴瑶 张瑞 吴杰 《小型微型计算机系统》 CSCD 北大核心 2023年第12期2858-2864,共7页
新兴的持久性内存技术的出现和RDMA网络为构建新型的远程空间数据索引提供了新的可能,有望为R树这样的空间数据结构带来性能提升.由于持久性内存相比DRAM具有更慢的访问时延、额外的持久化开销以及缺少远程持久化原语等因素导致完全持... 新兴的持久性内存技术的出现和RDMA网络为构建新型的远程空间数据索引提供了新的可能,有望为R树这样的空间数据结构带来性能提升.由于持久性内存相比DRAM具有更慢的访问时延、额外的持久化开销以及缺少远程持久化原语等因素导致完全持久化的远程R树性能下降.在此基础上,本文设计并实现了RRtree,一种基于混合部署架构的远程持久性R树,在保证数据持久性的前提下实现尽可能高的性能.同时,通过选择性元数据持久化、写合并和对双边RDMA原语结合持久性内存使用进行优化.最后,在真实的傲腾持久性内存上实现并验证了RRtree的高性能和高可扩展性.实验结果表明,RRtree和对比对象FBR-tree相比其时延和吞吐分别有显著的降低和提升. 展开更多
关键词 R树 持久性内存 远程直接内存访问 空间数据 索引
在线阅读 下载PDF
国产SW26010-Pro处理器上3级BLAS函数众核并行优化 被引量:3
19
作者 胡怡 陈道琨 +5 位作者 杨超 马文静 刘芳芳 宋超博 孙强 史俊达 《软件学报》 EI CSCD 北大核心 2024年第3期1569-1584,共16页
BLAS(basic linear algebra subprograms)是最基本、最重要的底层数学库之一.在一个标准的BLAS库中,BLAS 3级函数涵盖的矩阵-矩阵运算尤为重要,在许多大规模科学与工程计算应用中被广泛调用.另外,BLAS 3级属于计算密集型函数,对充分发... BLAS(basic linear algebra subprograms)是最基本、最重要的底层数学库之一.在一个标准的BLAS库中,BLAS 3级函数涵盖的矩阵-矩阵运算尤为重要,在许多大规模科学与工程计算应用中被广泛调用.另外,BLAS 3级属于计算密集型函数,对充分发挥处理器的计算性能有至关重要的作用.针对国产SW26010-Pro处理器研究BLAS 3级函数的众核并行优化技术.具体而言,根据SW26010-Pro的存储层次结构,设计多级分块算法,挖掘矩阵运算的并行性.在此基础上,基于远程内存访问(remote memory access,RMA)机制设计数据共享策略,提高从核间的数据传输效率.进一步地,采用三缓冲、参数调优等方法对算法进行全面优化,隐藏直接内存访问(direct memory access,DMA)访存开销和RMA通信开销.此外,利用SW26010-Pro的两条硬件流水线和若干向量化计算/访存指令,还对BLAS 3级函数的矩阵-矩阵乘法、矩阵方程组求解、矩阵转置操作等若干运算进行手工汇编优化,提高了函数的浮点计算效率.实验结果显示,所提出的并行优化技术在SW26010-Pro处理器上为BLAS 3级函数带来了明显的性能提升,单核组BLAS 3级函数的浮点计算性能最高可达峰值性能的92%,多核组BLAS 3级函数的浮点计算性能最高可达峰值性能的88%. 展开更多
关键词 BLAS 3级 SW26010-Pro众核处理器 直接内存访问 远程内存访问 浮点计算效率
在线阅读 下载PDF
广域抗损高吞吐URDMA技术 被引量:1
20
作者 段晓东 陆璐 +3 位作者 孙滔 李志强 杨红伟 杜宗鹏 《中兴通讯技术》 北大核心 2024年第6期23-30,共8页
随着国家“东数西算”战略实施以及智算、超算业务的快速发展,海量数据广域传输需求不断增多。提出一种广域抗损高吞吐超远程直接内存访问(URDMA)技术方案,通过对传输控制协议/互联网协议(TCP/IP)协议栈的完全卸载,消除中央处理器(CPU)... 随着国家“东数西算”战略实施以及智算、超算业务的快速发展,海量数据广域传输需求不断增多。提出一种广域抗损高吞吐超远程直接内存访问(URDMA)技术方案,通过对传输控制协议/互联网协议(TCP/IP)协议栈的完全卸载,消除中央处理器(CPU)对网络高吞吐性能的限制。采用拥塞控制、丢包恢复、丢包重传等技术增强标准第2代基于融合以太网的远程直接内存访问(RoCEv2)协议,使其在广域有损网络下保持高吞吐性能。测试结果表明,在往返时延(RTT)时延为20 ms、丢包率0.1%的网络环境下,TCP协议吞吐性能仅为0.02 Gbit/s,标准RoCEv2性能接近为0,URDMA协议吞吐性能为88.26 Gbit/s;当RTT时延增加到80 ms时,TCP和RoCEv2协议吞吐基本衰减为0,URDMA协议吞吐性能为83.12 Gbit/s,仍然保持较高的性能。 展开更多
关键词 广域抗损高吞吐 数据快递 远程直接内存访问 RoCEv2
在线阅读 下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部