期刊文献+
共找到7篇文章
< 1 >
每页显示 20 50 100
CAInNet:面向AI加速的通算一体网内计算模型
1
作者 刘忠沛 杨翔瑞 +4 位作者 杨凌 高源航 吕高锋 王宝生 苏金树 《计算机学报》 北大核心 2025年第1期19-34,共16页
AI时代的到来对当今算力提出了双重挑战,一方面涉及推理,另一方面涉及分布式训练。将一部分分布式应用的计算任务卸载到高速网络的网卡或交换机能够潜在提升分布式应用的性能表现,并发挥网络的关键作用。如在交换机或网卡中卸载参数聚... AI时代的到来对当今算力提出了双重挑战,一方面涉及推理,另一方面涉及分布式训练。将一部分分布式应用的计算任务卸载到高速网络的网卡或交换机能够潜在提升分布式应用的性能表现,并发挥网络的关键作用。如在交换机或网卡中卸载参数聚合等计算功能能够有效降低模型训练时产生的大量通信开销。基于P4语言的可编程数据平面除了使网络协议定制更加灵活外,还使得网络数据平面能够为分布式应用提供简单的网内计算服务。然而,当前典型的基于P4语言的可编程数据平面架构如协议无关交换架构(PISA)在进行矩阵运算等方面还表现得不够高效。分析该缺陷的关键原因在于:PISA架构中的超长指令字计算引擎在处理大规模并行同构计算任务时效率不高。针对上述问题,提出了一种面向AI加速的通算一体网内计算模型CAInNet。该模型在传统可编程数据平面的基础上,创新性地融合了单指令多数据流(SIMD)与多指令多数据流(MIMD)两种计算模式,使得网络设备不仅能够支持协议无关网络分组处理,还能在分组传输过程中对承载AI推理与训练的数据做网内计算。为了验证CAInNet在网内计算以及网络可编程方面的能力和效果,我们在该模型中使用带内网络遥测实现网络可视化,并部署多层感知机(MLP)模型实现基于AI的报文分类,替代传统的基于TCAM查表的路由方法。实验表明,采用机器学习推理的报文分类方法在包含5k路由表项的场景下,其准确度高达98.3%,同时节省了98.7%的存储空间,有效地解决了路由爆炸问题。与现有方法相比,将机器学习推理部署在CAInNet中不增加可编程数据平面的处理延迟,且仅消耗适量计算资源。 展开更多
关键词 AI硬件加速 通算一体 网内计算 可编程网络 报文分类 深度神经网络
在线阅读 下载PDF
网络切片可编程数据平面模型
2
作者 刘忠沛 吕高锋 +1 位作者 王继昌 杨翔瑞 《国防科技大学学报》 EI CAS CSCD 北大核心 2024年第5期200-208,共9页
可重构匹配表(reconfigurable match table, RMT)是一种可编程的数据包处理流水线架构。为了实现可编程数据平面对更多不同网络协议的支持,在该架构的基础上扩展逆解析器,使用扩展后的逆解析器以及两个RMT流水线组成一个协议无关的网络... 可重构匹配表(reconfigurable match table, RMT)是一种可编程的数据包处理流水线架构。为了实现可编程数据平面对更多不同网络协议的支持,在该架构的基础上扩展逆解析器,使用扩展后的逆解析器以及两个RMT流水线组成一个协议无关的网络切片可编程数据平面模型。由于RMT架构中采用精简指令集,扩展后的逆解析器采用复杂指令集,因此称扩展后的架构为混合指令RMT(hybrid-instruction RMT, HiRMT)。HiRMT能够支持基于IPv6转发平面的段路由、SID(segment ID)的多语义、微分段技术、多协议标签交换技术,以及虚拟扩展局域网技术。该架构具有广阔的应用场景。在Corundum原型平台上进行了逆解析器模块的性能测试,结果表明扩展后的逆解析器能够使用较少的资源在数据包大小达到512 B时以100 Gbit/s的吞吐量进行处理。 展开更多
关键词 可重构匹配表 混合指令 协议无关 网络切片
在线阅读 下载PDF
FastRMT:一种面向微体系结构创新的高速数据平面可编程系统 被引量:1
3
作者 杨翔瑞 曾令斌 +4 位作者 刘忠沛 陈颖文 吕高锋 杨程 苏金树 《计算机学报》 EI CSCD 北大核心 2024年第2期473-490,共18页
网络数据平面可编程(Data Plane Programmability)给网络转发设备的数据平面赋予强大的可编程性,在不更换设备的情况下,可以动态部署新型机制与服务,例如路由转发核心机制、网络安全控制功能、网内计算加速服务等.由此,数据平面可编程... 网络数据平面可编程(Data Plane Programmability)给网络转发设备的数据平面赋予强大的可编程性,在不更换设备的情况下,可以动态部署新型机制与服务,例如路由转发核心机制、网络安全控制功能、网内计算加速服务等.由此,数据平面可编程成为业界和学术界高度关注的新兴技术,并已在主流云服务提供商投入应用.可重构匹配表架构(Reconfigurable Match Table Architecture,RMT)由于出色的处理性能和采用P4语言灵活编程的特性,成为数据平面可编程的热点研究方向.然而,受困于RMT架构复杂的体系结构设计、芯片闭源的服务机制以及门槛较高的FPGA设计开发,使得RMT研究人员难以通过FPGA,对RMT创新设计以及100 Gbps以上真实性能场景进行敏捷验证.本文提出并实现了一种数据平面可编程系统FastRMT,首次开源了FPGA级的系统实现.FastRMT支持RMT架构可编程协议解析、自定义规则匹配、超长指令字的并发动作执行引擎等核心功能,支持P4语言对系统进行编程.FastRMT具备松耦合与模块化的特点,研究人员可以替换模块或者对系统进行动态重构,从而实现新型机制或体系结构的敏捷开发与验证.本工作包含交换机原型与网卡原型两种版本,支持主流FPGA芯片,系统可完成100 Gbps的报文线速处理能力,1500 B报文处理延迟仅为1.22μs,体现了FastRMT作为基础框架对微体系结构创新和生产线级别验证的优势和可行性. 展开更多
关键词 数据平面可编程 可重构匹配表 微体系结构 FPGA原型 可编程协议无关报文处理
在线阅读 下载PDF
一种面向可编程确定性零拷贝的FPGA加速器
4
作者 王继昌 吕高锋 +1 位作者 刘忠沛 杨翔瑞 《小型微型计算机系统》 CSCD 北大核心 2024年第3期692-698,共7页
随着网络规模的进一步扩展,传统B/S架构的单体应用逐渐被微服务所代替,服务的拆分使得API的规模呈指数增长.而商用网卡处理在处理海量的微服务请求时,在确定性、可编程和数据拷贝三个方面表现出巨大的局限性.为保证各网络节点高效、灵... 随着网络规模的进一步扩展,传统B/S架构的单体应用逐渐被微服务所代替,服务的拆分使得API的规模呈指数增长.而商用网卡处理在处理海量的微服务请求时,在确定性、可编程和数据拷贝三个方面表现出巨大的局限性.为保证各网络节点高效、灵活、精确地处理服务请求,本文提出可编程确定性的多队列FPGA加速器原型.该加速器依托多个硬件队列以及队列管理单元,扩展基于规则的RSS算法,实现serverless友好的数据包分发.添加PTP硬件时钟组件,与队列管理单元协同控制对数据包的确定性发送.为提升网络节点的数据收发效率,设计了适配FPGA加速器的驱动程序,实现数据包收发的零拷贝.在支持100Gbps线速率的FPGA上进行的实验表明,该加速器可以支持不同数据包大小的多队列的零拷贝传输,定义网路节点的转发行为,并在8个核心的FPGA设备上接近线速率处理数据,此外,它还支持以接近ovs-DPDK的低延迟进行数据包转发,在一定程度上克服了商业网卡在面向微服务架构时的局限性. 展开更多
关键词 确定性 微服务 多队列 可编程 零拷贝DMA
在线阅读 下载PDF
专用数据处理器综述 被引量:6
5
作者 刘忠沛 吕高锋 +1 位作者 王继昌 杨翔瑞 《计算机工程与科学》 CSCD 北大核心 2023年第2期215-227,共13页
随着网络传输带宽的增加,数据中心复杂的基础设施操作占用着越来越多的计算资源,影响业务处理性能。专用数据处理器(DPU)是新近发展起来的一种专用处理器,提出背景就是应对数据中心的数据量和复杂性的指数级增长带来的性能瓶颈。DPU的... 随着网络传输带宽的增加,数据中心复杂的基础设施操作占用着越来越多的计算资源,影响业务处理性能。专用数据处理器(DPU)是新近发展起来的一种专用处理器,提出背景就是应对数据中心的数据量和复杂性的指数级增长带来的性能瓶颈。DPU的出现是异构计算的一个阶段性标志,要解决的核心问题是针对基础设施降低整体系统的总体拥有成本,提升整个计算系统的效率,即将“中央处理器处理效率低下、图形处理器处理不了”的负载卸载到DPU。首先介绍了DPU的发展背景,基于网络处理模型分析了DPU的硬件架构,并与智能网卡及网络处理器进行了对比;之后介绍了DPU的编程模型,目前业界的DPU产品与应用;最后总结并展望了DPU未来的研究发展方向。 展开更多
关键词 数据中心 专用数据处理器 异构计算 功能卸载
在线阅读 下载PDF
QUIC传输机制与应用综述 被引量:5
6
作者 王继昌 吕高锋 +1 位作者 刘忠沛 杨翔瑞 《计算机工程》 CAS CSCD 北大核心 2023年第6期1-12,共12页
QUIC作为与TCP并行的新兴传输协议,在传统传输协议的基础上改进了诸多特性,如0-RTT数据传输、多流并发、热插拔拥塞控制等。由于QUIC具有安全、公平、兼容且高性能等特性,被业界认为将在未来网络的New IP构想中替代TCP成为新一代传输协... QUIC作为与TCP并行的新兴传输协议,在传统传输协议的基础上改进了诸多特性,如0-RTT数据传输、多流并发、热插拔拥塞控制等。由于QUIC具有安全、公平、兼容且高性能等特性,被业界认为将在未来网络的New IP构想中替代TCP成为新一代传输协议。QUIC协议经过近6年的研究已经完成标准化,其间研究人员提出多种针对不同应用场景的开源实现和测试开发工具,也针对QUIC在现实网络中的应用进行了大量探索。从QUIC的特征机制以及开源实现出发,阐述QUIC协议从出现到标准化这期间的开发历程,归纳QUIC与TCP在传输特性方面的差异性,并分析QUIC在广泛应用部署过程中存在的性能短板。针对这些短板,从协议设计、协议部署、I/O优化处理这3个方面列举当前已有的典型优化实现方法。进一步探究QUIC的传输特性,从不同版本开源QUIC之间的性能对比、互操作和功能验证等3个方面进行总结和归纳,并对QUIC协议在当前网络生态中的相关应用进行举例分析。在此基础上,针对QUIC应用在New IP构想中的未来优化方向加以展望。 展开更多
关键词 IETF标准化 开源实现 传输特性 优化设计 典型应用
在线阅读 下载PDF
基于数据处理器的QUIC加密/解密卸载 被引量:2
7
作者 王继昌 吕高锋 +1 位作者 刘忠沛 杨翔瑞 《计算机工程与科学》 CSCD 北大核心 2023年第11期1960-1969,共10页
QUIC作为与TCP并行的新兴传输协议,其优化方法沿用TCP研究路线,其中的主流是硬件卸载技术,将计算密集型功能模块卸载到网络设备,使用硬件卸载的方式代替主机CPU进行计算。然而由于硬件卸载通用性较差,性能虽高但无法保证用户可编程性。... QUIC作为与TCP并行的新兴传输协议,其优化方法沿用TCP研究路线,其中的主流是硬件卸载技术,将计算密集型功能模块卸载到网络设备,使用硬件卸载的方式代替主机CPU进行计算。然而由于硬件卸载通用性较差,性能虽高但无法保证用户可编程性。为了克服这个限制,提出了软件卸载模型——NanoBPF,基于DPU中RISC众核的协议卸载模型,通过修改BootLoader的启动代码,引导启动eBPF代码作为运行时环境,对协议栈中CPU占用率较高的加密/解密功能模块进行软件卸载。其中,加密/解密功能模块使用高级语言(C)编写,并被编译成自定义的BPF字节码动态载入DPU。通过本地和基于Docker的网络拓扑对该原型系统的吞吐量和公平性进行验证,结果表明,报文加密/解密的软件卸载能提高协议栈近13%的报文吞吐率,且在一定条件下能够保证与TCP的链路公平性。 展开更多
关键词 DPU 加密/解密 软件卸载 多核并行 eBPF代码
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部